一種PDF文檔亂碼的檢測、校正的方法

　　摘要：本發(fā)明公開了一種PDF文檔亂碼的檢測、校正的方法，包括：提取PDF文檔內(nèi)所有字體特征；根據(jù)字體特征將字體分為正常字體、亂碼字體和待定字體；提取待定字體中字符的點陣圖像，并基于圖像統(tǒng)計特征的亂碼檢測算法計算點陣圖像與對應(yīng)編碼的相似度，根據(jù)相似度判斷待定字體中的正常字符或亂碼字符；將所述待定字體中的亂碼字符和亂碼字體中的亂碼字符進行縱向和橫向編改校正；通過校正結(jié)果修正PDF文檔，去除亂碼字符。本發(fā)明采用字體特征和字符的圖像特征相結(jié)合的方式實現(xiàn)了亂碼的自動檢測，縱向和橫向編改相結(jié)合減少了亂碼校正的人工耗時，有效地去除了亂碼，排除了亂碼對后續(xù)碎片化加工的干擾，提高了加工效率和質(zhì)量，降低了加工成本。

專利類型發(fā)明專利
申請人同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司;同方知網(wǎng)（北京）技術(shù)有限公司;
發(fā)明人鄒季英;梁洵;袁仁慧;
地址100084 北京市海淀區(qū)清華大學(xué)華業(yè)大廈
申請?zhí)?/b>CN201510181385.0

申請時間2015年04月16日

申請公布號CN104732228A

申請公布時間2015年06月24日

分類號G06K9/32(2006.01)I;

該申請人其他專利（共54）

一種學(xué)術(shù)指數(shù)體系及其發(fā)布方法

一種英文文獻關(guān)鍵短語自動抽取方法與系統(tǒng)

一種動態(tài)更新的網(wǎng)站內(nèi)容制作方法

一種智能問答系統(tǒng)

一種PDF文檔表格識別的方法

一種基于句法特征的學(xué)術(shù)定義自動抽取系統(tǒng)及方法

動態(tài)數(shù)據(jù)采集裝置

一種參考文獻審校的方法

應(yīng)用于抄襲檢測的信息指紋索引方法

一種基于專家坐診與自助問答制的專家在線系統(tǒng)

該分類其它專利（共56）

車牌圖像識別的處理方法及裝置

圖像識別方法及系統(tǒng)

全自動視覺印刷機光學(xué)校正系統(tǒng)以及構(gòu)成方法

前端設(shè)備定位方法及裝置

文稿頁面方向檢測方法和裝置

基于顏色信息和隨機圓檢測的圓形交通標志定位方法

一種大范圍車牌傾斜角度快速計算方法

一種版心定位方法和裝置

遙感圖像輻射校正方法

一種車牌左右邊界精確定位的方法及系統(tǒng)

日本一卡视频在线观看免费,久久久久久无吗国精品,美女扣小穴操逼视频下载,日韩人妻一区二区三区日韩,nana在线视频观看,中文字幕欧美人妻中出,熟女av中文字幕在线,久久精品国产亚洲av蜜臀欲,青青97超碰人妻公开在线

一種PDF文檔亂碼的檢測、校正的方法

一種PDF文檔亂碼的檢測、校正的方法