摘要:本發(fā)明公開了一種PDF文檔亂碼的檢測、校正的方法,包括:提取PDF文檔內(nèi)所有字體特征;根據(jù)字體特征將字體分為正常字體、亂碼字體和待定字體;提取待定字體中字符的點陣圖像,并基于圖像統(tǒng)計特征的亂碼檢測算法計算點陣圖像與對應(yīng)編碼的相似度,根據(jù)相似度判斷待定字體中的正常字符或亂碼字符;將所述待定字體中的亂碼字符和亂碼字體中的亂碼字符進行縱向和橫向編改校正;通過校正結(jié)果修正PDF文檔,去除亂碼字符。本發(fā)明采用字體特征和字符的圖像特征相結(jié)合的方式實現(xiàn)了亂碼的自動檢測,縱向和橫向編改相結(jié)合減少了亂碼校正的人工耗時,有效地去除了亂碼,排除了亂碼對后續(xù)碎片化加工的干擾,提高了加工效率和質(zhì)量,降低了加工成本。
- 專利類型發(fā)明專利
- 申請人同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司;同方知網(wǎng)(北京)技術(shù)有限公司;
- 發(fā)明人鄒季英;梁洵;袁仁慧;
- 地址100084 北京市海淀區(qū)清華大學(xué)華業(yè)大廈
- 申請?zhí)?/b>CN201510181385.0
- 申請時間2015年04月16日
- 申請公布號CN104732228A
- 申請公布時間2015年06月24日
- 分類號G06K9/32(2006.01)I;




教育裝備采購網(wǎng)企業(yè)微信客服
京公網(wǎng)安備11010802043465號

