摘要:本發(fā)明公開了一種PDF文檔表格識別的方法,包括:獲取頁面中字符集,并將所述字符集合并成行,建立行集合;提取頁面路徑中水平線與垂直線,建立線集合;檢測行集合中的疑似表標題與線集合中的疑似表格線;若同時存在疑似表標題和疑似表格線,則采用基于表標題和線集合的區(qū)域生長法識別表格;若僅存在疑似表格線,則用線集合和行集合先檢測全線表再檢測三線表;若僅存在疑似表標題,則用基于表標題和行集合的區(qū)域生長法識別表格;若既無疑似表格線也無疑似表標題,則判定該頁無表格;檢測表頭、表注表格附屬元素,輸出該頁表格識別結果。本發(fā)明將表標題、表格線及表格字符排布特點視為表格三大特征,采用區(qū)域并行生長的思想能在多表并存一頁的復雜版面中準確定位表格。
- 專利類型發(fā)明專利
- 申請人同方知網(wǎng)(北京)技術有限公司;
- 發(fā)明人鄒季英;袁仁慧;梁洵;
- 地址100084 北京市海淀區(qū)清華園清華大學36區(qū)華業(yè)大廈B1410、1412、1414室
- 申請?zhí)?/b>CN201610025529.8
- 申請時間2016年01月15日
- 申請公布號CN105589841A
- 申請公布時間2016年05月18日
- 分類號G06F17/24(2006.01)I;




教育裝備采購網(wǎng)企業(yè)微信客服
京公網(wǎng)安備11010802043465號

