摘要:本發(fā)明公開了一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法,包括以下步驟:S1、用戶輸入查詢詞,形成輸入文檔;S2、選取候選詞,對所有候選詞評分;S3、判斷是否存在未作標(biāo)記的候選詞,若否,則跳轉(zhuǎn)到步驟S8;若是,則選出得分最高的候選詞;把這個選中的候選詞拓展成為包含該詞的有序詞序列的集合,進(jìn)入步驟S4;S4、計算各個有序詞序列的頻率,抽取高頻詞序列;S5、對高頻詞序列評分,并選取候選詞序列;S6、判斷選詞序列是否被接受為標(biāo)簽,若是,則進(jìn)入步驟S7;若否,則返回步驟S3;S7、根據(jù)生成的標(biāo)簽進(jìn)行聚類;S8、結(jié)束操作。本發(fā)明可以減少噪音標(biāo)簽,使標(biāo)簽具有更好的代表性、簡明性和完整性。
- 專利類型發(fā)明專利
- 申請人華南理工大學(xué);廣州數(shù)園網(wǎng)絡(luò)有限公司;
- 發(fā)明人董守斌;張麗平;張凌;李粵;袁華;
- 地址510640 廣東省廣州市天河區(qū)五山路381號
- 申請?zhí)?/b>CN201010527341.6
- 申請時間2010年10月28日
- 申請公布號CN102081642A
- 申請公布時間2011年06月01日
- 分類號G06F17/30(2006.01)I;




教育裝備采購網(wǎng)企業(yè)微信客服
京公網(wǎng)安備11010802043465號

