摘要:一種應(yīng)用于信息技術(shù)領(lǐng)域中的一種大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng),設(shè)計(jì)的聚類系統(tǒng),包括一候選分析器、關(guān)系生成器、關(guān)系選取和聚類部件,每個(gè)樣本點(diǎn)都作為一個(gè)簇,通過檢索技術(shù)為每個(gè)樣本挑選出候選的具有聯(lián)系的候選點(diǎn)集合,利用關(guān)系生成器計(jì)算樣本與候選關(guān)系樣本間的關(guān)系,按遞增/遞減順序輸出到外部存儲(chǔ)空間;方法的主要步驟包括:對(duì)輸入文本集的預(yù)處理,生成文本集的倒排索引和特征向量;采用檢索技術(shù)檢索每一文檔的候選關(guān)系集合;利用關(guān)系計(jì)算方法對(duì)有候選關(guān)系的文檔進(jìn)行關(guān)系計(jì)算;排序輸出大于一定閾值的計(jì)算結(jié)果;聚類算法再依照排序結(jié)果,反復(fù)迭代合并具有第一直接關(guān)系的文本對(duì),最終達(dá)到對(duì)文本集合的聚類輸出。該裝置構(gòu)思新穎科學(xué)、聚類過程占用空間小、容量大的外部存儲(chǔ)器,對(duì)處理過程進(jìn)行分化處理。
- 專利類型發(fā)明專利
- 申請(qǐng)人沈陽格微軟件有限責(zé)任公司;
- 發(fā)明人季鐸;蔡?hào)|風(fēng);張桂平;尹寶生;苗雪雷;周俏麗;白羽;
- 地址110034遼寧省沈陽市黃河北大街52號(hào)202信箱
- 申請(qǐng)?zhí)?/b>CN200810012141.X
- 申請(qǐng)時(shí)間2008年07月04日
- 申請(qǐng)公布號(hào)CN101308496A
- 申請(qǐng)公布時(shí)間2008年11月19日
- 分類號(hào)G06F17/30(2006.01);




教育裝備采購網(wǎng)企業(yè)微信客服
京公網(wǎng)安備11010802043465號(hào)

