溫馨提示:需求數(shù)量不同,價(jià)格不同。請(qǐng)聯(lián)系我們,確認(rèn)當(dāng)前新的報(bào)價(jià)!
WordStat是一個(gè)靈活且易于使用的文本分析軟件 - 無論您是需要文本挖掘工具來快速提取主題和趨勢,還是使用新的定量內(nèi)容分析工具進(jìn)行仔細(xì)和準(zhǔn)確的測量。任何需要快速從大量文檔中提取和分析信息的人都可以使用WordStat。此內(nèi)容分析和文本挖掘軟件可用于許多應(yīng)用程序,例如開放式響應(yīng)分析,商業(yè)智能,新聞報(bào)道的內(nèi)容分析等。WordStat與SimStat統(tǒng)計(jì)數(shù)據(jù)分析工具-QDA Miner定性數(shù)據(jù)分析軟件與Stata無縫集成-StataCorp的綜合統(tǒng)計(jì)軟件為您提供了其無比的靈活性,可以分析文本并將其內(nèi)容與結(jié)構(gòu)化信息(包括數(shù)字和分類數(shù)據(jù))相關(guān)聯(lián)。
使用文本挖掘?yàn)g覽文檔內(nèi)容
使用WordStat分析大量非結(jié)構(gòu)化信息。該軟件每分鐘可處理2500萬個(gè)單詞,使用聚類,多維縮放,鄰近圖等功能快速提取主題并自動(dòng)識(shí)別模式。
使用瀏覽器模式快速提取含義
使用資源管理器模式快速輕松的從大量文本數(shù)據(jù)中提取含義,特別是對(duì)那些文本挖掘經(jīng)驗(yàn)很少的人,只需單擊一下,就可以提取文檔中常用的單詞,短語和突出的主題。
來自許多來源的進(jìn)口
導(dǎo)入Word,Excel,HTML,XML,SPSS,Stata,NVivo,PDF和圖像。連接并直接從社交媒體,電子郵件,網(wǎng)絡(luò)調(diào)查平臺(tái)和參考管理工具導(dǎo)入。
使用主題建模提取顯著的主題
使用基于單詞,短語和相關(guān)單詞(包括拼寫錯(cuò)誤)的新自動(dòng)主題提取功能,快速瀏覽非常大型的文本集中重要的主題。
探索連接
探索單詞概念之間的關(guān)系,并檢索與特定連接關(guān)聯(lián)的文本段。
與結(jié)構(gòu)化數(shù)據(jù)相關(guān)的文本
探索非結(jié)構(gòu)化文本與結(jié)構(gòu)化數(shù)據(jù)(例如日期,數(shù)字或分類數(shù)據(jù))之間的關(guān)系,以識(shí)別子組之間的時(shí)間趨勢或差異,或使用統(tǒng)計(jì)和圖形工具(對(duì)應(yīng)分析,熱圖,氣泡圖等)。
使用字典分類您的文本數(shù)據(jù)
使用現(xiàn)有詞典實(shí)現(xiàn)全文分析自動(dòng)化,或使用單詞,短語,接近規(guī)則等創(chuàng)建您自已的分類模型。
為詞典建筑獲得特有的幫助
使用提取常用短語和技術(shù)術(shù)語并在文本集合中快速識(shí)別拼寫錯(cuò)誤,同義詞,反義詞和相關(guān)單詞的工具,更快的構(gòu)建詞典。
使用機(jī)器學(xué)習(xí)分類您的文本數(shù)據(jù)
使用Nave Bayes和K-Nearest Neighbours來開發(fā)和優(yōu)化自動(dòng)文檔分類模型。
一次單擊即可返回源文件
通過從功能,圖表或圖形返回到文本來驗(yàn)證或深入分析。您可以使用“關(guān)鍵詞檢索”或“上下文中的關(guān)鍵字”功能來檢索句子,段落或整個(gè)文檔。這在建立分類法或消除詞義歧義時(shí)特別有用。您還可以將QDA Miner代碼附加到檢索到的段。
執(zhí)行定性編碼
將WordStat與新的定性編碼工具(QDA Miner)結(jié)合使用,以便在需要時(shí)更準(zhǔn)確的探索數(shù)據(jù)或特定文檔或提取的文本段進(jìn)行更深入的分析。
將非結(jié)構(gòu)化文本轉(zhuǎn)換為交互式地圖(GIS映射)
將非結(jié)構(gòu)化文本數(shù)據(jù)與地理信息相關(guān)聯(lián),并創(chuàng)建數(shù)據(jù)點(diǎn),專題圖和熱點(diǎn)圖的交互式圖表,以及用于將位置名稱,郵政編碼和IP地址轉(zhuǎn)換為維度和經(jīng)度的地理編碼Web服務(wù)。
自動(dòng)提取命名實(shí)體
自動(dòng)提取命名的實(shí)體,可以使用簡單的拖放操作將其添加到分類字典中。
出口結(jié)果
輕松將文本分析結(jié)果導(dǎo)出為常見的行業(yè)文件格式,例如Excel,SPSS,ASCII,HTML,XML,MS,Word和圖形(例如PNG,BMP和JPEG)。
使用PYTHON腳本轉(zhuǎn)換文本
使用Python腳本及其全部開放源代碼庫預(yù)處理或轉(zhuǎn)換文本文檔,以便在WordStat中進(jìn)行分析。
特征:
借助WordStat,數(shù)據(jù)分析師可以從大量文檔中快速提取有價(jià)值的文本分析結(jié)果,這些結(jié)果包括客戶反饋,電子郵件,開放式回復(fù),采訪記錄,時(shí)間報(bào)告,法律文檔,博客,網(wǎng)站等。這是WordStat的內(nèi)容分析和文本挖掘功能的列表:
從許多來源導(dǎo)入
WordStat允許您從許多來源直接導(dǎo)入多語言內(nèi)容:
導(dǎo)入文檔:Word,PDF,HTML,PowerPoint,RTF,TXT,XPS,ePUB,ODT,WordPerfect。
導(dǎo)入數(shù)據(jù)文件:Excel,CSV,TSV,Access。
從統(tǒng)計(jì)軟件導(dǎo)入:Stata,SPSS
從社交媒體導(dǎo)入:Facebook,Twitter,Raddit,YouTube,RSS
從電子郵件導(dǎo)入:Outlook,Gmail,MBox
從網(wǎng)絡(luò)調(diào)查中導(dǎo)入:Qualtrics,SurveyMonkey,SurveyGizmo,QuestionPro,Voxco,Triple-S
從參考管理工具中導(dǎo)入:Endnote,Mendeley,Zotero,RIS
導(dǎo)入圖形:BMP,WMF,JPG,GIF,PNG。自動(dòng)提取與這些圖像相關(guān)的任何信息,例如地理位置,標(biāo)題,描述,作者,評(píng)論等,并將其轉(zhuǎn)換為變量
從XML數(shù)據(jù)庫導(dǎo)入
ODBC數(shù)據(jù)庫連接可用
從定性軟件導(dǎo)入項(xiàng)目:NVivo,Atlas.ti,Qdpx文件
導(dǎo)入和分析多語言文檔,包括從右到左的語言
監(jiān)視特定的文件夾,并自動(dòng)導(dǎo)入存儲(chǔ)在此文件夾中的文檔和圖像,或監(jiān)視對(duì)原始源文件或聯(lián)機(jī)服務(wù)的更改。
整理數(shù)據(jù)
多種功能使您可以通過使分析過程簡單明了的方式輕松組織數(shù)據(jù):
快速分組,標(biāo)記,排序,添加,刪除文檔或查找重復(fù)項(xiàng),即:日期,作者或人口統(tǒng)計(jì)數(shù)據(jù),例如年齡,性別或位置
輕松的對(duì)變量進(jìn)行重新排序,添加,刪除,編輯和重新編碼
根據(jù)變量值過濾大小寫
使用資源管理器模式快速提取含義
使用資源管理器模式可以快速,輕松的從大量文本數(shù)據(jù)中提取含義,這是專門為那些文本挖掘經(jīng)驗(yàn)很少的人設(shè)計(jì)的。
使用主題建模工具,找出常用的單詞,短語并提取文檔中重要的主題。在任何時(shí)候,您都可以切換到專家模式,從而可以使用WordStat的功能。
使用文本挖掘?yàn)g覽文檔內(nèi)容
在幾秒鐘內(nèi),探索大量非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容并提取有見地的信息:
提取常用的單詞,短語,表達(dá)方式
在單詞或短語上使用聚類或2D和3D多維縮放快速提取主題
使用鄰近圖輕松識(shí)別與目標(biāo)關(guān)鍵字同時(shí)出現(xiàn)的關(guān)鍵字
使用鏈接分析功能探索單詞或概念之間的關(guān)系
通過應(yīng)用關(guān)鍵字同時(shí)出現(xiàn)條件(在一個(gè)案例中,一個(gè)句子,一個(gè)段落,一個(gè)n個(gè)單詞的窗口,一個(gè)用戶定義的段)以及聚類方法(一階和二階接近度,選擇)來微調(diào)分析相似性指標(biāo)
使用分層聚類,多維縮放,鏈接分析和鄰近圖來探索概念或文檔之間的相似性。
使用主題建模來提取突出的主題
通過將自然語言處理和統(tǒng)計(jì)分析(NNMF或因子分析)結(jié)合使用,不僅對(duì)單詞而且對(duì)短語也能使用理想的自動(dòng)主題提取功能,從大文本集中快速概覽重要額主題和相關(guān)單詞(包括拼寫錯(cuò)誤)。
在層析聚類分析中,一個(gè)單詞可能僅出現(xiàn)在一個(gè)聚類中,主題建??赡軐?dǎo)致一個(gè)單詞與多個(gè)主題相關(guān)聯(lián),這一特征更現(xiàn)實(shí)的表示了某些單詞的多義性以及該單詞的多個(gè)上下文單詞用法。
探索聯(lián)系
使用網(wǎng)絡(luò)圖探索單詞或概念之間的聯(lián)系。使用三種布局類型檢測共現(xiàn)的基礎(chǔ)模式和結(jié)構(gòu):多維縮放,基于力的圖形和圓形布局。
圖是交互式的,可用于探索關(guān)系并檢索與特定連接關(guān)聯(lián)的文本段。
使用文本與結(jié)構(gòu)化數(shù)據(jù)相關(guān)
探索非結(jié)構(gòu)化文本與結(jié)構(gòu)化數(shù)據(jù)之間的關(guān)系:
識(shí)別時(shí)間趨勢,子組之間的差異,或使用統(tǒng)計(jì)和圖形工具(偏差表,對(duì)應(yīng)分析,熱圖,氣泡圖等)評(píng)估與等級(jí)或其他類型或數(shù)字?jǐn)?shù)據(jù)的關(guān)系。
使用不同的關(guān)聯(lián)度量的評(píng)估單詞出現(xiàn)與名義或有序變量之間的關(guān)系:卡方,似然比,Tau-a,Tau-b,Tau-c,對(duì)稱Somer's D,非對(duì)稱Somers'Dxy和Dyx,Gamma,Person's R,Spearman's
使用字典對(duì)文本數(shù)據(jù)進(jìn)行分類
使用現(xiàn)有字典實(shí)現(xiàn)全文分子自定化,或者創(chuàng)建您自已的單詞和短語分類模型
在字典中,可以實(shí)現(xiàn)布爾值(AND,OR,NOT)和接近度規(guī)則(NEAR,AFTER,BEFORE),并使用正則表達(dá)式公式快速從文本數(shù)據(jù)中提取特定信息。
字典調(diào)節(jié)的詞語修飾和詞干支持多種語言,并且自動(dòng)單詞替換選項(xiàng)使您可以用目標(biāo)關(guān)鍵字替換多個(gè)單詞。用戶定義的停用詞列表可用多種語言提供。以避免不必要的常用詞(例如他,她,它等)在分析中使用。
獲得特有的詞典構(gòu)建幫助
通過提取常用短語和技術(shù)術(shù)語以及在文本集合中快速識(shí)別拼寫錯(cuò)誤和相關(guān)單詞(同義詞,反義詞,全名,同義詞,上位詞,下位詞)的工具,獲得真正特有的計(jì)算機(jī)協(xié)助,以建立分類標(biāo)準(zhǔn)。
使用機(jī)器學(xué)習(xí)自動(dòng)對(duì)文本數(shù)據(jù)進(jìn)行分類
使用Nave Bayes和K-Nearest Neighbours開發(fā)和優(yōu)化自動(dòng)文檔分類模型。用戶可以選擇多種驗(yàn)證方法:leave-but-one,n-fold cross-validation,split sample。實(shí)驗(yàn)?zāi)K可用于輕松比較預(yù)測模型和精細(xì)分類模型。
分類模型可以保存到磁盤中,并稍后在QDA Miner中的獨(dú)立文檔分類實(shí)用程序,命令行程序或編程庫中應(yīng)用。
一鍵返回原始文檔
通過使用關(guān)鍵字檢索或上下文中的關(guān)鍵字來檢索句子,段落或整個(gè)文檔,從功能,圖表或圖形中返回文本,從而驗(yàn)證或深入分析。這在建立分類法或消除詞義歧義時(shí)特別有用。
檢索到的文本段可以按關(guān)鍵字或任何自變量排序。您可以將QDA Miner代碼附加到檢索到的段上,或以表格格式(Excel,CSV等)或文本報(bào)告(MS Word,RTF等)將其導(dǎo)出到磁盤。
執(zhí)行定性編碼
將WordStat與新的定性編碼工具(QDA Miner)結(jié)合使用,以便在需要更準(zhǔn)確的瀏覽數(shù)據(jù)或特定穩(wěn)定或提取的文本段進(jìn)行更深入的分析。
將非結(jié)構(gòu)化文本轉(zhuǎn)換為交互式地圖(GIS映射)
將非結(jié)構(gòu)化文本數(shù)據(jù)與地理信息相關(guān)聯(lián),并創(chuàng)建數(shù)據(jù)點(diǎn),主題地圖和熱圖的交互式圖表,以及用于將位置名稱,郵政編碼和IP地址轉(zhuǎn)換為緯度和經(jīng)度的地理編碼Web服務(wù)。
自動(dòng)提取名稱和拼寫錯(cuò)誤
自動(dòng)提取命名實(shí)體(名稱,技術(shù)術(shù)語,產(chǎn)品和公司名稱),可以使用簡單的拖放操作將其添加到分類字典中。
拼寫錯(cuò)誤和未知單詞會(huì)自動(dòng)提取出來,并與用戶詞典中的現(xiàn)有條目匹配,并且可以迅速添加到詞典中。
匯出結(jié)果
將文本分析結(jié)果導(dǎo)出為常見的行業(yè)文件格式(例如Excel,SPSS,ASCII,HTML,XML,MS Word),流行的統(tǒng)計(jì)分析工具(例如SPSS和STATA)以及圖形(例如PNG,BMP和JPEG)。
使用Python腳本轉(zhuǎn)換文本
使用Python腳本及其全部開放代碼庫來預(yù)處理或轉(zhuǎn)換文本文檔,以便在WordStat中進(jìn)行分析。
WordStat 2023的新功能:
WordStat 2023的發(fā)布,這代表著在將詞義消歧應(yīng)用于主題模型方面向前邁出了重要一步。我們特有的主題豐富功能經(jīng)歷了重大改進(jìn),引入了幾個(gè)新的主題建模功能,以幫助用戶從他們的數(shù)據(jù)中獲得更深刻的見解。此外,還實(shí)施了多項(xiàng)速度優(yōu)化,使軟件響應(yīng)速度更快、用戶更友好。
1. 改進(jìn)主題豐富
WordStat現(xiàn)在向提取的主題添加了更多相關(guān)短語,同時(shí)還為其他短語提供了改進(jìn)的建議。此外,它現(xiàn)在在識(shí)別假陽性表達(dá)或異常方面具有更高的準(zhǔn)確性,可以將其合并到主題模型中,以幫助減少與提取的主題無關(guān)的上下文相關(guān)的單詞的歧義。
2. 主題建模詞云
主題模型表右側(cè)的比較面板現(xiàn)在有一個(gè)新添加的詞云,直觀地描述了所選主題中排名靠前的詞的相對(duì)重要性。此詞云可以自定義、復(fù)制到剪貼板或以BMP、PNG或JPEG等標(biāo)準(zhǔn)圖形格式保存到磁盤。
3. 新增集成文本檢索功能
可以啟動(dòng)主題網(wǎng)格右側(cè)的一個(gè)新的方便的示例文本面板,以自動(dòng)顯示與所選主題匹配的句子或段落。這些文本片段按相關(guān)性降序排列,主題詞以粗體顯示,便于理解每個(gè)主題的本質(zhì)并識(shí)別可用于說明的關(guān)鍵示例。這個(gè)強(qiáng)的工具使用戶可以更深入地了解他們的數(shù)據(jù),并促進(jìn)更有效地交流他們的發(fā)現(xiàn)。
4. 提高頂部富集速度
由于進(jìn)行了大量的優(yōu)化工作,主題豐富過程得到了顯著加速,導(dǎo)致性能提高比以前的版本快10到20倍。
5. 瞬時(shí)短語提取
利用多核處理的強(qiáng)功能,短語提取現(xiàn)在與主要文本處理無縫集成,使用戶幾乎可以即時(shí)訪問結(jié)果。例如,在包含超過50,000條客戶評(píng)論的數(shù)據(jù)集上,提取常用的5000個(gè)短語現(xiàn)在只需0.4秒即可完成,而之前的版本需要14秒。
技術(shù)信息
操作系統(tǒng):Microsoft Windows XP , 2000 , Vista , Windows 7,8和10
內(nèi)存:從256MB(XP)到1GB(Vista , Windows 7, 8和10)
磁盤空間:40MB