??文本分析是將非結(jié)構(gòu)化文本數(shù)據(jù)轉(zhuǎn)換為有意義的數(shù)據(jù)進(jìn)行分析的過(guò)程棚菊,以度量客戶意見(jiàn)浸踩、產(chǎn)品評(píng)論、反饋统求,提供搜索工具检碗、情感分析和實(shí)體建模,以支持基于事實(shí)的決策制定码邻。文本分析使用了許多語(yǔ)言折剃、統(tǒng)計(jì)和機(jī)器學(xué)習(xí)技術(shù)。文本分析包括從非結(jié)構(gòu)化數(shù)據(jù)中檢索信息像屋,以及對(duì)輸入文本進(jìn)行結(jié)構(gòu)化以得出模式和趨勢(shì)怕犁,并對(duì)輸出數(shù)據(jù)進(jìn)行評(píng)估和解釋的過(guò)程。它還包括詞匯分析己莺、分類奏甫、聚類、模式識(shí)別凌受、標(biāo)簽阵子、注釋、信息提取胜蛉、鏈接和關(guān)聯(lián)分析挠进、可視化和預(yù)測(cè)分析
??分析從數(shù)以百萬(wàn)計(jì)的不同的文件和格式的文本數(shù)據(jù)中,決定出關(guān)鍵字誊册、主題领突、類別、語(yǔ)義案怯、標(biāo)簽君旦。文本分析這個(gè)術(shù)語(yǔ)大致等同于文本挖掘。
??文本分析軟件解決方案提供工具殴泰、服務(wù)器于宙、基于分析算法的應(yīng)用程序、數(shù)據(jù)挖掘和提取工具悍汛,用于將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為有意義的數(shù)據(jù)進(jìn)行分析捞魁。輸出(提取的實(shí)體、事實(shí)离咐、關(guān)系)通常存儲(chǔ)在關(guān)系谱俭、XML和其他數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用程序中奉件,以便由其他工具(如商業(yè)智能工具或大數(shù)據(jù)分析或預(yù)測(cè)分析工具)進(jìn)行分析。
文本分析軟件的過(guò)程和特點(diǎn)
1.文本挖掘昆著,文本解析县貌,文本識(shí)別,文本提取凑懂,文本分類煤痕,文本聚類。
2.概念接谨、實(shí)體摆碉、關(guān)系、事件的提取脓豪。
3.創(chuàng)建分類巷帝。
4.搜索訪問(wèn),網(wǎng)頁(yè)抓取扫夜,索引楞泼,重復(fù)文件識(shí)別。
5.分析所有主要文件格式和所有主要語(yǔ)言-自然語(yǔ)言/語(yǔ)義工具包笤闯。
6.實(shí)體關(guān)系建模堕阔。
7.鏈接分析,鏈接文本存儲(chǔ)庫(kù)望侈。
8.識(shí)別和分析情緒的能力,人印蔬、地點(diǎn)和其他信息從網(wǎng)站、內(nèi)部文件脱衙、報(bào)告、調(diào)查例驹、形式,員工調(diào)查,索賠,承銷指出,醫(yī)療記錄,電子郵件捐韩、新聞、博客鹃锈、社交媒體荤胁、客戶調(diào)查、市場(chǎng)調(diào)查屎债、在線論壇仅政、在線評(píng)論,評(píng)論網(wǎng)站,科學(xué)期刊、網(wǎng)站反饋,呼叫中心日志,記錄,蝸牛郵件,銷售記錄盆驹。
9.文件匯總功能和記錄管理圆丹。
10.交互式可視化。
文本分析的應(yīng)用
1.情緒分析
2.搜索對(duì)非結(jié)構(gòu)化數(shù)據(jù)的訪問(wèn)
3.電子郵件垃圾郵件過(guò)濾器躯喇,以確定信息的特點(diǎn)辫封,以過(guò)濾可能是廣告硝枉、促銷、釣魚和不需要的材料
4.自動(dòng)化的廣告位置
5.社交媒體監(jiān)測(cè)
6.競(jìng)爭(zhēng)情報(bào)
7.企業(yè)業(yè)務(wù)智能和數(shù)據(jù)挖掘
8.電子證據(jù)發(fā)現(xiàn)倦微、記錄管理
9.國(guó)家安全和情報(bào)
10.科學(xué)發(fā)現(xiàn)妻味,特別是生命科學(xué)
11.競(jìng)爭(zhēng)情報(bào)
??大數(shù)據(jù)分析、數(shù)據(jù)挖掘和文本分析以及統(tǒng)計(jì)數(shù)據(jù)為業(yè)務(wù)用戶提供了通過(guò)發(fā)現(xiàn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中的模式和關(guān)系來(lái)創(chuàng)建智能預(yù)測(cè)的功能欣福。