目錄
3.2.2輿情秘書(shū)產(chǎn)品簡(jiǎn)介
1.數(shù)據(jù)挖掘簡(jiǎn)介
數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程查刻,分預(yù)測(cè)-描述-建模三個(gè)階段腹缩。
數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān)昭娩,并通過(guò)統(tǒng)計(jì)簇搅、在線分析處理如绸、情報(bào)檢索嘱朽、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)怔接。
它主要基于人工智能搪泳、機(jī)器學(xué)習(xí)、模式識(shí)別扼脐、統(tǒng)計(jì)學(xué)岸军、數(shù)據(jù)庫(kù)奋刽、可視化技術(shù)等,高度自動(dòng)化地分析企業(yè)的數(shù)據(jù)艰赞,作出歸納性的推理佣谐,從中挖掘出潛在的模式,幫助決策者調(diào)整市場(chǎng)策略方妖,減少風(fēng)險(xiǎn)狭魂,作出正確的決策。知識(shí)發(fā)現(xiàn)過(guò)程由以下三個(gè)階段組成:①數(shù)據(jù)準(zhǔn)備党觅;②數(shù)據(jù)挖掘雌澄;③結(jié)果表達(dá)和解釋。
數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析杯瞻、聚類分析掷伙、分類分析、異常分析又兵、特異群組分析和演變分析等任柜。
目前,數(shù)據(jù)挖掘的算法主要包括神經(jīng)網(wǎng)絡(luò)法沛厨、決策樹(shù)法宙地、遺傳算法、粗糙集法逆皮、模糊集法宅粥、關(guān)聯(lián)規(guī)則法等。
數(shù)據(jù)預(yù)處理方式:聚集电谣、抽樣秽梅、維歸約、特征子集剿牺、特征創(chuàng)建企垦、離散二元化、變量變換
2.分類分析
通過(guò)學(xué)習(xí)算法晒来,確定分類模型钞诡,擬合輸入數(shù)據(jù)與屬性的關(guān)系,進(jìn)行未知樣本的預(yù)測(cè)湃崩。
分類的基本方法荧降,包括決策樹(shù)、基于規(guī)則的分類攒读、神經(jīng)網(wǎng)絡(luò)朵诫、支持向量機(jī)、樸素貝葉斯分類法薄扁。
3.聚類分析
聚類分析指將物理或抽象對(duì)象的集合分組為由類似的對(duì)象組成的多個(gè)類的分析過(guò)程剪返,其核心為:確立簇瞎领、簇評(píng)估。
基本的聚類分析及評(píng)估方法随夸,包括K均值算法九默、凝聚層次聚類、DBSCAN宾毒。
4.神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(artificial neural network驼修,縮寫(xiě)ANN),簡(jiǎn)稱神經(jīng)網(wǎng)絡(luò)(neural network诈铛,縮寫(xiě)NN)或類神經(jīng)網(wǎng)絡(luò)乙各,是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型幢竹。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度耳峦,通過(guò)調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的焕毫。神經(jīng)網(wǎng)絡(luò)主要由:輸入層蹲坷,隱藏層,輸出層構(gòu)成邑飒。
1.卷積神經(jīng)網(wǎng)絡(luò)CNN
2.循環(huán)神經(jīng)網(wǎng)絡(luò)RNN
5.數(shù)據(jù)挖掘崗位分析
1.企業(yè)分布
招聘數(shù)據(jù)挖掘工程師最多的為京東循签、滴滴、小米疙咸、騰訊县匠、百度、阿里撒轮、美團(tuán)乞旦、360等大型互聯(lián)網(wǎng)科技公司。
源數(shù)據(jù)來(lái)源:拉勾網(wǎng)
2.公司融資輪次
公司融資輪次集中在上市公司题山、D輪及以上中大型公司兰粉,此類公司資金較為雄厚,技術(shù)儲(chǔ)備較強(qiáng)臀蛛。
1.學(xué)歷分布
本科學(xué)歷為崗位招聘標(biāo)配亲桦。
2.薪資水平
數(shù)據(jù)挖掘工程師整體薪資水平高,50%薪資集中在20-30K間浊仆,25%薪資為30-40K。
3.工作經(jīng)驗(yàn)
數(shù)據(jù)挖掘工程師為高薪職位豫领,同時(shí)要求也很高抡柿,有一定入門(mén)門(mén)檻,經(jīng)驗(yàn)在3-5年間的工程師招聘需求更多等恐。
4.能力要求
數(shù)據(jù)挖掘工程師能力要求集中在用戶畫(huà)像洲劣、用戶行為分析备蚓、風(fēng)控、個(gè)性化推薦囱稽、知識(shí)圖譜郊尝、反作弊、精細(xì)化運(yùn)營(yíng)战惊,注重運(yùn)用技術(shù)能力解決實(shí)際業(yè)務(wù)問(wèn)題流昏。
6.數(shù)據(jù)挖掘應(yīng)用
3.1.1概述
1.簡(jiǎn)介
talkingdata移動(dòng)大數(shù)據(jù)服務(wù)平臺(tái),根據(jù)企業(yè)業(yè)務(wù)特點(diǎn)建立360度用戶畫(huà)像,幫助企業(yè)量身定制營(yíng)銷(xiāo)方案,為企業(yè)贏得更多的客戶,精細(xì)營(yíng)銷(xiāo),將用戶轉(zhuǎn)化為消費(fèi)生產(chǎn)力,實(shí)現(xiàn)數(shù)據(jù)價(jià)值變現(xiàn)吞获。
2.產(chǎn)品矩陣
3.1.2用戶畫(huà)像
1.概念
用戶畫(huà)像又稱用戶角色况凉,作為一種勾畫(huà)目標(biāo)用戶、聯(lián)系用戶訴求與設(shè)計(jì)方向的有效工具各拷,用戶畫(huà)像在各領(lǐng)域得到了廣泛的應(yīng)用刁绒。
2.價(jià)值
用戶畫(huà)像可以使產(chǎn)品的服務(wù)對(duì)象更加聚焦,更加精細(xì)化烤黍。
3.組成
靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)知市。
4.構(gòu)建方法
1)構(gòu)建用戶靜態(tài)/動(dòng)態(tài)數(shù)據(jù)
分類描述類型內(nèi)容
靜態(tài)數(shù)據(jù)用戶相對(duì)穩(wěn)定的信息人口屬性性別、年齡速蕊、姓名初狰、地域
商業(yè)屬性收入、職業(yè)互例、所屬行業(yè)
消費(fèi)意向汽車(chē)購(gòu)買(mǎi)奢入、快消購(gòu)買(mǎi)、美妝購(gòu)買(mǎi)
生活形態(tài)生活習(xí)性媳叨、娛樂(lè)愛(ài)好腥光、社交方式
CRM客戶狀態(tài)、會(huì)員狀態(tài)糊秆、生命價(jià)值
動(dòng)態(tài)數(shù)據(jù)用戶不斷變化的行為信息場(chǎng)景訪問(wèn)設(shè)備武福、訪問(wèn)時(shí)段
媒體訪問(wèn)媒體、訪問(wèn)頁(yè)面痘番、訪問(wèn)時(shí)長(zhǎng)捉片、訪問(wèn)頻次
路徑流量來(lái)源、流量去向
2)標(biāo)簽與權(quán)重:通過(guò)用戶行為分析汞舱,為用戶打上標(biāo)簽以及其權(quán)重
分類描述
標(biāo)簽表征了內(nèi)容伍纫,用戶對(duì)該內(nèi)容有興趣、偏好昂芜、需求等
權(quán)重表征了指數(shù)莹规,用戶的興趣、偏好指數(shù)泌神,也可能表征用戶的需求度良漱,可以簡(jiǎn)單的理解為可信度舞虱,概率。
3)數(shù)據(jù)建模:標(biāo)簽=用戶標(biāo)示+時(shí)間+行為類型+接觸內(nèi)容的聚合母市,如“愛(ài)好閱讀”標(biāo)簽矾兜,該用戶在一天內(nèi)進(jìn)入頭條內(nèi)容頁(yè)面停留了30分鐘以上
事件模型:通過(guò)手機(jī)用戶行為,結(jié)合上下文構(gòu)建時(shí)間模型患久,5W(who椅寺、when、where墙杯、what配并、which)
·who通過(guò)唯一的用戶標(biāo)識(shí)來(lái)鎖定某個(gè)人(用戶名、手機(jī)號(hào)高镐、qq溉旋、微信、cookie等)
·when:主要收集時(shí)間因素
·where:主要收集地理位置因素
·what:主要收集交互的商品/內(nèi)容的標(biāo)識(shí)嫉髓,最終標(biāo)簽基本出自于對(duì)what的具象或者抽象
·which:標(biāo)識(shí)用戶什么行為观腊,比如點(diǎn)擊、瀏覽算行、購(gòu)買(mǎi)梧油、觀看
整體思考建模:用戶標(biāo)簽權(quán)重可能隨時(shí)間的增加而衰減,因此定義時(shí)間為衰減因子r州邢,行為類型儡陨、網(wǎng)址決定了權(quán)重,內(nèi)容決定了標(biāo)簽量淌,進(jìn)一步轉(zhuǎn)換為公式:標(biāo)簽權(quán)重=衰減因子×行為權(quán)重
3.2.1概述
1.簡(jiǎn)介
智慧星光是一家文本大數(shù)據(jù)服務(wù)商骗村,提供大數(shù)據(jù)價(jià)值挖掘和精準(zhǔn)化信息服務(wù)。
2.產(chǎn)品矩陣
3.2.2輿情秘書(shū)產(chǎn)品簡(jiǎn)介
1.?簡(jiǎn)介
輿情秘書(shū)是國(guó)內(nèi)頂尖的互聯(lián)網(wǎng)輿情監(jiān)測(cè)智能云平臺(tái)呀枢,監(jiān)測(cè)覆蓋新聞胚股、論壇、博客裙秋、微博琅拌、微信、視頻摘刑、APP进宝、平媒等眾多網(wǎng)絡(luò)媒體及電視頻道
2.?產(chǎn)品價(jià)值
幫助政府機(jī)構(gòu)、企事業(yè)單位精準(zhǔn)泣侮、及時(shí)即彪、全面的掌握關(guān)于自身的互聯(lián)網(wǎng)輿情信息,提高輿情應(yīng)對(duì)能力活尊,及時(shí)化解矛盾隶校,處理好政府和民眾、企業(yè)和客戶的關(guān)系蛹锰。
3.產(chǎn)品特點(diǎn)
覆蓋面廣:覆蓋新聞深胳、論壇、微博铜犬、微信舞终、貼吧、博客癣猾、視頻敛劝、手機(jī)APP、平媒纷宇、各大網(wǎng)站…
實(shí)時(shí)監(jiān)測(cè):7X24X365小時(shí)實(shí)時(shí)監(jiān)測(cè)
關(guān)鍵字提瓤涿恕:地域、人名像捶、語(yǔ)義識(shí)別準(zhǔn)確率99%上陕、自動(dòng)預(yù)警準(zhǔn)確率95%
用戶分析:多維度分析輿情傳播路徑、關(guān)鍵詞云拓春、發(fā)展態(tài)勢(shì)释簿、網(wǎng)民觀點(diǎn)
4.技術(shù)實(shí)現(xiàn)
文本挖掘是抽取有效、新穎硼莽、有用庶溶、可理解的、散布在文本文件中的有價(jià)值知識(shí)懂鸵,并且利用這些知識(shí)更好地組織信息的過(guò)程偏螺,是從文本數(shù)據(jù)中獲取有價(jià)值的信息和知識(shí),它是數(shù)據(jù)挖掘中的一種方法矾瑰。文本挖掘中最重要最基本的應(yīng)用是實(shí)現(xiàn)文本的分類和聚類砖茸,前者是有監(jiān)督的挖掘算法,后者是無(wú)監(jiān)督的挖掘算法殴穴。
分詞:將句子分段
詞性標(biāo)注:名詞凉夯、動(dòng)詞、形容詞采幌、時(shí)間詞劲够、方位詞、數(shù)詞休傍、代詞征绎、處所詞、區(qū)別詞、狀態(tài)詞人柿、量詞柴墩、副詞、語(yǔ)氣詞凫岖、擬聲詞江咳、字符串、介詞哥放、連詞歼指、助詞、嘆詞甥雕、標(biāo)點(diǎn)符號(hào)踩身、前綴、后綴
去掉停用詞
特征選擇:分為有監(jiān)督和無(wú)監(jiān)督社露,計(jì)算文本集的熵挟阻、計(jì)算特征的條件熵、得到所有特征的信息增益呵哨。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 全文完