具體上一篇SEO數(shù)據(jù)分析文章已經(jīng)隔了很久了,今天有個朋友網(wǎng)上問我,有了詞庫怎么維護(hù)土砂。正好借這個機(jī)會談?wù)勥@個問題。 在獲取到大量關(guān)鍵詞后谜洽,首先要對這些詞進(jìn)行處理萝映,在我實(shí)際工作中,總結(jié)以下幾個項(xiàng)目我做過或者覺得有必要做的事情阐虚。
提取實(shí)體(通俗點(diǎn)講就是找關(guān)鍵詞中的重點(diǎn)詞)
1序臂、去重
2、受控詞表
3实束、分類
4奥秆、提取實(shí)體
提取實(shí)體的概念就是找關(guān)鍵詞中的重點(diǎn)詞。比如 “北京溫泉哪里好”咸灿,那這個詞中的”北京 “和”溫泉”這兩個詞是重點(diǎn)构订,”哪里好”只是一個疑問詞,對主題描述幫助相對比較小避矢。于是我們就需要通過一些技術(shù)手段悼瘾,對關(guān)鍵詞進(jìn)行處理囊榜,把中間重要的關(guān)鍵詞(實(shí)體)取出來。
先看看下面的關(guān)鍵詞
處理前
北京博物館大全北京懷北滑雪場杭州到北京動車北京金山嶺長城北京旅行社排名北京冬天去哪玩西安到北京高鐵廈門到北京機(jī)票
處理后
北京|博物館北京|懷北|滑雪場杭州|北京|動車北京|金山嶺|長城北京|溫泉北京|旅行社|排名北京|冬天|玩西安|北京|高鐵廈門|北京|機(jī)票
可以仔細(xì)觀察一下兩者的不同亥宿。這邊算法有很多種實(shí)現(xiàn)方法卸勺,鑒于從SEO的角度出發(fā),我們對精確度和召回率的要求烫扼,一般都比較低曙求。從0%到80%要花費(fèi)的心思,可能還沒從80%~100%要花費(fèi)的心思多映企。并且不同行業(yè)的圆到,會有略微不同的做法。于是我采取以下兩個方法
1.根據(jù)詞性刪除停詞符號(多刪一些不要緊)
2.根據(jù)tf-idf過濾高頻詞
TF-IDF(term frequency–inverse document frequency)是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù)卑吭。TF-IDF是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度马绝。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加豆赏,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用富稻,作為文件與用戶查詢之間相關(guān)程度的度量或評級掷邦。除了TF-IDF以外,因特網(wǎng)上的搜索引擎還會使用基于鏈接分析的評級方法椭赋,以確定文件在搜尋結(jié)果中出現(xiàn)的順序抚岗。
這邊說說分詞算法,很多學(xué)術(shù)派研究了一大堆中文分詞算法哪怔,但實(shí)際運(yùn)用起來差別很小宣蔚。這邊隨便推薦幾個,根據(jù)自己會的語言使用认境。
ICTCLAS http://ictclas.nlpir.org/downloads 語言:Java,C#
CRF++ http://crfpp.sourceforge.net/ 語言: C#
SCWS http://www.xunsearch.com/scws/ 語言: PHP
JIEBA https://pypi.python.org/pypi/jieba/ 語言:Python
分詞也是一門大學(xué)問胚委,有興趣可以看看CRF,HMM等模型的邏輯。這邊就不展開講了叉信。
分詞關(guān)鍵的問題是要速度快亩冬,并且可以自定義詞庫。由于我用的是JIEBA硼身,這方面都能支持硅急。具體可以看看作者個github中的說明https://github.com/fxsjy/jieba/blob/master/README.md
分詞后根據(jù)詞性,排除掉”停詞”佳遂,就獲取到了我們想要的結(jié)果集合营袜。
過濾高頻詞。JIEBA可以對整個文本提取tf-idf值高的詞讶迁。這些詞是核心连茧,肯定不可以去掉核蘸。
然后根據(jù)分詞結(jié)果獲取到tf值高的詞,進(jìn)行人工審核一下啸驯,以我們旅游行業(yè)詞庫為例客扎,地名是經(jīng)常出現(xiàn)的詞,tf值可能會非常高罚斗,但是絕對不能把它去掉徙鱼。所以我們需要先準(zhǔn)備一份中國地名/景點(diǎn)名詞庫,這個可以在網(wǎng)上搜索下针姿,懶人可以直接用搜狗輸入法的詞庫袱吆。
然后高頻詞中還有可能會出現(xiàn)的詞,可能為”7月”距淫,”8月”绞绒,”大全”,”線路”等等榕暇。這些詞也可以考慮把它從實(shí)體詞中踢除蓬衡。
經(jīng)過這幾輪檢查,基本就差不多了彤枢,再要精度可以再自行研究狰晚。肯定有人問缴啡,你折騰了這么久壁晒,有什么用?這邊只能點(diǎn)到為止业栅。
1.內(nèi)容關(guān)聯(lián)
2.自動tagging
3.提高站內(nèi)檢索精度
去年到今年搜房和安居客的SEO可以體會一下秒咐。
去重
提取實(shí)體后,就可以對關(guān)鍵詞進(jìn)行去重式镐。
例如
海南旅游多少錢海南旅游要多少錢
處理后
海南|旅游海南|旅游
就可以進(jìn)行去重了反镇。上面著兩個個詞,還可以通過實(shí)體相同的方法來解決娘汞。但是有一些關(guān)鍵詞歹茶,比如”馬爾代夫”和”馬代”,”長城”和”八達(dá)嶺”你弦,用戶可以是指一個地方惊豺,我們應(yīng)該怎么處理這些詞。我們就需要下面這么一個東西“受控詞表”
受控詞表
受控詞表禽作,就是一種控制詞匯含義尸昧,并且跟蹤其相關(guān)詞的方法】醭ィ回到上面的例子烹俗,如果你搜索”八達(dá)嶺”的時候爆侣,不能把長城的內(nèi)容展現(xiàn)出來,相信用戶早就跑光了幢妄。
受控詞表主要有如下三大關(guān)系:等價兔仰,層級,關(guān)聯(lián)
等價很好理解蕉鸳,比如馬爾代夫和馬代乎赴,那是等價關(guān)系,這類詞可以說就是一個意思潮尝,權(quán)值是最高的榕吼。在內(nèi)容推薦中一定要呈現(xiàn)出來。
層級有上下級之分勉失,比如“夫子廟”是”南京景點(diǎn)大全”的下級詞羹蚣。”大成殿”又是”夫子廟”的下級詞乱凿。在實(shí)際應(yīng)用的時候度宦,當(dāng)用戶在尋找”大成殿”時,網(wǎng)站可以告訴用戶你位于”夫子廟”中間告匠,并且推薦夫子廟周圍還有些什么好玩的東西,用戶一定會非常喜歡离唬。層級關(guān)系也是大部分網(wǎng)站都有的信息架構(gòu)體系后专,從首頁,到目錄输莺,到欄目戚哎。
關(guān)聯(lián),有點(diǎn)類似于等價嫂用,但是并不完全相同型凳,例如”三亞跟團(tuán)游”,”褐龊口自助游”甘畅,”海南旅游 雙飛”。他們沒有說明確的上下級關(guān)系往弓,但是又不能說完全一樣疏唾。這類詞,我們可以把其作為有關(guān)聯(lián)的東西函似』痹啵可以記錄下來。此外撇寞,一些內(nèi)容的自帶的屬性顿天,比如高堂氯,富,帥牌废,可以作為一個相關(guān)聯(lián)的關(guān)鍵詞咽白,在內(nèi)容推薦上更加滿足用戶的口味。
這邊還要提一點(diǎn)畔规,在工作中局扶,我們發(fā)現(xiàn)了用戶有時候會有一些特殊的詞匯來表達(dá)自己的需求,比如”麻袋”(諧音馬代)叁扫,或者”百撕不得騎姐”這樣該死的輸入法錯拼三妈,這些關(guān)鍵詞都需要存放起來。
最后應(yīng)該是這樣的效果:
分類
對于獲取到的大量關(guān)鍵詞莫绣,應(yīng)該怎么去分類畴蒲。首先可以按照意圖進(jìn)行分類,導(dǎo)航对室,信息模燥,事務(wù)。(學(xué)習(xí)資料-知乎:http://www.zhihu.com/question/20905145)
這么做的好處是掩宜,可以快速知道把哪一類詞蔫骂,分給哪條產(chǎn)品線做。例如信息類的詞牺汤,盡量放到資訊辽旋,問答,產(chǎn)品庫這樣的頻道檐迟。導(dǎo)航類的詞补胚,如果是自己品牌可以做,如果是競爭對手品牌追迟,可以單獨(dú)做頻道溶其。事務(wù)類的詞,一般放在主力產(chǎn)品線上敦间,頁面上會有功能體現(xiàn)瓶逃,比如”添加到購物車”,”下載鏈接“廓块,”在線預(yù)定”等等金闽。在一定程度上滿足用戶的需求,避免內(nèi)容錯位剿骨。比如這個 http://iphone.tgbus.com/tag/iphone6tieba/ “iphone6貼吧”代芜。貼吧在哪?好歹給個鏈接地址吧浓利。
除了上面的分意圖類法挤庇,下面講講從結(jié)合信息架構(gòu)中的分類方法钞速。
先介紹一個人工分揀關(guān)鍵詞的方法:卡片分揀。通過嘗試嫡秕,這的確是一種可以集思廣益的分類方法渴语。我們從”馬爾代夫”的關(guān)鍵詞詞庫中抽取了500個關(guān)鍵詞,隨機(jī)分配給
5個小組昆咽。每組把手頭上的關(guān)鍵詞進(jìn)行自由分組驾凶,并且自行命名組名。然后再匯聚5個小組的組名掷酗,這樣我們就確定了大約10個小分類调违,并且找到了一些之前單槍匹馬沒有想到的內(nèi)容。
最后的情況大致上
有了分類泻轰,我們在網(wǎng)頁結(jié)構(gòu)組織上技肩,可以更加有的放矢。具體可以看看maldives.tuniu.com的左側(cè)分類浮声,實(shí)際操作過程中虚婿,我們也有一定的篩選和層級控制考慮。例如貨幣泳挥,語言然痊,氣候,都可以歸入介紹里面屉符。關(guān)于這個頁面我們也很少去做外部鏈接玷过,內(nèi)容也只是無數(shù)目的地中的一個,不可能有很多人力盯著這個欄目筑煮,但是專心做用戶喜歡的內(nèi)容,這個頻道的表現(xiàn)還是相當(dāng)不錯的粤蝎。
這時候如何構(gòu)建內(nèi)容真仲,就非常清晰了,直接從詞庫中找關(guān)鍵詞然后寫內(nèi)容就可以初澎,總比成天寫”馬爾代夫報價”秸应,“馬爾代夫旅游報價”等無價值文章,做所謂的核心詞表現(xiàn)要好很多碑宴。
我們只是分了500個關(guān)鍵詞软啼,詞庫中還有上萬的待分類馬爾代夫的關(guān)鍵詞,隨著時間的推移延柠,新加入的關(guān)鍵詞也會越來越多祸挪。可以機(jī)器可以使用機(jī)器學(xué)習(xí)的方法來做贞间。這邊本人也還在研究學(xué)習(xí)中贿条,寫出來怕貽笑大方雹仿,拋磚引玉一下,使用決策樹整以,根據(jù)已有卡片分揀的關(guān)鍵詞作為訓(xùn)練文檔胧辽,根據(jù)受控詞表中的元數(shù)據(jù)包含與否作為特征,生成決策樹公黑,以便于進(jìn)行自動分類邑商。
總結(jié)
1.算法不是問題,關(guān)鍵是適合自己行業(yè)詞庫凡蚜,至于詞庫怎么來人断,方法實(shí)在太多,可以看我另一篇文章中說的 http://www.imyexi.com/?p=708 關(guān)鍵詞挖掘部分
2.詞與詞之間的關(guān)系番刊,是內(nèi)容推薦含鳞,內(nèi)容運(yùn)營中的利器,同樣也提升了用戶體驗(yàn)芹务,這邊不得不吐槽下蝉绷,用戶體驗(yàn)是需要技術(shù)的,不是喊喊口號枣抱。
3.本來想寫興趣點(diǎn)挖掘熔吗,后來一想詞庫中的每個詞都是興趣點(diǎn),只要控制好詞庫的更新佳晶,興趣點(diǎn)不是問題桅狠。
4.有了思路,執(zhí)行力也很重要轿秧。詞庫屬于網(wǎng)站內(nèi)容底層基礎(chǔ)中跌,弄好這個,后面可以避免很多重復(fù)勞動和無用功菇篡。(被坑得深有體會)
5.本人非科班出生漩符,很多技術(shù)術(shù)語,名詞解釋驱还,全憑自己學(xué)習(xí)理解嗜暴,有錯誤請指正學(xué)習(xí)。