?本來默默劃船,在交流會上談個性化推薦都不惹人注意的今日頭條琳轿,毫無置疑現(xiàn)在已經(jīng)被整個BAT圍剿判沟,內(nèi)容領(lǐng)域的企業(yè)不自覺把今日頭條當做競爭對手,非內(nèi)容領(lǐng)域的互聯(lián)網(wǎng)公司也都想來分一杯內(nèi)容的羹崭篡,一夜間挪哄,互聯(lián)網(wǎng)遍地都是feed流,不談內(nèi)容推薦算法都不好意思上桌了琉闪。
筆者近期有幸從0到1規(guī)劃頭條產(chǎn)品中燥,想把自己的實操經(jīng)驗分享出來,如果對感興趣的朋友有幫助自然開心塘偎,更希望得到業(yè)界大佬的批評和指正疗涉,畢竟一個人摸索前進,還是很危險的吟秩。
1.明確定位
經(jīng)常使用閱讀產(chǎn)品很大的感受是大平臺很容易出現(xiàn)資訊沒深度咱扣,垂直的內(nèi)容資訊只在某幾個如科技,互聯(lián)網(wǎng)等幾個領(lǐng)域做的還不錯涵防,我當時的設(shè)想是有沒有可能做行業(yè)內(nèi)深度資訊闹伪,尤其是一開始切入那些并未互聯(lián)網(wǎng)化過深的行業(yè),通過一個行業(yè)的試點壮池,形成行業(yè)頭條偏瓤,在沉淀優(yōu)質(zhì)行業(yè)知識的同時,以最低成本去復(fù)制到其他行業(yè)椰憋。
思考了挺久之后開始和老板匯報了厅克,省去10000字具體說服過程,最終同意了橙依,因為團隊某公司與一個傳統(tǒng)行業(yè)A有交集证舟,所以一開始的切入行業(yè)就是行業(yè)A了,下面開始具體執(zhí)行了窗骑,看著一共10多個技術(shù)人員女责,我陷入了深思。创译。抵知。
劣勢簡直不要太明顯
沒有數(shù)據(jù)積累;
沒有用戶畫像;
團隊沒人從事過行業(yè)A刷喜;
我要開始作死的做頭條產(chǎn)品了残制。。吱肌。
2.頭條產(chǎn)品整體設(shè)計
我開始從三個層面去搭建產(chǎn)品,底層類型標簽層仰禽,中層數(shù)據(jù)抓取分析層氮墨,頂層業(yè)務(wù)應(yīng)用層。
底層類型標簽層
底層根據(jù)具體行業(yè)進行梳理吐葵,本來這個過程應(yīng)該產(chǎn)品和具體行業(yè)從業(yè)人員配合梳理规揪,但是礙于資源有限,那就我來吧温峭,肯定不足夠詳盡猛铅,但是一開始可以先跑起來。
底層類型標簽層分為類型和標簽凤藏,類型有層級性奸忽,數(shù)據(jù)庫預(yù)留到7級,實際梳理到3級就差不多了揖庄,如行業(yè)A栗菜,A公司是一個一級類型,A行業(yè)制造公司是二級分類蹄梢,具體制造公司名稱是3級類型疙筹,每個類型獨立建表,每個表里關(guān)聯(lián)海量標簽到類型上禁炒,如行業(yè)A技術(shù)這個類型里我們找到行業(yè)A技術(shù)術(shù)語詞典而咆,刪選后就作為標簽關(guān)聯(lián)到A技術(shù)這個類型下面,類型數(shù)最后梳理了600多幕袱,標簽數(shù)量有10萬多暴备,數(shù)據(jù)庫預(yù)留狀態(tài)位,可以視情況進行啟用關(guān)閉们豌。
中層數(shù)據(jù)抓取分析層
數(shù)據(jù)抓取分析層分為爬蟲部署馍驯,內(nèi)容來源處理,數(shù)據(jù)歸類
爬蟲部署
我以一個技術(shù)外行的角度把爬蟲分為兩類玛痊,一類是不定向爬蟲汰瘫,都是一個個單獨網(wǎng)站,這種技術(shù)消耗較大擂煞,需挨個處理混弥,如各個A行業(yè)公司的官網(wǎng)新聞中心和行業(yè)A平臺網(wǎng)站,需單獨處理,另一類定向爬蟲蝗拿,主要是有搜索功能的大資訊平臺晾捏,如今日頭條等,代碼可復(fù)用哀托,寫好之后我直接建了一張表惦辛,專門放搜索爬蟲的關(guān)鍵詞,一堆關(guān)鍵詞一套代碼就可以實現(xiàn)仓手,輸入進去就把含有這些關(guān)鍵詞的新聞抓取出來了胖齐,現(xiàn)在這張表關(guān)鍵詞也有700多了,爬取來的內(nèi)容量實在太大嗽冒,建議用mongedb處理
內(nèi)容來源處理
數(shù)據(jù)過來后先進行來源梳理呀伙,劃分優(yōu)質(zhì)來源和垃圾來源,提升優(yōu)質(zhì)來源內(nèi)容的權(quán)重添坊,優(yōu)質(zhì)來源主要是各公司官網(wǎng)剿另,垃圾來源是指對具體行業(yè)而言,大量無意義的內(nèi)容來自同一個來源贬蛙,那么將他認定為垃圾來源雨女,比如一個叫xx說車的來源在建筑行業(yè)被認定為垃圾來源,但是將來復(fù)制到汽車這個領(lǐng)域的時候阳准,就不再是垃圾來源了戚篙,垃圾來源是一個長期的活,現(xiàn)在大概700多了溺职,額岔擂,大部分垃圾來源是今日頭條的頭條號。浪耘。
數(shù)據(jù)歸類
過濾完垃圾源之后乱灵,就開始數(shù)據(jù)歸類了,本質(zhì)上是將新聞內(nèi)容歸到我們建立的一個個類型上七冲,因為做行業(yè)資訊痛倚,希望一開始數(shù)據(jù)準度較高,我當時想了兩種方案澜躺,第一種是將類型根據(jù)自己關(guān)聯(lián)的海量標簽按權(quán)重建立一個個模型蝉稳,所有抓取來的文章做全文的分詞處理,大量文章統(tǒng)計詞頻掘鄙,每篇文章所有分詞就有一個總的頻率值耘戚,和類型模型比對,取相關(guān)性較高的操漠,另一種就是把類型下面所屬的標簽和所有篩選過垃圾源的文章比對收津,含有標簽的文章歸到所屬類型下面,含有同一類型標簽越多,說明該文章相關(guān)性越高撞秋,為了快速上線就用第二種方案长捧,但是相對,精度就差了一些吻贿,當然隨著人工的介入串结,篩出一系列垃圾源,類型和標簽維護工作的持續(xù)舅列,內(nèi)容準度好了一些
頂層業(yè)務(wù)應(yīng)用層
業(yè)務(wù)展現(xiàn)層主要是梳理目標用戶感興趣的關(guān)鍵詞肌割,將這些關(guān)鍵詞關(guān)聯(lián)到類型標簽層的類型,這樣剧蹂,用戶訂閱關(guān)鍵詞之后就可以看到這個關(guān)鍵詞所屬的內(nèi)容声功,前臺現(xiàn)在以及上線2個產(chǎn)品烦却,一個訂閱平臺宠叼,行業(yè)頭條,與之配套的是后臺管理中心
訂閱平臺
訂閱平臺半封閉其爵,面向行業(yè)A企業(yè)用戶和行業(yè)A自媒體從業(yè)者冒冬,釋放出他們感興趣的關(guān)鍵詞,內(nèi)容準度更高摩渺,企業(yè)用戶訂閱關(guān)鍵詞简烤,可以看到相關(guān)的資訊,看到平臺具有的能力后摇幻,有欲望定制更多關(guān)鍵詞横侦,后臺審核后繼續(xù)部署爬蟲,推送數(shù)據(jù)給用戶绰姻,同時記錄用戶的所有行為數(shù)據(jù)
行業(yè)頭條
行業(yè)頭條完全開放枉侧,面向準行業(yè)從業(yè)者以及泛行業(yè)愛好者,釋放出更多關(guān)鍵詞狂芋,但是較訂閱平臺榨馁,內(nèi)容質(zhì)量稍差,但是目標用戶較廣帜矾,所以寄希望記錄用戶的所有行為數(shù)據(jù)(如評論翼虫,閱讀量,換一批事件屡萤,關(guān)注關(guān)鍵詞等)珍剑,得到用戶反饋,建立用戶畫像死陆,以達到根據(jù)不同用戶畫像推薦關(guān)鍵詞的效果次慢,為真正的推薦做準備
后臺管理中心
含有新聞管理,來源管理(優(yōu)質(zhì)來源,垃圾來源)迫像,類型/標簽管理劈愚,用戶行為管理,推送管理闻妓,關(guān)鍵詞審核排期管理菌羽,評論搜索管理等,具體就不再詳述了由缆,有機會再詳細介紹注祖,簡單的把產(chǎn)品框架梳理了一張圖,和上面的論述結(jié)合起來均唉,可能更方便理解
3.致同行
不要動不動就要再造個今日頭條是晨,如果你的體驗和算法做不到比他強百分之五十以上,正面硬剛基本沒戲舔箭,找準自己的切入點罩缴,認清自己的優(yōu)勢;
內(nèi)容推薦從來都很危險层扶,如果用戶不需要的時候推薦箫章,除非做到讓用戶驚喜,否則就是減分镜会,用戶一定要用的產(chǎn)品檬寂,用戶只能忍著,可有可無的產(chǎn)品戳表,極有可能被用戶卸載桶至,這點做公眾號的朋友肯定深有感觸,每次推送內(nèi)容都怕掉粉匾旭。镣屹。
因為對搜索一直比較有興趣,所以簡單闡述一下自己對輸入法產(chǎn)品想做內(nèi)容的建議吧
用戶有自己了解資訊的需求:
主動獲燃韭省:RSS抓纫笆荨(google訂閱),關(guān)注/訂閱(即刻)
被打獲褥骸:平臺推薦(傳統(tǒng)門戶鞭光,新聞網(wǎng)站)混坞,垂直類媒體資訊(36K庆冕,虎嗅等,最近馮大輝的readhub)直砂,個性化推薦(頭條史辙,一點資訊)
這一類需求競爭極其大汹买,還有一類是基于特定場景下佩伤,對資訊的了解訴求
比如找工作時,想了解某家公司晦毙;吃飯時生巡,想了解附近餐館的情況;
這一類訴求特別長尾见妒,目前多是怎么被滿足的呢孤荣?
主動搜索,到百度须揣,知乎等平臺搜索盐股,但得到想要的資訊路徑很長,比如你和朋友吃飯耻卡,你想知道附近有哪些好館子疯汁,搜到的代價就就極高這種場景大量發(fā)生在哪里?聊天和查詢的時候卵酪!這正是我覺得輸入法切入資訊的機會幌蚊,具體來講:
當和別人聊天說要跳槽,談的某家公司凛澎,輸入法輸入時有個提示(如顏色變化等)能方便的推送公司的最新資訊霹肝;
聊天約飯估蹄,方便推送出附近飯館和評價塑煎;
和男朋友說要買趙麗穎同款,男朋友能方便看到這些商品的資訊臭蚁;
這些訴求的背后數(shù)據(jù)最铁,詞匯出現(xiàn)的頻率,輸入法公司應(yīng)該有足夠的積累垮兑,大可根據(jù)詞頻做內(nèi)容準備冷尉,當用戶在輸入東西的時候,給用戶一個意外的驚喜系枪,來達到資訊推薦的目的雀哨,希望有從事輸入法這塊的朋友能給予指導(dǎo)吧
最后,野路子出身的產(chǎn)品私爷,非常誠懇的希望有同行能夠給出批評和建議~歡迎關(guān)注公眾號/微信私聊~