一序矩、為什么需要標(biāo)簽鸯绿?
隨著互聯(lián)網(wǎng)的興起,每天有大量的內(nèi)容以視頻等形式被生產(chǎn)并上傳到各大平臺簸淀,面對海量的內(nèi)容瓶蝴,如何提升這些內(nèi)容的智能分發(fā)效率是各大平臺面臨的重要課題。
而要實(shí)現(xiàn)這一目標(biāo)租幕,第一步就是更好地認(rèn)識我們的用戶舷手。構(gòu)建用戶畫像的過程的本質(zhì)就是對用戶信息進(jìn)行標(biāo)簽化管理的過程。通過標(biāo)簽體系的建設(shè)劲绪,一方面讓數(shù)據(jù)變得可閱讀男窟、易理解,方便業(yè)務(wù)使用贾富;另一方面通過標(biāo)簽類目體系將標(biāo)簽組織排布歉眷,以一種適用性更好的組織方式來匹配未來變化的業(yè)務(wù)場景需求。如何合理規(guī)劃標(biāo)簽體系對產(chǎn)品的運(yùn)營影響非常大颤枪,因此姥芥,標(biāo)簽是產(chǎn)品策略中特別關(guān)鍵的一環(huán)。
二汇鞭、標(biāo)簽是什么凉唐?
對于標(biāo)簽的定義在不同場景中往往是不同的,太糾結(jié)或執(zhí)著于單一概念定義霍骄,會無法推進(jìn)實(shí)際的業(yè)務(wù)和工作台囱。我們所有的技術(shù)和業(yè)務(wù)層面的工作是為了業(yè)務(wù)目標(biāo),并且要實(shí)用和適用读整,并不是純學(xué)術(shù)層面的研討簿训。
一般來說,我們認(rèn)為標(biāo)簽是指“利用原始數(shù)據(jù)米间,通過一定的加工邏輯產(chǎn)出强品,能夠?yàn)闃I(yè)務(wù)所直接使用的可閱讀、易理解屈糊、有業(yè)務(wù)價值的數(shù)據(jù)的榛。”
標(biāo)簽體系有兩種組織方式:結(jié)構(gòu)化標(biāo)簽和半結(jié)構(gòu)化/非結(jié)構(gòu)化標(biāo)簽逻锐。
所謂結(jié)構(gòu)化標(biāo)簽是按照某個分類法制定一個層次標(biāo)簽體系夫晌,其中上層的標(biāo)簽是下一層的父節(jié)點(diǎn),在人群覆蓋上是包含關(guān)系昧诱。一些面向品牌廣告的受眾定向往往采用這種結(jié)構(gòu)化較強(qiáng)的標(biāo)簽體系晓淀。需要指出,這一體系中的標(biāo)簽是根據(jù)需求方的邏輯而制定盏档,某些在媒體方意義很大的分類標(biāo)簽凶掰,如軍事等,由于沒有明確的需求對應(yīng)蜈亩,不宜出現(xiàn)在標(biāo)簽體系中懦窘。
另外一種興趣標(biāo)簽的組織方式,是根據(jù)具體需求設(shè)置相應(yīng)的標(biāo)簽勺拣,所有的標(biāo)簽并不能為同一個分類體系中所描述奶赠,也不存在明確的父子關(guān)系。這種半結(jié)構(gòu)化或非結(jié)構(gòu)化的標(biāo)簽體系往往包含一些比較精準(zhǔn)的標(biāo)簽的集合药有,因而主要適用于多種目標(biāo)毅戈,特別是效果目標(biāo)并存的對內(nèi)容精準(zhǔn)投放的訴求。
選擇結(jié)構(gòu)化興趣標(biāo)簽體系還是非結(jié)構(gòu)化的興趣標(biāo)簽體系更多地是基于業(yè)務(wù)場景的決策愤惰,當(dāng)標(biāo)簽僅僅是投放系統(tǒng)需要的中間變量苇经,作為CTR預(yù)測或者其他模塊的變量輸入時,那么結(jié)構(gòu)化的標(biāo)簽體系其實(shí)是沒有必要的宦言,應(yīng)該完全按照效果驅(qū)動的方式來規(guī)劃或挖掘標(biāo)簽扇单,而各個標(biāo)簽之間也不太需要層次關(guān)系的約束。
還有一種特殊的標(biāo)簽形式奠旺,關(guān)鍵詞蜘澜。直接按照搜索或?yàn)g覽內(nèi)容的關(guān)鍵詞劃分人群和投放廣告施流,往往可以達(dá)到比較精準(zhǔn)的效果。關(guān)鍵詞這種標(biāo)簽體系是無層級關(guān)系鄙信、完全非結(jié)構(gòu)化的瞪醋,它雖然很容易理解,但并不太容易操作装诡。不過由于搜索在互聯(lián)網(wǎng)中的重要地位银受,選擇和優(yōu)化投放關(guān)鍵詞這樣一項(xiàng)專門技術(shù)已經(jīng)發(fā)展得相當(dāng)充分,因此這種標(biāo)簽也是實(shí)踐中常用的鸦采。
三宾巍、如何構(gòu)建標(biāo)簽體系?
1.確定對象
進(jìn)行標(biāo)簽建設(shè)渔伯,首先要清楚對哪類對象建設(shè)標(biāo)簽顶霞,也就是確定對象。對象是客觀世界中研究目標(biāo)的抽象咱旱,有實(shí)體的對象确丢,也有虛擬的對象。在企業(yè)經(jīng)營過程中可以抽象出非常多的對象吐限,這些對象在不同業(yè)務(wù)場景下交叉產(chǎn)生聯(lián)系鲜侥,是企業(yè)的重要資產(chǎn),需要全面刻畫了解诸典。
經(jīng)過對多個行業(yè)描函、多個標(biāo)簽體系建設(shè)經(jīng)驗(yàn)的總結(jié),可把對象分為“人”“物”“關(guān)系”三大類狐粱。三種對象是不一樣的舀寓,“人”往往具有主動性和智慧,能主動參與社會活動肌蜻,主動發(fā)揮推動作用互墓,往往是關(guān)系的發(fā)出者〗眩“物”往往是被動的篡撵,包括原料、設(shè)備豆挽、建筑物育谬、簡單操作的工具或功能集合等,是關(guān)系的接收者帮哈。當(dāng)常規(guī)意義上的設(shè)備具有了充分的人工智能膛檀,變成了機(jī)器人,那么它就屬于“人”這一類對象】校“人”和“物”是實(shí)體類的對象泳炉,即看得到、摸得著的對象嚎杨,而“關(guān)系”屬于一種虛擬對象胡桃,是對兩兩實(shí)物實(shí)體間的聯(lián)系的定義。因?yàn)殛P(guān)系很重要磕潮,企業(yè)大多數(shù)情況下反而是在對關(guān)系進(jìn)行定義、反復(fù)發(fā)生容贝、記錄自脯、分析、優(yōu)化斤富,因此需要“關(guān)系”這種對象存在膏潮,對關(guān)系進(jìn)行屬性描述和研究。關(guān)系按照產(chǎn)生的動因不同满力,又分為事實(shí)關(guān)系和歸屬關(guān)系焕参,事實(shí)關(guān)系會產(chǎn)生可量化的事實(shí)度量,歸屬關(guān)系只是一種歸屬屬性油额。
明確了對象的定義和分類叠纷,就可以根據(jù)業(yè)務(wù)的需要確定要對哪些對象建立標(biāo)簽體系。基于內(nèi)容的對象非常多潦嘶,不可能對所有對象都建立獨(dú)立的標(biāo)簽體系涩嚣,一般我們會根據(jù)業(yè)務(wù)流量的需求,稿件數(shù)量的多少掂僵,類目的相似性航厚,類目間的關(guān)系進(jìn)行排名,確定標(biāo)簽的優(yōu)先級和必要性锰蓬。
2.設(shè)計框架
一般來說幔睬,互聯(lián)網(wǎng)產(chǎn)品需要使用的標(biāo)簽類目數(shù)量非常龐大,當(dāng)標(biāo)簽項(xiàng)超過一定數(shù)量時芹扭,業(yè)務(wù)人員要使用或查找標(biāo)簽就開始變得麻煩麻顶,管理標(biāo)簽也會變得困難。因此筆者借鑒了圖書管理學(xué)中的經(jīng)典方法:海量圖書需要有專門的圖書分類體系對書本進(jìn)行編號并按照編號分柜排放冯勉,閱讀者在查閱圖書時只需要按編號索引即可快速找到自己所需圖書澈蚌,圖書管理員也可以方便、有效地理清所有圖書狀況灼狰。
構(gòu)建標(biāo)簽類目體系首先需要確定根目錄宛瞄。根目錄就是上文提到的對象,因此有三大類根目錄:人、物份汗、關(guān)系盈电。根目錄就像樹根一樣直接確定這是一棵什么樹。
如果根目錄是人杯活,即這個標(biāo)簽類目體系就是人的標(biāo)簽類目體系,每個根目錄都有一個識別列來唯一識別具體對象旁钧。人這種大類下包括自然人和企業(yè)法人兩種亞根吸重,同時自然人群體或企業(yè)法人群體也可以認(rèn)為屬于人的對象范疇內(nèi)歪今,也是亞根。自然人實(shí)例可以有消費(fèi)者寄猩、員工嫉晶、加盟商等,因此可以形成消費(fèi)者的標(biāo)簽類目體系田篇、員工的標(biāo)簽類目體系替废、加盟商的標(biāo)簽類目體系。同樣法人也可以細(xì)分為實(shí)體公司泊柬、營銷公司椎镣、運(yùn)輸公司等。從最大的“人”根目錄彬呻、到“自然人/法人/自然人群體/法人群體”亞根衣陶,再到實(shí)例“用戶/員工/加盟商”,都屬于根目錄的范疇闸氮。
根據(jù)類似的方式剪况,也可以將物細(xì)分為“物品”“物體”“物品集合”“物體集合”等亞類,各亞類下也可以細(xì)分根蒲跨;關(guān)系也可以細(xì)分“關(guān)系記錄”“關(guān)系集合”译断。
標(biāo)簽類目體系是對業(yè)務(wù)所需標(biāo)簽采用類目體系的方法進(jìn)行設(shè)計、歸屬或悲、分類孙咪。類目體系本身是對某一類目標(biāo)物進(jìn)行分類、架構(gòu)組織巡语,分類通常使用一級類目翎蹈、二級類目、三級類目等作為分類名男公。
類目結(jié)構(gòu)可以用樹狀結(jié)構(gòu)來比擬荤堪,根上長出的第一級分支,稱為一級類目;從第一級分支中長出的第二級分支澄阳,稱為二級類目拥知;從第二級分支中長出的第三級分支,稱為三級類目碎赢。一般類目結(jié)構(gòu)設(shè)為三級分層結(jié)構(gòu)即可低剔。沒有下一級分類的類目叫葉類目,掛在葉類目上的具體葉子就是標(biāo)簽肮塞。
需要注意的是襟齿,類目框架的建設(shè)一般是基于業(yè)務(wù)展開的,因?yàn)轭惸矿w系存在的核心意義即為幫用戶快速查找枕赵、管理數(shù)據(jù)/標(biāo)簽蕊唐。
下圖為某銀行構(gòu)建的客戶標(biāo)簽類目體系,其中客戶是根目錄烁设,會由custom_id來進(jìn)行唯一識別,根目錄下有“基本特征”“資產(chǎn)特征”“行為特征”“偏好特征”“價值特征”“風(fēng)險特征”“營銷特征”等一級類目钓试∽昂冢“基本特征”一級類目下又分“ID信息”“人口統(tǒng)計”“地址信息”“職業(yè)信息”等二級類目」“地址信息”二級類目下再細(xì)分為“賬單地址”“家庭地址”“工作地址”“手機(jī)地址”等三級類目恋谭。“賬單地址”三級類目下掛有“賬單詳細(xì)地址”“賬單地址郵編”“賬單地址所在省”等標(biāo)簽挽鞠。
標(biāo)簽類目設(shè)計完成疚颊,整個標(biāo)簽體系的框架就有了,接下來要做的就是往每個葉類目下填充有業(yè)務(wù)價值并且可以加工出來的標(biāo)簽信认,進(jìn)而完成整個標(biāo)簽體系的設(shè)計材义。
3.填充內(nèi)容
通過標(biāo)簽類目設(shè)計,已經(jīng)有了某類對象的標(biāo)簽體系框架嫁赏,只是還沒有具體的標(biāo)簽內(nèi)容其掂。標(biāo)簽設(shè)計就是設(shè)計合適的標(biāo)簽并將其掛載到標(biāo)簽類目。在這一部分潦蝇,筆者將盡量脫離技術(shù)視角款熬,從產(chǎn)品視角出發(fā),剖析如何“制作標(biāo)簽”攘乒。
首先贤牛,是如何拆解內(nèi)容。對內(nèi)容的拆解首先還是分為三個部分:“用戶”“內(nèi)容”“關(guān)系”则酝,作為根目錄殉簸。接下來,關(guān)于“人”這個部分,我們可以拆分為:人口屬性喂链、興趣屬性返十、行為偏好、發(fā)表時間等椭微;同理洞坑,關(guān)于內(nèi)容,我們可以拆分成“統(tǒng)計類”蝇率、“質(zhì)量類”迟杂、“向量類”。接著本慕,我們再對二級類目進(jìn)行拆分排拷,比如“統(tǒng)計類”中包含“點(diǎn)擊率”“時長”“完播率”“轉(zhuǎn)評贊”“跳出率”等。
要特別注意的是锅尘,往常習(xí)慣給別人打標(biāo)簽监氢、貼標(biāo)簽的動作,其實(shí)不是在設(shè)計標(biāo)簽藤违,而是在設(shè)計特征值浪腐。例如對某個人的定義“女、20~30歲顿乒、白領(lǐng)议街、活潑開朗”,分別是性別璧榄、年齡段特漩、職業(yè)、性格標(biāo)簽的具體特征值骨杂。
這些特征會進(jìn)行一定的交叉涂身,賦予這個特征更多的含義。比如說使用用戶畫像和內(nèi)容畫像做交叉搓蚪,可以得到用戶的長短期的興趣匹配访得、Session興趣泛化匹配、用戶年齡對于某些內(nèi)容類別的偏好陕凹、用戶性別對于某些內(nèi)容類別的偏好等悍抑。如果拿用戶特征與請求的上下文進(jìn)行特征的交叉,則會得到用戶常駐地在什么地方杜耙、用戶的興趣隨時間的變化搜骡,比如有的用戶會在早上看新聞,而在晚上看一些娛樂類的資訊佑女;還有一些場景的刻畫记靡,如用戶喜歡在地鐵上看視頻谈竿,而在辦公的時候喜歡看圖文。通過這些特征值組合摸吠,我們可以盡可能高效地對用戶群進(jìn)行劃分空凸,從而實(shí)現(xiàn)內(nèi)容的精準(zhǔn)分發(fā)。
現(xiàn)在寸痢,我們知道了如何建設(shè)標(biāo)簽體系以及如何通過標(biāo)簽體系對用戶群進(jìn)行劃分呀洲,但想要做好標(biāo)簽,我們不僅要從需要解構(gòu)技術(shù)啼止,還要立足于“好的內(nèi)容”道逗。在這一部分,筆者將通過運(yùn)營&創(chuàng)作者的視角簡單分析如何制作“好的標(biāo)簽”献烦。
要想制定能夠打動人心的標(biāo)簽滓窍,首先要了解用戶,切中他們的痛點(diǎn)巩那。
如何才能了解用戶吏夯?一種辦法是角色轉(zhuǎn)換,換位思考即横,把自己看作用戶锦亦,而且是什么都不懂的“小白用戶”,以這樣的視角去看問題令境、去思考。
舉個例子顾瞪,你作為一個UP主舔庶,接了一份宣傳“降噪耳機(jī)”的營銷單,你的任務(wù)是讓用戶下單陈醒,完成內(nèi)容的價值轉(zhuǎn)化惕橙。思考一下,該怎么設(shè)計這個故事钉跷?
下面的一段參考文案:你在銀行做經(jīng)理弥鹦,維護(hù)客戶關(guān)系很艱難,你的職位不上不下爷辙。你有房貸和車貸彬坏,每月按揭五千元。你孩子的數(shù)學(xué)成績不好膝晾。你老婆在市人民醫(yī)院做護(hù)士栓始,她母親有尿毒癥并透析多年,她不愛你血当。你年輕的時候覺得能成一番事業(yè)幻赚,但現(xiàn)在也就這樣禀忆,朋友們混得都比你好。生活太糟了落恼,你需要一個獨(dú)立的環(huán)境抒發(fā)情緒箩退,這時候你戴上了降噪耳機(jī)。
這就是一個典型的“用戶視角”佳谦,它描述的是一個場景戴涝,它讓你一邊看一邊產(chǎn)生強(qiáng)烈的代入感,不由自主受到內(nèi)容的感染吠昭,產(chǎn)生情緒波動喊括,在情緒的驅(qū)使下完成下單的行為,實(shí)現(xiàn)價值轉(zhuǎn)化矢棚。
除了上面這種基于內(nèi)容體驗(yàn)的打標(biāo)方法郑什,還有另一種方式,也就是我們之前提過的“特征值”蒲肋,基于算法生成的高精度內(nèi)容標(biāo)簽蘑拯,一般是基于視頻幀、標(biāo)題兜粘、作者申窘、內(nèi)容屬性、地理屬性孔轴、時間等剃法。這些由算法生成的內(nèi)容標(biāo)簽可以替換人工標(biāo)注,從而節(jié)省人力成本路鹰,提高內(nèi)容標(biāo)簽生產(chǎn)效率贷洲。目前的內(nèi)容標(biāo)簽技術(shù),其精度已經(jīng)達(dá)到了90%以上晋柱,通過算法對內(nèi)容的分析自動生成一些標(biāo)簽值优构。
比如上面這個視頻,所生成的標(biāo)簽值就可能是“中華田園犬”“農(nóng)村”“百萬播放”“狗”“華農(nóng)兄弟”“萌寵”“動物”等雁竞。
經(jīng)過對象確定钦椭、框架設(shè)計、類目設(shè)計碑诉、標(biāo)簽設(shè)計彪腔、打標(biāo)這幾個步驟,我們就完成了整個標(biāo)簽體系的建設(shè)进栽,文章寫得比較簡單漫仆,全當(dāng)拋磚引玉。
四泪幌、一些問題
在標(biāo)簽體系落地的過程中我們還會遇到很多問題盲厌,以下幾個問題也是筆者一直在思考的署照。如果有任何好的建議可以加筆者微信一起交流:shmusk
內(nèi)容的時效性:任何一個內(nèi)容,包括視頻或者圖文吗浩,是有生命周期在里面的建芙,內(nèi)容有長有短,其中預(yù)測一個內(nèi)容的生命周期是一個挺難的事情懂扼,不論通過算法也好或者其它技術(shù)也好禁荸;假設(shè)我們已經(jīng)知道內(nèi)容的生命周期,如何在有效的周期內(nèi)給予內(nèi)容有效的曝光量阀湿,也是個很難的問題赶熟。如何Balance這兩個問題,時效性是非常重要的陷嘴,因?yàn)檫^了內(nèi)容的生命周期映砖,再給用戶推薦,是沒有意義的灾挨,用戶體驗(yàn)會非常差邑退。
內(nèi)容質(zhì)量的判定:怎樣判定一個內(nèi)容質(zhì)量到底是好還是壞,好的標(biāo)準(zhǔn)到底是什么劳澄,以及我們?nèi)绾稳ソ5丶迹绻梢越#卣魇鞘裁疵氚危约拔覀兊哪P腿绾斡行У睦锰卣魅ヅ袆e莫矗?
冷啟動問題:分為內(nèi)容冷啟動與用戶冷啟動。內(nèi)容冷啟動就是一個新內(nèi)容進(jìn)入平臺砂缩,沒有被分發(fā)出來作谚;而用戶冷啟動就是一個新的用戶,交互數(shù)據(jù)和行為非常的稀疏梯轻,如何做比較好的推薦、能夠引導(dǎo)進(jìn)行后續(xù)更加稠密的交互尽棕,增加粘性喳挑,以此來提升用戶體驗(yàn),更好的滿足用戶的需求滔悉?