前言
不管你是一個什么樣的社會角色峰髓,在數(shù)據(jù)橫行霸道的這個時代,面對充斥著屏幕的巨型體量的數(shù)據(jù)信息,你該怎么管理探膊?無奈的面對等待挑選的信息般眉,你該如何選擇?
如果說這些數(shù)據(jù)被定義好了正確的屬性,明確的內(nèi)容特征巷折,這時候是不是就解決了我面對數(shù)據(jù)時的無奈和尷尬。
舉個栗子
畫風(fēng)突變一下
來來來崖咨,我們來聊聊各種文胸锻拘;
今天在公司做運營培訓(xùn),多次提到文胸這個生活必需品击蹲,我們就拿它來搞事情署拟。
案例背景是這樣的:小張、楊先生歌豺、李先生同去內(nèi)衣店(為什么是同去推穷?搞事情啊)
小張:萬年單身宅男世曾,沒交過女朋友缨恒,誰知道他為什么要去內(nèi)衣店買文胸,進店后低著頭說要普通文胸轮听,黑色的骗露。
楊先生:跟女朋友如膠似漆(不是我),打算趁熱打鐵血巍,送女朋友個禮物萧锉,要一套性感的情趣內(nèi)衣,升級一下男女之間的革命友誼述寡,大小暫時還不知道柿隙,要聚攏的,最好是黑色或紅色的鲫凶,有蕾絲禀崖,V型款式晚上回去不可描述...
李先生:老婆下班前打電話,內(nèi)衣壞了螟炫,你下班早波附,愛我就去幫我買個內(nèi)衣,大小你知道昼钻,顏色素一點掸屡,無痕的,后雙排搭扣然评。
小張仅财、楊先生、李先生碗淌,他們到內(nèi)衣店會懵逼的盏求,好多品種抖锥,好多顏色,布料不多风喇,形式不少宁改;怎么挑啊... ...
讓開讓開讓開,我來了(假裝我是賣內(nèi)衣的)
我們要做的就是怎么幫助迷失在文胸中的男性同胞們魂莫,提供一個快速定位的解決方案还蹲!
怎么做這個解決方案呢?
文胸那么多耙考,我們對文胸規(guī)整分類谜喊、標屬性呀。
站在商家角度:
1倦始、化分類
文胸斗遏、情趣內(nèi)衣、少女文胸鞋邑、抹胸诵次、塑身美體...
2、標屬性
有無鋼圈:無鋼圈枚碗、有鋼圈
胸圍尺碼:70A,70B,70C,70D... ...
模杯厚度:薄模杯逾一、上薄下厚模杯、超薄杯... ...
適合胸型:小胸肮雨、大胸遵堵、外擴... ...
罩杯型:3/4罩杯、全罩杯怨规、背心式... ...
功能:聚攏陌宿、無痕、調(diào)整波丰、上托... ...
搭扣:后四排搭扣壳坪、后三排搭扣、后雙排搭扣... ...
使用季節(jié):春季掰烟、夏季弥虐、秋季、冬季媚赖、全季... ...
有無鋼托:無鋼托、有鋼托
款式:V型珠插、U型惧磺、背心型... ...
... ...
站在數(shù)據(jù)角度
1、分類
分類是一個將思想或事物進行識別捻撑、差異化和理性化的過程磨隘,他是對事物集合的一個寬泛的描述整理缤底。
就如同上面我們將各種文胸首先按應(yīng)用類型進行歸類一樣。
分類是抽象化番捂,大綱級別个唧。
2、標簽
對應(yīng)就是我們上面說的屬性设预,他是對分類的進一步細分徙歼,是對商品的更加細化的描述。
標簽是實例化鳖枕,關(guān)鍵詞級別魄梯。
我們將所有文胸進行了分類化、標簽化宾符,其實就是在數(shù)據(jù)概念里對資源的清洗酿秸、整理、特征提取魏烫。重新被明確特征后辣苏,我們想要找到目標資源還會手足無措么?
章節(jié)
一哄褒、Tag & Tagging
Tag:是對信息進行描述的一種元數(shù)據(jù)稀蟋;
元數(shù)據(jù)是所謂描述數(shù)據(jù)/信息的數(shù)據(jù);Tag是一種被普通用戶或?qū)<叶x的读处,能夠用來對資源進行描述的一種關(guān)鍵詞糊治。Tag是一種用戶自創(chuàng)的元數(shù)據(jù),特點是無層次結(jié)構(gòu)罚舱、自定義井辜。
Tagging:是用戶為資源進行賦予Tag的一種行為。
tag這種設(shè)計管闷,是http://del.icio.us開發(fā)者Joshua Schachter最早采用的粥脚,Joshua也曾經(jīng)解釋過,為什么他要用tag包个。
摘錄如下:
據(jù)Joshua介紹刷允,1998年他在做一個網(wǎng)站時,手頭有大量鏈接需要保存碧囊,最初這些鏈接是被保存在一個文件中树灶。隨著保存的內(nèi)容越來越多,為了更快捷地找到某個鏈接糯而,他開始在鏈接后面加上單詞的備忘天通,這就是后來的標簽(Tags)。
他說熄驼,“我希望借助電腦的幫助像寒,把存儲和取回分成兩個獨立的行為烘豹,因此當(dāng)你給你存儲的東西加上tags,你就可以更容易地取回它們诺祸。在這么做的時候携悯,你取回其他人存儲的東西也會變得更簡單。tags促進并放大了這一點筷笨°竟恚”
Delicious,F(xiàn)likr等隊標簽的應(yīng)用促進了標簽的快速發(fā)展奥秆,現(xiàn)在已經(jīng)成為了我們常見的對內(nèi)容描述的功能逊彭。
圖書館學(xué)者們很快發(fā)現(xiàn),隨著在社會化網(wǎng)站中tag被大量采用构订,它成為傳統(tǒng)的本體論分類方式之外的一種新的分類方式侮叮,群體行為在某些情況下具有驚人的一致性,這種一致性產(chǎn)生了對事物的有意義的社會定義悼瘾。這種新的分類方式囊榜,被稱為“大眾分類”(folksonomy)。
精確性亥宿、唯一性卸勺,我們都習(xí)慣于傳統(tǒng)信息組織的這些特性;這些特性常常會使用戶對tag的理解上造成誤區(qū)烫扼,我們會將傳統(tǒng)信息組織的特性來要求大眾分類曙求,這就有點像傳統(tǒng)數(shù)學(xué)家對解模糊數(shù)學(xué)的某種抵觸。
我們現(xiàn)在要從一片西瓜地里找出一個最大的西瓜映企,那是件很麻煩的事悟狱。必須把西瓜地里所有的西瓜都找出來,再比較一下堰氓,才知道哪個西瓜最大挤渐。
西瓜越多,工作量就越大双絮。如果按通常說的浴麻,到西瓜地里去找一個較大的西瓜,這時精確的問題就轉(zhuǎn)化成模糊的問題囤攀,反而容易多了软免。由此可見,適當(dāng)?shù)哪:苁箚栴}得到簡化焚挠。
二或杠、Tagging不是一個萬金油,有利也有弊
關(guān)于標簽這個東西,有人說好向抢,好在他極大地方便了用戶對數(shù)據(jù)的管理,使數(shù)據(jù)更加清晰胚委,讓無序的挟鸠,雜亂的數(shù)據(jù)能夠按指定的規(guī)則進行重整,極大提高了管理的效率和高效的數(shù)據(jù)挑選亩冬;
同樣有人說他不好艘希,Tagging在分眾分類法時,無法保證標簽在數(shù)量和質(zhì)量上的控制硅急,用戶在使用標簽時覆享,質(zhì)量受環(huán)境、心情营袜、理解等各種因素影響撒顿,有造成大量無意義的關(guān)鍵詞的危險,這些低效能的關(guān)鍵詞根本不能達到作為一個標簽的要求荚板。
對于系統(tǒng)而言凤壁,標簽定義的范圍是否需要限制?Tag是否越多越好跪另?尤其困難的就是我們根本無法提前預(yù)知被標簽描述的資源拧抖,將來會發(fā)展成什么樣。
另外免绿,Tagging本身對與用戶來說就是一件具有學(xué)習(xí)成本的事情唧席,用戶本身對信息的描述可能就很陌生。
我們能進行信息組織時嘲驾,主要有兩種:
1淌哟、分眾分類法(folksonomy):指大眾自發(fā)利用Tag對信息進行描述、分類距淫,構(gòu)成與信息架構(gòu)中绞绒。
2、傳統(tǒng)分類法(taxonomy):以專家意見或行業(yè)規(guī)則定義的榕暇,大眾共識的一種標記方法蓬衡。
二者區(qū)別見下圖:
圖片來自網(wǎng)絡(luò)
Tagging的優(yōu)勢
結(jié)合vs圖的對比,可歸納出Tagging的以下好處:
1彤枢、使信息組織更經(jīng)濟狰晚、高效、靈活
我們描述的資源處在一個高速成長缴啡,持續(xù)復(fù)雜化演進的過程中壁晒,隨著信息越來越多,傳統(tǒng)分類法和分眾分類法的區(qū)別就會越來越明顯业栅;
在高速成長的數(shù)據(jù)體量下秒咐,傳統(tǒng)分類法的劣勢愈發(fā)明顯:開發(fā)谬晕、維護的成本不斷增加;而基于標簽携取、運用普通用戶來維護的分類法則相反攒钳;
更明顯的是在當(dāng)下的社會環(huán)境中,針對各個行業(yè)雷滋,數(shù)據(jù)越來越體現(xiàn)個性化不撑,因為個人產(chǎn)生的數(shù)據(jù)越來越多,系統(tǒng)的分類晤斩、描述能力和效率可說遠不如內(nèi)容創(chuàng)造者本身焕檬。
2、對信息的索引澳泵、描述更豐富
a.傳統(tǒng)分類法中因為控制詞表(thesaurus)的存在实愚,限定了嚴謹?shù)囊?guī)則標準,Tag固然沒有傳統(tǒng)分類的嚴謹烹俗,但一個資源是可以持續(xù)被無窮多個用戶進行無窮多個標簽的描述爆侣,在標簽被重復(fù)描述到資源的過程中,大眾對于資源的認知總會趨于幾個大眾方向幢妄,人們對資源的理解在數(shù)量上爆炸后總會驚人地趨于一致兔仰,這時候針對標簽的搜索就有了不次與傳統(tǒng)分類的獲取。
在針對一些圖片蕉鸳、視頻乎赴、音頻進行描述標注時,傳統(tǒng)分類的成本極高潮尝、效率更低榕吼,這時候Tagging的價值就會越發(fā)明顯。
b.Tag是一個開放的資源描述勉失,這種描述的關(guān)鍵詞一般是具備共享性質(zhì)的羹蚣,其分布往往呈長尾狀收斂(Shirky, C. 2005)。
給個標簽及其使用頻率乱凿,既可以反映大眾對于資源認知上廣泛一致性的定義顽素,又不至于讓小眾意見(minority opinion)完全被淹沒。
兩條deli.cio.us書簽的Tag頻率分布
圖片來自網(wǎng)絡(luò)
3徒蟆、更人性化的信息檢索
標簽的應(yīng)用最終優(yōu)化的是搜索過程的高性能和結(jié)果的高匹配度胁出,以及獲取更多資源的可能性;
當(dāng)資源的種類和內(nèi)容不斷豐富(如Flikr的所有相片段审、Youtube的所有video)全蝶,資源的接觸點更多了,通過接觸點用戶對資源的描述也越加豐富,最終用戶在海量的信息當(dāng)中進行資源搜索時抑淫,也就能有更多的機會獲得與搜索預(yù)期匹配的內(nèi)容绷落。利用大眾對資源的理解,和描述的不斷豐富始苇,來讓搜索更加語義化嘱函、人性化、社會化埂蕊。
小結(jié):
以上描述的都是標簽在#社會性#上的優(yōu)勢,標簽在標引信息時的一大特點在于#自我性#疏唾。
Golder et al(2006)提出Tag大致在描述信息的7方面:
1蓄氧、它關(guān)于什么(主題、分類槐脏、屬性等)
2喉童、它是什么(標題、類型等)
3顿天、誰擁有它(作者堂氯、協(xié)作者)
4、修飾Tag的Tag
5牌废、它的品質(zhì)(有趣咽白、雷人等)
6、自我參考(我買過的鸟缕、我的書等)
7晶框、任務(wù)管理(待讀、找工作等)
標簽因其高度自定義的特性懂从,使用戶在使用標簽時授段,能夠更加個性化地去描述資源,每個人對于資源的理解差異番甩,需要這種個性化的支持來滿足用戶的理解差異侵贵。從最后3條我們就可以看出自我性的影子,
這種自我性帶來的好處是
1缘薛、輔助個人信息管理
同樣因為標簽的自定義特性窍育,使用戶可以對資源進行個性化的描述,使用戶的使用場景(context)成為資源描述的一部分掩宜,例如:我喜歡這首歌蔫骂,我想買這個手辦,這類標簽時傳統(tǒng)分類所無法支持的牺汤。
2辽旋、用戶識別
2.1當(dāng)標簽被頻繁關(guān)聯(lián)到用戶,我們通過標簽就可以更加清楚地認識到我們的用戶,是一個什么樣的畫像补胚,我們就可以針對用戶進行個性化的推薦码耐,或營銷活動的精準化。
例如:用戶經(jīng)常性的聽一些歌曲溶其,這些歌曲都帶有#古典樂#標簽骚腥,我們通過用戶的聽歌行為,可以分析出用戶的個人偏好瓶逃;
網(wǎng)易音樂的個性化推薦
2.2同樣束铭,如果一些標簽被直接定義在用戶身上,我們也可以直接讀取到用戶的標簽形態(tài)厢绝,對用戶進行一個清晰的認知契沫。
某營銷云軟件
Marlow et al (2006)與Ames & Naaman(2007)曾探討用戶Tagging的動機,表現(xiàn)出社會性與自我性的結(jié)合
標簽社會性昔汉、自我性的特點又會帶來另外一個優(yōu)勢:社會化網(wǎng)絡(luò)的構(gòu)建
標簽總是有能力將人或物進行聚合懈万。
從單體角度講,標簽可以具象一個用戶的特征屬性靶病,讓用戶更清晰会通。
從群體角度講,標簽?zāi)軐⑺袉误w聚合成一個團體娄周。
舉個例子:
例如Flikr上一個語法錯誤涕侈、表意模糊的Tag,sometaithurts(so meta it hurts昆咽,如此“元級別”驾凶,如此痛),卻聚集了來自各色用戶的各色相片掷酗。
Tagging的弊端
Tagging最為人所詬病的特性有:缺乏一致性调违、歧義、語法錯誤泻轰。
這是由于與專家相比:
大眾是“懶惰”的:Tagging可能停留在粗淺的表層技肩,而不做深入思考或精準描述。尤其當(dāng)Tag與系統(tǒng)固有分類維度重合的時候浮声,就會失去價值虚婿。
例如為豆瓣上的電影打上“電影”這個Tag的意義是零。
大眾是“虛偽”的:有人會為了讓自己出現(xiàn)在搜索結(jié)果更前面等目的而亂Tag泳挥;
大眾很“笨”:拼寫問題:除了拼錯字詞然痊,英文里詞組的分隔、大小寫屉符、單復(fù)數(shù)等就會造成大量混亂的Tag剧浸;
沒記性:表現(xiàn)為個人在同一系統(tǒng)中使用不一致的Tag(如字面相異锹引,意義相同等)來標注同一或相似內(nèi)容。
這些都會導(dǎo)致大量污染性的垃圾Tag唆香,即所謂搜索結(jié)果中的噪音出現(xiàn)嫌变,從而降低檢索效率。
但這并非Tagging的致命傷躬它,通過設(shè)計的引導(dǎo)是可以改善這些問題的腾啥。
二、Tagging系統(tǒng)
Tagging系統(tǒng)模型
Marlow et al (2006)提出一個Tagging系統(tǒng)模型冯吓,包括資源倘待、Tag、用戶三部分组贺,它們的關(guān)系如圖:
一方面延柠,標簽可以同時用來描述多個資源,這些統(tǒng)一標簽描述的資源彼此具有相似性锣披,標簽促使資源之間產(chǎn)生聯(lián)系;
另一方面贿条,資源可以被多個標簽進行描述雹仿,多維度的標簽描述使得資源更加立體,標簽的豐富性使得資源個輪廓更加清晰整以。
站在用戶的角度胧辽,通過標簽對用戶個性化的描述,更容易使用具有相同屬性的用戶聚集到一起公黑,形成細分的概念邑商,便于形成用戶團體的社會化人群,或者方便企業(yè)更加精準的針對人群進行營銷活動的觸達凡蚜。
針對模型相應(yīng)的設(shè)計維度
Tag清理維護
你能保證系統(tǒng)里的標簽都是用戶真正感興趣的么人断?高度的標簽自由度讓我們對這一點沒有說yes的勇氣。
舉個例子:
在一個視頻網(wǎng)站中朝蜘,用戶可能對一個視頻賦予了一個表示情緒的標簽恶迈,比如“不好笑”(no funny)。
但我們不能因此認為用戶對“不好笑”有興趣谱醇,并且給用戶推薦其他具有“不好笑”這個標簽的視頻暇仲。
相反,如果用戶對視頻打過“成龍”這個標簽副渴,我們可以據(jù)此認為用戶對成龍的電影感興趣奈附,從而給用戶推薦成龍其他的電影。
標簽控制
在標簽不斷豐富的過程中煮剧,系統(tǒng)內(nèi)標簽的體量會越來越大斥滤,站在系統(tǒng)的角度來看将鸵,面對越發(fā)泛濫的的Tag我們什么都不做么?
Gruber (2006)提出通過Tag內(nèi)在的規(guī)范名(Canonical Name)對字面各異中跌、實質(zhì)相同的Tag進行清理咨堤。
如通過算法將User Experience, UX, user_experience在系統(tǒng)內(nèi)部統(tǒng)一為規(guī)范名User Experience。
無論用戶輸入的是哪個形式的Tag漩符,系統(tǒng)都將返回所有的結(jié)果一喘。
標簽清洗
在標簽體系形成一定體量后,結(jié)合傳統(tǒng)的機器索引嗜暴、專家人工干預(yù)凸克,等一切我們能夠提高標簽質(zhì)量、控制標簽數(shù)量的手段闷沥,進行適當(dāng)?shù)臉撕炃謇砦健⒕酆?/p>
主要有三點:
去除詞頻很高的停止詞。
去除因詞根不同造成的同義詞舆逃,比如 recommender system和recommendation system蚂维。
去除因分隔符造成的同義詞,比如 collaborative_filtering和collaborative-filtering路狮。
注:
停止詞:是由英文單詞:stopword翻譯過來的虫啥,原來在英語里面會遇到很多a,the奄妨,or等使用頻率很多的字或詞涂籽,常為冠詞、介詞砸抛、副詞或連詞等评雌。
Tag規(guī)范
1、提供推薦tag建議直焙,盡量引導(dǎo)用戶規(guī)范輸入景东。
推薦選擇+客戶強制輸入
如羅列個人常用Tag,他人常用高頻Tag奔誓,系統(tǒng)默認的推薦標簽耐薯,可有效減少拼寫相異語義重復(fù)的Tag,提高Tag之間關(guān)聯(lián)性丝里,并可減輕用戶思考負擔(dān)曲初。
根據(jù)用戶的標簽歷史對用戶進行高頻、高質(zhì)的標簽直接添加(感興趣標簽)
根據(jù)用戶輸入內(nèi)容杯聚,進行盡可能的內(nèi)容匹配臼婆,引導(dǎo)用戶對現(xiàn)有標簽的選擇,盡可能控制標簽的數(shù)量
2幌绍、自定義標簽與系統(tǒng)標簽并存颁褂,自定義標簽轉(zhuǎn)化為系統(tǒng)標簽故响。
a自定義標簽轉(zhuǎn)化為系統(tǒng)標簽
b自定義標簽自身通過事件模型進行目標搜索
3、對用戶Tag進行評級颁独,Tag擁有權(quán)重體系彩届。
#草稿#
權(quán)限最終應(yīng)當(dāng)是通過計算得出,不能簡單的通過客戶配置簡單數(shù)字來實現(xiàn)
規(guī)則
標簽作用范圍(優(yōu)惠碼誓酒、人...)樟蠕、使用頻次(被打到資源上的次數(shù))、使用時間(最近使用時間)靠柑、標簽作用資源被產(chǎn)生的行為(商品被購買...)
舉例:
品牌有 蘋果寨辩、三星
蘋果被用來描述電腦+手機+pad...
三星被用來描述手機、顯示器...
蘋果被應(yīng)用過歼冰,蘋果權(quán)重+1靡狞,權(quán)重為1;三星沒有被應(yīng)用過隔嫡,權(quán)重0甸怕;權(quán)重蘋果高于三星
蘋果電腦被買過2,權(quán)重+2腮恩,權(quán)重為3蕾各;三星被應(yīng)用過,權(quán)重為1庆揪,權(quán)重蘋果高于三星
1.7能搜索模糊搜索出標簽+使用頻次權(quán)重就行
End吧
Tag以及Tagging的社會性、自我性妨托,能幫助實現(xiàn)個人化缸榛、社會化、情景化搜索
但前提是:
有更成熟的Tagging系統(tǒng)構(gòu)建兰伤。
底層技術(shù)上内颗,目前對于垃圾Tag的收斂、清理敦腔,做得不夠均澳,也尚未良好地結(jié)合傳統(tǒng)分類與大眾分類。
UI上符衔,尚未實現(xiàn)有效引導(dǎo)用戶去Tag系統(tǒng)已有維度之外找前、更具附加值的維度。
如在豆瓣上打“友情”這個Tag是有價值的判族,但打“電影”就無甚價值了躺盛。
賣文胸的,我們來談?wù)労献靼尚伟铮覀冏鰳撕灥摹?/p>
注:部分圖片內(nèi)容引用自網(wǎng)絡(luò)
2016-12-17 22:24