現(xiàn)在談這個(gè)問(wèn)題可能會(huì)讓大家笑話先誉,似乎所有人都知道大數(shù)據(jù)能干這個(gè),能干那個(gè)的烁,最后連我們自己都覺得可笑褐耳。大數(shù)據(jù)已經(jīng)都不是被“妖魔化”了,是“娛樂(lè)化”渴庆。大數(shù)據(jù)似乎是個(gè)離我們忽遠(yuǎn)又忽近的事物了铃芦,變得不真實(shí)起來(lái)雅镊。
近兩年來(lái),大數(shù)據(jù)被應(yīng)用到影視制片行業(yè)刃滓,基于對(duì)觀眾偏好的分析仁烹,去預(yù)測(cè)、設(shè)計(jì)觀眾喜歡的劇情注盈,找觀眾喜愛的演員出演相關(guān)的角色晃危,甚至可以去預(yù)測(cè)票房叙赚。這些所有的預(yù)測(cè)都是基于數(shù)據(jù)的基礎(chǔ)上老客,經(jīng)過(guò)一定的模型處理,得到接近真實(shí)的結(jié)論震叮。從某種程度上給決策者決策的依據(jù)胧砰,比如《紙牌屋》和《星星》。
大數(shù)據(jù)還有一個(gè)重要的作用苇瓣,就是解決人們的“選擇”問(wèn)題尉间。別笑,無(wú)論你的年齡击罪、性別哲嘲、教育背景,人們目前都面臨著前所未有的選擇問(wèn)題媳禁。講的學(xué)術(shù)一些眠副,這是由于“長(zhǎng)尾效應(yīng)”導(dǎo)致的問(wèn)題;講得通俗一些,就是由于日益增多的可選擇的對(duì)象和我們自身的處理能力之間的矛盾竣稽。
科技的進(jìn)步讓人變得更懶囱怕,也就是我們自身的處理能力降低,無(wú)論是主觀的還是客觀的毫别。而可被選擇的對(duì)象卻在日益增多娃弓。從紛繁復(fù)雜的商品(電商),到海量曲庫(kù)中的樂(lè)曲;從婚戀網(wǎng)站的男女朋友岛宦,到交通管理的信號(hào)燈台丛。
基于人工智能下的大數(shù)據(jù),就是可以使人們“變懶”的一個(gè)手段砾肺⊥烀梗基于你的歷史行為,判斷出你可能的喜好债沮,乃至需求炼吴,將最佳結(jié)果,推薦給你疫衩。這就是大數(shù)據(jù)硅蹦,她是你的貼心管家,或者說(shuō)是最懂你的朋友。
不要以為是海量數(shù)據(jù)就一定會(huì)有價(jià)值童芹,在過(guò)往的工作中涮瞻,我們經(jīng)常發(fā)現(xiàn)來(lái)自甲方的數(shù)據(jù)源有80-90%的數(shù)據(jù)都是無(wú)用的。只有10%-20%的數(shù)據(jù)才會(huì)產(chǎn)生一定的價(jià)值假褪。這就又讓我想到Marry
Meeker打的那個(gè)比喻署咽,“大數(shù)據(jù)的工作就像在一堆稻草中尋找一根針”。
何況生音,大多數(shù)領(lǐng)域本身業(yè)務(wù)屬于早期宁否,所擁有的數(shù)據(jù)非常貧乏。冷啟動(dòng)缀遍、稀疏性是大數(shù)據(jù)在諸多領(lǐng)域面臨的挑戰(zhàn)慕匠。
另一方面,對(duì)于不同領(lǐng)域域醇,不同項(xiàng)目台谊,沒(méi)有放之四海而皆準(zhǔn)的算法,必須要根據(jù)具體問(wèn)題具體分析解決譬挚。在實(shí)際的工作中發(fā)現(xiàn)锅铅,不只是不同的領(lǐng)域(如文章推薦與商品推薦),甚至同一領(lǐng)域的不同單元(同屬電商但不同類電商减宣,如母嬰類和服裝類或者奢侈品類)也有所不同盐须。