總結(jié)
- 平臺(數(shù)據(jù)/模型)是眾多公司通用的發(fā)展前后期必然需求
- 應(yīng)對業(yè)務(wù)目標(biāo)/用戶流程的多種建模策略方式,在『線上電商』公司中是共通且模式化的隆判。不同的只是進展程度和技術(shù)細(xì)節(jié)犬庇。
- 一些業(yè)務(wù)應(yīng)用方向和技術(shù)發(fā)展方向的思考。
分點收獲
1.模塊意識
需要有平臺/模塊系統(tǒng)意識侨嘀,目標(biāo)是為了減少重復(fù)低效人力投入臭挽。
詳解:通過參與多家公司關(guān)于數(shù)據(jù)挖掘/機器學(xué)習(xí)的主題分享演講,發(fā)現(xiàn)基本上每家公司都會有一個自己構(gòu)建的平臺(包括對接運營數(shù)據(jù)獲取平臺以及機器學(xué)習(xí)框架平臺)飒炎。大多數(shù)公司的歷史發(fā)展進程是從遇到重復(fù)問題框架多次發(fā)明輪子進而導(dǎo)致浪費人力埋哟,然后為了減少低效人力投入笆豁,進而抽取解決問題過程中可以自動系統(tǒng)化的部分郎汪,形成模塊。這里的模塊概念個人認(rèn)為非常重要闯狱,模塊可以理解為平臺的抽象煞赢。抽取重復(fù)低效部分讓系統(tǒng)去解決,其余的人力就可以投入到開拓性的任務(wù)中哄孤,進而產(chǎn)生更多的價值照筑。(比如:Paypal的SHIFU機器學(xué)習(xí)框架平臺)
借鑒/結(jié)論:數(shù)據(jù)分析平臺和機器學(xué)習(xí)平臺都是發(fā)展過程中至少現(xiàn)有階段的成熟經(jīng)驗。數(shù)據(jù)分析平臺用來支持運營的全套分析瘦陈,解放低效重復(fù)的數(shù)據(jù)類工作產(chǎn)生的低效人力投入凝危。而機器學(xué)習(xí)平臺的產(chǎn)生是由于大規(guī)模重復(fù)構(gòu)建模型的需求導(dǎo)致的必然結(jié)果。相比更重要的是中間階段:如何應(yīng)用數(shù)據(jù)產(chǎn)生業(yè)務(wù)價值晨逝。是連接數(shù)據(jù)分析平臺和機器學(xué)習(xí)平臺的橋梁蛾默。
2. 面對業(yè)務(wù)價值建模&用戶生命周期管理:
針對用戶建模和針對場景建模。
詳解:面對業(yè)務(wù)價值指的是捉貌,以改進業(yè)務(wù)為最終目標(biāo)的模型才是有效的模型支鸡。針對用戶生命周期冬念,針對每一個環(huán)節(jié)形成項目/指標(biāo)進行優(yōu)化。
借鑒/結(jié)論:在唯品會的策略中牧挣,其實可以抽象出來的通用并且比較顯然可以借鑒的策略有二急前。
其一,針對用戶建模瀑构。對于用戶的意愿進行預(yù)測裆针。具體的說,可能一種策略就是通過對用戶售前行為的預(yù)測寺晌,預(yù)測用戶對每種產(chǎn)品的意向程度据块,進行針對性的營銷和運營。
其二折剃,針對場景建模另假。可能的一種應(yīng)用策略是通過對用戶售后訂單資源的使用等情況怕犁,來預(yù)測推斷其是否有進一步的需求或者是是否會 產(chǎn)生流失的風(fēng)險边篮。
3. 一些可能的業(yè)務(wù)場景應(yīng)用方向的借鑒
攜程:構(gòu)建知識圖譜和用戶圖譜。
- 用來產(chǎn)生自助問答系統(tǒng)奏甫,解決信息查詢問題戈轿。
- 用來對用戶進行實時意向的分析和跟蹤推薦。
- 用作工單的智能分配阵子。
4.開發(fā)技術(shù)方向的思考
模型構(gòu)建工具的選擇
-
參考了幾家公司的模型構(gòu)建工具選擇思杯,普遍的一個共有選項是H2O,從實踐意義上證明H2O還是有一定優(yōu)勢的挠进。結(jié)合效果上說色乾,選擇H2O會更理想
H2O優(yōu)點:訓(xùn)練效果好,可擴展领突,配置簡單可與hadoop結(jié)合
缺點:初始數(shù)據(jù)的導(dǎo)入比較慢暖璧,模型的調(diào)試需要豐富的經(jīng)驗
特征和模型選擇
- 參考Paypal的經(jīng)驗,在小數(shù)據(jù)量(1M)時君旦,采用簡單的LR和人工特征工程會比較合適澎办。在中等數(shù)據(jù)量(幾百萬)時,采用集成學(xué)習(xí)和自動特征抽取的方式比較合適金砍。在大數(shù)據(jù)量(數(shù)億)時局蚀,采用DNN會效果更好(這點在Andrew的深度學(xué)習(xí)課程上也進行過效果曲線的介紹)
羊毛出在豬身上,打標(biāo)簽的方式思考
- 背景:流利說借用戶的學(xué)習(xí)語音和學(xué)習(xí)視頻對中國人的英語視頻進行打標(biāo)簽恕稠,超低成本的獲取了海量的帶標(biāo)簽的訓(xùn)練數(shù)據(jù)琅绅。
- 借鑒意義:在用戶的屬性標(biāo)簽上,是否也能設(shè)置按鍵根據(jù)用戶的行為來自動為其打上標(biāo)簽谱俭,以減少人工(客服等方式)打標(biāo)簽的成本奉件。
5. 業(yè)務(wù)粘性的一點個人思考
google在2015年10月份開源了其深度學(xué)習(xí)流式框架Tensorflow宵蛀,緊隨其后,2016年年底左右百度也同樣開源了深度學(xué)習(xí)框架PaddlePaddle县貌。其他AT等相繼也開源了深度學(xué)習(xí)框架术陶。但開源的算法其實并不會直接帶來公司的競爭收益。而google的一個做法是開發(fā)了專門用于TF框架運行的TPU煤痕,其訓(xùn)練的效率是傳統(tǒng)GPU之上幾倍梧宫。雖然不確定TPU的出世背后的故事,但從效果來看摆碉,如果一家公司采用了TF框架塘匣,想要在訓(xùn)練和使用上更加有效率,則在云平臺的選擇上巷帝,集合了TPU的google cloud顯然會是更好的選擇忌卤。
免費的算法,收費的硬件楞泼,這樣的互聯(lián)網(wǎng)模式可能會在AI這個角度上增加云平臺對于用戶的粘性驰徊。類比來看,百度對于國內(nèi)其他公司一直有AI算法優(yōu)勢堕阔,但技術(shù)上的優(yōu)勢一直沒有體現(xiàn)到產(chǎn)品變現(xiàn)上棍厂。如果在能打開paddlepaddle的前提下效仿google軟硬件結(jié)合,在云平臺的用戶粘性上應(yīng)該會是很大的優(yōu)勢超陆。相應(yīng)的牺弹,AT等擁有云平臺企業(yè)的軟硬結(jié)合策略也會對平臺用戶粘性產(chǎn)生正面影響。