大數(shù)據(jù):“人工特征工程+線性模型”的盡頭 | 36大數(shù)據(jù)
http://www.36dsj.com/archives/15621
由此可以看出骂澄,特征工程建立在不斷的深入理解問題和獲取額外的數(shù)據(jù)源上吓蘑。但問題是,通常根據(jù)數(shù)據(jù)人能抽象出來的特征總類很有限坟冲。例如磨镶,廣告點擊預測,這個被廣告投放公司做得最透徹的問題樱衷,目前能抽象出來的特征完全可以寫在一張幻燈片里棋嘲。好理解的、方便拿來用的矩桂、干凈的數(shù)據(jù)源也不會很多沸移,對于廣告無外乎是廣告本身信息(標題、正文侄榴、樣式)雹锣,廣告主信息(行業(yè)、地理位置癞蚕、聲望)蕊爵,和用戶信息(性別、年齡桦山、收入等個人信息攒射,cookie、session等點擊信息)恒水。KDDCUP2013騰訊提供了廣告點擊預測的數(shù)據(jù)会放,就包含了其中很多。所以最終能得到的特征類數(shù)上限也就是數(shù)百钉凌。另外一個例子是咧最,google使用的數(shù)據(jù)集里每個樣本含有的特征數(shù)平均不超過100,可以推斷他們的特征類數(shù)最多也只是數(shù)百御雕。
三種技術的融合 - taowen - SegmentFault
https://segmentfault.com/a/1190000002967413
融合
這三個技術各自有獨自看重的內在實現(xiàn)方式
- 搜索引擎:重點是inverted index矢沿,索引的壓縮存儲和高效檢索
- 分析數(shù)據(jù)庫:重點是column oriented storage,利用列式存儲快速地在查詢時暴力掃描
- 分布式計算引擎:從一開始就是map reduce酸纲,關注的是分區(qū)和分布式執(zhí)行
實際上三家是從不同的角度切入了同一個問題捣鲸。不過這已經(jīng)不是一招鮮的時代了。一個好的搜索引擎需要inverted index/column oriented storage/map reduce闽坡,三者都要栽惶。一個好的OLAP也是inverted index/column oriented storage/map reduce三個都要的脓诡。
廣告點擊率預測 [離線部分] - quweiprotoss的日志 - 網(wǎng)易博客
http://quweiprotoss.blog.163.com/blog/static/4088288320144810567471?utm_source=tuicool&utm_medium=referral
有時候和別人交流的時候說LR模型是線性模型,別人很疑惑的說sigmoid函數(shù)明顯不是線性函數(shù)呀媒役?我給一下圖就明白了祝谚,圖中的decision boundary是一條直線。為什么是直線酣衷?因為weight向量和特征向量x線性關系交惯。
廣告點擊率預測 [離線部分] - quweiprotoss的日志 - 網(wǎng)易博客
http://quweiprotoss.blog.163.com/blog/static/4088288320144810567471?utm_source=tuicool&utm_medium=referral
Norm和Binarize是對數(shù)據(jù)進行一定的變換,這是由我們將要使用的Logistic Regression算法決定的穿仪,其實很多算法都逃不了這兩步的席爽,所以不用擔心會做無用功。
廣告點擊率預測 [離線部分] - quweiprotoss的日志 - 網(wǎng)易博客
http://quweiprotoss.blog.163.com/blog/static/4088288320144810567471?utm_source=tuicool&utm_medium=referral
Andrew Ng(吳恩達)
說過:你應該最短的時候啊片,比如一天的時候只锻,完全一個粗糙的版本,看它有什么問題紫谷,再去解決齐饮。不要擔心太粗糙太快速。
廣告的本質只是在變現(xiàn)流量 - 今日頭條(TouTiao.org)
http://www.toutiao.com/i6312222135427269121/
本文為IT桔子·阿里云系列沙龍第1期:多屏數(shù)據(jù)時代笤昨,數(shù)字營銷的現(xiàn)狀及發(fā)展趨勢主題沙龍中祖驱,TUNA創(chuàng)始人徐慎的現(xiàn)場分享內容,略有刪減瞒窒。
HBase高性能復雜條件查詢引擎 - 遠方的專欄 - 博客頻道 - CSDN.NET
http://blog.csdn.net/u014774781/article/details/52397120
——索引的實質是另一種編排形式的數(shù)據(jù)冗余捺僻,高效的檢索源自于面向查詢特別設計的編排形式,如果再輔以分布式的計算框架崇裁,就可以支撐起高性能的大數(shù)據(jù)查詢匕坯。