[語錄]tips


大數(shù)據(jù):“人工特征工程+線性模型”的盡頭 | 36大數(shù)據(jù)
http://www.36dsj.com/archives/15621
由此可以看出骂澄,特征工程建立在不斷的深入理解問題和獲取額外的數(shù)據(jù)源上吓蘑。但問題是,通常根據(jù)數(shù)據(jù)人能抽象出來的特征總類很有限坟冲。例如磨镶,廣告點擊預測,這個被廣告投放公司做得最透徹的問題樱衷,目前能抽象出來的特征完全可以寫在一張幻燈片里棋嘲。好理解的、方便拿來用的矩桂、干凈的數(shù)據(jù)源也不會很多沸移,對于廣告無外乎是廣告本身信息(標題、正文侄榴、樣式)雹锣,廣告主信息(行業(yè)、地理位置癞蚕、聲望)蕊爵,和用戶信息(性別、年齡桦山、收入等個人信息攒射,cookie、session等點擊信息)恒水。KDDCUP2013騰訊提供了廣告點擊預測的數(shù)據(jù)会放,就包含了其中很多。所以最終能得到的特征類數(shù)上限也就是數(shù)百钉凌。另外一個例子是咧最,google使用的數(shù)據(jù)集里每個樣本含有的特征數(shù)平均不超過100,可以推斷他們的特征類數(shù)最多也只是數(shù)百御雕。


三種技術的融合 - taowen - SegmentFault
https://segmentfault.com/a/1190000002967413
融合
這三個技術各自有獨自看重的內在實現(xiàn)方式

  • 搜索引擎:重點是inverted index矢沿,索引的壓縮存儲和高效檢索
  • 分析數(shù)據(jù)庫:重點是column oriented storage,利用列式存儲快速地在查詢時暴力掃描
  • 分布式計算引擎:從一開始就是map reduce酸纲,關注的是分區(qū)和分布式執(zhí)行

實際上三家是從不同的角度切入了同一個問題捣鲸。不過這已經(jīng)不是一招鮮的時代了。一個好的搜索引擎需要inverted index/column oriented storage/map reduce闽坡,三者都要栽惶。一個好的OLAP也是inverted index/column oriented storage/map reduce三個都要的脓诡。


廣告點擊率預測 [離線部分] - quweiprotoss的日志 - 網(wǎng)易博客
http://quweiprotoss.blog.163.com/blog/static/4088288320144810567471?utm_source=tuicool&utm_medium=referral
有時候和別人交流的時候說LR模型是線性模型,別人很疑惑的說sigmoid函數(shù)明顯不是線性函數(shù)呀媒役?我給一下圖就明白了祝谚,圖中的decision boundary是一條直線。為什么是直線酣衷?因為weight向量和特征向量x線性關系交惯。

廣告點擊率預測 [離線部分] - quweiprotoss的日志 - 網(wǎng)易博客
http://quweiprotoss.blog.163.com/blog/static/4088288320144810567471?utm_source=tuicool&utm_medium=referral
Norm和Binarize是對數(shù)據(jù)進行一定的變換,這是由我們將要使用的Logistic Regression算法決定的穿仪,其實很多算法都逃不了這兩步的席爽,所以不用擔心會做無用功。

廣告點擊率預測 [離線部分] - quweiprotoss的日志 - 網(wǎng)易博客
http://quweiprotoss.blog.163.com/blog/static/4088288320144810567471?utm_source=tuicool&utm_medium=referral

Andrew Ng(吳恩達)
說過:你應該最短的時候啊片,比如一天的時候只锻,完全一個粗糙的版本,看它有什么問題紫谷,再去解決齐饮。不要擔心太粗糙太快速。


廣告的本質只是在變現(xiàn)流量 - 今日頭條(TouTiao.org)
http://www.toutiao.com/i6312222135427269121/

本文為IT桔子·阿里云系列沙龍第1期:多屏數(shù)據(jù)時代笤昨,數(shù)字營銷的現(xiàn)狀及發(fā)展趨勢主題沙龍中祖驱,TUNA創(chuàng)始人徐慎的現(xiàn)場分享內容,略有刪減瞒窒。


HBase高性能復雜條件查詢引擎 - 遠方的專欄 - 博客頻道 - CSDN.NET
http://blog.csdn.net/u014774781/article/details/52397120
——索引的實質是另一種編排形式的數(shù)據(jù)冗余捺僻,高效的檢索源自于面向查詢特別設計的編排形式,如果再輔以分布式的計算框架崇裁,就可以支撐起高性能的大數(shù)據(jù)查詢匕坯。


最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市拔稳,隨后出現(xiàn)的幾起案子葛峻,更是在濱河造成了極大的恐慌,老刑警劉巖壳炎,帶你破解...
    沈念sama閱讀 206,378評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件泞歉,死亡現(xiàn)場離奇詭異逼侦,居然都是意外死亡匿辩,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評論 2 382
  • 文/潘曉璐 我一進店門榛丢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來铲球,“玉大人,你說我怎么就攤上這事晰赞〖诓。” “怎么了选侨?”我有些...
    開封第一講書人閱讀 152,702評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長然走。 經(jīng)常有香客問我援制,道長,這世上最難降的妖魔是什么芍瑞? 我笑而不...
    開封第一講書人閱讀 55,259評論 1 279
  • 正文 為了忘掉前任晨仑,我火速辦了婚禮,結果婚禮上拆檬,老公的妹妹穿的比我還像新娘洪己。我一直安慰自己,他們只是感情好竟贯,可當我...
    茶點故事閱讀 64,263評論 5 371
  • 文/花漫 我一把揭開白布答捕。 她就那樣靜靜地躺著,像睡著了一般屑那。 火紅的嫁衣襯著肌膚如雪拱镐。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,036評論 1 285
  • 那天持际,我揣著相機與錄音痢站,去河邊找鬼。 笑死选酗,一個胖子當著我的面吹牛阵难,可吹牛的內容都是我干的。 我是一名探鬼主播芒填,決...
    沈念sama閱讀 38,349評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼呜叫,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了殿衰?” 一聲冷哼從身側響起朱庆,我...
    開封第一講書人閱讀 36,979評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎闷祥,沒想到半個月后娱颊,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,469評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡凯砍,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,938評論 2 323
  • 正文 我和宋清朗相戀三年箱硕,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片悟衩。...
    茶點故事閱讀 38,059評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡剧罩,死狀恐怖,靈堂內的尸體忽然破棺而出座泳,到底是詐尸還是另有隱情惠昔,我是刑警寧澤幕与,帶...
    沈念sama閱讀 33,703評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站镇防,受9級特大地震影響啦鸣,放射性物質發(fā)生泄漏。R本人自食惡果不足惜来氧,卻給世界環(huán)境...
    茶點故事閱讀 39,257評論 3 307
  • 文/蒙蒙 一赏陵、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧饲漾,春花似錦蝙搔、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至僚楞,卻和暖如春勤晚,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背泉褐。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工赐写, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人膜赃。 一個月前我還...
    沈念sama閱讀 45,501評論 2 354
  • 正文 我出身青樓挺邀,卻偏偏與公主長得像,于是被迫代替她去往敵國和親跳座。 傳聞我的和親對象是個殘疾皇子端铛,可洞房花燭夜當晚...
    茶點故事閱讀 42,792評論 2 345

推薦閱讀更多精彩內容