240 發(fā)簡信
IP屬地:江蘇
  • 模型融合 組合模型

    場景: 廣告排序 文檔排序 方案:多指標(biāo)融合排序 單指標(biāo) CTR CVR : 電話武契、短信、微聊 頁面停留時間 融合 類比高考科目的平均分方案 注: CVR曲饱、頁面停留與CTR有...

  • 文本分類(多分類問題)

    項(xiàng)目場景: 簡歷灵奖,很多藍(lán)領(lǐng)領(lǐng)域分類多添谊,需要根據(jù)簡歷內(nèi)容策肝,進(jìn)行智能分類 轉(zhuǎn)轉(zhuǎn)删豺,二手物品類目380-600左右的類目吸奴,需要根據(jù)內(nèi)容進(jìn)行智能分類允扇,提示用戶進(jìn)行選擇 工具: 快速文本...

  • 反作弊

    思路: 作弊者都是為了一定的目的,且會不斷更換作弊方式则奥。觀其行 IP 黑名單 IMEI UserID 高頻搜索考润、高頻率點(diǎn)擊 重復(fù)title / content 虛假低價、虛假...

  • 海量文檔的去重

    思路: 文本的向量化表示1.1 simhash在線去重 抽屜原理1.2 word2vec1.3 bagofwords(one-hot; tf-idf;) 海量 向量 相似度計...

  • 120
    瓶頸分析 -- 從樣本到訓(xùn)練流程優(yōu)化

    訓(xùn)練模型優(yōu)化方案: 時間瓶頸分析: 流程:相同打分-》抽樣-》離散化 -》樣本轉(zhuǎn)labeledPoint -》lr train --》特征有效性分析 場景:每人目錄下有多個模...

  • 120
    頁面停留時間的特征有效性分析

    需求: “每人可以根據(jù)自己的指標(biāo)對應(yīng)的特征有效性分析读处,提取出推薦給產(chǎn)品線在列表頁中展示的一些重要特征糊治,引導(dǎo)用戶對排序結(jié)果的選擇、形成正向反饋” 答復(fù): 對于頁面停留時間罚舱,建議...

  • 頁面停留時間 做指標(biāo)

    首先井辜,統(tǒng)計頁面停留時間 然后绎谦,將頁面停留時間 做回歸或者分類(目前,使用分類模型) 注:頁面停留時間是連續(xù)值粥脚,但可以中位數(shù)窃肠,進(jìn)行二值化。以A用戶為例阿逃,訪問5個頁面頁面停留時間...

  • 120
    hive 優(yōu)化

    hive 已經(jīng)自動mapjoin優(yōu)化铭拧,將小表載入到內(nèi)存;不需要再mapjoin 設(shè)置恃锉。但是skewjoin 還是得手動設(shè)置(你可每次都添加此設(shè)置,沒看見有副作用)參考:htt...

  • rm * 導(dǎo)致的災(zāi)難性問題

    問題: 案例1:A實(shí)習(xí)生不小心用rm * xxx,多了一個空格呕臂;將大家工作目錄刪除了破托。找運(yùn)維也沒有完全恢復(fù),花費(fèi)2個月補(bǔ)救案例2:B用戶rm * 清理自己文件歧蒋,不小心土砂,刪除了...

  • 設(shè)計思想

    優(yōu)先級:功能--》可讀性--》維護(hù)-->擴(kuò)展 --》性能 用設(shè)計優(yōu)化 代替 代碼復(fù)雜度,降低 維護(hù) 可讀性: 1.編碼規(guī)范谜洽;2.日志規(guī)范 維護(hù): 1.多級配置:(xml,...

  • 單元測試+集成測試+回歸測試的設(shè)計

    思想: 測試是質(zhì)量的基礎(chǔ)萝映;是維護(hù)的基礎(chǔ);是重構(gòu)的基礎(chǔ)eg:一次數(shù)據(jù)的計算錯誤阐虚,沒有測試序臂,造成30萬的損失(僅僅算人力成本,不計算線上成本) 測試設(shè)計: 單元測試 單元測試樣本...

  • 120
    hadoop 分片與分塊

    參考:http://blog.csdn.net/dr_guo/article/details/51150278 重點(diǎn)概念: 輸入分片(Input Split):在進(jìn)行map計...

  • 120
    wiki 與 知識創(chuàng)新的螺旋

    現(xiàn)狀: 團(tuán)隊(duì)2年实束,文檔無匯總奥秆;都在各自手中; 文檔無更新咸灿,陳舊构订,不完整,誤導(dǎo) 經(jīng)驗(yàn)分享少避矢,無文檔化悼瘾,離職都帶走 SECI 知識創(chuàng)新螺旋的模型: 措施: 目標(biāo):用 conflu...

  • 以wiki為中心的知識創(chuàng)新 與 溝通管理

    現(xiàn)狀: 現(xiàn)在很多的溝通,一直都是以RTX為中心审胸。在RTX上溝通bug,沒有mantis,jira等工具——如此亥宿,無法統(tǒng)計——無衡量無改進(jìn);相同bug重復(fù)討論 有流程的問題歹嘹,在...

  • 從知識庫到知識創(chuàng)新

    法治的根本在于 誅行不誅心箩绍。——我盡量保證每次批評都帶建議尺上,并愿意承擔(dān)材蛛,不抱怨圆到,不被動”翱裕——誅行不誅心芽淡,對自己,也是對朋友|同事豆赏。從不從態(tài)度和動機(jī)上評論挣菲。以下是建設(shè)性的批評,...

  • 120
    分層抽樣

    這篇帖子中實(shí)現(xiàn)了常見集中抽樣方法:【機(jī)器學(xué)習(xí)算法-python實(shí)現(xiàn)】采樣算法的簡單實(shí)現(xiàn) 但沒有是實(shí)現(xiàn) 分層抽樣。今天工作中正好用到分層抽樣抚岗,算作 補(bǔ)充吧或杠。 任務(wù)場景:589個...

  • 生活中逐漸沉淀的思考

    1. 思想=>行為=>習(xí)慣=>性格=>命運(yùn) 自己總結(jié),網(wǎng)上也見宣蔚,但沒有點(diǎn)出本質(zhì):重復(fù)向抢。沒一個環(huán)節(jié)都是花時間的重復(fù),區(qū)別僅僅是投入時間的重復(fù)胚委。這也印證了其他名言:1萬小時挟鸠,你...

  • anacoda——python 科學(xué)計算環(huán)境

    現(xiàn)狀: 在工作中用python,常遇到環(huán)境問題亩冬,因?yàn)閜ython有各種工具來管理package艘希,百花齊放很好,但對個人開發(fā)者來說鉴未,太混亂枢冤。經(jīng)常因?yàn)閜ython環(huán)境的問題,導(dǎo)致...

亚洲A日韩AV无卡,小受高潮白浆痉挛av免费观看,成人AV无码久久久久不卡网站,国产AV日韩精品