為什么要用朱浴? 習(xí)慣于自己實(shí)現(xiàn)業(yè)務(wù)邏輯的每一步围段,以至于沒(méi)有意識(shí)去尋找框架本身自有的數(shù)據(jù)預(yù)處理方法密幔,Pytorch的Dataset 和 DataLoader便于加載和迭代處理數(shù)據(jù)...
為什么要用朱浴? 習(xí)慣于自己實(shí)現(xiàn)業(yè)務(wù)邏輯的每一步围段,以至于沒(méi)有意識(shí)去尋找框架本身自有的數(shù)據(jù)預(yù)處理方法密幔,Pytorch的Dataset 和 DataLoader便于加載和迭代處理數(shù)據(jù)...
這部分未上傳到簡(jiǎn)書(shū)恃慧,之前是用過(guò)的胶台,效果優(yōu)于xgb或lgmb臣咖。大致做法是每個(gè)時(shí)間步包含n個(gè)統(tǒng)計(jì)值即可踏幻,最后seq2seq直接輸出计福,也可單點(diǎn)預(yù)測(cè)跌捆,看你數(shù)據(jù)組織形式吧
天池---智慧交通預(yù)測(cè)挑戰(zhàn)賽總結(jié)(一)2017/07 -- 2017/09 天池智慧交通預(yù)測(cè)賽思路及模型總結(jié)(一) 說(shuō)在前面的話 ML的建模方法和數(shù)據(jù)處理方法看來(lái)是一個(gè)CS專(zhuān)業(yè)學(xué)生必備的技能了,但是課余時(shí)間單純的...
序 boosting是集成學(xué)習(xí)中的一個(gè)大家族象颖,本次記錄boosting的相關(guān)概念以及與bagging的區(qū)別佩厚。 boosting思想 Boosting是一族可以將若學(xué)習(xí)器提升為...
序 集成學(xué)習(xí)模型的一大特點(diǎn)是可以輸出特征重要性,特征重要性能夠在一定程度上輔助我們對(duì)特征進(jìn)行篩選说订,從而使得模型的魯棒性更好抄瓦。 隨機(jī)森林中進(jìn)行特征重要性的評(píng)估思想為:判斷每個(gè)特...
序 RF中有相應(yīng)的缺失值處理方法,本次記錄其兩種缺失值處理技巧 暴力填補(bǔ) Python中的na.roughfix包提供簡(jiǎn)單的缺失值填補(bǔ)策略:對(duì)于訓(xùn)練集中處于同一個(gè)類(lèi)別下的數(shù)據(jù)...
序 集成學(xué)習(xí)大類(lèi)中常見(jiàn)的有兩個(gè)子類(lèi):Bagging和Boosting陶冷。本次記錄一下Bagging以及其代表模型RandomForest钙姊。 Bagging思想 Bagging是...
序 面試過(guò)程中經(jīng)常會(huì)被問(wèn)到關(guān)于方差和偏差的概念以及比對(duì)。 偏差 偏差度量了學(xué)習(xí)算法的期望預(yù)測(cè)值與真實(shí)結(jié)果間的偏離程度埂伦,也就是刻畫(huà)了模型本身的擬合能力煞额,也就是偏差越大,意味著預(yù)...
序 本次以及后續(xù)幾次博客將陸續(xù)記錄關(guān)于集成學(xué)習(xí)模型的相關(guān)知識(shí)點(diǎn)。 Ensemble概述 集成學(xué)習(xí) 就是構(gòu)造若干模型并用它們的(加權(quán)預(yù)測(cè)/投票)值用于對(duì)新樣本的預(yù)測(cè)膊毁。類(lèi)似于多個(gè)...
為何要剪枝 決策樹(shù)遞歸地構(gòu)建樹(shù)胀莹,直到不能繼續(xù)分裂下去為止,這樣的樹(shù)對(duì)于訓(xùn)練集可能擬合的較好婚温,但對(duì)于訓(xùn)練集可能產(chǎn)生過(guò)擬合現(xiàn)象描焰,原因是過(guò)多的考慮對(duì)訓(xùn)練集的劃分精確度,從而構(gòu)建出了...
序 其實(shí)不同的決策樹(shù)學(xué)習(xí)算法只是它們選擇特征的依據(jù)不同,決策樹(shù)的生成過(guò)程都是一樣的(根據(jù)當(dāng)前環(huán)境對(duì)特征進(jìn)行貪婪的選擇)力图。 ID3算法的核心是在決策樹(shù)各個(gè)節(jié)點(diǎn)上應(yīng)用信息增益準(zhǔn)則...
序 熵的概念中有信息熵步绸、信息增益、信息增益比吃媒、基尼指數(shù)靡努,這些統(tǒng)統(tǒng)作為決策樹(shù)分裂的依據(jù),其中晓折,我們需要知道信息熵與基尼指數(shù)的關(guān)系。 信息熵與基尼指數(shù)的關(guān)系 首先看二者的定義:將...
序 本次記錄一下決策樹(shù)的相關(guān)概念以及思想兽泄,后面博客再貼上具體的算法原理 一句話介紹 決策樹(shù)是一種基本的分類(lèi)與回歸的判別式模式漓概,在分類(lèi)問(wèn)題中,表示基于特征對(duì)實(shí)例進(jìn)行分類(lèi)的過(guò)程病梢,...
序 本次記錄樸素貝葉斯的相關(guān)原理胃珍,并上一張手寫(xiě)的面試級(jí)推導(dǎo)過(guò)程 樸素貝葉斯模型是什么? 樸素貝葉斯是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類(lèi)方法蜓陌。對(duì)于給定的數(shù)據(jù)集觅彰,首先基于特征...
序 本次記錄:1、閔可夫斯基距離2钮热、馬氏距離3填抬、內(nèi)積4、漢明距離5隧期、杰卡德距離6飒责、編輯距離7、KL散度距離 閔可夫斯基距離 假設(shè)數(shù)值點(diǎn)P和Q的坐標(biāo)如下: 當(dāng)p趨近于無(wú)窮大時(shí)仆潮,...
序 聚類(lèi)模型的好壞如何評(píng)價(jià)宏蛉,本次記錄其中一種方法--蘭德指數(shù) 蘭德指數(shù)
層次聚類(lèi)分支 1)分裂法從上到下對(duì)大類(lèi)別進(jìn)行分割2)凝聚法從下到上對(duì)小類(lèi)別進(jìn)行聚合 層次聚類(lèi)優(yōu)點(diǎn) kmeans中需要人工確定聚類(lèi)類(lèi)別K基于初始化聚類(lèi)中心,這將會(huì)很大程度上影響...
算法介紹 該聚類(lèi)算法是具有噪聲的基于密度可達(dá)關(guān)系的聚類(lèi)方法性置,它將具有足夠密度的區(qū)域劃分為簇拾并,并在具有噪聲的空間數(shù)據(jù)庫(kù)中發(fā)現(xiàn)任意形狀的簇,它將簇定義為密度相連的點(diǎn)的最大集合。 ...
一句話介紹KNN KNN是一種可用于分類(lèi)和回歸的方法嗅义。一般情況下用其進(jìn)行分類(lèi)任務(wù)屏歹。 KNN三要素 1)模型,即對(duì)特征空間的劃分芥喇;2)距離度量西采,歐氏距離等;3)分裂決策規(guī)則继控,即...