簡(jiǎn)單回答

  • 什么是數(shù)據(jù)挖掘

數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān)剃幌,并通過(guò)統(tǒng)計(jì)聋涨、在線分析處理、情報(bào)檢索负乡、機(jī)器學(xué)習(xí)牍白、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。

數(shù)據(jù)挖掘就是對(duì)觀測(cè)到的數(shù)據(jù)集(經(jīng)常是很龐大的)進(jìn)行分析抖棘,目的是發(fā)現(xiàn)未知的關(guān)系和以數(shù)據(jù)擁有者可以理解并對(duì)其有價(jià)值的新穎方式來(lái)總結(jié)數(shù)據(jù)茂腥。

  • 什么是機(jī)器學(xué)習(xí)

專門(mén)研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為,以獲取新的知識(shí)或技能切省,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能最岗。

機(jī)器學(xué)習(xí)的本質(zhì)是模式識(shí)別。 一部分可以用于預(yù)測(cè)(有監(jiān)督學(xué)習(xí)朝捆,無(wú)監(jiān)督學(xué)習(xí))般渡,另一類(lèi)直接用于決策(強(qiáng)化學(xué)習(xí))。相對(duì)物理微分方程代表的預(yù)測(cè)方法來(lái)說(shuō)芙盘,機(jī)器學(xué)習(xí)在一定程度說(shuō)是一種黑箱思想驯用, 即先不求開(kāi)始找到事物發(fā)展的精確模型,而是用基本的模型框架儒老,直接以數(shù)據(jù)驅(qū)動(dòng)我們的預(yù)測(cè)蝴乔。

  • 什么是特征工程

特征工程其本質(zhì)是一項(xiàng)工程活動(dòng),目的是最大限度地從原始數(shù)據(jù)中提取特征以供算法和模型使用贷盲。(特征提取和特征選擇)

  • 簡(jiǎn)述無(wú)監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)的區(qū)別

有監(jiān)督的學(xué)習(xí):簡(jiǎn)單來(lái)說(shuō)就是給定一定的訓(xùn)練樣本(既有特征淘这,也有標(biāo)簽),所謂學(xué)習(xí)巩剖,其本質(zhì)是利用樣本數(shù)據(jù)找到特征與標(biāo)簽之間的關(guān)系即模型铝穷,利用得到的模型得到未知數(shù)據(jù)的標(biāo)簽。(分類(lèi)佳魔,回歸)(knn曙聂,svm)

無(wú)監(jiān)督學(xué)習(xí):與有監(jiān)督不同之處,在于事先沒(méi)有任何訓(xùn)練樣本鞠鲜,需要直接對(duì)數(shù)據(jù)建模宁脊。(聚類(lèi))

  • 什么時(shí)候用有監(jiān)督學(xué)習(xí)断国,什么時(shí)候用無(wú)監(jiān)督學(xué)習(xí)

一種非常簡(jiǎn)單的回答就是從定義入手,如果我們?cè)诜诸?lèi)的過(guò)程中有訓(xùn)練樣本(training data)榆苞,則可以考慮用監(jiān)督學(xué)習(xí)的方法稳衬;如果沒(méi)有訓(xùn)練樣本,則不可能用監(jiān)督學(xué)習(xí)的方法坐漏。但是事實(shí)上薄疚,我們?cè)卺槍?duì)一個(gè)現(xiàn)實(shí)問(wèn)題進(jìn)行解答的過(guò)程中,即使我們沒(méi)有現(xiàn)成的訓(xùn)練樣本赊琳,我們也能夠憑借自己的雙眼街夭,從待分類(lèi)的數(shù)據(jù)中人工標(biāo)注一些樣本,并把他們作為訓(xùn)練樣本躏筏,這樣的話就可以把條件改善板丽,用監(jiān)督學(xué)習(xí)的方法來(lái)做。當(dāng)然不得不說(shuō)的是有時(shí)候數(shù)據(jù)表達(dá)的會(huì)非常隱蔽趁尼,也就是說(shuō)我們手頭的信息不是抽象的形式埃碱,而是具體的一大堆數(shù)字,這樣我們很難憑借人本身對(duì)它們簡(jiǎn)單地進(jìn)行分類(lèi)弱卡。這個(gè)說(shuō)的好像有點(diǎn)不大明白乃正,舉個(gè)例子說(shuō)就是在bag of words 模型的時(shí)候,我們利用k-means的方法聚類(lèi)從而對(duì)數(shù)據(jù)投影婶博,這時(shí)候用k-means就是因?yàn)槲覀儺?dāng)前到手的只有一大堆數(shù)據(jù)瓮具,而且是很高維的,當(dāng)我們想把他們分為50個(gè)類(lèi)的時(shí)候凡人,我們已經(jīng)無(wú)力將每個(gè)數(shù)據(jù)標(biāo)記說(shuō)這個(gè)數(shù)應(yīng)該是哪個(gè)類(lèi)名党,那個(gè)數(shù)又應(yīng)該是哪個(gè)類(lèi)了。所以說(shuō)遇到這種情況也只有無(wú)監(jiān)督學(xué)習(xí)能夠幫助我們了挠轴。那么這么說(shuō)來(lái)传睹,能不能再深入地問(wèn)下去,如果有訓(xùn)練樣本(或者說(shuō)如果我們可以獲得到一些訓(xùn)練數(shù)據(jù)的話)岸晦,監(jiān)督學(xué)習(xí)就會(huì)比無(wú)監(jiān)督學(xué)習(xí)更合適呢欧啤?(照我們單純地想,有高人教總比自己領(lǐng)悟來(lái)的準(zhǔn)启上,來(lái)的快吧P纤怼)我覺(jué)得一般來(lái)說(shuō),是這樣的冈在,但是這要具體看看訓(xùn)練數(shù)據(jù)的獲取倒慧。本人在最近課題的研究中,手動(dòng)標(biāo)注了大量的訓(xùn)練樣本(當(dāng)然這些樣本基本準(zhǔn)確了),而且把樣本畫(huà)在特征空間中發(fā)現(xiàn)線性可分性非常好纫谅,只是在分類(lèi)面附近總有一些混淆的數(shù)據(jù)樣本炫贤,從而用線性分類(lèi)器進(jìn)行分類(lèi)之后這樣樣本會(huì)被誤判。然而付秕,如果用混合高斯模型(GMM)來(lái)分的話兰珍,這些易混淆的點(diǎn)被正確分類(lèi)的更多了。對(duì)這個(gè)現(xiàn)象的一個(gè)解釋询吴,就是不管是訓(xùn)練樣本俩垃,還是待聚類(lèi)的數(shù)據(jù),并不是所有數(shù)據(jù)都是相互獨(dú)立同分布的汰寓。換句話說(shuō),數(shù)據(jù)與數(shù)據(jù)的分布之間存在聯(lián)系苹粟。在我閱讀監(jiān)督學(xué)習(xí)的大量材料中有滑,大家都沒(méi)有對(duì)訓(xùn)練數(shù)據(jù)的這一假設(shè)(獨(dú)立同分布)進(jìn)行說(shuō)明,直到我閱讀到一本書(shū)的提示后才恍然大悟嵌削。對(duì)于不同的場(chǎng)景毛好,正負(fù)樣本的分布如果會(huì)存在偏移(可能是大的偏移,也可能偏移比較锌溜酢)肌访,這樣的話用監(jiān)督學(xué)習(xí)的效果可能就不如用非監(jiān)督學(xué)習(xí)了

  • 簡(jiǎn)述邏輯回歸與線性回歸的區(qū)別

線性回歸:用來(lái)做數(shù)值類(lèi)型的回歸。當(dāng)問(wèn)題是線性艇劫,或者偏向線性吼驶,假設(shè)條件又都滿足(很難),又做好了數(shù)據(jù)預(yù)處理(工作量可能很大)時(shí)店煞,線性回歸算法的表現(xiàn)是挺不錯(cuò)的蟹演,而且在對(duì)模型很容易解釋!但是顷蟀,當(dāng)問(wèn)題不是線性問(wèn)題時(shí)酒请,普通線性回歸算法就表現(xiàn)不太好了。

邏輯回歸:鸣个,它主要是用來(lái)分析當(dāng)因變量是分類(lèi)變量的情況羞反,且由于本身帶有一絲的非線性特征,所以在處理非線性問(wèn)題時(shí)囤萤,模型表現(xiàn)的也挺好(要用好它昼窗,需要做好數(shù)據(jù)預(yù)處理工作,把數(shù)據(jù)打磨得十分“漂亮”)阁将。企業(yè)十分喜歡用它來(lái)做數(shù)據(jù)挖掘膏秫,原因是算法本身表現(xiàn)良好,而且對(duì)模型的輸出結(jié)果容易解釋(領(lǐng)導(dǎo)們都聽(tīng)得懂),不像其它高端的機(jī)器學(xué)習(xí)算法缤削,比如Multiboost窘哈、SVM等,雖然很善于處理非線性問(wèn)題亭敢,對(duì)數(shù)據(jù)質(zhì)量的要求也相對(duì)較低滚婉,但它們總是在黑盒子里工作,外行人根本看不懂它是怎么運(yùn)行的帅刀,它的輸出結(jié)果應(yīng)該怎么解釋H酶埂(好吧,其實(shí)內(nèi)行人也很難看懂扣溺!- - )

image.png
  • 簡(jiǎn)述支持向量機(jī)
  • 支持向量機(jī)和邏輯回歸分別在什么情況下使用

兩種方法都是常見(jiàn)的分類(lèi)算法骇窍,從目標(biāo)函數(shù)來(lái)看,區(qū)別在于邏輯回歸采用的是logistical loss锥余,svm采用的是hinge loss腹纳。這兩個(gè)損失函數(shù)的目的都是增加對(duì)分類(lèi)影響較大的數(shù)據(jù)點(diǎn)的權(quán)重,減少與分類(lèi)關(guān)系較小的數(shù)據(jù)點(diǎn)的權(quán)重驱犹。SVM的處理方法是只考慮support vectors嘲恍,也就是和分類(lèi)最相關(guān)的少數(shù)點(diǎn),去學(xué)習(xí)分類(lèi)器雄驹。而邏輯回歸通過(guò)非線性映射佃牛,大大減小了離分類(lèi)平面較遠(yuǎn)的點(diǎn)的權(quán)重,相對(duì)提升了與分類(lèi)最相關(guān)的數(shù)據(jù)點(diǎn)的權(quán)重医舆。兩者的根本目的都是一樣的俘侠。此外,根據(jù)需要蔬将,兩個(gè)方法都可以增加不同的正則化項(xiàng)兼贡,如l1,l2等等。所以在很多實(shí)驗(yàn)中娃胆,兩種算法的結(jié)果是很接近的遍希。但是邏輯回歸相對(duì)來(lái)說(shuō)模型更簡(jiǎn)單,好理解里烦,實(shí)現(xiàn)起來(lái)凿蒜,特別是大規(guī)模線性分類(lèi)時(shí)比較方便。而SVM的理解和優(yōu)化相對(duì)來(lái)說(shuō)復(fù)雜一些胁黑。但是SVM的理論基礎(chǔ)更加牢固废封,有一套結(jié)構(gòu)化風(fēng)險(xiǎn)最小化的理論基礎(chǔ),雖然一般使用的人不太會(huì)去關(guān)注丧蘸。還有很重要的一點(diǎn)漂洋,SVM轉(zhuǎn)化為對(duì)偶問(wèn)題后,分類(lèi)只需要計(jì)算與少數(shù)幾個(gè)支持向量的距離,這個(gè)在進(jìn)行復(fù)雜核函數(shù)計(jì)算時(shí)優(yōu)勢(shì)很明顯刽漂,能夠大大簡(jiǎn)化模型和計(jì)算量演训。
數(shù)據(jù)維度高svm

  1. 如果Feature的數(shù)量很大,跟樣本數(shù)量差不多贝咙,這時(shí)候選用LR或者是Linear Kernel的SVM
  2. 如果Feature的數(shù)量比較小样悟,樣本數(shù)量一般,不算大也不算小庭猩,選用SVM+Gaussian Kernel
  3. 如果Feature的數(shù)量比較小窟她,而樣本數(shù)量很多,需要手工添加一些feature變成第一種情況
  • 簡(jiǎn)述決策樹(shù)

決策樹(shù)是一種樹(shù)形結(jié)構(gòu)蔼水,其中每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性上的測(cè)試震糖,每個(gè)分支代表一個(gè)測(cè)試輸出,每個(gè)葉節(jié)點(diǎn)代表一種類(lèi)別趴腋。

  • 簡(jiǎn)述樸樹(shù)貝葉斯

樸素貝葉斯分類(lèi)是一種十分簡(jiǎn)單的分類(lèi)算法试伙,叫它樸素貝葉斯分類(lèi)是因?yàn)檫@種方法的思想真的很樸素,樸素貝葉斯的思想基礎(chǔ)是這樣的:對(duì)于給出的待分類(lèi)項(xiàng)于样,求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類(lèi)別出現(xiàn)的概率,哪個(gè)最大潘靖,就認(rèn)為此待分類(lèi)項(xiàng)屬于哪個(gè)類(lèi)別穿剖。通俗來(lái)說(shuō),就好比這么個(gè)道理卦溢,你在街上看到一個(gè)黑人糊余,我問(wèn)你你猜這哥們哪里來(lái)的,你十有八九猜非洲单寂。為什么呢贬芥?因?yàn)楹谌酥蟹侵奕说谋嚷首罡撸?dāng)然人家也可能是美洲人或亞洲人宣决,但在沒(méi)有其它可用信息下蘸劈,我們會(huì)選擇條件概率最大的類(lèi)別,這就是樸素貝葉斯的思想基礎(chǔ)尊沸。

  • 簡(jiǎn)述強(qiáng)化學(xué)習(xí)

是讓計(jì)算機(jī)實(shí)現(xiàn)從一開(kāi)始什么都不懂, 腦袋里沒(méi)有一點(diǎn)想法, 通過(guò)不斷地嘗試, 從錯(cuò)誤中學(xué)習(xí), 最后找到規(guī)律, 學(xué)會(huì)了達(dá)到目的的方法. 這就是一個(gè)完整的強(qiáng)化學(xué)習(xí)過(guò)程. 實(shí)際中的強(qiáng)化學(xué)習(xí)例子有很多. 比如近期最有名的 Alpha go, 機(jī)器頭一次在圍棋場(chǎng)上戰(zhàn)勝人類(lèi)高手, 讓計(jì)算機(jī)自己學(xué)著玩經(jīng)典游戲 Atari, 這些都是讓計(jì)算機(jī)在不斷的嘗試中更新自己的行為準(zhǔn)則, 從而一步步學(xué)會(huì)如何下好圍棋, 如何操控游戲得到高分. 既然要讓計(jì)算機(jī)自己學(xué), 那計(jì)算機(jī)通過(guò)什么來(lái)學(xué)習(xí)呢?

  • 簡(jiǎn)述神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是一種模擬人腦的神經(jīng)網(wǎng)絡(luò)以期能夠?qū)崿F(xiàn)類(lèi)人工智能的機(jī)器學(xué)習(xí)技術(shù)威沫。

  • L1和L2正則化之間有什么區(qū)別

  • 如何防止過(guò)擬合

  • 什么是交叉驗(yàn)證,為什么使用它

  • 描述各種圖形(箱線圖洼专、直方圖...)的差異棒掠,以及如何使用場(chǎng)景

  • 如何在分布中發(fā)現(xiàn)異常

  • 降維常使用的方法

PCA ,LDA

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市屁商,隨后出現(xiàn)的幾起案子烟很,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,284評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件雾袱,死亡現(xiàn)場(chǎng)離奇詭異恤筛,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)谜酒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,115評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)叹俏,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人僻族,你說(shuō)我怎么就攤上這事粘驰。” “怎么了述么?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,614評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵蝌数,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我度秘,道長(zhǎng)顶伞,這世上最難降的妖魔是什么烙样? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,671評(píng)論 1 293
  • 正文 為了忘掉前任耍共,我火速辦了婚禮,結(jié)果婚禮上粟耻,老公的妹妹穿的比我還像新娘垢乙。我一直安慰自己锨咙,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,699評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布追逮。 她就那樣靜靜地躺著酪刀,像睡著了一般。 火紅的嫁衣襯著肌膚如雪钮孵。 梳的紋絲不亂的頭發(fā)上骂倘,一...
    開(kāi)封第一講書(shū)人閱讀 51,562評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音巴席,去河邊找鬼历涝。 笑死,一個(gè)胖子當(dāng)著我的面吹牛漾唉,可吹牛的內(nèi)容都是我干的睬关。 我是一名探鬼主播,決...
    沈念sama閱讀 40,309評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼毡证,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼电爹!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起料睛,我...
    開(kāi)封第一講書(shū)人閱讀 39,223評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤丐箩,失蹤者是張志新(化名)和其女友劉穎摇邦,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體屎勘,經(jīng)...
    沈念sama閱讀 45,668評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡施籍,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,859評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了概漱。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片丑慎。...
    茶點(diǎn)故事閱讀 39,981評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖瓤摧,靈堂內(nèi)的尸體忽然破棺而出竿裂,到底是詐尸還是另有隱情,我是刑警寧澤照弥,帶...
    沈念sama閱讀 35,705評(píng)論 5 347
  • 正文 年R本政府宣布腻异,位于F島的核電站,受9級(jí)特大地震影響这揣,放射性物質(zhì)發(fā)生泄漏悔常。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,310評(píng)論 3 330
  • 文/蒙蒙 一给赞、第九天 我趴在偏房一處隱蔽的房頂上張望机打。 院中可真熱鬧,春花似錦片迅、人聲如沸残邀。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,904評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至膳汪,卻和暖如春唯蝶,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背遗嗽。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,023評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工粘我, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人痹换。 一個(gè)月前我還...
    沈念sama閱讀 48,146評(píng)論 3 370
  • 正文 我出身青樓征字,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親娇豫。 傳聞我的和親對(duì)象是個(gè)殘疾皇子匙姜,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,933評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容