演講者:Jeffrey D. Ullman-學(xué)者概況-學(xué)術(shù)范 (xueshufan.com)
作者:Jeffrey David Ullman(1942年11月22日-),美國(guó)計(jì)算機(jī)科學(xué)家,斯坦福大學(xué)名譽(yù)教授。他關(guān)于編譯器(各種版本被稱為綠龍書)溪窒、計(jì)算理論(也被稱為灰姑娘書)研儒、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)庫(kù)的教科書被認(rèn)為是各自領(lǐng)域的標(biāo)準(zhǔn)烁竭。他和他的長(zhǎng)期合作者Alfred Aho是2020年圖靈獎(jiǎng)的獲得者泊愧,一般被認(rèn)為是計(jì)算機(jī)科學(xué)的最高榮譽(yù)。(摘自維基百科)
本演講為KDD2021 Keynotes Talk的最后一場(chǎng)演講斧拍。
演講內(nèi)容摘錄
演講聚焦于數(shù)據(jù)科學(xué)分別于機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)之間的關(guān)系,以使聽(tīng)眾更了解數(shù)據(jù)科學(xué)的本質(zhì)杖小。
從本世紀(jì)第一個(gè)十年的數(shù)據(jù)挖掘或知識(shí)發(fā)現(xiàn)肆汹,到第二個(gè)十年的大數(shù)據(jù),再到如今的數(shù)據(jù)科學(xué)予权,該領(lǐng)域的宗旨未曾改變昂勉,即:將速度最快、規(guī)模最大的硬件設(shè)備和速度最快的算法以及最高效的程序結(jié)合起來(lái)解決商業(yè)和科學(xué)領(lǐng)域的問(wèn)題扫腺。
演講者認(rèn)為數(shù)據(jù)科學(xué)是數(shù)據(jù)庫(kù)系統(tǒng)研究自然進(jìn)化的產(chǎn)物岗照。
同時(shí),演講者指出,想要在數(shù)據(jù)科學(xué)領(lǐng)域有所作為需要掌握計(jì)算機(jī)科學(xué)的核心并在處理大量數(shù)據(jù)上有所專長(zhǎng)攒至。
演講者通過(guò)駁斥Drew Conway的韋恩圖厚者、并給出自己的韋恩圖來(lái)表示數(shù)據(jù)科學(xué)與其他領(lǐng)域的關(guān)系。數(shù)據(jù)科學(xué)是計(jì)算機(jī)科學(xué)和其他專業(yè)領(lǐng)域結(jié)合部迫吐,其中涉及到了機(jī)器學(xué)習(xí)库菲,但不限于機(jī)器學(xué)習(xí)。此外渠抹,在數(shù)據(jù)科學(xué)角度蝙昙,數(shù)學(xué)和統(tǒng)計(jì)學(xué)并不直接影響專業(yè)領(lǐng)域,而是通過(guò)計(jì)算機(jī)領(lǐng)域的算法等對(duì)其產(chǎn)生間接影響梧却。
與統(tǒng)計(jì)學(xué)相比奇颠,數(shù)據(jù)科學(xué)總體上是一門實(shí)驗(yàn)性學(xué)科。在數(shù)據(jù)科學(xué)家往往通過(guò)實(shí)現(xiàn)放航、運(yùn)行某一算法或模型來(lái)驗(yàn)證某一方法的正確性烈拒,而不是通過(guò)分析推導(dǎo)避免模型出錯(cuò)。因此广鳍,對(duì)于數(shù)據(jù)科學(xué)來(lái)說(shuō)荆几,判斷錯(cuò)誤的標(biāo)準(zhǔn)和改進(jìn)方法比理論上的分析更重要。
與機(jī)器學(xué)習(xí)相比赊时,并不是所有的數(shù)據(jù)科學(xué)問(wèn)題是通過(guò)建立模型解決的吨铸,比如Locality-Sensitive Hashing和Approximate Counting等(演講者這里推薦了一本名為“Mining of Massive Dataset”的書)。同時(shí)祖秒,方法的可解釋性在某些領(lǐng)域非常重要比如保險(xiǎn)公司估計(jì)保費(fèi)诞吱。
何時(shí)使用機(jī)器學(xué)習(xí):
1.問(wèn)題需要通過(guò)建模解決
2.不需要對(duì)結(jié)果進(jìn)行解釋
3.缺少對(duì)問(wèn)題相關(guān)領(lǐng)域的認(rèn)識(shí)
結(jié)論
1.數(shù)據(jù)科學(xué)是計(jì)算機(jī)科學(xué)許多分支自然演化的結(jié)果,尤其是其中通過(guò)處理大型數(shù)據(jù)集幫助科學(xué)或產(chǎn)業(yè)發(fā)展的方面竭缝。
2.統(tǒng)計(jì)學(xué)者尤其獨(dú)到之處房维,但過(guò)于關(guān)注分析數(shù)據(jù),對(duì)于解決實(shí)際問(wèn)題不夠關(guān)注抬纸。
3.機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的重要部分咙俩,但遠(yuǎn)不是數(shù)據(jù)科學(xué)的全部。
注:本文為演講摘錄湿故,所有內(nèi)容和圖片均選自演講內(nèi)容阿趁,歡迎各位討論~