人工智能時(shí)代必不可少的大數(shù)據(jù)思維

1.數(shù)據(jù)科學(xué)是神馬悠垛?

? ? ? 從事數(shù)據(jù)科學(xué)研究的學(xué)者試圖把數(shù)據(jù)當(dāng)成一-個(gè)“自然體 (data nature) ”來研究,提出所謂“數(shù)據(jù)界 (data universe) ”的概念(復(fù)旦大學(xué))纤壁。但脫離各個(gè)領(lǐng)域的“物理世界”,作為客觀事物間接存在形式的“數(shù)據(jù)界”究竟有什么共性問題還不清楚。

? ? ? 有學(xué)者認(rèn)為數(shù)據(jù)科學(xué)是介于哲學(xué)與自然科學(xué)之間的超自然科學(xué)? (澳門大學(xué)趙偉)。

? ? ? 提煉“數(shù)據(jù)界”的共性科學(xué)問題還需要一段時(shí)間的實(shí)踐積累帽驯。至少未來5- 10年內(nèi)需要多花精力解決大數(shù)據(jù)帶來的技術(shù)挑戰(zhàn)問題。通過分層次的不斷抽象书闸,大數(shù)據(jù)的共性科學(xué)問題才會(huì)逐步清晰明朗尼变。先做白盒研究再做黑盒研究

? ? ? 數(shù)據(jù)科學(xué)是數(shù)學(xué)(統(tǒng)計(jì)浆劲、代數(shù)嫌术、拓?fù)涞?、計(jì)算機(jī)科學(xué)梳侨、基礎(chǔ)科學(xué)和各種應(yīng)用科學(xué)融合的科學(xué)蛉威,類似錢學(xué)森先生提出的“大成智慧學(xué)”∽卟福“必集大成,才能得智慧”哲虾。

2.大數(shù)據(jù)對(duì)計(jì)算機(jī)科學(xué)的挑戰(zhàn)

計(jì)算機(jī)科學(xué)是關(guān)于算法的科學(xué)

圖靈計(jì)算是把計(jì)算看成輸入變成輸出的“函數(shù)”G= F(x)-計(jì)算機(jī)科學(xué)主要研究“函數(shù)"F丙躏, 即算法。算法研究不關(guān)心輸入X ,假設(shè)輸入是隨意的束凑。實(shí)際上輸入的數(shù)據(jù)本身是值得研究的對(duì)象晒旅,不是隨意的。

大數(shù)據(jù)興起導(dǎo)致計(jì)算機(jī)科學(xué)的重點(diǎn)向數(shù)據(jù)科學(xué)轉(zhuǎn)移

Computer Science = Science of algorithm + Science of data

小數(shù)據(jù)條件下好的算法在大數(shù)據(jù)條件下不再是好算法

1PB的數(shù)據(jù)線性掃描一次需要1.9天(硬盤速度6Gbps) (百度每天需要處理的數(shù)據(jù)達(dá)幾個(gè)P)

也有些很困難的問題汪诉,數(shù)據(jù)多了就變得更容易解決了废恋,如機(jī)器翻譯,自然語言問答(IBM的Watson 問答系統(tǒng))


3.大數(shù)據(jù)對(duì)傳統(tǒng)計(jì)算機(jī)視覺(CV)和機(jī)器學(xué)習(xí)(ML) 的沖擊

計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)是人工智能最活躍的研究領(lǐng)域扒寄,但多年來學(xué)習(xí)的樣本和測(cè)試的樣本度不夠大鱼鼓。

Princeton大學(xué) 的李凱教授采用在線外包的辦法,一年之內(nèi)完成了2.1萬種分類该编、包含約2000萬幅圖像 ( 每類700-1000幅) 的ontology圖像庫 (ImageNet) , (基于Wordnet分類迄本,目前只有名詞)。

采用 lmageNet 測(cè)試現(xiàn)有的各種圖像識(shí)別分類算法课竣,絕大多數(shù)算法都失靈嘉赎,說明在小的ontology下開發(fā)的圖像識(shí)別算法沒有實(shí)際意義!

Deeplearning 算法的正確識(shí)別率明顯高于其他算法,所以深度學(xué)習(xí)成為目前機(jī)器學(xué)習(xí)的主要研究方向于樟。


4.大數(shù)據(jù)對(duì)傳統(tǒng)統(tǒng)計(jì)學(xué)的挑戰(zhàn)

大數(shù)據(jù)往往是非獨(dú)立同分布(悉尼科技大學(xué)操云龍)

統(tǒng)計(jì)學(xué)的基本假設(shè)是變量服從獨(dú)立同分布(IID假設(shè))

超高維問題引起經(jīng)典統(tǒng)計(jì)推斷失效公条。( 徐宗本院士)

? ? ? -經(jīng)典統(tǒng)計(jì): n>>p, 高維: p>>n,大數(shù)據(jù)高維度p=o (exp (n))

? ? ? -熱點(diǎn)研究:稀疏建模(盡管變量很多,但是很多都是0)

? ? ? -大數(shù)據(jù)處理和智能處理的核心都是降維迂曲,從n維降到1維靶橱。樣本數(shù)量將隨著維數(shù)的增加而指數(shù)增長就出現(xiàn)維數(shù)災(zāi)難。

? ? ? 分析與事物相關(guān)的所有數(shù)據(jù),而不是分析少量的樣本數(shù)據(jù)

? ? ? - 2009年谷歌利用相關(guān)詞全部搜索統(tǒng)計(jì)準(zhǔn)確預(yù)報(bào)了HINI流感爆發(fā)

? ? ? - 2013年由于政府發(fā)通告抓韩、谷歌加推薦等原因纠永,使得谷歌的流感預(yù)測(cè)失靈,明顯高估谒拴。-大數(shù)據(jù)與小數(shù)據(jù)結(jié)合(All data,全數(shù)據(jù))尝江,原始數(shù)據(jù)的可信度?

5.網(wǎng)絡(luò)科學(xué)與數(shù)據(jù)科學(xué)

大數(shù)據(jù)往往以復(fù)雜關(guān)聯(lián)的數(shù)據(jù)網(wǎng)絡(luò)形式存在,因此要理解大數(shù)據(jù)就要對(duì)大數(shù)據(jù)后面的網(wǎng)絡(luò)進(jìn)行深入分析英上。

大數(shù)據(jù)面臨的科學(xué)問題本質(zhì).上可能就是網(wǎng)絡(luò)科學(xué)問題炭序,復(fù)雜網(wǎng)絡(luò)分析應(yīng)該是數(shù)據(jù)科學(xué)的重要基石

而到了21世紀(jì)苍日,網(wǎng)絡(luò)理論正在成為量子力學(xué)的可尊敬的后繼惭聂, 正在構(gòu)建- -個(gè)新的理論和算法的框架。

中科院計(jì)算所的大數(shù)據(jù)團(tuán)主要從事網(wǎng)絡(luò)大數(shù)據(jù)的研究相恃,研究方向包括分布式海量數(shù)據(jù)處理的核心引擎辜纲、計(jì)算模型和國家級(jí)測(cè)試床,網(wǎng)絡(luò)輿情系統(tǒng)拦耐、社會(huì)化搜索引擎耕腾、數(shù)據(jù)密集型網(wǎng)絡(luò)服務(wù)等,我的學(xué)生的研究方向包括社會(huì)網(wǎng)絡(luò)的影響力研究杀糯、推薦系統(tǒng)等扫俺。


6.需要發(fā)現(xiàn)新的門捷列夫周期

門捷列夫周期表為化學(xué)成為一門科學(xué)奠定了基礎(chǔ)。現(xiàn)在生物領(lǐng)域有基因組學(xué)固翰,材料狼纬、化學(xué)、制藥骂际、生理疗琉、病理、干細(xì)胞領(lǐng)域都在研究“基因組”方援,也有人在討論人類語言的“基因組”没炒。這些基因組都是構(gòu)成整體的基本元素。

發(fā)現(xiàn)這些“基因組”都需要采用計(jì)算機(jī)對(duì)海量的數(shù)據(jù)進(jìn)行分析犯戏,導(dǎo)致各個(gè)領(lǐng)域都出現(xiàn)XX信息學(xué)送火。

從上世紀(jì)70年代開始,圍繞計(jì)算復(fù)雜性形成了以算法研究為中心的的計(jì)算機(jī)科學(xué)先匪。隨著計(jì)算機(jī)科學(xué)與其他學(xué)科的交叉融合种吸,計(jì)算機(jī)科學(xué)的研究重點(diǎn)將逐步轉(zhuǎn)移到以研究各種基因組學(xué)為重點(diǎn)的數(shù)據(jù)科學(xué)。現(xiàn)在到了發(fā)現(xiàn)新的門捷列夫周期表的時(shí)候了呀非。

7.? ? ? 計(jì)算理論的新研究方向

傳統(tǒng)的計(jì)算復(fù)雜性理論是研究當(dāng)問題規(guī)模變大時(shí)坚俗,計(jì)算量如何變化镜盯,以小問題預(yù)測(cè)大問題。而大數(shù)據(jù)問題一開始就給你全部數(shù)據(jù)猖败,需要反過來思考如何找到縮小規(guī)模的數(shù)據(jù)速缆,而問題的基本屬性沒有大的變化。

如果說傳統(tǒng)的計(jì)算復(fù)雜性是度量外向組合爆炸( scale up) 的復(fù)雜程度恩闻,那么大數(shù)據(jù)問題的計(jì)算理論應(yīng)該是度量內(nèi)問“壓縮”的困難程度艺糜。

如果當(dāng)數(shù)據(jù)規(guī)模擴(kuò)大時(shí),反映數(shù)據(jù)間相互關(guān)系的網(wǎng)絡(luò)結(jié)構(gòu)保持很好的相似性幢尚,則是一個(gè)容易解決的大數(shù)據(jù)問題;反之破停,如果網(wǎng)絡(luò)結(jié)構(gòu)變得面目全非,則是一個(gè)難以解決的大數(shù)據(jù)問題尉剩。

8.需要研究“數(shù)據(jù)量復(fù)雜性”

對(duì)于科學(xué)計(jì)算,主要考慮時(shí)間復(fù)雜性和空間復(fù)雜性真慢。對(duì)于大數(shù)據(jù)處理,除了時(shí)間和空間復(fù)雜性外理茎,可能還需要考慮解決一個(gè)問題需要多大的數(shù)據(jù)量黑界,可稱為“數(shù)據(jù)量復(fù)雜性”。

從數(shù)據(jù)量和結(jié)果的關(guān)系來看皂林,大數(shù)據(jù)問題也許可以分成三類:

(a) 增量式進(jìn)步(數(shù)據(jù)多一點(diǎn)园爷,結(jié)果就好一些)。不同問題對(duì)增加數(shù)據(jù)量的要求不同式撼,可能也有線性、多項(xiàng)式之分

(b)無底洞式的計(jì)算一無論多少 數(shù)據(jù)都不可能徹底解決問題(基本的物理本質(zhì)還不清楚)求厕。有點(diǎn)類似NP問題著隆。

(c)數(shù)據(jù)規(guī)模有一個(gè)閾值,超過閾值呀癣,再增加數(shù)據(jù)量不會(huì)改善結(jié)果美浦。

我們需要建立一種新的計(jì)算理論,對(duì)求解一個(gè)問題達(dá)到某種滿意程度需要多大規(guī)模的數(shù)據(jù)量給出理論上的判斷项栏。通過科學(xué)理論避免盲目增加數(shù)據(jù)量浦辨。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市沼沈,隨后出現(xiàn)的幾起案子流酬,更是在濱河造成了極大的恐慌,老刑警劉巖列另,帶你破解...
    沈念sama閱讀 222,378評(píng)論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件芽腾,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡页衙,警方通過查閱死者的電腦和手機(jī)摊滔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,970評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門阴绢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人艰躺,你說我怎么就攤上這事呻袭。” “怎么了腺兴?”我有些...
    開封第一講書人閱讀 168,983評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵左电,是天一觀的道長。 經(jīng)常有香客問我含长,道長券腔,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,938評(píng)論 1 299
  • 正文 為了忘掉前任拘泞,我火速辦了婚禮纷纫,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘陪腌。我一直安慰自己辱魁,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,955評(píng)論 6 398
  • 文/花漫 我一把揭開白布诗鸭。 她就那樣靜靜地躺著染簇,像睡著了一般。 火紅的嫁衣襯著肌膚如雪强岸。 梳的紋絲不亂的頭發(fā)上锻弓,一...
    開封第一講書人閱讀 52,549評(píng)論 1 312
  • 那天,我揣著相機(jī)與錄音蝌箍,去河邊找鬼青灼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛妓盲,可吹牛的內(nèi)容都是我干的杂拨。 我是一名探鬼主播,決...
    沈念sama閱讀 41,063評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼悯衬,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼弹沽!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起筋粗,我...
    開封第一講書人閱讀 39,991評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤策橘,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后亏狰,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體役纹,經(jīng)...
    沈念sama閱讀 46,522評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,604評(píng)論 3 342
  • 正文 我和宋清朗相戀三年暇唾,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了促脉。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片辰斋。...
    茶點(diǎn)故事閱讀 40,742評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖瘸味,靈堂內(nèi)的尸體忽然破棺而出宫仗,到底是詐尸還是另有隱情,我是刑警寧澤旁仿,帶...
    沈念sama閱讀 36,413評(píng)論 5 351
  • 正文 年R本政府宣布藕夫,位于F島的核電站,受9級(jí)特大地震影響枯冈,放射性物質(zhì)發(fā)生泄漏毅贮。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,094評(píng)論 3 335
  • 文/蒙蒙 一尘奏、第九天 我趴在偏房一處隱蔽的房頂上張望滩褥。 院中可真熱鬧,春花似錦炫加、人聲如沸瑰煎。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,572評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽酒甸。三九已至,卻和暖如春赋铝,著一層夾襖步出監(jiān)牢的瞬間插勤,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,671評(píng)論 1 274
  • 我被黑心中介騙來泰國打工革骨, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留饮六,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,159評(píng)論 3 378
  • 正文 我出身青樓苛蒲,卻偏偏與公主長得像,于是被迫代替她去往敵國和親绿满。 傳聞我的和親對(duì)象是個(gè)殘疾皇子臂外,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,747評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容