2017可謂是人工智能元年童擎,在各類人工智能公司如雨后春筍般成立的今天滴劲,我們來聊一聊什么是人工智能?大數(shù)據(jù)與人工智能究竟有何關(guān)聯(lián)柔昼?什么是大數(shù)據(jù)哑芹?如何趕上這個(gè)新風(fēng)口?如何入門大數(shù)據(jù)呢捕透?
1.什么是人工智能聪姿?大數(shù)據(jù)與人工智能究竟有何關(guān)聯(lián)?
人工智能是它是研究乙嘀、開發(fā)用于模擬末购、延伸和擴(kuò)展人的智能的理論、方法虎谢、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)(定義來源:百度百科)歸根到底人工智能是讓機(jī)器去學(xué)習(xí)人類的思維方式盟榴,機(jī)器如何學(xué)習(xí)人類的思維方式呢?那必須是給予其海量的數(shù)據(jù)婴噩,所以人工智能的基礎(chǔ)是大數(shù)據(jù)擎场!有了海量數(shù)據(jù)后才是學(xué)習(xí)方法,現(xiàn)有的算法無一例外都是概率几莽,根據(jù)現(xiàn)有的公式和數(shù)據(jù)去計(jì)算或推測(cè)迅办。
2.什么是大數(shù)據(jù)?
大數(shù)據(jù)單從名字來看章蚣,大量的數(shù)據(jù)站欺,單單從名字來看沒有任何技術(shù)含量。現(xiàn)在大數(shù)據(jù)這三個(gè)字如此火纤垂,不得不說這三個(gè)字成為了很好的商業(yè)噱頭矾策,對(duì)于投資人和創(chuàng)業(yè)者而言,大數(shù)據(jù)是個(gè)熱門的融資標(biāo)簽峭沦,各種原由直接成就了現(xiàn)在的大數(shù)據(jù)盛況贾虽,各家企業(yè)爭先開展大數(shù)據(jù)業(yè)務(wù),大數(shù)據(jù)人才空前稀缺熙侍,人才缺口高達(dá)150萬榄鉴。
那對(duì)于從業(yè)者來說大數(shù)據(jù)到底是什么呢?狹隘的來說無非就是大量的數(shù)據(jù)進(jìn)行清洗處理成規(guī)則的數(shù)據(jù)來進(jìn)行存儲(chǔ)后蛉抓,再進(jìn)行系列的計(jì)算庆尘、建模等最后輸出對(duì)企業(yè)有用的數(shù)據(jù)/預(yù)測(cè)來支撐企業(yè)的運(yùn)營。
3.如何趕上這個(gè)新風(fēng)口巷送?大數(shù)據(jù)在企業(yè)中都有什么應(yīng)用驶忌?
?大數(shù)據(jù)平臺(tái)在企業(yè)中扮演的角色是整個(gè)公司的數(shù)據(jù)中樞,最底層的是打通公司所有部門的數(shù)據(jù)、采集所有有意義的數(shù)據(jù)付魔、建設(shè)統(tǒng)一的數(shù)據(jù)倉庫聊品,基礎(chǔ)工作完成后就是建設(shè)BI及可視化平臺(tái)。除此外還有運(yùn)用數(shù)據(jù)帶來運(yùn)營的效果几苍,例如大數(shù)據(jù)風(fēng)控翻屈、大數(shù)據(jù)推薦、大數(shù)據(jù)精準(zhǔn)運(yùn)營等等妻坝。
我這里截了一張企業(yè)正在使用的大數(shù)據(jù)平臺(tái)的管理頁面的運(yùn)行截圖,最左側(cè)列出的就是企業(yè)中常用的基本工具了伸眶。
可以看到的組件有:hive、hbase刽宪、kafka厘贼、zeppelin、sqoop圣拄、zookeeper等嘴秸,這些就是組成企業(yè)大數(shù)據(jù)平臺(tái)最基本的成員了~
4.如何入門大數(shù)據(jù)呢?大數(shù)據(jù)開發(fā)需要掌握的最基本技能有哪些庇谆?
1.linux基礎(chǔ)和分布式集群的技術(shù)(基礎(chǔ)知識(shí):shell)
熟練使用Linux岳掐,熟練安裝Linux上的軟件,了解熟悉負(fù)載均衡饭耳、高可靠等集群相關(guān)概念岩四,搭建互聯(lián)網(wǎng)高并發(fā)、高可靠的服務(wù)架構(gòu)哥攘。這個(gè)技能最基礎(chǔ)最核心,是大數(shù)據(jù)開發(fā)從業(yè)者必備技能材鹦。(入門時(shí)長:建議3-5天逝淹,需簡單掌握shell腳本編寫。明天趙趙會(huì)整理一篇入門Linux的帖子~)
2.離線大數(shù)據(jù)處理必備技術(shù)(基礎(chǔ)知識(shí):java/python/scala都可)
1.掌握hadoop底層分布式文件系統(tǒng)HDFS的原理桶唐、操作和應(yīng)用開發(fā)栅葡,建議先了解原理,在搭建原生集群來實(shí)踐尤泽,具體搭建方法可以留言獲取或等待后續(xù)更新哈~(入門時(shí)長:建議5天)
2.掌握MAPREDUCE分布式運(yùn)算系統(tǒng)的工作原理和分布式分析應(yīng)用開發(fā)欣簇,依然是先原理再代碼實(shí)踐(入門時(shí)長:根據(jù)語言基礎(chǔ)而定,有java基礎(chǔ)建議5天)
3.掌握Hive數(shù)據(jù)倉庫工具的工作原理及應(yīng)用開發(fā)坯约,了解清楚數(shù)據(jù)倉庫和普通數(shù)據(jù)庫的工作原理的不同熊咽,熟練使用sql進(jìn)行開發(fā)(入門時(shí)長:根據(jù)sql基礎(chǔ)而定)
3.實(shí)時(shí)計(jì)算階段的技術(shù)(基礎(chǔ)知識(shí):java/python/scala都可)
現(xiàn)在主流的實(shí)時(shí)計(jì)算開源框架有strom和sparkstreaming,新手建議學(xué)習(xí)strom+kafka。需要掌握Storm開發(fā)及底層原理闹丐、Kafka的開發(fā)及底層原理横殴、Kafka與Storm集成使用。具備開發(fā)基于storm實(shí)時(shí)計(jì)算程序的技術(shù)能力卿拴。(入門時(shí)長:有語言基礎(chǔ)建議10天)
以上是大數(shù)據(jù)技術(shù)實(shí)戰(zhàn)以及平臺(tái)框架都來自花蝦金融「花蝦為華夏信財(cái)互聯(lián)網(wǎng)金融信息服務(wù)(上海)有限公司旗下的互聯(lián)網(wǎng)金融服務(wù)平臺(tái)衫仑±嬗耄花蝦采用移動(dòng)互聯(lián)網(wǎng)和大數(shù)據(jù)創(chuàng)新技術(shù)風(fēng)控,以金融機(jī)構(gòu)的風(fēng)險(xiǎn)管理標(biāo)準(zhǔn)實(shí)施運(yùn)營管理文狱≈嘈花蝦始終旨在為有融資及投資需求的小微企業(yè)及個(gè)人建立起高效、透明瞄崇、便捷的互聯(lián)網(wǎng)金融服務(wù)平臺(tái)呻粹。」
下集預(yù)告:企業(yè)大數(shù)據(jù)可視化平臺(tái)框架zeppelin搭建及實(shí)戰(zhàn)技術(shù)細(xì)節(jié)和實(shí)戰(zhàn)場(chǎng)景整理發(fā)出噠杠袱,有興趣關(guān)注一下唄~~