為什么軟件工程師都應(yīng)該懂大數(shù)據(jù)技術(shù)?
軟件編程技術(shù)出現(xiàn)已經(jīng)半個多世紀(jì)了,核心價值就是把現(xiàn)實世界的業(yè)務(wù)操作搬到計算機上崭倘,通過計算機軟件和網(wǎng)絡(luò)進(jìn)行業(yè)務(wù)和數(shù)據(jù)處理钞翔。
人類擁有了更為高效的存儲,更快速的信息傳遞網(wǎng)絡(luò)和計算設(shè)備暂吉。
舉例說明一下
讓你一個月在家里呆著不出門,然后可以衣食無憂。
吃喝:美團(tuán)鉴象,餓了嗎,京東到家何鸡,跑腿
玩樂:游戲纺弊,抖音,奈非骡男,直播
人們與現(xiàn)實世界的連接會越來越少淆游。
大數(shù)據(jù)技術(shù)和機器學(xué)習(xí)技術(shù),也就是后來我們都耳熟能詳?shù)娜斯ぶ悄?AI 技術(shù)隔盛。
Google的AlphaGo,大數(shù)據(jù) + 機器學(xué)習(xí)
他們并不管工程師叫工程師犹菱,而是叫“僧侶”;也不管核電站叫核電站吮炕,而是叫“圣殿”腊脱;維修也不是叫維修,而是叫“祈禱”龙亲。
用阿西莫夫的《基地》中的情節(jié)來得出“你看陕凹,科學(xué)和宗教并不是互斥的,科學(xué)也可以成為宗教鳄炉,當(dāng)人們面對自己不懂的東西的時候杜耙,會傾向于用宗教的原理去解釋∮ぃ”有點不合適泥技,《基地》中的情節(jié)是想象出來的,不是事實。
必須能夠發(fā)掘出用戶自己都沒有發(fā)現(xiàn)的需求珊豹,必須洞悉用戶自己都不了解的自己簸呈。
數(shù)據(jù)會越來越成為公司的核心資產(chǎn)和主要競爭力,公司的業(yè)務(wù)展開和產(chǎn)品進(jìn)化也越來越朝著如何利用好數(shù)據(jù)價值的方向發(fā)展店茶。
同理蜕便,數(shù)據(jù)會成為每個人的核心競爭力。處理數(shù)據(jù)贩幻,并得出有價值的結(jié)論會讓你的過去的積累更為值錢轿腺。
如果未來是面向AI編程的,希望軟件工程師不要把AI 當(dāng)做什么萬能的東西丛楚。
大數(shù)據(jù)技術(shù)發(fā)展史:大數(shù)據(jù)的前世今生
今天我們常說的大數(shù)據(jù)技術(shù)族壳,其實起源于 Google 在 2004 年前后發(fā)表的三篇論文,也就是我們經(jīng)常聽到的“三駕馬車”趣些,分別是分布式文件系統(tǒng) GFS仿荆、大數(shù)據(jù)分布式計算框架 MapReduce 和 NoSQL 數(shù)據(jù)庫系統(tǒng) BigTable。
GFS
https://static.googleusercontent.com/media/research.google.com/zh-CN//archive/gfs-sosp2003.pdf
MapReduce
MapReduce: Simplified Data Processing on Large Clusters – Google AI
BigTable
Bigtable: A Distributed Storage System for Structured Data – Google AI
我們所開發(fā)的軟件價值點在哪里坏平?
阿里巴巴的TFS
https://github.com/alibaba/tfs
大數(shù)據(jù)處理的主要應(yīng)用場景包括數(shù)據(jù)分析拢操、數(shù)據(jù)挖掘與機器學(xué)習(xí)。數(shù)據(jù)分析主要使用 Hive舶替、Spark SQL 等 SQL 引擎完成令境;數(shù)據(jù)挖掘與機器學(xué)習(xí)則有專門的機器學(xué)習(xí)框架 TensorFlow、Mahout 以及 MLlib 等顾瞪,內(nèi)置了主要的機器學(xué)習(xí)和數(shù)據(jù)挖掘算法舔庶。
思考題
你從大數(shù)據(jù)生態(tài)的發(fā)展史中,能得出什么樣的結(jié)論陈醒?又有怎樣的思考栖茉?
歡迎你寫下自己的思考或疑問,與我和其他同學(xué)一起討論孵延。
大數(shù)據(jù)生態(tài)的發(fā)展史?
這讓我想到陶器和瓷器的發(fā)展
瓷器沒有出來之前亲配,人們都是試用陶器作為盛器尘应,陶器制作過程比較簡單,將黏土吼虎,陶器是黏土在溫度下燒制而成犬钢,在沒有發(fā)現(xiàn)高嶺土和爐溫達(dá)到1200度之前,一直是使用的是陶器思灰。
在未來處理數(shù)據(jù)的速度就像爐溫玷犹,每當(dāng)處理速度上升了一個新的量級,就會產(chǎn)生完全不同的東西出來洒疚。
互聯(lián)網(wǎng)運營數(shù)據(jù)指標(biāo)與可視化監(jiān)控
數(shù)據(jù)驅(qū)動運營
大數(shù)據(jù)包括的內(nèi)容
技術(shù)和工具
熟悉Hadoop歹颓、Hbase坯屿、 Kudu、Hive巍扛、 Spark领跛、
MapReduce、Kafka撤奸、 Storm吠昭、 Flink或Jstorm、
ETL等相關(guān)技術(shù)或者工具至少3個以上精通Java胧瓜、Python矢棚, 了 解數(shù)據(jù)挖掘、機器學(xué)
習(xí)府喳、并行計算相關(guān)理論模型構(gòu)建
熟悉數(shù)據(jù)庫原理,對數(shù)據(jù)處理和數(shù)據(jù)質(zhì)量有較深
認(rèn)識蒲肋,有NoSQL數(shù)據(jù)庫數(shù)據(jù)處理和數(shù)據(jù)處理性能
優(yōu)化經(jīng)驗;