對硅谷和硅谷科技公司的十四問元咙,全程干貨

從硅谷公司哪家強,到人人在議的泡沫問題巫员,大數(shù)據(jù)和人工智能如何結(jié)合庶香?2015年的科技前瞻是怎樣一副圖景?來自硅谷的Coursera軟件工程師董飛將其近日在斯坦福公開講座上的干貨和各種場合的問答整理出來和大家分享简识。文中有他的一手從業(yè)經(jīng)驗赶掖,也有其對親身就職或深度研究過的一些公司具體分析,如Hadoop七扰、Amazon奢赂、LinkedIn等。董飛的知乎頁面在這里颈走,郵箱是dongfeiwww@gmail.com膳灶。

1、目前硅谷最火最有名的高科技創(chuàng)業(yè)公司都有哪些立由?

billion startup club

在硅谷大家非常熱情的談創(chuàng)業(yè)談機會轧钓,我也通過自己的一些觀察和積累,看到了不少最近幾年涌現(xiàn)的熱門創(chuàng)業(yè)公司锐膜。我給大家一個列表毕箍,這個是華爾街網(wǎng)站的全世界創(chuàng)業(yè)公司融資規(guī)模評選。它本來的標題是 billion startup club道盏,我在去年國內(nèi)講座也分享過而柑,不到一年的時間,截至到 2015 年 1 月 17 日捞奕,現(xiàn)在的排名和規(guī)模已經(jīng)發(fā)生了很大的變化。

首先估值在 10 Billlon 的達到了 7 家拄轻,而一年前一家都沒有颅围。第二;第一名是中國人家喻戶曉的小米恨搓;第三院促,前 20 名中,絕大多數(shù)(8 成在美國斧抱,在加州常拓,在硅谷,在舊金山;云帧)比如 Uber, Airbnb, Dropbox, Pinterest弄抬;第四,里面也有不少相似模式成功的宪郊,比如 Flipkart 就是印度市場的淘寶掂恕,Uber 與 Airbnb 都是共享經(jīng)濟的范疇拖陆。所以大家還是可以在移動 (Uber),大數(shù)據(jù)(Palantir)懊亡,消費級互聯(lián)網(wǎng)依啰,通訊 (Snapchat),支付 (Square)店枣,O2O App 里面尋找下大機會速警。這里面很多公司我都親自面試和感受過他們的環(huán)境。

2鸯两、有如此之多的高估值公司闷旧,是否意味著存在很大的泡沫?

技術(shù)趨勢炒作圖

看了那么多高估值公司甩卓,很多人都覺得非常瘋狂鸠匀,這是不是很大泡沫了,泡沫是不是要破了逾柿,是很多人的疑問缀棍。我認為在硅谷這個充滿夢想的地方,投資人鼓勵創(chuàng)業(yè)者大膽去做同樣也助長了泡沫机错,很多項目在幾個月的時間就會估值翻 2爬范,3 倍,如 Uber弱匪,Snapchat 上我也驚訝于他們的巨額融資規(guī)模青瀑。那么這張圖就是講“新興技術(shù)炒作”周期,把各類技術(shù)按照技術(shù)成熟度和期望值分類萧诫。

創(chuàng)新萌芽 Innovation Trigger”斥难、“期望最頂點 Peak ofInflated Expectation”、“下調(diào)預(yù)期至低點 Trough of Disillusion”帘饶、“回歸理想 Slope ofEnlightenment”哑诊、“生產(chǎn)率平臺 Plateau of Productivity”,越往左及刻,技術(shù)約新潮镀裤,越處于概念階段;越往右缴饭,技術(shù)約成熟暑劝,約進入商業(yè)化應(yīng)用,發(fā)揮出提高生產(chǎn)率的效果颗搂〉C停縱軸代表預(yù)期值,人們對于新技術(shù)通常會隨著認識的深入,預(yù)期不斷升溫毁习,伴之以媒體炒作而到達頂峰智嚷;隨之因技術(shù)瓶頸或其他原因,預(yù)期逐漸冷卻至低點纺且,但技術(shù)技術(shù)成熟后盏道,期望又重新上升,重新積累用戶载碌,然后就到了可持續(xù)增長的健康軌道上來猜嘱。

Gartner 公司每年發(fā)布技術(shù)趨勢炒作圖。今年和去年的圖對比顯示嫁艇,物聯(lián)網(wǎng)朗伶、自動駕駛汽車、消費級 3D 打印步咪、自然語言問答等概念正在處于炒作的頂峰论皆。而大數(shù)據(jù)已從頂峰滑落,NFC 和云計算接近谷底猾漫。

3点晴、未來,高科技創(chuàng)業(yè)的趨勢是什么悯周?

我先提一個最近看的一部電影《Imitation Game》粒督,講計算機邏輯的奠基者艾倫圖靈(計算機屆最高獎以他命名)艱難的一生,他當(dāng)年為破譯德軍密碼制作了圖靈機為二戰(zhàn)勝利作出卓越貢獻禽翼,挽回幾千萬人的生命屠橄,可在那個時代因為同性戀被判化學(xué)閹割,自殺結(jié)束了短暫的 42 歲生命闰挡。他的一個偉大貢獻就是在人工智能的開拓工作锐墙,他提出圖靈測試(Turing Test),測試某機器是否能表現(xiàn)出與人等價或無法區(qū)分的智能长酗。

今天人工智能已經(jīng)有了很大進步溪北,從專家系統(tǒng)到基于統(tǒng)計的學(xué)習(xí),從支持向量機到神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)花枫,每一步都帶領(lǐng)機器智能走向下一個階梯刻盐。

在 Google 資深科學(xué)家吳軍博士(數(shù)學(xué)之美掏膏,浪潮之巔作者)劳翰,他提出當(dāng)前技術(shù)發(fā)展三個趨勢,第一馒疹,云計算和和移動互聯(lián)網(wǎng)佳簸,這是正在進行時;第二,機器智能生均,現(xiàn)在開始發(fā)生听想,但對社會的影響很多人還沒有意識到;第三马胧,大數(shù)據(jù)和機器智能結(jié)合汉买,這是未來時,一定會發(fā)生佩脊,有公司在做蛙粘,但還沒有太形成規(guī)模。他認為未來機器會控制 98%的人威彰,而現(xiàn)在我們就要做個選擇出牧,怎么成為剩下的 2%?

4歇盼、為什么大數(shù)據(jù)和機器智能結(jié)合的未來一定會到來舔痕?

其實在工業(yè)革命之前(1820 年),世界人均 GDP 在 1800 年前的兩三千年里基本沒有變化豹缀,而從 1820 年到 2001 年的 180 年里伯复,世界人均 GDP 從原來的 667 美元增長到 6049 美元。由此足見耿眉,工業(yè)革命帶來的收入增長的確是翻天覆地的边翼。這里面發(fā)生了什么,大家可以去思考一下鸣剪。但人類的進步并沒有停止或者說穩(wěn)步增長组底,在發(fā)明了電力,電腦筐骇,互聯(lián)網(wǎng)债鸡,移動互聯(lián)網(wǎng),全球年 GDP 增長從萬分之 5 到 2%铛纬,信息也是在急劇增長厌均,根據(jù)計算,最近兩年的信息量是之前 30 年的總和告唆,最近 10 年是遠超人類所有之前累計信息量之和棺弊。在計算機時代,有個著名的摩爾定律擒悬,就是說同樣成本每隔 18 個月晶體管數(shù)量會翻倍模她,反過來同樣數(shù)量晶體管成本會減半,這個規(guī)律已經(jīng)很好的 match 了最近 30 年的發(fā)展懂牧,并且可以衍生到很多類似的領(lǐng)域:存儲侈净、功耗、帶寬、像素畜侦。

馮諾伊曼是 20 世紀最重要的數(shù)學(xué)家之一元扔,在現(xiàn)代計算機、博弈論和核武器等諸多領(lǐng)域內(nèi)有杰出建樹的最偉大的科學(xué)全才之一旋膳。他提出(技術(shù))將會逼近人類歷史上的某種本質(zhì)的奇點澎语,在那之后 全部人類行為都不可能以我們熟悉的面貌繼續(xù)存在。這就是著名的奇點理論验懊。目前會越來越快指數(shù)性增長咏连,美國未來學(xué)家 Ray Kurzweil 稱人類能夠在 2045 年實現(xiàn)數(shù)字化永生,他自己也創(chuàng)辦奇點大學(xué)鲁森,相信隨著信息技術(shù)祟滴、無線網(wǎng)、生物歌溉、物理等領(lǐng)域的指數(shù)級增長垄懂,將在 2029 年實現(xiàn)人工智能,人的壽命也將會在未來 15 年得到大幅延長痛垛。

5草慧、國外值得關(guān)注的大數(shù)據(jù)公司都有哪些?國內(nèi)又有哪些匙头?

Big Data 公司列表

這是 2014 年總結(jié)的 Big Data 公司列表漫谷,我們大致可以分成基礎(chǔ)架構(gòu)和應(yīng)用,而底層都是會用到一些通用技術(shù)蹂析,如 Hadoop舔示,Mahout,HBase电抚,Cassandra惕稻,我在下面也會涵蓋。我可以舉幾個例子蝙叛,在分析這一塊俺祠,cloudera,hortonworks借帘,mapr 作為 Hadoop 的三劍客蜘渣,一些運維領(lǐng)域,mangodb肺然,couchbase 都是 nosql 的代表蔫缸,作為服務(wù)領(lǐng)域 AWS 和 Google BigQuery 劍拔弩張,在傳統(tǒng)數(shù)據(jù)庫狰挡,Oracle 收購了 MySQL捂龄,DB2 老牌銀行專用,Teradata 做了多年數(shù)據(jù)倉庫加叁。上面的 Apps 更多倦沧,比如社交消費領(lǐng)域 Google, Amazon, Netflix, Twitter, 商業(yè)智能:SAP,GoodData它匕,一些在廣告媒體領(lǐng)域:TURN展融,Rocketfuel,做智能運維 sumologic 等等豫柬。去年的新星 Databricks 伴隨著 Spark 的浪潮震撼 Hadoop 的生態(tài)系統(tǒng)告希。

對于迅速成長的中國市場,大公司也意味著大數(shù)據(jù)烧给,BAT 三家都是對大數(shù)據(jù)的投入也是不惜余力燕偶。

我 5 年前在百度的時候,就提出框計算的東東础嫡,最近兩年他們成立了硅谷研究院指么,挖來 Andrew Ng 作為首席科學(xué)家,研究項目就是百度大腦榴鼎,在語音伯诬、圖片識別大幅提高精確度和召回率,最近還做了個無人自行車巫财,非常有趣盗似。騰訊作為最大的社交應(yīng)用對大數(shù)據(jù)也是情有獨鐘,自己研發(fā)了 C++ 平臺的海量存儲系統(tǒng)平项。淘寶去年雙十一主戰(zhàn)場赫舒,2 分鐘突破 10 億,交易額突破 571 億闽瓢,背后是有很多故事号阿,當(dāng)年在百度做 Pyramid(按 Google 三輛馬車打造的金字塔三層分布式系統(tǒng))的有志之士,繼續(xù)在 OceanBase 創(chuàng)造神話鸳粉。而阿里云當(dāng)年備受爭議扔涧,馬云也懷疑是不是被王堅忽悠,最后經(jīng)歷了雙十一的洗禮證明了阿里云的靠譜届谈。小米的雷軍對大數(shù)據(jù)也是寄托厚望枯夜,一方面這么多數(shù)據(jù)幾何級數(shù)增長,另一方面存儲帶寬都是巨大成本艰山,沒價值就會破產(chǎn)湖雹。

6、Hadoop是現(xiàn)今最流行的大數(shù)據(jù)技術(shù)曙搬,在它出現(xiàn)的當(dāng)時摔吏,是什么造成了Hadoop的流行鸽嫂?當(dāng)時Hadoop具有哪些設(shè)計上的優(yōu)勢?

看 Hadoop 從哪里開始的征讲,不得不提 Google 的先進性据某,在 10 多年前,Google 出了 3 篇 paper 論述分布式系統(tǒng)的做法诗箍,分別是 GFS, MapReduce, BigTable, 非常 NB 的系統(tǒng)癣籽,但沒人見過,在工業(yè)界很多人癢癢的就想按其思想去仿作滤祖,當(dāng)時 Apache Nutch Lucene 的作者 Doug Cutting 也是其中之一筷狼,后來他們被 Yahoo 收購,專門成立 Team 去投入做匠童,就是 Hadoop 的開始和大規(guī)模發(fā)展的地方埂材,之后隨著 Yahoo 的牛人去了 Facebook, Google, 也有成立了 Cloudera, Hortonworks 等大數(shù)據(jù)公司,把 Hadoop 的實踐帶到各個硅谷公司汤求。而 Google 還沒有停止楞遏,又出了新的三輛馬車,Pregel, Caffeine, Dremel, 后來又有很多步入后塵首昔,開始新一輪開源大戰(zhàn)寡喝。

為啥 Hadoop 就比較適合做大數(shù)據(jù)呢?首先擴展很好勒奇,直接通過加節(jié)點就可以把系統(tǒng)能力提高预鬓,它有個重要思想是移動計算而不是移動數(shù)據(jù),因為數(shù)據(jù)的移動是很大的成本需要網(wǎng)絡(luò)帶寬赊颠。其次它提出的目標就是利用廉價的普通計算機(硬盤)格二,這樣雖然可能不穩(wěn)定(磁盤壞的幾率),但通過系統(tǒng)級別上的容錯和冗余達到高可靠性竣蹦。并且非常靈活顶猜,可以使用各種 data,二進制痘括,文檔型长窄,記錄型。使用各種形式(結(jié)構(gòu)化纲菌,半結(jié)構(gòu)化挠日,非結(jié)構(gòu)化所謂的 schemaless),在按需計算上也是個技巧翰舌。

7嚣潜、圍繞在Hadoop周圍的有哪些公司和產(chǎn)品?

Hadoop

提到 Hadoop 一般不會說某一個東西椅贱,而是指生態(tài)系統(tǒng)懂算,在這里面太多交互的組件了只冻,涉及到 IO,處理计技,應(yīng)用喜德,配置,工作流酸役。在真正的工作中,當(dāng)幾個組件互相影響驾胆,你頭疼的維護才剛剛開始涣澡。我也簡單說幾個:Hadoop Core 就三個 HDFS,MapReduce丧诺,Common入桂,在外圍有 NoSQL: Cassandra, HBase, 有 Facebook 開發(fā)的數(shù)據(jù)倉庫 Hive,有 Yahoo 主力研發(fā)的 Pig 工作流語言驳阎,有機器學(xué)習(xí)算法庫 Mahout抗愁,工作流管理軟件 Oozie,在很多分布式系統(tǒng)選擇 Master 中扮演重要角色的 Zookeeper呵晚。

8蜘腌、能否用普通人都能理解的方式解釋一下Hadoop的工作原理?

我們先說 HDFS饵隙,所謂 Hadoop 的分布式文件系統(tǒng)撮珠,它是能真正做到高強度容錯。并且根據(jù) locality 原理金矛,對連續(xù)存儲做了優(yōu)化芯急。簡單說就是分配大的數(shù)據(jù)塊,每次連續(xù)讀整數(shù)個驶俊。如果讓你自己來設(shè)計分布式文件系統(tǒng)娶耍,在某機器掛掉還能正常訪問該怎么做?首先需要有個 master 作為目錄查找(就是 Namenode)饼酿,那么數(shù)據(jù)節(jié)點是作為分割好一塊塊的榕酒,同一塊數(shù)據(jù)為了做備份不能放到同一個機器上,否則這臺機器掛了故俐,你備份也同樣沒辦法找到奈应。HDFS 用一種機架位感知的辦法,先把一份拷貝放入同機架上的機器购披,然后在拷貝一份到其他服務(wù)器杖挣,也許是不同數(shù)據(jù)中心的,這樣如果某個數(shù)據(jù)點壞了刚陡,就從另一個機架上調(diào)用惩妇,而同一個機架它們內(nèi)網(wǎng)連接是非持旰海快的,如果那個機器也壞了歌殃,只能從遠程去獲取乔妈。這是一種辦法,現(xiàn)在還有基于 erasure code 本來是用在通信容錯領(lǐng)域的辦法氓皱,可以節(jié)約空間又達到容錯的目的路召,大家感興趣可以去查詢。

接著說 MapReduce波材,首先是個編程范式股淡,它的思想是對批量處理的任務(wù),分成兩個階段廷区,所謂的 Map 階段就是把數(shù)據(jù)生成 key, value pair, 再排序唯灵,中間有一步叫 shuffle,把同樣的 key 運輸?shù)酵粋€ reducer 上面去隙轻,而在 reducer 上埠帕,因為同樣 key 已經(jīng)確保在同一個上,就直接可以做聚合玖绿,算出一些 sum敛瓷, 最后把結(jié)果輸出到 HDFS 上。對應(yīng)開發(fā)者來說斑匪,你需要做的就是編寫 Map 和 reduce 函數(shù)琐驴,像中間的排序和 shuffle 網(wǎng)絡(luò)傳輸昙读,容錯處理土榴,框架已經(jīng)幫你做好了忙迁。

9钠惩、MapReduce模型本身也有一些問題撮奏?

第一:需要寫很多底層的代碼不夠高效汗茄,第二:所有的事情必須要轉(zhuǎn)化成兩個操作 Map/Reduce炊苫,這本身就很奇怪谊却,也不能解決所有的情況衙猪。

10馍乙、Spark從何而來?Spark相比于Hadoop MapReduce設(shè)計上有什么樣的優(yōu)勢垫释?

其實 Spark 出現(xiàn)就是為了解決上面的問題丝格。先說一些 Spark 的起源。發(fā)自 2010 年 Berkeley AMPLab棵譬,發(fā)表在 hotcloud 是一個從學(xué)術(shù)界到工業(yè)界的成功典范显蝌,也吸引了頂級 VC:Andreessen Horowitz 的 注資. 在 2013 年,這些大牛(Berkeley 系主任订咸,MIT 最年輕的助理教授)從 Berkeley AMPLab 出去成立了 Databricks曼尊,引無數(shù) Hadoop 大佬盡折腰酬诀,它是用函數(shù)式語言 Scala 編寫,Spark 簡單說就是內(nèi)存計算(包含迭代式計算骆撇,DAG 計算, 流式計算 )框架瞒御,之前 MapReduce 因效率低下大家經(jīng)常嘲笑,而 Spark 的出現(xiàn)讓大家很清新神郊。 Reynod 作為 Spark 核心開發(fā)者, 介紹 Spark 性能超 Hadoop 百倍肴裙,算法實現(xiàn)僅有其 1/10 或 1/100。在去年的 Sort benchmark 上涌乳,Spark 用了 23min 跑完了 100TB 的排序蜻懦,刷新了之前 Hadoop 保持的世界紀錄。

11爷怀、如果想從事大數(shù)據(jù)方面的工作阻肩,是否可以推薦一些有效的學(xué)習(xí)方法带欢?有哪些推薦的書籍运授?

我也有一些建議,首先還是打好基礎(chǔ)乔煞,Hadoop 雖然是火熱吁朦,但它的基礎(chǔ)原理都是書本上很多年的積累,像算法導(dǎo)論渡贾,Unix 設(shè)計哲學(xué)逗宜,數(shù)據(jù)庫原理,深入理解計算機原理空骚,Java 設(shè)計模式纺讲,一些重量級的書可以參考。Hadoop 最經(jīng)典的 the definitive guide, 我在知乎上也有分享囤屹。

其次是選擇目標熬甚,如果你像做數(shù)據(jù)科學(xué)家,我可以推薦coursera的data science課程肋坚,通俗易懂乡括。學(xué)習(xí) Hive,Pig 這些基本工具智厌,如果做應(yīng)用層诲泌,主要是把 Hadoop 的一些工作流要熟悉,包括一些基本調(diào)優(yōu)铣鹏,如果是想做架構(gòu)敷扫,除了能搭建集群,對各個基礎(chǔ)軟件服務(wù)很了解诚卸,還要理解計算機的瓶頸和負載管理呻澜,Linux 的一些性能工具递礼。最后還是要多加練習(xí),大數(shù)據(jù)本身就是靠實踐的羹幸,你可以先按 API 寫書上的例子脊髓,能夠先調(diào)試成功,在下面就是多積累栅受,當(dāng)遇到相似的問題能找到對應(yīng)的經(jīng)典模式将硝,再進一步就是實際問題,也許周邊誰也沒遇到屏镊,你需要些靈感和網(wǎng)上問問題的技巧依疼,然后根據(jù)實際情況作出最佳選擇。

12而芥、與大數(shù)據(jù)技術(shù)關(guān)系最緊密的就是云計算律罢,您曾在Amazon 云計算部門工作過,能否簡單介紹一下亞馬遜的Redshift框架嗎棍丐?

我在 Amazon 云計算部門工作過误辑,所以還是比較了解 AWS,總體上成熟度很高歌逢,有大量 startup 是基于其開發(fā)巾钉,比如有名的 Netflix,Pinterest秘案,Coursera砰苍。Amazon 還是不斷創(chuàng)新,每年召開 reInvent 大會推廣新的云產(chǎn)品和分享成功案例阱高,在這里面我隨便說幾個:像 S3 是簡單面向?qū)ο蟮拇鎯ψ迹珼ynamoDB 是對關(guān)系型數(shù)據(jù)庫的補充,Glacier 對冷數(shù)據(jù)做歸檔處理赤惊,Elastic MapReduce 直接對 MapReduce 做打包提供計算服務(wù)吼旧,EC2 就是基礎(chǔ)的虛擬主機,Data Pipeline 會提供圖形化界面直接串聯(lián)工作任務(wù)荐捻。

Redshift黍少,它是一種(massively parallel computer)架構(gòu),是非常方便的數(shù)據(jù)倉庫解決方案处面,就是 SQL 接口厂置,跟各個云服務(wù)無縫連接,最大特點就是快魂角,在 TB 到 PB 級別非常好的性能昵济,我在工作中也是直接使用,它還支持不同的硬件平臺,如果想速度更快访忿,可以使用 SSD 的瞧栗,當(dāng)然支持容量就小些。

13海铆、Linkedin都采用了哪些大數(shù)據(jù)開源技術(shù)迹恐?

在 Linkedin,有很多數(shù)據(jù)產(chǎn)品卧斟,比如 People you may like, job you may be interested, 你的用戶訪問來源殴边,甚至你的 career path 都可以挖掘出來。那么在 Linkedin 也是大量用到開源技術(shù)珍语,我這里就說一個最成功的 Kafka锤岸,它是一個分布式的消息隊列,可以用在 tracking板乙,機器內(nèi)部 metrics是偷,數(shù)據(jù)傳輸。數(shù)據(jù)在前端后端會經(jīng)過不同的存儲或者平臺募逞,每個平臺都有自己的格式蛋铆,如果沒有一個 unified log,會出現(xiàn)災(zāi)難型的 O(m*n) 的數(shù)據(jù)對接復(fù)雜度凡辱,如果你設(shè)定的格式一旦發(fā)生變化戒职,也是要修改所有相關(guān)的栗恩。所以這里提出的中間橋梁就是 Kafka透乾,大家約定用一個格式作為傳輸標準,然后在接受端可以任意定制你想要的數(shù)據(jù)源(topics), 最后實現(xiàn)的線性的 O(m+n) 的復(fù)雜度磕秤。對應(yīng)的設(shè)計細節(jié)乳乌,還是要參考設(shè)計文檔。這里面主要作者 Jay Kreps市咆,Rao Jun 出來成立了 Kafka 作為獨立發(fā)展的公司汉操。

在 Linkedin,Hadoop 作為批處理的主力蒙兰,大量應(yīng)用在各個產(chǎn)品線上磷瘤,比如廣告組。我們一方面需要去做一些靈活的查詢分析廣告主的匹配搜变,廣告預(yù)測和實際效果采缚,另外在報表生成方面也是 Hadoop 作為支持。如果你想去面試 Linkedin 后端組挠他,我建議大家去把 Hive, Pig, Azkaban(數(shù)據(jù)流的管理軟件)扳抽,Avro 數(shù)據(jù)定義格式,Kafka,Voldemort 都去看一些設(shè)計理念贸呢,Linkedin 有專門的開源社區(qū)镰烧,也是 build 自己的技術(shù)品牌。

14楞陷、談一談Coursera在大數(shù)據(jù)架構(gòu)方面和其他硅谷創(chuàng)業(yè)公司相比有什么特點怔鳖?是什么原因和技術(shù)取向造成了這些特點?

Coursera 是一個有使命驅(qū)動的公司固蛾,大家不是為了追求技術(shù)的極致败砂,而是為了服務(wù)好老師,同學(xué)魏铅,解決他們的痛點昌犹,分享他們的成功。這點是跟其他技術(shù)公司最大的區(qū)別览芳。從一方面來說斜姥,現(xiàn)在還是早期積累階段,大規(guī)模計算還沒有來臨沧竟,我們只有積極學(xué)習(xí)铸敏,適應(yīng)變化才能保持創(chuàng)業(yè)公司的高速成長。

Coursera 作為創(chuàng)業(yè)公司悟泵,非常想保持敏捷和高效杈笔。從技術(shù)上來說,所有的都是在基于 AWS 開發(fā)糕非,可以想像隨意啟動云端服務(wù)蒙具,做一些實驗。我們大致分成產(chǎn)品組朽肥,架構(gòu)組禁筏,和數(shù)據(jù)分析組。我把所有用到的開發(fā)技術(shù)都列在上面衡招。因為公司比較新篱昔,所以沒有什么歷史遺留遷移的問題。大家大膽的使用 Scala 作為主要編程語言始腾,采用 Python 作為腳本控制州刽,比如產(chǎn)品組就是提供的課程產(chǎn)品,里面大量使用 Play Framework浪箭,Javascript 的 backbone 作為控制中樞穗椅。而架構(gòu)組主要是維護底層存儲,通用服務(wù)山林,性能和穩(wěn)定性房待。

我在的數(shù)據(jù)組由 10 多人構(gòu)成邢羔,一部分是對商業(yè)產(chǎn)品,核心增長指標做監(jiān)控桑孩,挖掘和改進拜鹤。一部分是搭建數(shù)據(jù)倉庫完善跟各個部門的無縫數(shù)據(jù)流動,也用到很多技術(shù)例如使用 Scalding 編寫 Hadoop MapReduce 程序流椒,也有人做 AB testing 框架, 推薦系統(tǒng)敏簿,盡可能用最少人力做影響力的事情。其實除了開源世界宣虾,我們也積極使用第三方的產(chǎn)品惯裕,比如 sumologic 做日志錯誤分析,Redshift 作為大數(shù)據(jù)分析平臺绣硝,Slack 做內(nèi)部通訊蜻势。而所有的這些就是想解放生產(chǎn)力,把重心放到用戶體驗鹉胖,產(chǎn)品開發(fā)和迭代上去握玛。

[本文來自讀者的投稿,不代表36氪立場]

-----分割線君-----

新版36氪iOS客戶端正式上線甫菠!該有的都有了挠铲,你想要看創(chuàng)業(yè)資訊,你想要分享寂诱,想看視頻拂苹,想來活動現(xiàn)場...下載36氪iOS客戶端,即氪觸達痰洒。

下載地址戳:36氪iOS客戶端

或直接在 App Store 搜索“36氪”或“36Kr”

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末瓢棒,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子带迟,更是在濱河造成了極大的恐慌音羞,老刑警劉巖囱桨,帶你破解...
    沈念sama閱讀 207,113評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件仓犬,死亡現(xiàn)場離奇詭異,居然都是意外死亡舍肠,警方通過查閱死者的電腦和手機搀继,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評論 2 381
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來翠语,“玉大人叽躯,你說我怎么就攤上這事〖±ǎ” “怎么了点骑?”我有些...
    開封第一講書人閱讀 153,340評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我黑滴,道長憨募,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,449評論 1 279
  • 正文 為了忘掉前任袁辈,我火速辦了婚禮菜谣,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘晚缩。我一直安慰自己尾膊,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,445評論 5 374
  • 文/花漫 我一把揭開白布荞彼。 她就那樣靜靜地躺著冈敛,像睡著了一般。 火紅的嫁衣襯著肌膚如雪鸣皂。 梳的紋絲不亂的頭發(fā)上莺债,一...
    開封第一講書人閱讀 49,166評論 1 284
  • 那天,我揣著相機與錄音签夭,去河邊找鬼齐邦。 笑死,一個胖子當(dāng)著我的面吹牛第租,可吹牛的內(nèi)容都是我干的措拇。 我是一名探鬼主播,決...
    沈念sama閱讀 38,442評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼慎宾,長吁一口氣:“原來是場噩夢啊……” “哼丐吓!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起趟据,我...
    開封第一講書人閱讀 37,105評論 0 261
  • 序言:老撾萬榮一對情侶失蹤券犁,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后汹碱,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體粘衬,經(jīng)...
    沈念sama閱讀 43,601評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,066評論 2 325
  • 正文 我和宋清朗相戀三年咳促,在試婚紗的時候發(fā)現(xiàn)自己被綠了稚新。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,161評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡跪腹,死狀恐怖褂删,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情冲茸,我是刑警寧澤屯阀,帶...
    沈念sama閱讀 33,792評論 4 323
  • 正文 年R本政府宣布缅帘,位于F島的核電站,受9級特大地震影響难衰,放射性物質(zhì)發(fā)生泄漏股毫。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,351評論 3 307
  • 文/蒙蒙 一召衔、第九天 我趴在偏房一處隱蔽的房頂上張望铃诬。 院中可真熱鬧,春花似錦苍凛、人聲如沸趣席。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽宣肚。三九已至,卻和暖如春悠栓,著一層夾襖步出監(jiān)牢的瞬間霉涨,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評論 1 261
  • 我被黑心中介騙來泰國打工惭适, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留笙瑟,地道東北人。 一個月前我還...
    沈念sama閱讀 45,618評論 2 355
  • 正文 我出身青樓癞志,卻偏偏與公主長得像往枷,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子凄杯,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,916評論 2 344

推薦閱讀更多精彩內(nèi)容