作者 | Justin Gage
譯者 | Sambodhi
編輯 | Vincent
AI前線出品| ID:ai-front
AI 前線導語:“盡管人工智能正在被廣泛應(yīng)用,但大規(guī)模部署基于 AI 的產(chǎn)品如此之難枣购,不過嬉探,一些新技術(shù)正被寄以厚望改變這一現(xiàn)狀。
基石風投合伙公司研究人工智能坷虑、機器學習的分析師甲馋、美國紐約大學的前數(shù)據(jù)科學家 Justin Gage 不久前寫了一篇文章 [1],為我們講述了機器學習的部署和建模的不同之處迄损,以及在公司中部署機器學習的困境定躏,并介紹了 Algorithmia 公司在解決這一難題的優(yōu)勢。Algorithmia 是一個非常有趣的平臺芹敌,它用 App Store 的模式為“算法”量身打造了一個類似的應(yīng)用商店痊远,讓開發(fā)者可以到這個商店里發(fā)布自己的算法,或者尋找并購買自己需要實現(xiàn)的算法”氏捞。
以下是作者 Justin Gage 的聲明:
我并非 Algorithmia 雇員碧聪,與該公司亦無任何利益相關(guān)。作為具有數(shù)據(jù)科學背景的數(shù)據(jù)科學家液茎,我僅僅是為了本文觀點找到一家令人信服的公司而已逞姿。
毫無疑問辞嗡,我們已經(jīng)邁入了人工智能時代,機器學習幾乎滲透了我們?nèi)粘I詈凸ぷ髦兴械姆椒矫婷嬷驮臁J艿饺找鎰?chuàng)新的數(shù)據(jù)存儲和計算能力的驅(qū)使续室,上世紀 70 年代誕生的神經(jīng)網(wǎng)絡(luò)閃亮回歸了。醫(yī)療谒养、安防挺狰、客服、欺詐檢測买窟,但凡你能想到的丰泊,都有資金雄厚的公司正在通過機器學習來提高和改進上述問題。很有可能始绍,你正是通過 Medium 基于機器學習的推薦系統(tǒng)發(fā)現(xiàn)的這篇文章瞳购。
機器學習似乎因為任何理由都能很好地解決一系列問題并立竿見影。你甚至稱之為一場革命疆虚。
創(chuàng)建深度學習模型越來越容易苛败,但大規(guī)模部署卻依然沒有這么容易
數(shù)據(jù)存儲和 Nvidia 的興起無疑推動了這種革命,當今機器學習的另一個推動力就是你可以輕松地創(chuàng)建有效径簿、精準的模型罢屈。機器學習正在顯著的抽象化:新的工具使 AI 落地比任何以往時候都更容易了。[2]
除了像 Clarifai 和 Indico 那樣為特定任務(wù)提供功能豐富的 API 的私人公司外篇亭,在流行的數(shù)據(jù)科學語言(如 R缠捌、Python 等)中的第三方工具包生態(tài)系統(tǒng)呈現(xiàn)飛躍式發(fā)展。2015 年 11 月译蒂,Google 發(fā)布 TensorFlow 初始版曼月,從那時起它的發(fā)展勢頭異常迅猛(已經(jīng)很流行的 ScikitLearn 除外)。對數(shù)據(jù)科學家而言柔昼,在測試環(huán)境中創(chuàng)建復雜模型已經(jīng)方便多了哑芹。
遺憾的是,這種方便并沒有脫離賴以發(fā)軔的 iPython Notebook捕透。這是因為機器學習模型在生產(chǎn)環(huán)境中工作聪姿,與它在你電腦上工作相比,是非常不同的任務(wù)乙嘀。部署模型意味著模型被大規(guī)模調(diào)用時末购,以你想要的方式進行工作。創(chuàng)建理論上精確的模型是無用的虎谢,如果它們一旦開始為客戶提供服務(wù)就崩潰的話盟榴。
你要迎接全新挑戰(zhàn),你需要擔心的是婴噩,掌握一套新技能擎场,以及衡量你成功的不同指標羽德。
部署與創(chuàng)建模型非常不同,無論公司大小顶籽,它都非常困難
就像分布式應(yīng)用一樣玩般,部署機器學習模型極其困難银觅,是跟構(gòu)建模型完全不同的任務(wù)礼饱。體現(xiàn)在以下幾個方面:
人員的不同:由數(shù)據(jù)科學家和機器學習研究人員完成模型構(gòu)建,而部署則由軟件工程師究驴、機器學習工程師和數(shù)據(jù)工程師來完成镊绪。
指標的不同:模型構(gòu)建的目標是創(chuàng)建能夠準確預測的模型,而部署的目標是快速洒忧、可靠的預測蝴韭。
場所的不同:模型構(gòu)建通常由多人在多臺虛擬服務(wù)器上完成,而部署模型需要具備擴展的能力熙侍,能夠處理極為海量的 API 請求榄鉴。
這些區(qū)別反映了部署模型和構(gòu)建模型有所不同。這也是很難做到的蛉抓,因為涉及到不同的技巧庆尘、優(yōu)先級和能力。假使你最精準的模型需要很長時間運行將會怎么樣巷送?如何用新數(shù)據(jù)更新模型驶忌?如何通過跨地域多元化來優(yōu)化速度?
無論公司規(guī)模多大笑跛,都會受此問題困擾付魔。部署對那些希望開發(fā)和運行機器學習模型產(chǎn)品的初創(chuàng)公司來說,簡直就是一團亂麻飞蹂。招聘合格的軟件工程師和數(shù)據(jù)工程師本就是一個巨大的挑戰(zhàn)了几苍,再讓一款產(chǎn)品落地就更為困難,你的恢復能力還取決于使模型運行的那些人陈哑。數(shù)據(jù)科學家所掌握的技能為你創(chuàng)建精準的模型妻坝,但卻無法大規(guī)模部署模型。
這個問題并不會隨著你公司的發(fā)展而變得容易芥颈,事實上惠勒,在某些方面,這個問題在企業(yè)中最為明顯爬坑。數(shù)據(jù)科學團隊開發(fā)有效的模型和產(chǎn)品纠屋,但他們需要讓這些運行及具備可擴展能力,這就意味著需要其他工程團隊加入盾计,而他們并不一定擁有合適的背景售担。然而赁遗,數(shù)據(jù)科學家還得依靠他們來正確地移植模型、調(diào)整參數(shù)族铆、確定批量大小岩四。等他們的團隊克服機器學習部署的挑戰(zhàn)后,時間可能已經(jīng)過去四個月或者更久哥攘,而且模型與數(shù)據(jù)科學團隊最初構(gòu)建的樣子或者運作完全不一樣剖煌。
總之,很多初創(chuàng)公司無法解決這一令人頭疼的問題逝淹,很多企業(yè)同樣也束手無策耕姊。針對部署問題的普遍解決方案之一是使用某個平臺,但這些平臺對多數(shù)公司并不適用栅葡。本質(zhì)上來說茉兰,你要保存自己的數(shù)據(jù),但要使用 API 快速構(gòu)建駐留在供應(yīng)商的服務(wù)器上的臟模型欣簇,它們給你擴展模型规脸,你還要操心如何使這一切良好運作。適合此類需求的平臺有 BigML熊咽、Seldon莫鸭。
不幸的是,取決于它們的構(gòu)建方式网棍,這些平臺部署并非總是有用:如果你公司構(gòu)建了大型的機器學習相關(guān)產(chǎn)品黔龟,你就無法將模型遷移到第三方平臺上。你想創(chuàng)建自己的復雜算法滥玷,不管它們是 TensorFlow 還是別的什么其他平臺上的神經(jīng)網(wǎng)絡(luò)氏身。
造成這一現(xiàn)狀的根源就是沒有哪個產(chǎn)品解決了“最后一公里”的問題:根據(jù)自己的需求開發(fā)模型,同時維護好剩下的部分惑畴。謝天謝地蛋欣,事情正在改變。
Algorithmia 提供部署服務(wù)如贷,解決“最后一公里”的難題
Algorithmia 發(fā)布新產(chǎn)品來解決這一問題陷虎,但遺留了一個問題:建模和數(shù)據(jù)仍然由數(shù)據(jù)科學家掌握。這款產(chǎn)品名為 Enterprise AI Layer杠袱,它本質(zhì)上就是對機器學習部署進行自動化的開發(fā)運維尚猿,讓你專心致志構(gòu)建偉大的模型和產(chǎn)品。
Enterprise AI Layer 涵蓋了可擴展部署解決方案所有的基礎(chǔ)問題楣富。它和云無關(guān)凿掂,可以根據(jù)你的需求進行擴展,并允許你選擇使用 CPU 或者 GPU,有著非常低的延遲庄萎。Algorithmia 的平臺也適用于開發(fā)運維人員:它有詳細的儀表板踪少,能跟蹤所有的指標,確保部署符合客戶要求糠涛。
Google 工程和人工智能副總裁 Anna Patterson 表示:
作為一個多年設(shè)計和部署機器學習系統(tǒng)的人援奢,我真是被 Algorithmia 的無服務(wù)器微服務(wù)架構(gòu)所折服。對想規(guī)娜碳瘢化部署 AI 的公司來說集漾,這是一個很棒的解決方案。但是锉罐,除去技術(shù)規(guī)格之外帆竹,Algorithmia 的 AI Layer 也很重要,因為它改變了公司考慮機器學習的方式∨Ч妫現(xiàn)在,機器學習就像任何應(yīng)用一樣险领,在你發(fā)送新數(shù)據(jù)并預測之前侨舆,你需要處理所有的基礎(chǔ)架構(gòu)。就像一個 API 調(diào)用 Yelp 的應(yīng)用那樣绢陌,你的 API 可以調(diào)用你的模型。這就是應(yīng)用程序的類型,意味著你的團隊需具備應(yīng)用部署的技能筑累。
現(xiàn)在情況不一樣了捧韵,因為你的團隊可以專注創(chuàng)建優(yōu)秀的模型,而不是考慮它們在基礎(chǔ)架構(gòu)上如何運作秤掌。這是無服務(wù)器通過 Google 的 BigQuery 和 Amazon 的 Athena 來完成數(shù)據(jù)存儲的模式:允許公司專注數(shù)據(jù)分析愁铺,無須考慮復雜的存儲數(shù)據(jù)技術(shù)問題。賴以獲取利潤的數(shù)據(jù)分析是從數(shù)據(jù)存儲中抽象出來的闻鉴,現(xiàn)在茵乱,建模也可以從部署中抽象出來。
這真是帥爆了:這意味著更多的點子可以轉(zhuǎn)化成產(chǎn)品孟岛,更多的產(chǎn)品可以打破特大型工程團隊和公司積壓帶來的單調(diào)瓶竭。這意味著作為一名數(shù)據(jù)科學家,你可以做你真正想做的事情:專注構(gòu)建卓越的想法和模型渠羞,而不是如何處理后端的管理斤贰。我認為,這是一件幸事次询。
參考資料
[1] The missing part of the Machine Learning revolution
https://towardsdatascience.com/the-missing-part-of-the-machine-learning-revolution-91e58b3427ef
[2] Machine Learning Abstraction And The Age of AI Ease
https://machinelearnings.co/machine-learning-abstraction-and-the-age-of-ai-ease-f3274bb9e0c1
-全文完-
人工智能已不再停留在大家的想象之中荧恍,各路大牛也都紛紛抓住這波風口,投入AI創(chuàng)業(yè)大潮渗蟹。那么块饺,2017年赞辩,到底都有哪些AI落地案例呢?機器學習授艰、深度學習辨嗽、NLP、圖像識別等技術(shù)又該如何用來解決業(yè)務(wù)問題淮腾?
2018年1月11-14日糟需,AICon全球人工智能技術(shù)大會上,一些大牛將首次分享AI在金融谷朝、電商洲押、教育、外賣圆凰、搜索推薦杈帐、人臉識別、自動駕駛专钉、語音交互等領(lǐng)域的最新落地案例挑童,應(yīng)該能學到不少東西。目前大會8折報名倒計時跃须,更多精彩可點擊閱讀原文詳細了解站叼。