機(jī)器學(xué)習(xí)令人無比神往暑塑,但從事這個工作的人可能并不這么想吼句。
機(jī)器學(xué)習(xí)的工作內(nèi)容往往復(fù)雜枯燥又困難——通過大量重復(fù)工作進(jìn)行提升必不可少:
匯總工作流及傳輸渠道、設(shè)置數(shù)據(jù)源以及在內(nèi)部部署和云部署的資源之間來回分流事格。
所以使用工具提升你的工作效率實在很關(guān)鍵惕艳,而且像這樣的工具越多越好。
好在你學(xué)的是Python驹愚,作為一門威力巨大的工具語言远搪,Python可以給你提供足夠的輔助工具,讓你在大數(shù)據(jù)和機(jī)器學(xué)習(xí)項目中游刃有余么鹤。
唯一的問題在于Python海量的資源庫讓患有選擇困難癥的你難以取舍终娃,因此糖豆貼心的給你找來了目前評價最高的五個Python庫。
Python學(xué)習(xí)資料或者需要代碼、視頻加Python學(xué)習(xí)群:960410445
1. PyWren
項目地址:https://github.com/ericmjonas/pywren
PyWren項目
PyWren棠耕,簡單而強(qiáng)大余佛,用于進(jìn)行基于Python的科學(xué)計算工作。
項目 At The New Stack 的簡介這樣描述 PyWren:
把 AWS Lambda 作為一個巨大的平行處理系統(tǒng)窍荧,以處理那些可被切割成諸多小任務(wù)的項目辉巡,同時還可以節(jié)約很多內(nèi)存和硬盤空間。
Lambda 函數(shù)的一個缺點是運行時間最長不能超過 300 秒蕊退。
但是郊楣,如果你有一個只花費幾分鐘就能完成卻需要在數(shù)據(jù)集中運行數(shù)千次的工作,那么 PyWren 也許是一個好選擇瓤荔,它可以在云端完成一種用戶硬件上不可用的規(guī)模平行化的工作净蚤。
2. Tfdeploy
項目地址:https://github.com/riga/tfdeploy
Tfdeploy項目
如果你需要使用基于谷歌的 TensorFlow 框架的訓(xùn)練模型卻不想使用框架本身的話,Tfdeploy可以幫你输硝。
借由 Tfdeploy今瀑,可以在 Python 中使用模型,而且僅僅需要Numpy 的數(shù)學(xué)和統(tǒng)計庫作為支撐点把。
幾乎所有能在 TensorFlow 上跑的運行也能在 Tfdeploy 上跑橘荠,而且你可以通過標(biāo)準(zhǔn) Python 隱喻方式來延伸庫的行為(比如,超載一個類別)郎逃。
但是哥童,Tf 部署并不支持 GPU 加速。
3.Luigi
項目地址:https://github.com/spotify/luigi
Luigi項目
編寫成批作業(yè)通常只是處理海量數(shù)據(jù)的其中一步:你也不得不將所有這些工作串聯(lián)起來褒翰,做成類似工作流程的東西贮懈。
Luigi 是 Spotify 打造的,用于解決所有通常與長期運行成批處理作業(yè)有關(guān)的管道問題优训。
有了 Luigi错邦,研發(fā)人員就可以從事幾個很難、與數(shù)據(jù)無關(guān)的任務(wù)處理——「 Hive 詢問型宙,在 Jave 上完成的 Hadoop 任務(wù)撬呢, Scala 上的 Spark 任務(wù),從數(shù)據(jù)庫中導(dǎo)出表格」——創(chuàng)造一個端到端運行它們的工作流妆兑。
對任務(wù)的整個描述以及依存性被打造為 Python 模塊魂拦,和 XML 配置文檔或其他數(shù)據(jù)形式不同,因此搁嗓,可以被組合到其他以 Python 為中心的項目中去芯勘。
4.Kubelib
項目地址:https://github.com/safarijv/kubelib
Kubelib項目
如果你采用 Kubernetes 作為完成機(jī)器學(xué)習(xí)工作的編排系統(tǒng)(orchestration system),那你可能要小心的維護(hù)以免其自身運行的BUG比它能解決的問題都多腺逛。
Kubelib 為 Kubernetes 提供了一系列的 Python 接口荷愕,雖說需要 Jekins ing 作為支持,但沒有 Jenkins 的情況下也能夠使用。
它能夠完成 暴露在 kubectl CLI 或者 Kubernetes API 中的所有事安疗。
5.PyTorch
項目地址:https://github.com/pytorch/pytorch
PyTorch項目
最后一個成員還比較新抛杨,但卻已經(jīng)制造了足夠大的聲勢:Python 庫新成員 Pytorch,這一個Torch 機(jī)器學(xué)習(xí)框架工具荐类。
PyTorch 不僅為 Torch 添加了 Python 端口怖现,也增加了許多其他的便利,比如 GPU 加速玉罐,共享內(nèi)存完成多重處理(multiprocessing屈嗤,特別是多核上隔離開的工作。)
最大的亮點在于它們能為 Numpy 中的無加速功能提供 GPU 驅(qū)動的替代選擇吊输。