原文作者:Matthew Mayo
原文地址:GitHub Python Data Science Spotlight: AutoML, NLP, Visualization, ML Workflows
本文是“五個(gè)不容忽視的機(jī)器學(xué)習(xí)項(xiàng)目”一文的續(xù)篇。和上篇文章相比凫海,這次選出的項(xiàng)目涉及更多數(shù)據(jù)科學(xué)領(lǐng)域呛凶,并且都是GitHub上的開源項(xiàng)目,我們?yōu)槊總€(gè)項(xiàng)目都附上了Repo行贪、文檔和入門指南的鏈接漾稀,并對(duì)每個(gè)項(xiàng)目進(jìn)行了簡(jiǎn)單介紹。
下面一起來(lái)了解一下這些新興的熱門Python庫(kù)吧建瘫,希望本文對(duì)你的工作能有所幫助:
-
Auto-Keras自動(dòng)機(jī)器學(xué)習(xí)庫(kù)
項(xiàng)目鏈接:https://github.com/jhfjhfj1/autokeras
文檔:http://autokeras.com
入門指南:https://autokeras.com/#example
Auto-Keras是用于自動(dòng)機(jī)器學(xué)習(xí)(AutoML)的開源軟件庫(kù)崭捍。自動(dòng)機(jī)器學(xué)習(xí)的最終目標(biāo)是讓僅擁有一定數(shù)據(jù)科學(xué)知識(shí)或機(jī)器學(xué)習(xí)背景的行業(yè)專家可以輕松地應(yīng)用深度學(xué)習(xí)模型。Auto-Keras提供了很多用于自動(dòng)研究深度學(xué)習(xí)模型架構(gòu)與超參數(shù)的函數(shù)啰脚。 -
Finetune Scikit-Learn風(fēng)格的自然語(yǔ)言處理模型微調(diào)器
項(xiàng)目鏈接:https://github.com/IndicoDataSolutions/finetune
文檔:https://finetune.indico.io
入門指南:https://finetune.indico.io
Finetune提供了“通過(guò)生成式預(yù)訓(xùn)練改進(jìn)對(duì)語(yǔ)言的理解”的預(yù)訓(xùn)練語(yǔ)言模型殷蛇,并擴(kuò)充了OpenAI/finetune-language-model庫(kù)。 -
GluonNLP - 讓自然語(yǔ)言處理變得更簡(jiǎn)單
項(xiàng)目鏈接:https://github.com/dmlc/gluon-nlp
文檔:http://gluon-nlp.mxnet.io
入門指南: https://github.com/dmlc/gluon-nlp#quick-start-guide
GluonNLP可以使文本處理、數(shù)據(jù)加載及構(gòu)建神經(jīng)模型變得更容易粒梦,加快自然語(yǔ)言處理研究的速度亮航。 -
animatplot - 基于Matplotlib的Python動(dòng)圖庫(kù)
項(xiàng)目鏈接:https://github.com/t-makaro/animatplot
文檔:https://animatplot.readthedocs.io/en/latest
入門指南: https://animatplot.readthedocs.io/en/latest/tutorial/getting_started.html
請(qǐng)注意,本庫(kù)文檔里的例子比較簡(jiǎn)單匀们,本文引用的是該庫(kù)在GitHub上列出的功能更全缴淋、形式更酷的示例圖。
-
MLflow - 機(jī)器學(xué)習(xí)生命周期的開源平臺(tái)
項(xiàng)目鏈接:https://github.com/mlflow/mlflow
文檔:https://mlflow.org/docs/latest/index.html
入門指南:https://mlflow.org/docs/latest/quickstart.html
MLflow是用來(lái)管理機(jī)器學(xué)習(xí)整體生命周期的開源平臺(tái)昼蛀,這個(gè)平臺(tái)提供了以下主要三個(gè)功能:
- MLflow Tracking:跟蹤實(shí)驗(yàn)宴猾,以用來(lái)記錄和比較機(jī)器學(xué)習(xí)的參數(shù)。
- MLflow Projects:以可復(fù)用叼旋、可再現(xiàn)的形式,將機(jī)器學(xué)習(xí)的代碼進(jìn)行打包沦辙,以便分享給其他數(shù)據(jù)科學(xué)家或傳遞給生產(chǎn)環(huán)境夫植。
-
MLflow Models:管理各類機(jī)器學(xué)習(xí)庫(kù)中的模型,并部署到不同的模型服務(wù)及應(yīng)用平臺(tái)油讯。
MLflow通過(guò)訪問(wèn)REST API和CLI實(shí)現(xiàn)其功能详民,所以它不依賴于某個(gè)庫(kù),并且支持多種機(jī)器學(xué)習(xí)庫(kù)與編程語(yǔ)言陌兑,為了使用方便沈跨,它還內(nèi)置了Python API。