盤點當(dāng)下大熱的 7 大 Github 機器學(xué)習(xí)『創(chuàng)新』項目

學(xué)號:20021110074? ? ?電院? ? 姓名:梁雪玲

轉(zhuǎn)載自:https://blog.csdn.net/qq_28168421/article/details/101088174

【嵌牛導(dǎo)讀】:機器學(xué)習(xí)目前的研究進展如火如荼,你是否不知該如何下手實踐呢囱嫩?不要慌恃疯,本文帶你領(lǐng)略最頂尖的機器學(xué)習(xí)項目。

【嵌牛鼻子】:GitHub機器學(xué)習(xí)項目墨闲,NLP今妄,大數(shù)據(jù),計算機視覺

【嵌牛提問】:如何跟上機器學(xué)習(xí)的步伐鸳碧?該著手哪些項目盾鳞?找工作需要具備的實戰(zhàn)經(jīng)驗?

【嵌牛正文】:

本文將會分享近期發(fā)布的七大GitHub機器學(xué)習(xí)項目瞻离。這些項目廣泛覆蓋了機器學(xué)習(xí)的各個領(lǐng)域腾仅,包括自然語言處理(NLP)、計算機視覺套利、大數(shù)據(jù)等推励。

最頂尖的Github機器學(xué)習(xí)項目

1. PyTorch-Transformers(NLP)

傳送門:?https://github.com/huggingface/pytorch-transformers

自然語言處理(NLP)的力量令人嘆服。NLP改變了文本的處理方式肉迫,幾乎到了無法用語言描述的程度验辞。

在最先進的一系列NLP庫中,PyTorch-Transformers出現(xiàn)最晚喊衫,卻已打破各種NLP任務(wù)中已有的一切基準(zhǔn)跌造。它最吸引人的地方在于涵蓋了PyTorch實現(xiàn)、預(yù)訓(xùn)練模型權(quán)重及其他重要元素族购,可以幫助用戶快速入門鼻听。

運行最先進的模型需要龐大的計算能力诵竭。PyTorch-Transformers在很大程度上解決了這個問題谭跨,它能夠幫助這類人群建立起最先進的NLP模型凭豪。

這里有幾篇深度剖析PyTorch-Transformers的文章仿耽,可以幫助用戶了解這一模型(及NLP中預(yù)訓(xùn)練模型的概念):

·?PyTorch-Transformers:一款可處理最先進NLP的驚人模型庫(使用Python)

https://www.analyticsvidhya.com/blog/2019/07/pytorch-transformers-nlp-python/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

· 8個入門NLP最優(yōu)秀的預(yù)訓(xùn)練模型

https://www.analyticsvidhya.com/blog/2019/03/pretrained-models-get-started-nlp/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

· PyTorch——一個簡單而強大的深度學(xué)習(xí)庫

https://www.analyticsvidhya.com/blog/2018/02/pytorch-tutorial/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

2. NeuralClassifier (NLP)

傳送門:?https://github.com/Tencent/NeuralNLP-NeuralClassifier

在現(xiàn)實世界中饼拍,文本數(shù)據(jù)的多標(biāo)簽分類是一個巨大的挑戰(zhàn)衩匣。早期面對NLP問題時圈盔,我們通常處理的是單一標(biāo)簽任務(wù)驼壶,但在真實生活中卻遠不是這么簡單。

在多標(biāo)簽分類問題中亿卤,實例/記錄具備多個標(biāo)簽愤兵,且每個實例的標(biāo)簽數(shù)量并不固定。

NeuralClassifier使我們能夠在多層排吴、多標(biāo)簽分類任務(wù)中快速實現(xiàn)神經(jīng)模型秆乳。我最喜歡的是NeuralClassifier,提供了各種大眾熟知的文本編碼器钻哩,例如FastText屹堰、RCNN、Transformer等等街氢。


用NeuralClassifier可以執(zhí)行以下分類任務(wù):

·?雙層文本分類

·?多層文本分類

·?多標(biāo)簽文本分類

·?多層(多標(biāo)簽)文本分類

以下兩篇優(yōu)秀的文章介紹了究竟什么是多標(biāo)簽分類扯键,以及如何在Python中執(zhí)行多標(biāo)簽分類:

·?使用NLP預(yù)測電影類型——多標(biāo)簽分類的精彩介紹

https://www.analyticsvidhya.com/blog/2019/04/predicting-movie-genres-nlp-multi-label-classification/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

·?使用Python構(gòu)建你的第一個多標(biāo)簽圖像分類模型

https://www.analyticsvidhya.com/blog/2019/04/build-first-multi-label-image-classification-model-python/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

3. TDEngine (大數(shù)據(jù))

傳送門:?https://github.com/taosdata/TDengine

TDEngine數(shù)據(jù)庫在幾乎不到一個月的時間內(nèi)就累積了近10,000個star。繼續(xù)往下讀珊肃,你立馬就能明白這是為何荣刑。

TDEngine是一個開源大數(shù)據(jù)平臺,針對:

·?物聯(lián)網(wǎng)(IoT)

·?車聯(lián)網(wǎng)

·?工業(yè)物聯(lián)網(wǎng)

·?IT基礎(chǔ)架構(gòu)等等

本質(zhì)上伦乔,TDEngine提供了一整套與數(shù)據(jù)工程相關(guān)的任務(wù)厉亏,用戶可以用極快的速度完成所有這些工作(查詢處理速度將提高10倍,計算使用率將降低到1/5)烈和。

目前有一點需要注意——TDEngine僅支持在Linux上執(zhí)行爱只。TDEngine數(shù)據(jù)庫包含完整的文件資料以及包含代碼的入門指南。

建議你閱讀這一篇針對數(shù)據(jù)工程師的綜合資源指南:

·?想成為數(shù)據(jù)工程師斥杜?這里列出了入門應(yīng)看的綜合資源

https://www.analyticsvidhya.com/blog/2018/11/data-engineer-comprehensive-list-resources-get-started/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

4. Video Object Removal (計算機視覺)

傳送門:?https://github.com/zllrunning/video-object-removal

你是否接觸過圖像數(shù)據(jù)虱颗?計算機視覺是一種十分先進的技術(shù)沥匈,用于操縱和處理圖像的蔗喂。想要成為計算機視覺專家,圖像的目標(biāo)檢測通常被認(rèn)為是必經(jīng)之路高帖。

那么視頻呢缰儿?如果要對幾個視頻中的目標(biāo)繪制邊界框,雖然看似簡單散址,實際難度卻遠不止如此乖阵,而且目標(biāo)的動態(tài)性會使任務(wù)更加復(fù)雜。

所以Video Object Removal非常棒预麸,只要在視頻中某一目標(biāo)周圍繪制邊界框瞪浸,即可將它刪除。就是這么簡單吏祸!以下是一個范例:

如果你在計算機視覺的世界里還是個小白对蒲,這里有兩篇能幫助你入門并快速上手的文章:

· 對基礎(chǔ)目標(biāo)檢測算法的全面介紹

https://www.analyticsvidhya.com/blog/2018/10/a-step-by-step-introduction-to-the-basic-object-detection-algorithms-part-1/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

· 使用深度學(xué)習(xí)2.0掌握計算機視覺

https://courses.analyticsvidhya.com/courses/computer-vision-using-deep-learning-version2/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

5. Python Autocomplete (編程)

傳送門:?https://github.com/vpj/python_autocomplete

你一定會愛上Python Autocomplete的。數(shù)據(jù)科學(xué)家的所有工作就是對各種算法進行試驗(至少是大多數(shù)人),而Python Autocomplete可以利用一個LSTM簡單模型自動寫完P(guān)ython代碼蹈矮。

下圖中砰逻,灰色的部分就是LSTM模型自動填寫的代碼(結(jié)果位于圖像底部):

開發(fā)人員如是描述:

首先清除Python代碼中的注釋、字符串和空行泛鸟,然后進行訓(xùn)練和預(yù)測蝠咆。模型訓(xùn)練的前提是對python代碼進行標(biāo)記化,相比使用字節(jié)編碼來預(yù)測字節(jié)北滥,這似乎更為有效刚操。

如果你曾花費(浪費)時間編寫一行行單調(diào)的Python代碼,那么這一模型可能正是你所尋找的碑韵。不過它的開發(fā)還處于非常早期的階段赡茸,操作中不可避免會出現(xiàn)一些問題。

如果你想知道LSTM到底是什么祝闻,請閱讀這篇文章中的介紹:

·?深度學(xué)習(xí)的要點:長短時記憶(LSTM)入門

https://www.analyticsvidhya.com/blog/2017/12/fundamentals-of-deep-learning-introduction-to-lstm/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

6. tfpyth–從TensorFlow到PyTorch再到TensorFlow (編程)

傳送門:?https://github.com/BlackHC/tfpyth

TensorFlow和PyTorch兩大模型都坐擁龐大的用戶群占卧,但后者的使用率高得驚人,在未來一兩年內(nèi)很可能超過前者联喘。不過請注意:這并不會打擊Tensorflow华蜒,因為它的地位相當(dāng)穩(wěn)固。

所以如果你曾經(jīng)在TensorFlow中寫了一串代碼豁遭,后來又在PyTorch中寫了另一串代碼叭喜,現(xiàn)在希望將兩者結(jié)合起來用以訓(xùn)練模型——那么tfpyth框架會是一個好選擇。Tfpyth最大的優(yōu)勢就在于用戶不需要重寫先前寫好的代碼蓖谢。

這一項目對tfpyth的使用方法給出了結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)氖纠嬖蹋@無疑是對TensorFlow與PyTorch爭論的一種重新審視。

安裝tfpyth易如反掌:

pip install tfpyth

以下是兩篇深度介紹TensorFlow和PyTorch如何運作的文章:

· 深度學(xué)習(xí)指南:使用Python中的TensorFlow實現(xiàn)神經(jīng)網(wǎng)絡(luò)

https://www.analyticsvidhya.com/blog/2016/10/an-introduction-to-implementing-neural-networks-using-tensorflow/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

· PyTorch——一個簡單而強大的深度學(xué)習(xí)庫

https://www.analyticsvidhya.com/blog/2018/02/pytorch-tutorial/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

7. MedicalNet

MedicalNet中包含了一個PyTorch項目闪幽,該項目將《Med3D:用遷移學(xué)習(xí)分析3D醫(yī)學(xué)圖像》(https://arxiv.org/abs/1904.00625)這篇論文中的想法付諸實踐啥辨。這一機器學(xué)習(xí)項目將醫(yī)學(xué)數(shù)據(jù)集與不同的模態(tài)、目標(biāo)器官和病理結(jié)合起來盯腌,以構(gòu)建規(guī)模較大的數(shù)據(jù)集溉知。

眾所周知,深度學(xué)習(xí)模型(通常)需要大量訓(xùn)練數(shù)據(jù)腕够,而TenCent發(fā)布的MedicalNet是一個相當(dāng)出色的開源項目级乍,希望大家都能嘗試使用它。

MedicalNet的開發(fā)人員已經(jīng)發(fā)布了四個預(yù)訓(xùn)練模型帚湘,這些模型基于23個數(shù)據(jù)集玫荣。如果你需要,下文對遷移學(xué)習(xí)進行了直觀的介紹:

·?遷移學(xué)習(xí)及在深度學(xué)習(xí)中使用預(yù)訓(xùn)練模型的藝術(shù)

https://www.analyticsvidhya.com/blog/2017/06/transfer-learning-the-art-of-fine-tuning-a-pre-trained-model/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末大诸,一起剝皮案震驚了整個濱河市捅厂,隨后出現(xiàn)的幾起案子材诽,更是在濱河造成了極大的恐慌,老刑警劉巖恒傻,帶你破解...
    沈念sama閱讀 221,548評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件脸侥,死亡現(xiàn)場離奇詭異,居然都是意外死亡盈厘,警方通過查閱死者的電腦和手機睁枕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來沸手,“玉大人外遇,你說我怎么就攤上這事∑跫” “怎么了跳仿?”我有些...
    開封第一講書人閱讀 167,990評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長捐晶。 經(jīng)常有香客問我菲语,道長,這世上最難降的妖魔是什么惑灵? 我笑而不...
    開封第一講書人閱讀 59,618評論 1 296
  • 正文 為了忘掉前任山上,我火速辦了婚禮,結(jié)果婚禮上英支,老公的妹妹穿的比我還像新娘佩憾。我一直安慰自己,他們只是感情好干花,可當(dāng)我...
    茶點故事閱讀 68,618評論 6 397
  • 文/花漫 我一把揭開白布妄帘。 她就那樣靜靜地躺著,像睡著了一般池凄。 火紅的嫁衣襯著肌膚如雪抡驼。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,246評論 1 308
  • 那天修赞,我揣著相機與錄音婶恼,去河邊找鬼桑阶。 笑死柏副,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的蚣录。 我是一名探鬼主播割择,決...
    沈念sama閱讀 40,819評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼萎河!你這毒婦竟也來了荔泳?” 一聲冷哼從身側(cè)響起蕉饼,我...
    開封第一講書人閱讀 39,725評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎玛歌,沒想到半個月后昧港,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,268評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡支子,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,356評論 3 340
  • 正文 我和宋清朗相戀三年创肥,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片值朋。...
    茶點故事閱讀 40,488評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡叹侄,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出昨登,到底是詐尸還是另有隱情趾代,我是刑警寧澤,帶...
    沈念sama閱讀 36,181評論 5 350
  • 正文 年R本政府宣布丰辣,位于F島的核電站撒强,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏笙什。R本人自食惡果不足惜尿褪,卻給世界環(huán)境...
    茶點故事閱讀 41,862評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望得湘。 院中可真熱鬧杖玲,春花似錦、人聲如沸淘正。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽鸿吆。三九已至囤采,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間惩淳,已是汗流浹背蕉毯。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留思犁,地道東北人代虾。 一個月前我還...
    沈念sama閱讀 48,897評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像激蹲,于是被迫代替她去往敵國和親棉磨。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,500評論 2 359