大數(shù)據(jù)人推薦:六款強(qiáng)大的開源數(shù)據(jù)挖掘工具

?在互聯(lián)網(wǎng)發(fā)展到大數(shù)據(jù)時代民晒,那么數(shù)據(jù)就等于金錢凡涩。隨著向一個基于應(yīng)用的領(lǐng)域過渡些己,數(shù)據(jù)則呈現(xiàn)出了指數(shù)級增長豌鸡。然而,百分之八十的數(shù)據(jù)是非結(jié)構(gòu)化的轴总,因此它需要一個程序和方法來從中提取有用信息直颅,并且將其轉(zhuǎn)換為可理解、可用的結(jié)構(gòu)化形式怀樟。

? ? ? ? 在數(shù)據(jù)挖掘過程中功偿,有大量的工具可供使用,比如采用人工智能往堡、機(jī)器學(xué)習(xí)械荷,以及其他技術(shù)等來提取數(shù)據(jù)。

推薦:六款強(qiáng)大的開源數(shù)據(jù)挖掘工具

1虑灰、WEKA

WEKA 原生的非 Java 版本主要是為了分析農(nóng)業(yè)領(lǐng)域數(shù)據(jù)而開發(fā)的吨瞎。該工具基于 Java 版本,是非常復(fù)雜的穆咐,并且應(yīng)用在許多不同的應(yīng)用中颤诀,包括數(shù)據(jù)分析以及預(yù)測建模的可視化和算法。與 RapidMiner 相比優(yōu)勢在于对湃,它在 GNU 通用公共許可證下是免費(fèi)的崖叫,因?yàn)橛脩艨梢园凑兆约旱南埠眠x擇自定義。

WEKA 支持多種標(biāo)準(zhǔn)數(shù)據(jù)挖掘任務(wù)拍柒,包括數(shù)據(jù)預(yù)處理心傀、收集、分類拆讯、回歸分析脂男、可視化和特征選取养叛。添加序列建模后,WEKA 將會變得更強(qiáng)大宰翅,但目前不包括在內(nèi)弃甥。

2、RapidMiner

該工具是用 Java 語言編寫的汁讼,通過基于模板的框架提供先進(jìn)的分析技術(shù)潘飘。該款工具最大的好處就是,用戶無需寫任何代碼掉缺。它是作為一個服務(wù)提供卜录,而不是一款本地軟件。值得一提的是眶明,該工具在數(shù)據(jù)挖掘工具榜上位列榜首艰毒。

另外,除了數(shù)據(jù)挖掘搜囱,RapidMiner 還提供如數(shù)據(jù)預(yù)處理和可視化丑瞧、預(yù)測分析和統(tǒng)計建模、評估和部署等功能蜀肘。更厲害的是它還提供來自 WEKA(一種智能分析環(huán)境)和 R 腳本的學(xué)習(xí)方案绊汹、模型和算法。

RapidMiner 分布在 AGPL 開源許可下扮宠,可以從 SourceForge 上下載西乖。SourceForge 是一個開發(fā)者進(jìn)行開發(fā)管理的集中式場所,大量開源項(xiàng)目在此落戶坛增,其中就包括維基百科使用的 MediaWiki获雕。

3、NLTK

當(dāng)涉及到語言處理任務(wù)收捣,沒有什么可以打敗 NLTK届案。NLTK 提供了一個語言處理工具,包括數(shù)據(jù)挖掘罢艾、機(jī)器學(xué)習(xí)楣颠、數(shù)據(jù)抓取、情感分析等各種語言處理任務(wù)咐蚯。

而您需要做的只是安裝 NLTK童漩,然后將一個包拖拽到您最喜愛的任務(wù)中,您就可以去做其他事了仓蛆。因?yàn)樗怯?Python 語言編寫的睁冬,你可以在上面建立應(yīng)用挎春,還可以自定義它的小任務(wù)看疙。

4豆拨、Orange

Python 之所以受歡迎,是因?yàn)樗唵我讓W(xué)并且功能強(qiáng)大能庆。如果你是一個 Python 開發(fā)者施禾,當(dāng)涉及到需要找一個工作用的工具時,那么沒有比 Orange 更合適的了搁胆。它是一個基于 Python 語言弥搞,功能強(qiáng)大的開源工具,并且對初學(xué)者和專家級的大神均適用渠旁。

此外攀例,你肯定會愛上這個工具的可視化編程和 Python 腳本。它不僅有機(jī)器學(xué)習(xí)的組件顾腊,還附加有生物信息和文本挖掘粤铭,可以說是充滿了數(shù)據(jù)分析的各種功能。

5杂靶、KNIME

數(shù)據(jù)處理主要有三個部分:提取梆惯、轉(zhuǎn)換和加載。 而這三者 KNIME 都可以做到吗垮。 KNIME 為您提供了一個圖形化的用戶界面垛吗,以便對數(shù)據(jù)節(jié)點(diǎn)進(jìn)行處理。它是一個開源的數(shù)據(jù)分析烁登、報告和綜合平臺怯屉,同時還通過其模塊化數(shù)據(jù)的流水型概念,集成了各種機(jī) 器學(xué)習(xí)的組件和數(shù)據(jù)挖掘饵沧,并引起了商業(yè)智能和財務(wù)數(shù)據(jù)分析的注意蚀之。

KNIME 是基于 Eclipse,用 Java 編寫的捷泞,并且易于擴(kuò)展和補(bǔ)充插件足删。其附加功能可隨時添加,并且其大量的數(shù)據(jù)集成模塊已包含在核心版本中锁右。

當(dāng)涉及到語言處理任務(wù)失受,沒有什么可以打敗 NLTK。NLTK 提供了一個語言處理工具咏瑟,包括數(shù)據(jù)挖掘拂到、機(jī)器學(xué)習(xí)、數(shù)據(jù)抓取码泞、情感分析等各種語言處理任務(wù)兄旬。

而您需要做的只是安裝 NLTK,然后將一個包拖拽到您最喜愛的任務(wù)中,您就可以去做其他事了领铐。因?yàn)樗怯?Python 語言編寫的悯森,你可以在上面建立應(yīng)用,還可以自定義它的小任務(wù)绪撵。

6瓢姻、R-Programming

如果我告訴你R項(xiàng)目,一個 GNU 項(xiàng)目音诈,是由 R(R-programming簡稱幻碱,以下統(tǒng)稱R)自身編寫的,你會怎么想?它主要是由 C 語言和 FORTRAN 語言編寫的细溅,并且很多模塊都是由 R 編寫的褥傍,這是一款針對編程語言和軟件環(huán)境進(jìn)行統(tǒng)計計算和制圖的免費(fèi)軟件。

R語言被廣泛應(yīng)用于數(shù)據(jù)挖掘喇聊,以及開發(fā)統(tǒng)計軟件和數(shù)據(jù)分析中摔桦。近年來,易用性和可擴(kuò)展性也大大提高了 R 的知名度承疲。除了數(shù)據(jù)邻耕,它還提供統(tǒng)計和制圖技術(shù),包括線性和非線性建模燕鸽,經(jīng)典的統(tǒng)計測試兄世,時間序列分析、分類啊研、收集等等御滩。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市党远,隨后出現(xiàn)的幾起案子削解,更是在濱河造成了極大的恐慌,老刑警劉巖沟娱,帶你破解...
    沈念sama閱讀 211,265評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件氛驮,死亡現(xiàn)場離奇詭異,居然都是意外死亡济似,警方通過查閱死者的電腦和手機(jī)矫废,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評論 2 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來砰蠢,“玉大人蓖扑,你說我怎么就攤上這事√ú眨” “怎么了律杠?”我有些...
    開封第一講書人閱讀 156,852評論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我柜去,道長灰嫉,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,408評論 1 283
  • 正文 為了忘掉前任诡蜓,我火速辦了婚禮,結(jié)果婚禮上胰挑,老公的妹妹穿的比我還像新娘蔓罚。我一直安慰自己,他們只是感情好瞻颂,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,445評論 5 384
  • 文/花漫 我一把揭開白布豺谈。 她就那樣靜靜地躺著,像睡著了一般贡这。 火紅的嫁衣襯著肌膚如雪茬末。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,772評論 1 290
  • 那天盖矫,我揣著相機(jī)與錄音丽惭,去河邊找鬼。 笑死辈双,一個胖子當(dāng)著我的面吹牛责掏,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播湃望,決...
    沈念sama閱讀 38,921評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼换衬,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了证芭?” 一聲冷哼從身側(cè)響起瞳浦,我...
    開封第一講書人閱讀 37,688評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎废士,沒想到半個月后叫潦,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,130評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡官硝,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,467評論 2 325
  • 正文 我和宋清朗相戀三年诅挑,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片泛源。...
    茶點(diǎn)故事閱讀 38,617評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡拔妥,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出达箍,到底是詐尸還是另有隱情没龙,我是刑警寧澤,帶...
    沈念sama閱讀 34,276評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站硬纤,受9級特大地震影響解滓,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜筝家,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,882評論 3 312
  • 文/蒙蒙 一洼裤、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧溪王,春花似錦腮鞍、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,740評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至道伟,卻和暖如春迹缀,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蜜徽。 一陣腳步聲響...
    開封第一講書人閱讀 31,967評論 1 265
  • 我被黑心中介騙來泰國打工祝懂, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人拘鞋。 一個月前我還...
    沈念sama閱讀 46,315評論 2 360
  • 正文 我出身青樓嫂易,卻偏偏與公主長得像,于是被迫代替她去往敵國和親掐禁。 傳聞我的和親對象是個殘疾皇子怜械,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,486評論 2 348

推薦閱讀更多精彩內(nèi)容