使用KNIME的時(shí)間一年多一點(diǎn)混聊,對(duì)工作的效率的幫助非常大(主要是懶弹谁,不希望做重復(fù)性的工作,希望多騰些時(shí)間出來(lái)刷刷知乎句喜,逛逛論壇)预愤。通過(guò)這個(gè)專題,逐步分享關(guān)于KNIME的點(diǎn)滴咳胃,能讓大家的工作起來(lái)更加從容植康。
數(shù)據(jù)分析工具很多,工具語(yǔ)言如R展懈, Python销睁,工具類的如rapiderminer, alteryx 供璧,weka以及我們重點(diǎn)介紹的KNIME。還有很多工具和語(yǔ)言在此就不一一列舉了冻记。如果你像筆者一樣只是工作中有部分(< 30%)工作需要用到數(shù)據(jù)睡毒,比如業(yè)績(jī)追蹤管理,那可以用工具類的語(yǔ)言解決檩赢。如果你的工作90%以上都是數(shù)據(jù)吕嘀,靠這個(gè)吃飯的,那建議你還是靜下心來(lái)好好學(xué)習(xí)一門編程語(yǔ)言R or Python贞瞒。
為什么要用KNIME偶房?
1. 如果你不想寫代碼,或者說(shuō)不會(huì)寫军浆,但在自己的知識(shí)體系中曾經(jīng)學(xué)過(guò)C棕洋,VB,即最基礎(chǔ)的大學(xué)或研究生那點(diǎn)編程語(yǔ)言乒融,還是針對(duì)非計(jì)算機(jī)專業(yè)的掰盘。盡管現(xiàn)在都基本還給的老師,但至少知道if語(yǔ)句赞季,那說(shuō)明你可以用工具類語(yǔ)言愧捕。
2. KNIME相比于Rapidminer,Alteryx是免費(fèi)的申钩,當(dāng)然有些特定情況除外.
3. 想嘗試現(xiàn)在比較火的人工智能次绘,部署監(jiān)督/無(wú)監(jiān)督學(xué)習(xí)模型,KNIME上面有很多現(xiàn)成的模型足夠調(diào)用撒遣。
類似你想給你的車買合適的輪胎邮偎,輪胎廠家會(huì)提供輪胎使用的邊界條件,你不必知道輪胎內(nèi)部的高分子物理化學(xué)推導(dǎo)過(guò)程义黎。
KNIME也是一樣禾进,每個(gè)模型都會(huì)提供輸入和輸出。但需要知道這些條件對(duì)模型的影響廉涕,以及模型使用的前提(基本wiki后就可以有個(gè)大概認(rèn)識(shí))泻云,就像你不會(huì)給自己的轎車買一個(gè)卡車胎一樣的道理。
也許有可能成為一個(gè)“調(diào)參俠”火的,但還是再次強(qiáng)調(diào)如果你是靠數(shù)據(jù)吃飯壶愤,還是老老實(shí)實(shí)的把各種知識(shí)儲(chǔ)備弄扎實(shí)了。
4. 以下一些典型的場(chǎng)景馏鹤,如果你的工作涉及到了,說(shuō)明你可以繼續(xù)關(guān)注后面筆者的分享:
??????????? 1) 你肩負(fù)匯總和評(píng)價(jià)下屬分公司的業(yè)績(jī)娇哆,而這些業(yè)績(jī)都是基于EXCEL的湃累。對(duì)于宏操作不會(huì)勃救,只能通過(guò)復(fù)制粘貼,或者超鏈接的等于功能把在一個(gè)文件夾的文件匯總到一個(gè)文件上治力。
?????????? 2) 你有公司數(shù)據(jù)庫(kù)訪問(wèn)權(quán)限蒙秒,但你的SQL水平僅限于select * from XXX 最多加一個(gè)where,groupby宵统,top或者對(duì)select的字段進(jìn)行簡(jiǎn)單的邏輯計(jì)算(求和晕讲,最大,字符串)马澈。 你后續(xù)的處理通過(guò)Tableau瓢省, PowerBI一類的展示工具,但由于數(shù)據(jù)源的結(jié)構(gòu)限制痊班,影響你要呈現(xiàn)的內(nèi)容勤婚。比如,你要針對(duì)公司CRM 進(jìn)行RFM進(jìn)行分析涤伐,時(shí)間截點(diǎn)以今天往前推60天馒胆,看這個(gè)時(shí)間段內(nèi)每個(gè)會(huì)員的總交易額,交易頻次凝果,最后一次交易距離今天有多長(zhǎng)時(shí)間祝迂,通過(guò)KNIME可以輕松的把這個(gè)三個(gè)指標(biāo)跑出來(lái),并跟在會(huì)員ID后面器净,下面才是EXCEL型雳, Tableau 或者PowerBI上場(chǎng)。
????????? 3) 你作為業(yè)務(wù)部門給IT部門提出需求掌动,需要XXX類型數(shù)據(jù)四啰,但I(xiàn)T部門事務(wù)繁多,常常無(wú)法及時(shí)響應(yīng)
?????????? 4) 你有通過(guò)模型去實(shí)現(xiàn)預(yù)測(cè)或者發(fā)現(xiàn)關(guān)系的需求粗恢。比如柑晒,通過(guò)Apriori 算法計(jì)算購(gòu)物籃商品的關(guān)聯(lián)度,從而去優(yōu)化你們的促銷組合
?????????? 5) 數(shù)據(jù)挖掘和統(tǒng)計(jì)眷射,主要涉及以下方法
????????? 6)? 還有很多場(chǎng)景匙赞,但筆者工作不涉及,比如妖碉,爬蟲爬twitter或其他然后針對(duì)語(yǔ)義分析涌庭;化學(xué)分子式的分析;
????????? 7) 下圖是KNIME官方給一些應(yīng)用場(chǎng)景欧宜,如果下面有你關(guān)注的案例沟沙,那不妨了解一下
總之,這是一個(gè)針對(duì)非碼農(nóng)的搞數(shù)據(jù)的好工具路星。
后續(xù)的分享,筆者會(huì)沿用德國(guó)人的思路匹中,通過(guò)案例實(shí)踐來(lái)學(xué)習(xí)。大家可以在案例基礎(chǔ)上豪诲,修改成符合自己使用場(chǎng)景的工具顶捷。若有問(wèn)題,可以向筆者咨詢屎篱。