2018年已經過去四分之一了,在口號喊出來了快一個月的時間點上郑诺,先對今年知識輸出的內容做一個簡單的規(guī)劃夹姥。
這些文章的輸出是有著兩個目的:一是自己的整理與總結,二是希望能借此幫助到有緣人辙诞。
Python機器學習
這個就不用多介紹了辙售。
老實說,純理論方面的推導我也覺得有些困難飞涂,這個領域的壁壘可以很高旦部,也可以很淺。之所以說它很淺较店,是因為前人都造好了輪子士八,我們只是享前人種下的樹蔭。所以我只是比調包俠強了一些梁呈。
所謂強了一些婚度,是我的業(yè)務經驗能幫助我更好的去理解ML模型和特征工程。我寫機器學習還有一個私心捧杉,就是希望靠輸出鞏固自己相關的知識點。
各位不會通過文章成為算法專家秘血,也很難單靠它就轉行成數據挖掘工程師味抖。我能寫的,是給業(yè)務分析師劃分出一條職場通道灰粮,是為學生黨帶入門仔涩,是幫更多的運營和產品經理們熟悉數據挖掘和機器學習技術。
隨著Google和Microsoft的在線機器學習工具的普及粘舟,是機器學習會更加平民化熔脂。隨著自調參和自編碼技術的發(fā)展普及佩研,技術的上手難度會越來越低,我相信早晚有一天霞揉,業(yè)務人員也能在數據平臺上通過拖拽完成模型的建立旬薯。
Python爬蟲
去年Alpha Go帶領起來的大數據爆發(fā),某乎上有著各種各樣的爬蟲項目介紹适秩,這就算是個湊熱鬧的點吧绊序。
不過爬蟲入門門檻并不高,如果有Python基礎秽荞,并且不考慮分布式爬蟲骤公、反爬蟲對抗等技術,一周的時間足夠入門扬跋,鼓搗出一些好玩的東西阶捆。
具體涉及的內容會包括前端知識、urllib和requests的請求钦听、beautifulsoup的網頁解析洒试,到最后Scrapy框架的使用。以大家能順利抓取幾個目標網站為結果彪见。
掌握爬蟲后儡司,可以做兩件具有性價比的事。競品分析和數據項目余指,競品分析包括但不限于對手內容的copy捕犬、活躍數據的統(tǒng)計,在工作中幫大家從復制黏貼的重復勞動中抽身出來酵镜。
而數據項目是新人最好的練習題碉碉,很多人問,我想轉行數據分析應該怎么做淮韭?各種軟硬性技能的鍛煉是一方面垢粮,但是你總歸要證明自己能夠勝任,那么用爬蟲抓一波數據作為分析練習靠粪,并以項目的形式展現(xiàn)出來蜡吧,絕對事半功倍。
成果總是最好的證明占键。
你想要投電商公司昔善,那么抓取它對標的競爭對手,可以分析一下對手有多少SKU畔乙?售賣情況君仆?商品評論怎么樣?隨著時間趨勢是上升還是下降?這比簡歷上的踏實肯干返咱、認真努力钥庇、學習能力強等評語要靠譜多了。你是面試官咖摹,你會不會更傾心评姨?
抓取項目我會盡量選擇有意義的,比如各種內容平臺的評論楞艾。而這些數據也能用在用戶畫像参咙、機器學習等文章上。
數據庫與數據倉庫
有了分析工具硫眯,然后也有了數據蕴侧,于是就是到使用數據庫的時候了。
可能數據倉庫的概念大家有些陌生两入,通常我們使用JAVA净宵、C++寫CRUB的時候只知道一個數據庫。大數據到來了裹纳,ETL在后端也火了起來择葡,很多公司都是找不到有經驗的ETL或者是招不到靠譜的ETL,于是在轉型的過程中因為數據質量的問題而耽擱了剃氧。
了解到數據庫與數據倉庫的區(qū)別之后敏储,在這基礎之上會談一談OLAP、BI還有數據可視化朋鞍,大概率是紙上談兵已添,畢竟這里沒有多少實際工作經驗。
最后
除去以上三個必談的主題之外滥酥,不出意外也會觸及到TensorFlow更舞、NLP和Opencv,這些都是后話了坎吻。
回頭一看缆蝉,除了爬蟲,其他每個系列都會十來篇往上瘦真,這都是深坑啊刊头。
雖然感覺今年有可能寫不完,能寫多少就盡量寫吧诸尽。
先推薦兩個SQL教程(這個跟寫作計劃沒有關系):SQLZOO有合適的教程原杂,W3school也有。
還有Python教程弦讽,入門就看廖雪峰老師的課程吧污尉,深入的就看書吧。
——不求多往产,只求精被碗。
因為是個人發(fā)文,會在微信公眾號和簡書上同步更新仿村。