一:前言
對于我來說2017年既是一個付出更多努力學習之年也是豐收之年。這一年我花費很多時間放在了Python語言和相關內容的學習上,同時也取得很好的成果——利用Python爬蟲我取得了地平線機器人和阿里健康的實習。還一個很重要的收獲是有了可愛的女朋友,感謝她陪伴我的每一天。
二:學習
(1)學習Python爬蟲前的情況
本人專業(yè)機械設計及其自動化,但是大學之前一直是喜歡并且接觸過一點編程開發(fā)相關內容只搁,喜歡搗鼓計算機,手機相關東西俭尖,比如電腦軟件破解氢惋,手機模擬腳本開發(fā),流量代理 ... 大一的時候自學了一些前端稽犁,HTML CSS JS 及其開發(fā)和調試有一些基礎了解焰望。偶然的機會我看到Python爬蟲的相關教程的文章,當時就覺得挺有意思已亥,Python語言也很精簡熊赖,上手快。不僅可以做爬蟲還可以做數(shù)據(jù)挖掘虑椎、機器學習震鹉、Web 等等俱笛,心想:哇,這東西這么牛必須學一學传趾,以后就業(yè)路子應該很廣吧迎膜,就這樣我開始踏上了Python學習之旅。
(2)Python爬蟲學習
由于我個人平時喜歡收集資源墨缘,所以各種編程開發(fā)教學視頻星虹, PDF書籍零抬,編程教學網(wǎng)站镊讼,資源網(wǎng)站我是不缺的,所以開始的學習的路走起來不是很累平夜。在大二下學期開學開始沒多久我就開始了Python爬蟲的學習蝶棋,那個時候我就準備了一下幾樣東西搭配學習:
- 1、PDF基礎書籍《Python語言及其應用》
- 2忽妒、Python爬蟲教學視頻 比如慕課網(wǎng)玩裙,極客學院,百度傳課段直,網(wǎng)易云課堂 等等...
- 3吃溅、文章教程 簡書 CSDN 伯樂在線 博客園 知乎等等...
- 4、答疑途徑 最基本的是百度鸯檬、谷歌决侈,當然學會使用搜索才是第一步,如果還不懂如何高效利用搜索引擎請再次百度一下吧喧务。除了搜索引擎之外需要關注的還有 GitHub和Stack OverFlow 一個是可以找到很多學習的Demo和源代碼赖歌,一個是國外的技術問答網(wǎng)站,很多編程問題都可以取搜索一下功茴,如果沒有答案也可以自己提問庐冯。
就是在這樣的學習環(huán)境下我堅持了兩個月左右,在這期間我一邊學習一邊記錄自己的筆記(寫在網(wǎng)易云筆記)和爬蟲的16篇文章(放在簡書)坎穿。期間利用課余和選修課時間泡在圖書館和教室中展父,對著別人的文章和視頻思路寫著代碼。有時為了完成一個爬蟲思路一兩點還在不斷修改代碼玲昧,記得當時第一次接觸Python socket編程和 Web socket學習就是不斷嘗試中學習栖茉,最后分別解決了兩個直播網(wǎng)站數(shù)據(jù)的抓取(斗魚和YY直播)酌呆。學習的時候每一次成功運行爬蟲代碼獲取到對應的數(shù)據(jù)都非常開心衡载,覺得這種努力很快就會有回報。所以很建議新手接觸這樣的編程隙袁,可以激勵自己繼續(xù)前行痰娱。
學習總結
1.要學會分辨學習資源的優(yōu)劣弃榨,挑選好的資源可以更快更好的學習下去。
2.學習的時候要做好筆記梨睁,遇到好的文章鲸睛,不同的解決方案,遇到的難點等等坡贺。
3.學會利用搜索解決問題官辈,堅持不斷嘗試,而不是隨便就問別人或者放棄遍坟。
三:實習
(1)實習前的情況
學了Python爬蟲兩月后也就快到大二的暑假了拳亿,在這之前聽一個信管的同學說暑假要是可以實習對自己會有很大提高,對于我這樣不是計算機相關專業(yè)的人以后找編程工作也方便一點愿伴。所以在暑假前我就打算好要么取做Python爬蟲實習肺魁,要么暑假就去干點活賺錢維持下學期的生活費。然后我就在實習僧網(wǎng)站投了幾家爬蟲實習的職位隔节,簡歷上的內容是我爬蟲會相關的技術說明鹅经、簡書和我的GitHub的地址也放進去了。沒想沒過幾天就收到了北京地平線機器人的實習Offer怎诫,然后還收到了一家做招聘網(wǎng)站的公司的Offer瘾晃,和老板交流過幾次感覺人很好,如果有機會的話可以去工作幻妓。(同時感謝兩家公司對我的信任蹦误,在我還沒有任何實習經(jīng)驗而且還不是計算機相關專業(yè)的前提下愿意給我實習機會)
(2)地平線機器人實習
7月份炎熱的夏天剛要開始我去了北京,開始了第一次實習經(jīng)歷涌哲。當時做爬蟲的有三個實習生胖缤,都是爬蟲不過負責的方向不一樣,我當時負責語音和NLP相關數(shù)據(jù)的爬蟲多一點阀圾。我的同事哪廓,mentor以及負責我們三個爬蟲的項目經(jīng)理人都超級好,公司里的其他交接工作的人都很友好初烘,而且年齡普遍很低涡真,放眼過去就感覺大家好像都是大學生似得。公司還經(jīng)常分享技術還有每周的TGIF活動介紹新人和其他活動肾筐,每天有免費的零食哆料,茶。
當時去之前我只是針對文本吗铐,圖片數(shù)據(jù)东亦,音頻數(shù)據(jù)有抓取經(jīng)驗,但是對于性能和效率沒有太多的考慮唬渗。在公司的幾個月中不斷熟悉爬蟲的流程典阵,提高的爬蟲性能奋渔,優(yōu)化代碼邏輯。使用了爬蟲的框架進行開發(fā)比如Scrapy 自己也做了分布式爬蟲的學習壮啊。對于反 反爬蟲也做了很多學習嫉鲸,比如簡單的是header cookie 代理ip,瀏覽器模擬歹啼,稍微難一點就是前端相關接口數(shù)據(jù)加解密玄渗,網(wǎng)頁,app抓包分析等等狸眼。
再記錄一下當時的居住飲食情況藤树,公司是在中關村地鐵口的海龍大廈,而我住的是黃村西大街份企,距離25個地鐵站也榄,去地鐵還要先騎車幾分鐘。記得當時每天上下班都是很疲憊的司志,有時我坐著就睡著了,然后都睡醒了車還沒到站 ⊙﹏⊙‖∣還好每天吃飯都是去美食街降宅,好吃而且價格也很合適和在哈爾濱價格差不多骂远。
離職的時候我的mentor和我聊了很久,給我介紹了以后的工作情況腰根,還有幫我規(guī)劃了大三下學期的學習計劃以應對校招激才,我學到了很多東西,真的很感謝他额嘿。希望后面能繼續(xù)在他的指導下繼續(xù)前行瘸恼。
(3)阿里健康的實習
寒假前我收到了幾個實習Offer 最終還是選擇了阿里健康,選擇更進一步提高爬蟲和相關技術册养,能在阿里實習也是一個機遇东帅。目前還在實習中,主要工作就是爬蟲和數(shù)據(jù)處理球拦。在這段時間中我我接觸了阿里的數(shù)據(jù)平臺MaxComputer 以及pyodps靠闭、爬蟲框架和機器學習處理平臺PAI 。之前我用數(shù)據(jù)庫是mongodb 和redis坎炼,對sql還沒有用過幾次愧膀,來了之后數(shù)據(jù)處理大多數(shù)是用sql處理還一部分是我用pyodps處理(里面有類似pandas處理數(shù)據(jù)的功能),數(shù)據(jù)保存的話100% odps表 類sql 的一種表的存儲谣光。經(jīng)過幾天sql的基本操作也會了檩淋,隨著時間的推移,我發(fā)現(xiàn)我的sql處理邏輯也越來豐富萄金,函數(shù)利用蟀悦、代碼長度也變長很多碳柱。哈哈,這真是一種最直觀的感覺熬芜。
實習的過程中自己每天也在學習機器學習和數(shù)據(jù)處理挖掘相關內容莲镣,為以后打下基礎。
在這里的感覺和地平線機器人很不一樣涎拉,人員的年齡瑞侮,工作方式,團隊管理等等很多方面都有較大不同鼓拧。在這里開發(fā)工作節(jié)奏也比較快半火。我們搜索&算法組的師姐師兄還是很好的,有時實在解決不了的問題找他們幫忙也很熱心給我解答季俩。
四:總結
寒假在阿里實習期間還有過年穿插钮糖,但是這次沒有回去,一方面是真的沒到票酌住,另一方面是很想在這里利用這幾天時間學習店归,感覺還有很多技術需要補充,實習的要求門檻低一點酪我,但是大公司校招還是高很多的消痛,所以還要付出更多的努力。雖然自己暫時幾年做爬蟲但是看了很多的招聘介紹中很多都有 “有機器學習都哭、數(shù)據(jù)挖掘秩伞、大數(shù)據(jù)處理 優(yōu)先”。對于這種情況欺矫,我選擇繼續(xù)跟進機器學習和數(shù)據(jù)挖掘部分纱新,爬蟲方面的進階部分也會繼續(xù)學習。
2017帶給我?guī)Ф囿@喜穆趴,希望2018也能順利學會更多想要的技術和找到心儀的校招公司脸爱。
加油!