ddm2014 - 簡書

發(fā)簡信

ddm2014

11
關(guān)注
26
粉絲
55
文章
22217

字?jǐn)?shù)
65

收獲喜歡
5

總資產(chǎn)

IP屬地：四川

ddm2014

爬豆瓣豆列
目的：把精彩豆列頻道里的每個豆列里的內(nèi)容抓取出來犁苏。流程是抓取目錄頁精彩豆列頻道豆列的地址-對每個豆列所有頁數(shù)都抓取具體內(nèi)容、網(wǎng)址剖效、時間。這就很標(biāo)準(zhǔn)crawlspider干的活...

1320 0 0
ddm2014

驗(yàn)證碼去除干擾線
在邦購登陸時焰盗，選擇了人工檢驗(yàn)驗(yàn)證碼贱鄙，這次用機(jī)器檢測試試。先說基本邏輯：載入圖像姨谷，轉(zhuǎn)灰度逗宁，二值化，連通域檢測梦湘，去除連通域小的瞎颗，根據(jù)各連通域的范圍切割圖像件甥。先下載圖片。得到的...

11361 1 2

ddm2014

ng deep learning 學(xué)習(xí)筆記
先快速搭建一個神經(jīng)網(wǎng)絡(luò)哼拔，看看訓(xùn)練集效果引有，調(diào)整，看dev集的cv效果倦逐，調(diào)整譬正，看test集效果，調(diào)整檬姥，最后看實(shí)際數(shù)據(jù)的效果曾我，再調(diào)整。

309 0 0
ddm2014

爬今日頭條健民，各種失敗經(jīng)驗(yàn)抒巢，之后成功了
最近研究了一下js加密，發(fā)現(xiàn)今日頭條比較適合練手秉犹，在頭條獲取數(shù)據(jù)的XHR中request參數(shù)有一項_signature參數(shù)蛉谜，這個是就是經(jīng)過js加密的數(shù)據(jù)。解決方案在最后崇堵。復(fù)...

11272 2 6
ddm2014

辰辰沉沉沉
寫了 25360 字型诚，被 25 人關(guān)注，獲得了 42 個喜歡
ddm2014

scrapy 關(guān)于session
在requests用session登陸這篇講了怎么用同一個session控制cookies以達(dá)到登陸的需求鸳劳，在scrapy里主要用的是FormRequest和cookieja...

5751 0 1
ddm2014

scrapy用proxy的零零總總
在scrapy框架及中間件中說到了中間件相關(guān)的數(shù)據(jù)流程俺驶，剛好在用proxy爬數(shù)據(jù)的時候會用到中間件的零零總總，這回可以一起說說了棍辕。我覺得寫中間件要先找到內(nèi)置的相關(guān)中間件暮现，根據(jù)...

2262 0 4

ddm2014

爬金融數(shù)據(jù)
最喜歡的爬取的就是由前端數(shù)據(jù)，返回的json全是數(shù)據(jù)特別好弄楚昭，而且還可以根據(jù)需求構(gòu)造網(wǎng)址栖袋，一次取回所需數(shù)據(jù)。這次爬的是東方財富網(wǎng)的股東人數(shù)抚太，地址是http://data.ea...

725 0 0
ddm2014

python -裝飾器
裝飾器之前要先說說函數(shù)名（）和函數(shù)名的區(qū)別 test()是返回函數(shù)值塘幅，所以是可以賦值給變量的。比如a=test()尿贫。test是調(diào)用函數(shù)电媳，在scrapy里有很多的callbac...

252 0 0
ddm2014

scrapy_redis分布式爬蟲
說到redis了，自然就要說到另一個爬蟲框架scrapy_redis庆亡，分布式爬蟲匾乓，scrapy與scrapy_redis最大的不同是scheduler，也正是因?yàn)檫@個sche...

320 0 0
ddm2014

scrapy框架及中間件
scrapy框架官方圖如下基本流程是1.spider發(fā)出初始request需求又谋，默認(rèn)是對start_urls發(fā)起get方法的request拼缝，如果帶參數(shù)或者post就重寫st...

2689 0 1
ddm2014

scrapy+redis增量爬蟲
scrapy適合一次性爬取全站娱局，如果我想多次爬取，主目錄頁面難免會出現(xiàn)重復(fù)咧七，去重增量爬取就很有必要了衰齐。我在網(wǎng)上搜到了這樣的文章scrapy+redis增量爬取,邏輯是前一次存...

2316 1 4

ddm2014

爬m(xù).weibo站
最近需要一些拍照的指導(dǎo)，想爬取微博里的相冊继阻，m站比pc站好爬耻涛，先看看pc的network。順利找到網(wǎng)址瘟檩，不過pc的分頁方式讓我分方抹缕，感覺像是開始以為是時間戳，可能是圖片的數(shù)據(jù)...

2273 0 1
ddm2014

用python寫爬蟲-re模塊
re模塊中最常用到三個函數(shù)的是match芒帕，search歉嗓，findall丰介。不過他們都能匹配字符串背蟆，不過又稍有不同。基本格式 re.findall/match/search("...

514 0 0
ddm2014

sklearn-loss function
我認(rèn)為各個模型核心就是loss function哮幢，loss function不同就是不同的模型带膀，具有相同的loss function大體也就相同，可能只是一個是分類橙垢，一個是回...

2329 0 0
ddm2014

sklearn-4.11邏輯回歸垛叨，SVM，SGDClassifier的應(yīng)用
模型選擇：前面說了邏輯回歸和SVM的區(qū)別和聯(lián)系柜某，主要是線性是否可分嗽元，但是實(shí)際二分類中特征向量維數(shù)起碼數(shù)十，成百上千的喂击，雖說降維之后看看特征是否能夠線性可分剂癌，但再加上數(shù)據(jù)本身...

9498 0 3
ddm2014

sklearn-4.1邏輯回歸，SVM
sklearn前面有過一個樹狀圖翰绊，大概說了什么情況用什么模型合適佩谷。監(jiān)督學(xué)習(xí)分類模型，主要有邏輯回歸LogisticRegression监嗜，支持向量機(jī)svm谐檀，神經(jīng)網(wǎng)絡(luò)，近鄰KN...

1241 0 4

ddm2014

requests和pandas聯(lián)合爬代理ip裁奇，驗(yàn)證ip
最近需要找個代理上網(wǎng)桐猬，但是網(wǎng)上免費(fèi)的ip實(shí)在是不太好用，隨機(jī)找到好用ip的概率實(shí)在有點(diǎn)小刽肠，就只能把它們都下下來挨個試课幕。我爬的是西刺代理-高匿厦坛，翻看兩頁，想看看數(shù)據(jù)來源乍惊，完了是...

1493 0 0
ddm2014

sklearn-5.評價選擇model
sklearn.model_selection就是選擇模型的額杜秸，主要方法是cross_val_score，主要是把原始數(shù)據(jù)拿出一部分來做驗(yàn)證润绎，看訓(xùn)練的怎么樣撬碟，就像考試一樣，考...

497 0 0
ddm2014

sklearn-3.預(yù)處理數(shù)據(jù)
導(dǎo)入數(shù)據(jù)之后要做的是預(yù)處理莉撇，sklearn.preprocessing呢蛤，主要分為幾個方面。1.缺失值的處理缺失值我覺得用pandas來處理更方便棍郎，pandas.fillna其障，...

311 0 1