爬蟲入門基礎(chǔ)理論

轉(zhuǎn)載地址： http://www.csdn.net/article/2015-11-13/2826205
關(guān)于爬蟲內(nèi)容的分享猪杭，我會(huì)分成兩篇，六個(gè)部分來分享周崭，分別是：

我們的目的是什么
內(nèi)容從何而來
了解網(wǎng)絡(luò)請(qǐng)求
一些常見的限制方式
嘗試解決問題的思路
效率問題的取舍

一棍鳖、我們的目的是什么
一般來講對(duì)我們而言，需要抓取的是某個(gè)網(wǎng)站或者某個(gè)應(yīng)用的內(nèi)容术辐，提取有用的價(jià)值，內(nèi)容一般分為兩部分施无，非結(jié)構(gòu)化的文本辉词，或結(jié)構(gòu)化的文本。

關(guān)于非結(jié)構(gòu)化的數(shù)據(jù)
1.1 HTML文本（包含JavaScript代碼）
HTML文本基本上是傳統(tǒng)爬蟲過程中最常見的猾骡，也就是大多數(shù)時(shí)候會(huì)遇到的情況瑞躺，例如抓取一個(gè)網(wǎng)頁，得到的是HTML兴想，然后需要解析一些常見的元素幢哨，提取一些關(guān)鍵的信息。HTML其實(shí)理應(yīng)屬于結(jié)構(gòu)化的文本組織襟企，但是又因?yàn)橐话阄覀冃枰年P(guān)鍵信息并非直接可以得到，需要進(jìn)行對(duì)HTML的解析查找狮含，甚至一些字符串操作才能得到顽悼，所以還是歸類于非結(jié)構(gòu)化的數(shù)據(jù)處理中。
常見解析方式如下：

CSS選擇器

現(xiàn)在的網(wǎng)頁樣式比較多几迄，所以一般的網(wǎng)頁都會(huì)有一些CSS的定位蔚龙，例如class，id等等映胁，或者我們根據(jù)常見的節(jié)點(diǎn)路徑進(jìn)行定位木羹，例如騰訊首頁的財(cái)經(jīng)部分。

這里id就為finance，我們用css選擇器坑填，就是"#finance"就得到了財(cái)經(jīng)這一塊區(qū)域的html抛人，同理，可以根據(jù)特定的css選擇器可以獲取其他的內(nèi)容脐瑰。

XPATH

XPATH是一種頁面元素的路徑選擇方法妖枚，利用Chrome可以快速得到，如：

copy XPATH 就能得到——//*[@id="finance"]

正則表達(dá)式

正則表達(dá)式苍在，用標(biāo)準(zhǔn)正則解析绝页，一般會(huì)把HTML當(dāng)做普通文本，用指定格式匹配當(dāng)相關(guān)文本寂恬，適合小片段文本续誉，或者某一串字符，或者HTML包含javascript的代碼初肉，無法用CSS選擇器或者XPATH酷鸦。

字符串分隔

同正則表達(dá)式，更為偷懶的方法朴译，不建議使用井佑。
1.2 一段文本
例如一篇文章，或者一句話眠寿，我們的初衷是提取有效信息躬翁，所以如果是滯后處理，可以直接存儲(chǔ)盯拱，如果是需要實(shí)時(shí)提取有用信息盒发，常見的處理方式如下：

分詞

根據(jù)抓取的網(wǎng)站類型，使用不同詞庫狡逢，進(jìn)行基本的分詞宁舰，然后變成詞頻統(tǒng)計(jì)，類似于向量的表示奢浑，詞為方向蛮艰，詞頻為長度。

NLP

自然語言處理雀彼，進(jìn)行語義分析壤蚜，用結(jié)果表示，例如正負(fù)面等徊哑。

關(guān)于結(jié)構(gòu)化的數(shù)據(jù)
結(jié)構(gòu)化的數(shù)據(jù)是最好處理袜刷，一般都是類似JSON格式的字符串，直接解析JSON數(shù)據(jù)就可以了莺丑，提取JSON的關(guān)鍵字段即可著蟹。
二、內(nèi)容從何而來
過去我們常需要獲取的內(nèi)容主要來源于網(wǎng)頁，一般來講萧豆，我們決定進(jìn)行抓取的時(shí)候奸披，都是網(wǎng)頁上可看到的內(nèi)容，但是隨著這幾年移動(dòng)互聯(lián)網(wǎng)的發(fā)展炕横，我們也發(fā)現(xiàn)越來越多的內(nèi)容會(huì)來源于移動(dòng)App源内，所以爬蟲就不止局限于一定要抓取解析網(wǎng)頁，還有就是模擬移動(dòng)app的網(wǎng)絡(luò)請(qǐng)求進(jìn)行抓取份殿，所以這一部分我會(huì)分兩部分進(jìn)行說明膜钓。
1 網(wǎng)頁內(nèi)容
網(wǎng)頁內(nèi)容一般就是指我們最終在網(wǎng)頁上看到的內(nèi)容，但是這個(gè)過程其實(shí)并不是網(wǎng)頁的代碼里面直接包含內(nèi)容這么簡單卿嘲，所以對(duì)于很多新人而言颂斜，會(huì)遇到很多問題，比如：
明明在頁面用Chrome或者Firefox進(jìn)行審查元素時(shí)能看到某個(gè)HTML標(biāo)簽下包含內(nèi)容拾枣，但是抓取的時(shí)候?yàn)榭瘴执：芏鄡?nèi)容一定要在頁面上點(diǎn)擊某個(gè)按鈕或者進(jìn)行某個(gè)交互操作才能顯示出來。
所以對(duì)于很多新人的做法是用某個(gè)語言別人模擬瀏覽器操作的庫梅肤，其實(shí)就是調(diào)用本地瀏覽器或者是包含了一些執(zhí)行JavaScript的引擎來進(jìn)行模擬操作抓取數(shù)據(jù)司蔬，但是這種做法顯然對(duì)于想要大量抓取數(shù)據(jù)的情況下是效率非常低下，并且對(duì)于技術(shù)人員本身而言也相當(dāng)于在用一個(gè)盒子姨蝴，那么對(duì)于這些內(nèi)容到底是怎么顯示在網(wǎng)頁上的呢俊啼？主要分為以下幾種情況：

網(wǎng)頁包含內(nèi)容

這種情況是最容易解決的，一般來講基本上是靜態(tài)網(wǎng)頁已經(jīng)寫死的內(nèi)容左医，或者動(dòng)態(tài)網(wǎng)頁授帕，采用模板渲染珊楼，瀏覽器獲取到HTML的時(shí)候已經(jīng)是包含所有的關(guān)鍵信息疯坤，所以直接在網(wǎng)頁上看到的內(nèi)容都可以通過特定的HTML標(biāo)簽得到。

JavaScript代碼加載內(nèi)容

這種情況是由于雖然網(wǎng)頁顯示時(shí)浅浮，內(nèi)容在HTML標(biāo)簽里面秕硝，但是其實(shí)是由于執(zhí)行js代碼加到標(biāo)簽里面的芥映，所以這個(gè)時(shí)候內(nèi)容在js代碼里面的，而js的執(zhí)行是在瀏覽器端的操作远豺，所以用程序去請(qǐng)求網(wǎng)頁地址的時(shí)候奈偏，得到的response是網(wǎng)頁代碼和js的代碼，所以自己在瀏覽器端能看到內(nèi)容憋飞，解析時(shí)由于js未執(zhí)行霎苗，肯定找到指定HTML標(biāo)簽下內(nèi)容肯定為空姆吭，這個(gè)時(shí)候的處理辦法榛做，一般來講主要是要找到包含內(nèi)容的js代碼串，然后通過正則表達(dá)式獲得相應(yīng)的內(nèi)容，而不是解析HTML標(biāo)簽检眯。

Ajax異步請(qǐng)求

這種情況是現(xiàn)在很常見的厘擂，尤其是在內(nèi)容以分頁形式顯示在網(wǎng)頁上，并且頁面無刷新锰瘸，或者是對(duì)網(wǎng)頁進(jìn)行某個(gè)交互操作后刽严，得到內(nèi)容。那我們?cè)撊绾畏治鲞@些請(qǐng)求呢避凝？這里我以Chrome的操作為例舞萄，進(jìn)行說明：

所以當(dāng)我們開始刷新頁面的時(shí)候就要開始跟蹤所有的請(qǐng)求，觀察數(shù)據(jù)到底是在哪一步加載進(jìn)來的管削。然后當(dāng)我們找到核心的異步請(qǐng)求的時(shí)候倒脓，就只用抓取這個(gè)異步請(qǐng)求就可以了，如果原始網(wǎng)頁沒有任何有用信息含思，也沒必要去抓取原始網(wǎng)頁了崎弃。
2 App內(nèi)容
因?yàn)楝F(xiàn)在移動(dòng)應(yīng)用越來越多，很多有用信息都在App里面含潘，另外解析非結(jié)構(gòu)化文本和結(jié)構(gòu)文本對(duì)比而言饲做，結(jié)構(gòu)化文本會(huì)簡單多了，不同去找內(nèi)容遏弱，去過多分析解析盆均，所有既有網(wǎng)站又有App的話，推薦抓取App腾窝，大多數(shù)情況下基本上只是一些JSON數(shù)據(jù)的API了缀踪。
那么App的數(shù)據(jù)該如何抓取呢？通用的方法就是抓包虹脯，基本的做法就是電腦安裝抓包軟件驴娃，配置好端口，然后記下ip循集，手機(jī)端和電腦在同一個(gè)局域網(wǎng)里面唇敞，然后在手機(jī)的網(wǎng)絡(luò)連接里面設(shè)置好代理，這個(gè)時(shí)候打開App進(jìn)行一些操作咒彤，如果有網(wǎng)絡(luò)數(shù)據(jù)請(qǐng)求疆柔，則都會(huì)被抓包軟件記下，就如上Chrome分析網(wǎng)絡(luò)請(qǐng)求一樣镶柱，你可以看到所有的請(qǐng)求情況旷档，可以模擬請(qǐng)求操作。這里Mac上我推薦軟件Charles歇拆，Windows推薦Fiddler2鞋屈。
具體如何使用范咨，之后我再做詳述，可能會(huì)涉及到HTTPS證書的問題厂庇。
三渠啊、了解網(wǎng)絡(luò)請(qǐng)求
剛剛一直在寬泛的提到一些我們需要找到請(qǐng)求，進(jìn)行請(qǐng)求权旷，對(duì)于請(qǐng)求只是一筆帶過替蛉，但請(qǐng)求是很重要的一部分，包括如何繞過限制拄氯，如何發(fā)送正確地?cái)?shù)據(jù)躲查，都需要對(duì)的請(qǐng)求，這里就要詳細(xì)的展開說下請(qǐng)求译柏，以及如何模擬請(qǐng)求熙含。
我們常說爬蟲其實(shí)就是一堆的HTTP請(qǐng)求，找到待爬取的鏈接艇纺，不管是網(wǎng)頁鏈接還是App抓包得到的API鏈接怎静，然后發(fā)送一個(gè)請(qǐng)求包，得到一個(gè)返回包（也有HTTP長連接黔衡，或者Streaming的情況蚓聘，這里不考慮），所以核心的幾個(gè)要素就是：

URL
請(qǐng)求方法（POST, GET）
請(qǐng)求包headers
請(qǐng)求包內(nèi)容
返回包headers

在用Chrome進(jìn)行網(wǎng)絡(luò)請(qǐng)求捕獲或者用抓包工具分析請(qǐng)求時(shí)盟劫，最重要的是弄清楚URL夜牡，請(qǐng)求方法，然后headers里面的字段侣签，大多數(shù)出問題就出在headers里面塘装，最常限制的幾個(gè)字段就是User-Agent, Referer, Cookie 另外Base Auth也是在headers里面加了Autheration的字段。
請(qǐng)求內(nèi)容也就是post時(shí)需要發(fā)送的數(shù)據(jù)影所，一般都是將Key-Value進(jìn)行urlencode蹦肴。返回包headers大多數(shù)會(huì)被人忽視，可能只得到內(nèi)容就可以了猴娩，但是其實(shí)很多時(shí)候阴幌，很多人會(huì)發(fā)現(xiàn)明明url，請(qǐng)求方法還有請(qǐng)求包的內(nèi)容都對(duì)了卷中，為什么沒有返回內(nèi)容矛双，或者發(fā)現(xiàn)請(qǐng)求被限制，其實(shí)這里大概有兩個(gè)原因：
一個(gè)是返回包的內(nèi)容是空的蟆豫，但是在返回包的headers的字段里面有個(gè)Location议忽，這個(gè)Location字段就是告訴瀏覽器重定向，所以有時(shí)候代碼沒有自動(dòng)跟蹤十减，自然就沒有內(nèi)容了栈幸；另外一個(gè)就是很多人會(huì)頭疼的Cookie問題毛雇，簡單說就是瀏覽器為什么知道你的請(qǐng)求合法的，例如已登錄等等侦镇，其實(shí)就是可能你之前某個(gè)請(qǐng)求的返回包的headers里面有個(gè)字段叫Set-Cookie，Cookie存在本地织阅，一旦設(shè)置后壳繁，除非過期，一般都會(huì)自動(dòng)加在請(qǐng)求字段上荔棉，所以Set-Cookie里面的內(nèi)容就會(huì)告訴瀏覽器存多久闹炉，存的是什么內(nèi)容，在哪個(gè)路徑下有用润樱，Cookie都是在指定域下渣触，一般都不跨域，域就是你請(qǐng)求的鏈接host壹若。
所以分析請(qǐng)求時(shí)嗅钻，一定要注意前四個(gè)，在模擬時(shí)保持一致店展，同時(shí)觀察第五個(gè)返回時(shí)是不是有限制或者有重定向养篓。
四、一些常見的限制方式
上述都是講的都是一些的基礎(chǔ)的知識(shí)赂蕴，現(xiàn)在我就列一些比較常見的限制方式柳弄，如何突破這些限制抓取數(shù)據(jù)。

Basic Auth

一般會(huì)有用戶授權(quán)的限制概说，會(huì)在headers的Autheration字段里要求加入碧注；

Referer

通常是在訪問鏈接時(shí)，必須要帶上Referer字段糖赔，服務(wù)器會(huì)進(jìn)行驗(yàn)證萍丐，例如抓取京東的評(píng)論；

User-Agent

會(huì)要求真是的設(shè)備放典，如果不加會(huì)用編程語言包里自有User-Agent碉纺，可以被辨別出來；

一般在用戶登錄或者某些操作后刻撒，服務(wù)端會(huì)在返回包中包含Cookie信息要求瀏覽器設(shè)置Cookie骨田，沒有Cookie會(huì)很容易被辨別出來是偽造請(qǐng)求；
也有本地通過JS声怔，根據(jù)服務(wù)端返回的某個(gè)信息進(jìn)行處理生成的加密信息态贤，設(shè)置在Cookie里面；

Gzip

請(qǐng)求headers里面帶了gzip醋火，返回有時(shí)候會(huì)是gzip壓縮悠汽，需要解壓箱吕；

JavaScript加密操作

一般都是在請(qǐng)求的數(shù)據(jù)包內(nèi)容里面會(huì)包含一些被javascript進(jìn)行加密限制的信息，例如新浪微博會(huì)進(jìn)行SHA1和RSA加密柿冲，之前是兩次SHA1加密茬高，然后發(fā)送的密碼和用戶名都會(huì)被加密；

其他字段

因?yàn)閔ttp的headers可以自定義地段假抄，所以第三方可能會(huì)加入了一些自定義的字段名稱或者字段值怎栽，這也是需要注意的。
真實(shí)的請(qǐng)求過程中宿饱，其實(shí)不止上面某一種限制熏瞄，可能是幾種限制組合在一次，比如如果是類似RSA加密的話谬以，可能先請(qǐng)求服務(wù)器得到Cookie强饮，然后再帶著Cookie去請(qǐng)求服務(wù)器拿到公鑰，然后再用js進(jìn)行加密为黎，再發(fā)送數(shù)據(jù)到服務(wù)器邮丰。所以弄清楚這其中的原理，并且耐心分析很重要铭乾。
五柠座、嘗試解決問題的思路
首先大的地方，加入我們想抓取某個(gè)數(shù)據(jù)源片橡，我們要知道大概有哪些路徑可以獲取到數(shù)據(jù)源妈经，基本上無外乎三種：

PC端網(wǎng)站；
針對(duì)移動(dòng)設(shè)備響應(yīng)式設(shè)計(jì)的網(wǎng)站（也就是很多人說的H5, 雖然不一定是H5）捧书；
移動(dòng)App吹泡；

原則是能抓移動(dòng)App的，最好抓移動(dòng)App经瓷，如果有針對(duì)移動(dòng)設(shè)備優(yōu)化的網(wǎng)站爆哑，就抓針對(duì)移動(dòng)設(shè)備優(yōu)化的網(wǎng)站，最后考慮PC網(wǎng)站舆吮。因?yàn)橐苿?dòng)App基本都是API很簡單揭朝，而移動(dòng)設(shè)備訪問優(yōu)化的網(wǎng)站一般來講都是結(jié)構(gòu)簡單清晰的HTML，而PC網(wǎng)站自然是最復(fù)雜的了色冀；
針對(duì)PC端網(wǎng)站和移動(dòng)網(wǎng)站的做法一樣潭袱，分析思路可以一起講，移動(dòng)App單獨(dú)分析锋恬。
1 網(wǎng)站類型的分析
首先是網(wǎng)站類的屯换，使用的工具就是Chrome，建議用Chrome的隱身模式，分析時(shí)不用頻繁清楚cookie彤悔，直接關(guān)閉窗口就可以了嘉抓。
具體操作步驟如下：

輸入網(wǎng)址后，先不要回車確認(rèn)晕窑，右鍵選擇審查元素抑片，然后點(diǎn)擊網(wǎng)絡(luò)，記得要勾上preserve log選項(xiàng)杨赤，因?yàn)槿绻霈F(xiàn)上面提到過的重定向跳轉(zhuǎn)敞斋，之前的請(qǐng)求全部都會(huì)被清掉，影響分析望拖，尤其是重定向時(shí)還加上了Cookie；
接下來觀察網(wǎng)絡(luò)請(qǐng)求列表挫鸽，資源文件说敏，例如css，圖片基本都可以忽略丢郊，第一個(gè)請(qǐng)求肯定就是該鏈接的內(nèi)容本身盔沫，所以查看源碼，確認(rèn)頁面上需要抓取的內(nèi)容是不是在HTML標(biāo)簽里面枫匾，很簡單的方法架诞，找到自己要找的內(nèi)容，看到父節(jié)點(diǎn)干茉，然后再看源代碼里面該父節(jié)點(diǎn)里面有沒有內(nèi)容谴忧，如果沒有，那么一定是異步請(qǐng)求角虫，如果是非異步請(qǐng)求沾谓，直接抓該鏈接就可以了。

分析異步請(qǐng)求戳鹅，按照網(wǎng)絡(luò)列表均驶，略過資源文件，然后點(diǎn)擊各個(gè)請(qǐng)求枫虏，觀察是否在返回時(shí)包含想要的內(nèi)容妇穴，有幾個(gè)方法：

內(nèi)容比較有特點(diǎn)，例如人的屬性信息隶债，物品的價(jià)格腾它，或者微博列表等內(nèi)容，直接觀察可以判斷是不是該異步請(qǐng)求死讹；
知道異步加載的內(nèi)容節(jié)點(diǎn)或者父節(jié)點(diǎn)的class或者id的名稱携狭，找到j(luò)s代碼，閱讀代碼得到異步請(qǐng)求回俐；
確認(rèn)異步請(qǐng)求之后逛腿，就是要分析異步請(qǐng)求了稀并，簡單的，直接請(qǐng)求異步請(qǐng)求单默，能得到數(shù)據(jù)碘举，但是有時(shí)候異步請(qǐng)求會(huì)有限制，所以現(xiàn)在分析限制從何而來搁廓。

針對(duì)分析對(duì)請(qǐng)求的限制引颈，思路是逆序方法。

先找到最后一個(gè)得到內(nèi)容的請(qǐng)求境蜕，然后觀察headers蝙场，先看post數(shù)據(jù)或者url的某個(gè)參數(shù)是不是都是已知數(shù)據(jù)，或者有意義數(shù)據(jù)粱年，如果發(fā)現(xiàn)不確定的先帶上售滤，只是更改某個(gè)關(guān)鍵字段，例如page台诗，count看結(jié)果是不是會(huì)正常完箩，如果不正常，比如多了個(gè)token拉队，或者某個(gè)字段明顯被加密弊知，例如用戶名密碼，那么接下來就要看JS的代碼粱快，看到底是哪個(gè)函數(shù)進(jìn)行了加密秩彤，一般會(huì)是原生JS代碼加密，那么看到代碼事哭，直接加密就行呐舔，如果是類似RSA加密，那么就要看公鑰是從何而來慷蠕，如果是請(qǐng)求得到的珊拼，那么就要往上分析請(qǐng)求，另外如果是發(fā)現(xiàn)請(qǐng)求headers里面有陌生字段流炕，或者有Cookie也要往上看請(qǐng)求澎现，Cookie在哪一步設(shè)置的；
接下來找到剛剛那個(gè)請(qǐng)求未知來源的信息每辟，例如Cookie或者某個(gè)加密需要的公鑰等等剑辫，看看上面某個(gè)請(qǐng)求是不是已經(jīng)包含，依次類推渠欺。

2 App的分析
然后是App類的妹蔽，使用的工具是Charles，手機(jī)和電腦在一個(gè)局域網(wǎng)內(nèi)，先用Charles配置好端口胳岂，然后手機(jī)設(shè)置代理编整，ip為電腦的ip，端口為設(shè)置的端口乳丰，然后如果手機(jī)上請(qǐng)求網(wǎng)絡(luò)內(nèi)容時(shí)掌测，Charles會(huì)顯示相應(yīng)地請(qǐng)求，那么就ok了产园，分析的大體邏輯基本一致汞斧，限制會(huì)相對(duì)少很多，但是也有幾種情況需要注意：

加密什燕，App有時(shí)候也有一些加密的字段粘勒，這個(gè)時(shí)候，一般來講都會(huì)進(jìn)行反編譯進(jìn)行分析屎即，找到對(duì)應(yīng)的代碼片段庙睡，逆推出加密方法；
gzip壓縮或者base64編碼剑勾，base64編碼的辨別度較高埃撵，有時(shí)候數(shù)據(jù)被gzip壓縮了赵颅，不過Charles都是有自動(dòng)解密的虽另；
https證書，有的https請(qǐng)求會(huì)驗(yàn)證證書饺谬，Charles提供了證書捂刺，可以在官網(wǎng)找到，手機(jī)訪問募寨，然后信任添加就可以族展。

六、效率問題的取舍
一般來講在抓取大量數(shù)據(jù)拔鹰，例如全網(wǎng)抓取京東的評(píng)論仪缸，微博所有人的信息，微博信息列肢，關(guān)注關(guān)系等等恰画，這種上十億到百億次設(shè)置千億次的請(qǐng)求必須考慮效率，否者一天只有86400秒瓷马，那么一秒鐘要抓100次拴还，一天也才864w次請(qǐng)求，也需要100多天才能到達(dá)十億級(jí)別的請(qǐng)求量欧聘。
涉及到大規(guī)模的抓取片林，一定要有良好的爬蟲設(shè)計(jì)，一般很多開源的爬蟲框架也都是有限制的，因?yàn)橹虚g涉及到很多其他的問題费封，例如數(shù)據(jù)結(jié)構(gòu)焕妙，重復(fù)抓取過濾的問題，當(dāng)然最重要的是要把帶寬利用滿孝偎，所以分布式抓取很重要访敌，接下來我會(huì)有一篇專門講分布式的爬蟲設(shè)計(jì)，分布式最重要的就是中間消息通信衣盾，如果想要抓的越多越快寺旺，那么對(duì)中間的消息系統(tǒng)的吞吐量要求也越高。
但是對(duì)于一些不太大規(guī)模的抓取就沒要用分布式的一套势决，比較消耗時(shí)間阻塑，基本只要保證單機(jī)器的帶寬能夠利用滿就沒問題，所以做好并發(fā)就可以果复，另外對(duì)于數(shù)據(jù)結(jié)構(gòu)也要有一定的控制陈莽，很多人寫程序，內(nèi)存越寫越大虽抄，抓取越來越慢走搁，可能存在的原因就包括，一個(gè)是用了內(nèi)存存一些數(shù)據(jù)沒有進(jìn)行釋放迈窟，第二個(gè)可能有一些hashset的判斷私植，最后判斷的效率越來越低，比如用bloomfilter替換就會(huì)優(yōu)化很多车酣。

最后編輯于：2017.12.10 04:52:58

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末曲稼，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子湖员，更是在濱河造成了極大的恐慌贫悄，老刑警劉巖，帶你破解...
沈念sama閱讀 211,123評(píng)論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件娘摔，死亡現(xiàn)場離奇詭異窄坦，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)凳寺，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,031評(píng)論 2贊 384
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門鸭津，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人读第，你說我怎么就攤上這事曙博。” “怎么了怜瞒？”我有些...
開封第一講書人閱讀 156,723評(píng)論 0贊 345
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵父泳，是天一觀的道長般哼。經(jīng)常有香客問我，道長惠窄，這世上最難降的妖魔是什么蒸眠？我笑而不...
開封第一講書人閱讀 56,357評(píng)論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮杆融，結(jié)果婚禮上楞卡，老公的妹妹穿的比我還像新娘。我一直安慰自己脾歇，他們只是感情好蒋腮，可當(dāng)我...
茶點(diǎn)故事閱讀 65,412評(píng)論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著藕各，像睡著了一般池摧。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上激况，一...
開封第一講書人閱讀 49,760評(píng)論 1贊 289
城市分裂傳說
那天作彤，我揣著相機(jī)與錄音，去河邊找鬼乌逐。笑死竭讳，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的浙踢。我是一名探鬼主播绢慢，決...
沈念sama閱讀 38,904評(píng)論 3贊 405
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼成黄！你這毒婦竟也來了呐芥？” 一聲冷哼從身側(cè)響起逻杖，我...
開封第一講書人閱讀 37,672評(píng)論 0贊 266
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤奋岁，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后荸百，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體闻伶，經(jīng)...
沈念sama閱讀 44,118評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,456評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年够话，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蓝翰。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,599評(píng)論 1贊 340
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡女嘲，死狀恐怖畜份，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情欣尼，我是刑警寧澤爆雹，帶...
沈念sama閱讀 34,264評(píng)論 4贊 328
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布停蕉，位于F島的核電站，受9級(jí)特大地震影響钙态，放射性物質(zhì)發(fā)生泄漏慧起。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,857評(píng)論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一册倒、第九天我趴在偏房一處隱蔽的房頂上張望蚓挤。院中可真熱鬧，春花似錦驻子、人聲如沸灿意。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,731評(píng)論 0贊 21
一樁弒父案崇呵，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽脾歧。三九已至，卻和暖如春演熟，著一層夾襖步出監(jiān)牢的瞬間鞭执，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,956評(píng)論 1贊 264
情欲美人皮
我被黑心中介騙來泰國打工芒粹，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留兄纺，地道東北人。一個(gè)月前我還...
沈念sama閱讀 46,286評(píng)論 2贊 360
代替公主和親
正文我出身青樓化漆，卻偏偏與公主長得像估脆，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子座云，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,465評(píng)論 2贊 348

爬蟲入門基礎(chǔ)理論

推薦閱讀更多精彩內(nèi)容