豆瓣電影top250爬蟲（一）（Python 3.7+MySQL+Tableau）

我是站在前人的肩膀上完成的溉愁，參考網(wǎng)址如下：

1. 大體框架：豆瓣電影top250爬蟲系列

2. 爬蟲全覽：如何學(xué)習(xí)Python爬蟲[入門篇]攻锰？

把上面的文章通讀Ｅ佳蟆Ｊ炖簟！讀完后就對爬蟲有大概的認(rèn)識玄窝。

成果：

TOP250表單網(wǎng)頁源碼

爬蟲完的comment表

-----------------------------------------------------分割線---------------------------------------------

知識點(diǎn)：

1.?爬蟲模擬瀏覽器-header設(shè)置：爬蟲筆記（二）——瀏覽器的模擬（Headers屬性） ?

2. 大體框架：豆瓣電影top250爬蟲系列是豆瓣5.0版本的爬取牵寺，而現(xiàn)在豆瓣的版本是6.0，5.0的爬蟲不能模擬登陸了恩脂。不過這次的爬蟲任務(wù)不要用到模擬登陸帽氓，所以把代碼里的cookies刪掉就行。

3. Python re.findall中正則表達(dá)式(.*?)和參數(shù)re.S使用 ?re.findall中參數(shù)re.S的意義：參數(shù)有re.S俩块，不會對\n進(jìn)行中斷黎休。

4. python strip()函數(shù)? python strip()函數(shù)：s.strip(rm)? s為字符串，rm為要?jiǎng)h除的字符序列玉凯。當(dāng)rm為空時(shí)势腮，默認(rèn)刪除空白符（包括'\n', '\r',? '\t',? ' ')

5. 代碼錯(cuò)誤：SQLException: Incorrect string value: '\xF0\x9F\x92\x94' for column 'name' at row 1 ? ? ? ? ?? 出現(xiàn)原因：comment表中username和短評出現(xiàn)emoji(4個(gè)字符) ? ? ? ? ? 解決辦法：1）把會出現(xiàn)emoji的列的字符集改為utf8mb4，排序規(guī)則：utf8mb4_unicode_ci; 2）連接數(shù)據(jù)庫時(shí)漫仆，設(shè)定寫入模式是utf8mb4 ? ? ?? 參考：表情存儲異常--mybatis拋出異常（java.sql.SQLException: Incorrect string value: '\xF0\x9F\x92\x94' for column 'name' at row 1）

Incorrect string value 解決辦法步驟1

Incorrect string value 解決辦法步驟2

-----------------------------------------------------分割線---------------------------------------------

注意事項(xiàng)：

網(wǎng)上流傳的爬蟲代碼如果爬不出東西捎拯，多數(shù)是因?yàn)檎齽t表達(dá)式不對，所以熟悉正則表達(dá)式非常重要盲厌！

-----------------------------------------------------分割線---------------------------------------------

1. movie表只能得到247條記錄

2. 匹配演員信息的正則表達(dá)式

2. html中包含演員信息的文本

問題：

1. 執(zhí)行代碼后署照，movie表只能得到247條記錄，死活都得不到250條記錄吗浩，誰能告訴我為什么建芙？因?yàn)槎拱甑南拗茊幔?/p>

2. 匹配演員信息的正則表達(dá)式不知道怎么寫比較簡潔？我想定點(diǎn)搜索：先找到頭部拓萌，然后根據(jù)正則表達(dá)式搜索重復(fù)的地方岁钓。我只想得到標(biāo)黃部分的url和名字。

源代碼：

python源代碼

和豆瓣電影top250爬蟲系列相比，大體框架一致屡限，有些正則表達(dá)式不一樣品嚣，還有判斷語句也修改了。

最后編輯于：2019.08.23 00:25:52

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末钧大，一起剝皮案震驚了整個(gè)濱河市翰撑，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌啊央，老刑警劉巖眶诈，帶你破解...
沈念sama閱讀 219,589評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異瓜饥，居然都是意外死亡逝撬，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,615評論 3贊 396
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門乓土，熙熙樓的掌柜王于貴愁眉苦臉地迎上來宪潮，“玉大人，你說我怎么就攤上這事趣苏〗葡啵” “怎么了？”我有些...
開封第一講書人閱讀 165,933評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵食磕，是天一觀的道長尽棕。經(jīng)常有香客問我，道長彬伦，這世上最難降的妖魔是什么滔悉？我笑而不...
開封第一講書人閱讀 58,976評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮单绑，結(jié)果婚禮上氧敢，老公的妹妹穿的比我還像新娘。我一直安慰自己询张，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,999評論 6贊 393
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布浙炼。她就那樣靜靜地躺著份氧，像睡著了一般。火紅的嫁衣襯著肌膚如雪弯屈。梳的紋絲不亂的頭發(fā)上蜗帜，一...
開封第一講書人閱讀 51,775評論 1贊 307
城市分裂傳說
那天，我揣著相機(jī)與錄音资厉，去河邊找鬼厅缺。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的湘捎。我是一名探鬼主播诀豁，決...
沈念sama閱讀 40,474評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼窥妇！你這毒婦竟也來了舷胜？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,359評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤活翩，失蹤者是張志新（化名）和其女友劉穎烹骨，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體材泄，經(jīng)...
沈念sama閱讀 45,854評論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡沮焕，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,007評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了拉宗。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片峦树。...
茶點(diǎn)故事閱讀 40,146評論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖簿废，靈堂內(nèi)的尸體忽然破棺而出空入，到底是詐尸還是另有隱情，我是刑警寧澤族檬，帶...
沈念sama閱讀 35,826評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布歪赢，位于F島的核電站，受9級特大地震影響单料，放射性物質(zhì)發(fā)生泄漏埋凯。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,484評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一扫尖、第九天我趴在偏房一處隱蔽的房頂上張望白对。院中可真熱鬧，春花似錦换怖、人聲如沸甩恼。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,029評論 0贊 22
一樁弒父案沉颂，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽条摸。三九已至，卻和暖如春铸屉，著一層夾襖步出監(jiān)牢的瞬間钉蒲，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,153評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工彻坛，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留顷啼，地道東北人踏枣。一個(gè)月前我還...
沈念sama閱讀 48,420評論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長得像钙蒙，于是被迫代替她去往敵國和親茵瀑。傳聞我的和親對象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,107評論 2贊 356

豆瓣電影top250爬蟲（一）（Python 3.7+MySQL+Tableau）

推薦閱讀更多精彩內(nèi)容