專欄:013:我要你知道實時票房.


用理工科思維看待這個世界

系列爬蟲專欄

初學者段只,盡力實現(xiàn)最小化學習系統(tǒng)

主題:selenium + PhantomJS + sqlalchemy

selenium + PhantomJS 教程
SQLALchemy 教程

0:說明

實現(xiàn)編程學習的最小化系統(tǒng)。

使用selenium + PhantonJS獲取網(wǎng)頁源代碼溺欧,此工具在異步加載處網(wǎng)頁中很好用痊剖。之前使用的不多矫废,覺得嘗試使用此工具操作爬蟲望伦,目的是抓取中國票房首頁的數(shù)據(jù)秫逝, 采用Xpath對數(shù)據(jù)進行解析贺辰。使用ORM技術(shù)實現(xiàn)自動創(chuàng)建數(shù)據(jù)表户盯,并將數(shù)據(jù)存儲入MySQL數(shù)據(jù)庫中嵌施。

任務(wù):抓取圖示內(nèi)容:

01.png

1:任務(wù)分解

  • 抓取網(wǎng)頁源代碼
  • 對網(wǎng)頁源代碼進行解析,抓取需要的數(shù)據(jù)
  • 數(shù)據(jù)結(jié)構(gòu)化
  • 創(chuàng)建數(shù)據(jù)表
  • 將結(jié)構(gòu)化數(shù)據(jù)存儲入數(shù)據(jù)庫中

技能需求:

  • selenium 的基本使用
  • unittest 的基本使用
  • sqlalchemy的基本使用
  • xpath語法的掌握
  • MySQL數(shù)據(jù)基本知識

2. 實戰(zhàn)

全部數(shù)據(jù):
//div[@id="top_list"]/table/tbody/tr/td
圖示:

02.png
  • sqlalchemy 的使用
    • 創(chuàng)建連接
    • 聲明映射文件
    • 創(chuàng)建模式
    • 初始化映射類實例
    • 創(chuàng)建回話
    • 持久化實例對象
# 核心代碼
engine = create_engine("mysql://root:123456@localhost:3306/test?charset=utf8", echo = True) # 創(chuàng)建連接
Base = declarative_base()
metadata = MetaData(engine)
sql_table = Table("Realtime_film", metadata,
                  Column("id", Integer, primary_key=True),
                  Column("Rank", String(32)),
                  Column("Moviename", String(32)),
                  Column("Realtime", String(12)),
                  Column("Ratio_of_movie", String(16)),
                  Column("sum_movie", String(128)),
                  Column("Ration_of_open", String(128)),
                  Column("Screen_time", String(128)),
                    mysql_engine='InnoDB',
                    mysql_charset='utf8')  # 表聲明先舷,定義字段及類型
sql_table.create()  # 創(chuàng)建數(shù)據(jù)庫表
sql_table_2 = Table("Realtime_film", metadata, autoload=True)
i = sql_table_2.insert()
# for one in Movie_datas:
#     i.execute(one)
con = engine.connect()
con.execute(i, Movie_datas)  # 插入全部數(shù)據(jù)

效果展示:
自動在本地數(shù)據(jù)庫創(chuàng)建數(shù)據(jù)表艰管,并把數(shù)據(jù)插入數(shù)據(jù)庫中.(省去了編寫了sql語句)

03.png

完整版代碼

3:總結(jié)

崇尚的思維是:
了解這是什么。
知道應(yīng)該怎么做蒋川。
學會親自動手牲芋。

最怕陷入學而不思則罔,思而不學則殆的地步

關(guān)于本人:
只有一個職業(yè):學生
只有一個任務(wù):學習
在這條路上捺球,充滿無盡的困境缸浦,我希望成為一個精神世界豐滿的人。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末氮兵,一起剝皮案震驚了整個濱河市裂逐,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌泣栈,老刑警劉巖卜高,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異南片,居然都是意外死亡掺涛,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進店門疼进,熙熙樓的掌柜王于貴愁眉苦臉地迎上來薪缆,“玉大人,你說我怎么就攤上這事伞广〖鹈保” “怎么了?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵嚼锄,是天一觀的道長减拭。 經(jīng)常有香客問我,道長区丑,這世上最難降的妖魔是什么拧粪? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮刊苍,結(jié)果婚禮上既们,老公的妹妹穿的比我還像新娘。我一直安慰自己正什,他們只是感情好啥纸,可當我...
    茶點故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著婴氮,像睡著了一般斯棒。 火紅的嫁衣襯著肌膚如雪盾致。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天荣暮,我揣著相機與錄音庭惜,去河邊找鬼。 笑死穗酥,一個胖子當著我的面吹牛护赊,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播砾跃,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼骏啰,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了抽高?” 一聲冷哼從身側(cè)響起判耕,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎翘骂,沒想到半個月后壁熄,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡碳竟,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年草丧,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瞭亮。...
    茶點故事閱讀 39,965評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡方仿,死狀恐怖固棚,靈堂內(nèi)的尸體忽然破棺而出统翩,到底是詐尸還是另有隱情,我是刑警寧澤此洲,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布厂汗,位于F島的核電站,受9級特大地震影響呜师,放射性物質(zhì)發(fā)生泄漏娶桦。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一汁汗、第九天 我趴在偏房一處隱蔽的房頂上張望衷畦。 院中可真熱鬧,春花似錦知牌、人聲如沸祈争。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽菩混。三九已至忿墅,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間沮峡,已是汗流浹背疚脐。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留邢疙,地道東北人棍弄。 一個月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像疟游,于是被迫代替她去往敵國和親照卦。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,914評論 2 355

推薦閱讀更多精彩內(nèi)容