Pandas.read_html() 獲取靜態(tài)網(wǎng)頁表格數(shù)據(jù)

環(huán)境:Win10 + Cmder + Python3.6.5

需求

? 獲取 http://www.air-level.com/air/xian/ 的空氣質(zhì)量指數(shù)表格數(shù)據(jù)遗增。騷年沈矿,是不是蠢蠢欲動(dòng)要爬蟲三步走了瞻凤?

代碼

我說三行代碼就可以輕松搞定, 你信嗎妄呕?(正經(jīng)臉):

import pandas as pd
df = pd.read_html("http://www.air-level.com/air/xian/", encoding='utf-8', header=0)[0]
df.to_excel('xian_tianqi.xlsx', index=False)

? 然后先來看網(wǎng)頁數(shù)據(jù):

? 再來看Excel中的數(shù)據(jù):


? 是不是被秀到啦?講真骚灸,我也被秀到一臉...

解釋

? read_html()部分源碼如下:

# 已省略部分代碼,詳細(xì)查看可在命令行執(zhí)行:print(pd.read_html.__doc__)
def read_html(io, match='.+', flavor=None, header=None, index_col=None,
              skiprows=None, attrs=None, parse_dates=False,
              tupleize_cols=None, thousands=',', encoding=None,
              decimal='.', converters=None, na_values=None,
              keep_default_na=True, displayed_only=True):
    r"""Read HTML tables into a ``list`` of ``DataFrame`` objects.

  Parameters
    ----------
    io : str or file-like
        A URL, a file-like object, or a raw string containing HTML. Note that
        lxml only accepts the http, ftp and file url protocols. If you have a
        URL that starts with ``'https'`` you might try removing the ``'s'``.

    flavor : str or None, container of strings
        The parsing engine to use. 'bs4' and 'html5lib' are synonymous with
        each other, they are both there for backwards compatibility. The
        default of ``None`` tries to use ``lxml`` to parse and if that fails it
        falls back on ``bs4`` + ``html5lib``.

     header : int or list-like or None, optional
        The row (or list of rows for a :class:`~pandas.MultiIndex`) to use to
        make the columns headers.
......

? 可以看到原朝,read_html() 方法的 io 參數(shù)默認(rèn)了多種形式,URL 便是其中一種镶苞。然后函數(shù)默認(rèn)調(diào)用 lxml 解析 table 標(biāo)簽里的每個(gè) td 的數(shù)據(jù)喳坠,最后生成一個(gè)包含 Dataframe 對象的列表。通過索引獲取到 DataFrame 對象即可茂蚓。

最后

? read_html() 僅支持靜態(tài)網(wǎng)頁解析壕鹉。你可以通過其他方法獲取動(dòng)態(tài)頁面加載后response.text 傳入 read_html() 再獲取表格數(shù)據(jù)。

參考https://mp.weixin.qq.com/s/CuhC7rCD6LPXLO88JVEuJg

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末聋涨,一起剝皮案震驚了整個(gè)濱河市晾浴,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌牍白,老刑警劉巖脊凰,帶你破解...
    沈念sama閱讀 217,084評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異淹朋,居然都是意外死亡笙各,警方通過查閱死者的電腦和手機(jī)钉答,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,623評論 3 392
  • 文/潘曉璐 我一進(jìn)店門础芍,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人数尿,你說我怎么就攤上這事仑性。” “怎么了右蹦?”我有些...
    開封第一講書人閱讀 163,450評論 0 353
  • 文/不壞的土叔 我叫張陵诊杆,是天一觀的道長。 經(jīng)常有香客問我何陆,道長晨汹,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,322評論 1 293
  • 正文 為了忘掉前任贷盲,我火速辦了婚禮淘这,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘巩剖。我一直安慰自己铝穷,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,370評論 6 390
  • 文/花漫 我一把揭開白布佳魔。 她就那樣靜靜地躺著曙聂,像睡著了一般。 火紅的嫁衣襯著肌膚如雪鞠鲜。 梳的紋絲不亂的頭發(fā)上宁脊,一...
    開封第一講書人閱讀 51,274評論 1 300
  • 那天断国,我揣著相機(jī)與錄音,去河邊找鬼榆苞。 笑死并思,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的语稠。 我是一名探鬼主播宋彼,決...
    沈念sama閱讀 40,126評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼仙畦!你這毒婦竟也來了输涕?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,980評論 0 275
  • 序言:老撾萬榮一對情侶失蹤慨畸,失蹤者是張志新(化名)和其女友劉穎莱坎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體寸士,經(jīng)...
    沈念sama閱讀 45,414評論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡檐什,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,599評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了弱卡。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片乃正。...
    茶點(diǎn)故事閱讀 39,773評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖婶博,靈堂內(nèi)的尸體忽然破棺而出瓮具,到底是詐尸還是另有隱情,我是刑警寧澤凡人,帶...
    沈念sama閱讀 35,470評論 5 344
  • 正文 年R本政府宣布名党,位于F島的核電站,受9級特大地震影響挠轴,放射性物質(zhì)發(fā)生泄漏传睹。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,080評論 3 327
  • 文/蒙蒙 一岸晦、第九天 我趴在偏房一處隱蔽的房頂上張望欧啤。 院中可真熱鬧,春花似錦委煤、人聲如沸堂油。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,713評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽府框。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間迫靖,已是汗流浹背院峡。 一陣腳步聲響...
    開封第一講書人閱讀 32,852評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留系宜,地道東北人照激。 一個(gè)月前我還...
    沈念sama閱讀 47,865評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像盹牧,于是被迫代替她去往敵國和親俩垃。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,689評論 2 354