import pandas as pd
import requests
from fake_useragent import UserAgent
from lxml.etree import HTML
ua = UserAgent()
headers = {'User-Agent':ua.ie}
url = "http://fgj.wuhan.gov.cn/mrxjspfcjtjqk/45243.jhtml"
r = requests.get(url,headers=headers)
html = HTML(r.text)
trs = html.xpath("http://tr")
dataset = pd.DataFrame([tr.xpath("./td/text()") for tr in trs][6:-2],columns=['區(qū)域','商品住房成交套數(shù)','商品住房成交面積 ','寫字樓成交套數(shù)','寫字樓成交面積 ','商業(yè)成交套數(shù)','商業(yè)成交面積 ','其他成交套數(shù)','其他成交面積 ','合計成交套數(shù)','合計成交面積'])
print(dataset)
效果:
區(qū)域 商品住房成交套數(shù) 商品住房成交面積 寫字樓成交套數(shù) 寫字樓成交面積 商業(yè)成交套數(shù) 商業(yè)成交面積 其他成交套數(shù) 其他成交面積 合計成交套數(shù) 合計成交面積
0 江岸區(qū) 16 2086.46 4 236.18 3 168.14 0 0 23 2490.78
1 江漢區(qū) 29 3447.54 0 0 0 0 0 0 29 3447.54
2 硚口區(qū) 50 4915 0 0 0 0 0 0 50 4915.00
3 漢陽區(qū) 86 11147.45 2 83.59 1 235.67 0 0 89 11466.71
4 青山區(qū) 166 12270.08 2 89.22 0 0 0 0 168 12359.30
5 武昌區(qū) 12 1369.61 3 198.76 2 102.85 0 0 17 1671.22
6 洪山區(qū) 117 13158.73 14 747.79 1 49.46 0 0 132 13955.98
7 東西湖區(qū) 78 8532.9 0 0 5 262.3 6 1496.43 89 10291.63
8 東湖高新區(qū) 165 19081.07 0 0 3 101.08 4 762.41 172 19944.56
9 經(jīng)濟開發(fā)區(qū) 16 1922.23 1 22.94 3 163.06 0 0 20 2108.23
10 江夏區(qū) 74 8910.42 0 0 0 0 0 0 74 8910.42
11 黃陂區(qū) 131 14009.47 1 46.44 24 987.91 0 0 156 15043.82
12 蔡甸區(qū) 23 2510.41 0 0 2 69.09 0 0 25 2579.50
13 新洲區(qū) 111 11475.08 0 0 2 95.98 2 111.37 115 11682.43
14 漢南區(qū) 44 5037.38 0 0 0 0 0 0 44 5037.38
15 合計 1118 119873.83 27 1424.92 46 2235.54 12 2370.21 1203 125904.50