天氣數(shù)據(jù)抓取 python

天氣數(shù)據(jù)抓取

from my wp blog

幫同學(xué)抓取天氣信息

選擇了一個(gè)不錯(cuò)的天氣網(wǎng)

http://lishi.tianqi.com/beijing/index.html

lxml解析html

先找一個(gè)靠譜的html解析工具beautifulsoup

本來這貨用起來還是挺方便的,不過我會(huì)一點(diǎn)xpath,所以需要一個(gè)更高級(jí)的第三方庫(kù)lxml

import lxml.html
weather_url = 'http://lishi.tianqi.com/beijing/201404.html'
html = lxml.html.parse(weather_url)
ul = html.xpath('//*[@id="tool_site"]/div[2]/ul')

所需的數(shù)據(jù)

2014-04-01 2 29 多云 微風(fēng) 小于3級(jí)

頁(yè)面的ul是抓出來了瓮恭,但是還有一些混雜的內(nèi)容甘耿,要過濾掉沒用的東西

ul的第一個(gè)li中有個(gè)a標(biāo)簽琢岩,a中的內(nèi)容才是需要的辣往,而其他li中直接就是所需的內(nèi)容

def getLi(ul):
    info = []
    k = 0
    for li in ul.itertext():
        text = li if 0 != k else li[0]
        if(text.strip()):
            info.append(text)
        k += 1
    return info

已經(jīng)知道市栗,第一個(gè)數(shù)據(jù)是個(gè)日期沈贝,如果判斷出第一個(gè)數(shù)據(jù)是日期犬耻,那么整條數(shù)據(jù)都是有效的

import re
date_re = re.compile(r'^\d+-\d+-\d+$')
li = getLi(ul)
if(date_re.match(li[0])):
    ...(寫入數(shù)據(jù)庫(kù)或者文件)

python2的字符串是這樣的

     decode              encode
str ---------> unicode --------->str

當(dāng)想在程序中顯示中文的時(shí)候踩晶,要轉(zhuǎn)換成unicode字符

當(dāng)時(shí)想寫入文件或者數(shù)據(jù)庫(kù)的時(shí)候,要對(duì)unicode字符串進(jìn)行編碼

一般來說枕磁,抓取的我國(guó)網(wǎng)頁(yè)用gbk解碼渡蜻,寫入文件使用utf8編碼

import re
date_re = re.compile(r'^\d+-\d+-\d+$')
file = open('data.txt', 'w')
for ul in html.xpath('//*[@id="tool_site"]/div[2]/ul'):
    li = getLi(ul)
    if(date_re.match(li[0])):
        for text in li:
            file.write(text.encode('utf8') + ' ')
        file.write('\n')

python連接mysql需要下載一個(gè)叫做MySQLdb的庫(kù)

開啟本地的apache和mysql服務(wù),連接和關(guān)閉數(shù)據(jù)庫(kù)

conn = MySQLdb.connect(host=setting.host, user=setting.user, passwd=setting.passwd, db=setting.db, port=setting.port, charset='utf8')
cursor = conn.cursor()
 
conn.commit()
cursor.close()
conn.close()

為什么有conn.commit()计济,其他的語(yǔ)言里面(至少是php)沒有見過

因?yàn)檫@樣才能真正把數(shù)據(jù)寫入到數(shù)據(jù)庫(kù)中茸苇,完成一個(gè)事務(wù)

  • 關(guān)于編碼
    • utf-8
    • 數(shù)據(jù)庫(kù)utf8-general-ci
    • charset='utf8'
    • 連接數(shù)據(jù)庫(kù)聲明字符編碼
    • 寫入的字符串用utf8編碼
cursor.execute(sql.encode('utf8'))
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市沦寂,隨后出現(xiàn)的幾起案子学密,更是在濱河造成了極大的恐慌,老刑警劉巖传藏,帶你破解...
    沈念sama閱讀 216,692評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件腻暮,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡毯侦,警方通過查閱死者的電腦和手機(jī)哭靖,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,482評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來侈离,“玉大人试幽,你說我怎么就攤上這事∝阅耄” “怎么了铺坞?”我有些...
    開封第一講書人閱讀 162,995評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)蔗坯。 經(jīng)常有香客問我康震,道長(zhǎng),這世上最難降的妖魔是什么宾濒? 我笑而不...
    開封第一講書人閱讀 58,223評(píng)論 1 292
  • 正文 為了忘掉前任腿短,我火速辦了婚禮,結(jié)果婚禮上绘梦,老公的妹妹穿的比我還像新娘橘忱。我一直安慰自己,他們只是感情好卸奉,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,245評(píng)論 6 388
  • 文/花漫 我一把揭開白布钝诚。 她就那樣靜靜地躺著,像睡著了一般榄棵。 火紅的嫁衣襯著肌膚如雪凝颇。 梳的紋絲不亂的頭發(fā)上潘拱,一...
    開封第一講書人閱讀 51,208評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音拧略,去河邊找鬼芦岂。 笑死,一個(gè)胖子當(dāng)著我的面吹牛垫蛆,可吹牛的內(nèi)容都是我干的禽最。 我是一名探鬼主播,決...
    沈念sama閱讀 40,091評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼袱饭,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼川无!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起虑乖,我...
    開封第一講書人閱讀 38,929評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤懦趋,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后疹味,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體愕够,經(jīng)...
    沈念sama閱讀 45,346評(píng)論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,570評(píng)論 2 333
  • 正文 我和宋清朗相戀三年佛猛,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了惑芭。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,739評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡继找,死狀恐怖遂跟,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情婴渡,我是刑警寧澤幻锁,帶...
    沈念sama閱讀 35,437評(píng)論 5 344
  • 正文 年R本政府宣布,位于F島的核電站边臼,受9級(jí)特大地震影響哄尔,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜柠并,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,037評(píng)論 3 326
  • 文/蒙蒙 一岭接、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧臼予,春花似錦鸣戴、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,677評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至缰雇,卻和暖如春入偷,著一層夾襖步出監(jiān)牢的瞬間追驴,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,833評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工疏之, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留氯檐,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,760評(píng)論 2 369
  • 正文 我出身青樓体捏,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親糯崎。 傳聞我的和親對(duì)象是個(gè)殘疾皇子几缭,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,647評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 字符集和編碼簡(jiǎn)介 在編程中常常可以見到各種字符集和編碼沃呢,包括ASCII,MBCS,Unicode等字符集年栓。確切的說...
    蘭山小亭閱讀 8,488評(píng)論 0 13
  • 可以看我的博客 lmwen.top 或者訂閱我的公眾號(hào) 簡(jiǎn)介有稍微接觸python的人就會(huì)知道,python中...
    ayuLiao閱讀 3,113評(píng)論 1 5
  • 1薄霜、引言 數(shù)據(jù)庫(kù)設(shè)計(jì)過程中表某抓、字段等的命名規(guī)范也算是設(shè)計(jì)規(guī)范的一部分,不過設(shè)計(jì)規(guī)范更多的是為了確保數(shù)據(jù)庫(kù)設(shè)計(jì)的合理...
    SnowflakeCloud閱讀 40,988評(píng)論 0 48
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理惰瓜,服務(wù)發(fā)現(xiàn)否副,斷路器,智...
    卡卡羅2017閱讀 134,652評(píng)論 18 139
  • 本文探討的主要內(nèi)容是父輩與孩子的關(guān)系崎坊,從前的教育理念已經(jīng)過時(shí)了备禀,新時(shí)期新社會(huì),我們的理念也應(yīng)當(dāng)跟著進(jìn)化奈揍,這樣做大有...
    仙劍李逍遙閱讀 417評(píng)論 0 2