<進擊的蟲師>輿情監(jiān)測之獲取數(shù)據(jù)

輿情監(jiān)測是對互聯(lián)網(wǎng)上公眾的言論和觀點進行監(jiān)視和預測的行為.監(jiān)測技術(shù)大多是基于爬蟲的, 如果我們把相關熱點事件的關鍵詞, 用搜索引擎進行搜索, 并將結(jié)果保存到本地,就實現(xiàn)了輿情監(jiān)測的第一環(huán)節(jié):實時獲取互聯(lián)網(wǎng)數(shù)據(jù)
輿情監(jiān)測.png

初步實現(xiàn)效果

獲取數(shù)據(jù).gif

實現(xiàn)代碼

import requests
from lxml import etree
import os
import sys

def getData(wd):
    # 設置用戶代理頭
    headers = {
        # 設置用戶代理頭(為狼披上羊皮)
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36",
    }
    # 構(gòu)造目標網(wǎng)址
    target_url = "https://www.baidu.com/s?wd="+str(wd)
    # 獲取響應
    data = requests.get(target_url, headers = headers)
    # xpath格式化
    data_etree = etree.HTML(data.content)
    # 提取數(shù)據(jù)列表
    content_list = data_etree.xpath('//div[@id="content_left"]/div[contains(@class, "result c-container")]')
    # 定義返回的字符串
    result = ""
    # 獲取標題, 內(nèi)容, 鏈接
    for content in content_list:
        result_title = "<標題>  "
        bd_title = content.xpath('.//h3/a')
        for bd_t in bd_title:
            result_title += bd_t.xpath('string(.)')

        result_content = "<內(nèi)容>  "
        bd_content = content.xpath('.//div[@class="c-abstract"]')
        for bd_c in bd_content:
            result_content += bd_c.xpath('string(.)')

        result_link = "<鏈接>  "+str(list(content.xpath('.//div[@class="f13"]/a[@class="c-showurl"]/@href'))[0])


        result_list = [result_title, "\n" , result_content , "\n", result_link, "\n", "\n"]
        for result_l in result_list:
            result += str(result_l)
    return result


# 保存為文件

def saveDataToFile(file_name, data):
    # 建立文件夾
    if os.path.exists("./data/"):
        pass
    else:
        os.makedirs("./data/")

    with open("./data/"+file_name+".txt", "w+") as f:
        f.write(data)

def main():
    wd = ""
    try:
        wd = sys.argv[1]
    except:
        pass
    if (len(wd) == 0):
        wd = "火影"
    str_data = getData(wd)
    print(str_data)
    saveDataToFile(wd, str_data)

if __name__ == '__main__':
    main()
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末力试,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子痘系,更是在濱河造成了極大的恐慌姚糊,老刑警劉巖剑按,帶你破解...
    沈念sama閱讀 222,183評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件淌铐,死亡現(xiàn)場離奇詭異,居然都是意外死亡菠发,警方通過查閱死者的電腦和手機王滤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來滓鸠,“玉大人淑仆,你說我怎么就攤上這事「缌Γ” “怎么了蔗怠?”我有些...
    開封第一講書人閱讀 168,766評論 0 361
  • 文/不壞的土叔 我叫張陵,是天一觀的道長吩跋。 經(jīng)常有香客問我寞射,道長,這世上最難降的妖魔是什么锌钮? 我笑而不...
    開封第一講書人閱讀 59,854評論 1 299
  • 正文 為了忘掉前任桥温,我火速辦了婚禮,結(jié)果婚禮上梁丘,老公的妹妹穿的比我還像新娘侵浸。我一直安慰自己,他們只是感情好氛谜,可當我...
    茶點故事閱讀 68,871評論 6 398
  • 文/花漫 我一把揭開白布掏觉。 她就那樣靜靜地躺著,像睡著了一般值漫。 火紅的嫁衣襯著肌膚如雪澳腹。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,457評論 1 311
  • 那天杨何,我揣著相機與錄音酱塔,去河邊找鬼。 笑死危虱,一個胖子當著我的面吹牛羊娃,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播埃跷,決...
    沈念sama閱讀 40,999評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼蕊玷,長吁一口氣:“原來是場噩夢啊……” “哼芦瘾!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起集畅,我...
    開封第一講書人閱讀 39,914評論 0 277
  • 序言:老撾萬榮一對情侶失蹤近弟,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后挺智,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體祷愉,經(jīng)...
    沈念sama閱讀 46,465評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,543評論 3 342
  • 正文 我和宋清朗相戀三年赦颇,在試婚紗的時候發(fā)現(xiàn)自己被綠了二鳄。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,675評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡媒怯,死狀恐怖订讼,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情扇苞,我是刑警寧澤欺殿,帶...
    沈念sama閱讀 36,354評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站鳖敷,受9級特大地震影響脖苏,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜定踱,卻給世界環(huán)境...
    茶點故事閱讀 42,029評論 3 335
  • 文/蒙蒙 一棍潘、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧崖媚,春花似錦亦歉、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,514評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至敢课,卻和暖如春阶祭,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背直秆。 一陣腳步聲響...
    開封第一講書人閱讀 33,616評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留鞭盟,地道東北人圾结。 一個月前我還...
    沈念sama閱讀 49,091評論 3 378
  • 正文 我出身青樓,卻偏偏與公主長得像齿诉,于是被迫代替她去往敵國和親筝野。 傳聞我的和親對象是個殘疾皇子晌姚,可洞房花燭夜當晚...
    茶點故事閱讀 45,685評論 2 360

推薦閱讀更多精彩內(nèi)容

  • 16宿命:用概率思維提高你的勝算 以前的我是風險厭惡者,不喜歡去冒險歇竟,但是人生放棄了冒險挥唠,也就放棄了無數(shù)的可能。 ...
    yichen大刀閱讀 6,059評論 0 4
  • 公元:2019年11月28日19時42分農(nóng)歷:二零一九年 十一月 初三日 戌時干支:己亥乙亥己巳甲戌當月節(jié)氣:立冬...
    石放閱讀 6,889評論 0 2