采集下拉框多線程-正則-多進程

成果

和之前的多進程相比黍析,這個實用點卖怜,原來那個并沒有處理好循環(huán)中的重復(fù)采集問題,實際上是不能用于多進程的
改動如下:
所有的讀寫操作都放在最后一步執(zhí)行阐枣,這樣能避免一些復(fù)雜的情況马靠,減少涉及的參數(shù)
讀取的東西化作數(shù)列或者會比較好
def read(kw,zm1s):
所有的讀寫操作只發(fā)生在final(kw)
記住return只能返回一次,然后函數(shù)就結(jié)束了
稍微引入了json
其他變化不大

import requests
import re
import time
import json
from multiprocessing import Pool
time1 = time.strftime("%H:%M:%S").replace(':','')
def get_baidu_dasou(keyword ='劍圣'):
    try:
        url1 = 'http://suggestion.baidu.com/su?json=1&p=3?wd=' + keyword
        url2 = 'http://suggestion.baidu.com/su?sugmode=2&json=1&wd=' + keyword
        reslt_baidu_dasou1 = requests.get(url1).text
        reslt_baidu_dasou2 = requests.get(url2).text
        reslt_baidu_dasou1 = reslt_baidu_dasou1.replace('window.baidu.sug(', '').replace(')', '').replace(';', '')
        reslt_baidu_dasou2 = reslt_baidu_dasou2.replace('window.baidu.sug(', '').replace(')', '').replace(';', '')
        jcont_reslt_baidu_dasou1 = json.loads(reslt_baidu_dasou1)
        jcont_reslt_baidu_dasou2 = json.loads(reslt_baidu_dasou2)
        final_longtaikeywords = set(jcont_reslt_baidu_dasou1['s']) | set(jcont_reslt_baidu_dasou2['s'])  # 取集合交集
        print(str(keyword)+':'+str(final_longtaikeywords))
        return list(final_longtaikeywords) #返回的是數(shù)列
    except Exception as e:
        print(e)
        time.sleep(5)

def get_sougou(keyword ='劍圣'):
    final_longtaikeywords=[]
    try:
        urlsougou = 'https://www.sogou.com/suggnew/ajajjson?key='+ keyword+'&type=web&ori=yes&pr=web'
        reslt_sougou_dasou1 = requests.get(urlsougou).text
        reslt_sougou_dasou1=reslt_sougou_dasou1.split('[')[2] #獲得中間的長尾詞結(jié)果
        kws = re.compile(r'"(.*?)",')
        kws_list_dasou1 = kws.findall(reslt_sougou_dasou1)
        for kws1 in kws_list_dasou1:
            final_longtaikeywords.append(kws1)
        print(str(keyword)+':'+str(final_longtaikeywords))
        return (final_longtaikeywords) #返回的是數(shù)列
    except Exception as e:
        print(e)
        time.sleep(5)

def get_360(keyword ='劍圣'):
    final_longtaikeywords=[]
    try:
        url360 = 'http://sug.so.#/suggest?encodein=utf-8&encodeout=utf-8&format=json&fields=word,obdata&word=' + keyword
        reslt_360_dasou1 = requests.get(url360).text
        json_reslt_360 = json.loads(reslt_360_dasou1)
        for i in range(0, len(json_reslt_360['result'])):
            final_longtaikeywords.append(json_reslt_360['result'][i]['word'])
        print(str(keyword) + ':' + str(final_longtaikeywords))
        return (final_longtaikeywords)  # 返回的是數(shù)列
    except Exception as e:
        print(e)
        time.sleep(5)

def read(kw,zm1s):
    final_longtais=[]
    last_longtais=[]
    for zm1 in zm1s:
        print('百度搜索:'+kw+zm1)#是否還要判斷
        final_longtais.append(get_baidu_dasou(kw+zm1))
        print('百度搜索:'  + zm1+ kw)
        final_longtais.append(get_baidu_dasou(zm1+kw))#其他搜索引擎
        print('搜狗搜索:' + kw + zm1)
        final_longtais.append(get_sougou(kw + zm1))#搜狗不做
        print('360搜索:' + kw + zm1)
        final_longtais.append(get_360(kw + zm1))
        print('360搜索:' + zm1+ kw)
        final_longtais.append(get_360(zm1+ kw))
        if final_longtais!=None:
            for final_longtai in final_longtais: #第一層數(shù)列
                if final_longtai != None:
                    for each_word in final_longtai:  #數(shù)列中的數(shù)列
                        last_longtais.append(each_word)
        last_longtais2=quchong(last_longtais)
    print(last_longtais2)
    print(len(last_longtais2)) #執(zhí)行完return就結(jié)束了甩鳄,所以這里只能返回一個數(shù)列
    return last_longtais2

def quchong(firstlist): # 去重
    last_firstlist = list(set(firstlist))
    last_firstlist.sort(key=firstlist.index)
    return last_firstlist

def final(kw):
    resultpath= r'C:/Users/Administrator/Desktop/result/xiala/'+time1+'resultkeywords.txt'
    finalpath = r'C:/Users/Administrator/Desktop/result/xiala/'+time1+'finalkeywords.txt'
    lastpath = r'C:/Users/Administrator/Desktop/result/xiala/' +time1+'lastpath.txt'
    zm1s=['',' ','a','b','c','d','e','f','g','h','j','k','l','m','n','o','p','q','r','s','t','w','x','y','z','0','1','2','3','4','5','6','7','8','9']
    #zm1s = ['','a']
    zm2s=['',' ']
    #zm2s = ['']
    finalist =[]   # 擴展第二次,存放2層列表
    finalist2= [] #存放最終的關(guān)鍵詞
    lastlist=[]     #擴展第三次
    firstlist=read(kw,zm1s)#返回第一次排重后的數(shù)列
    with open(resultpath,'a+',encoding='utf-8')as text:
        for keywords in firstlist:
            text.write(keywords+'\n')
    lastlist=read(kw,zm1s)
    if firstlist != None:
        for kw in firstlist:
            finalist.append(read(kw, zm2s)) #二層數(shù)列
            if finalist != None:
                for final_longtai in finalist:  # 第一層數(shù)列
                    if final_longtai != None:
                        for each_word in final_longtai:  # 數(shù)列中的數(shù)列
                            finalist2.append(each_word)
                            lastlist.append(each_word)
    finalist2=quchong(finalist2)
    with open(finalpath,'a+',encoding='utf-8')as text:
        for keywords in finalist2:
            text.write(keywords+'\n')
    lastlist=quchong(lastlist)
    with open(lastpath,'a+',encoding='utf-8')as text:
        for keywords in lastlist:
            text.write(keywords+'\n')

if __name__ == '__main__':#為什么會重復(fù)了
    start = time.clock()
    pool = Pool(processes=6)
    keywords_list=[]
    startpath1 = r'C:\Users\Administrator\Desktop/result\xiala\testforkeywords.txt'  # 關(guān)鍵詞存放的地方
    with open(startpath1, 'r', encoding='utf-8') as text:  # 打開關(guān)鍵詞文件,做列表list
        kwsline = text.readlines()
        for kw in kwsline:
            kw = kw.strip()  # 去除空行
            kw = kw.replace('\n', '')  # 替換最后一行
            keywords_list.append(kw)
    pool.map(final,keywords_list)#這里似乎需要一次排重
    pool.close()
    pool.join()
    end = time.clock()
    print ("read: %f s" %(end - start))
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末宪哩,一起剝皮案震驚了整個濱河市娩贷,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌锁孟,老刑警劉巖彬祖,帶你破解...
    沈念sama閱讀 221,635評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異品抽,居然都是意外死亡储笑,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,543評論 3 399
  • 文/潘曉璐 我一進店門圆恤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來突倍,“玉大人,你說我怎么就攤上這事∮鹄” “怎么了焊虏?”我有些...
    開封第一講書人閱讀 168,083評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長秕磷。 經(jīng)常有香客問我诵闭,道長,這世上最難降的妖魔是什么澎嚣? 我笑而不...
    開封第一講書人閱讀 59,640評論 1 296
  • 正文 為了忘掉前任疏尿,我火速辦了婚禮,結(jié)果婚禮上易桃,老公的妹妹穿的比我還像新娘褥琐。我一直安慰自己,他們只是感情好晤郑,可當我...
    茶點故事閱讀 68,640評論 6 397
  • 文/花漫 我一把揭開白布敌呈。 她就那樣靜靜地躺著,像睡著了一般贩汉。 火紅的嫁衣襯著肌膚如雪驱富。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,262評論 1 308
  • 那天匹舞,我揣著相機與錄音褐鸥,去河邊找鬼。 笑死赐稽,一個胖子當著我的面吹牛叫榕,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播姊舵,決...
    沈念sama閱讀 40,833評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼晰绎,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了括丁?” 一聲冷哼從身側(cè)響起荞下,我...
    開封第一講書人閱讀 39,736評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎史飞,沒想到半個月后尖昏,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,280評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡构资,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,369評論 3 340
  • 正文 我和宋清朗相戀三年抽诉,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片吐绵。...
    茶點故事閱讀 40,503評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡迹淌,死狀恐怖河绽,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情唉窃,我是刑警寧澤耙饰,帶...
    沈念sama閱讀 36,185評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站句携,受9級特大地震影響榔幸,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜矮嫉,卻給世界環(huán)境...
    茶點故事閱讀 41,870評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望牍疏。 院中可真熱鬧蠢笋,春花似錦、人聲如沸鳞陨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,340評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽厦滤。三九已至援岩,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間掏导,已是汗流浹背享怀。 一陣腳步聲響...
    開封第一講書人閱讀 33,460評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留趟咆,地道東北人添瓷。 一個月前我還...
    沈念sama閱讀 48,909評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像值纱,于是被迫代替她去往敵國和親鳞贷。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,512評論 2 359

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理虐唠,服務(wù)發(fā)現(xiàn)搀愧,斷路器,智...
    卡卡羅2017閱讀 134,701評論 18 139
  • 基礎(chǔ)1.r''表示''內(nèi)部的字符串默認不轉(zhuǎn)義2.'''...'''表示多行內(nèi)容3. 布爾值:True疆偿、False(...
    neo已經(jīng)被使用閱讀 1,689評論 0 5
  • 又來到了一個老生常談的問題咱筛,應(yīng)用層軟件開發(fā)的程序員要不要了解和深入學習操作系統(tǒng)呢? 今天就這個問題開始翁脆,來談?wù)劜?..
    tangsl閱讀 4,134評論 0 23
  • 國家電網(wǎng)公司企業(yè)標準(Q/GDW)- 面向?qū)ο蟮挠秒娦畔?shù)據(jù)交換協(xié)議 - 報批稿:20170802 前言: 排版 ...
    庭說閱讀 11,005評論 6 13
  • 有些東西不在乎是因為你知道終其一生達不到或者擁有不了眷蚓,但是不代表不渴望不向往,因為知道自己的生活是一個悲劇所以就特...
    溜溜泉閱讀 138評論 0 0