爬蟲常用

一、數(shù)據(jù)處理

1痰哨、excel 表轉(zhuǎn)sql

=CONCATENATE("update data_source10009 set url='"&B1&"' where urlcategory='"&A1&"';")

=CONCATENATE("replace into data_source10001_website_v1(pageid, url) values ('"&A1&"' , '"&B1&"');")

2、將b的表結(jié)構(gòu)和索引都復(fù)制

create table data_source10026 like data_source10001;

將b的表結(jié)構(gòu)和索引和數(shù)據(jù)都復(fù)制

create table data_source10026 like data_source10001;
INSERT INTO data_source10026  SELECT * FROM data_source10001;

3、設(shè)置表的初始值 導(dǎo)入表的初始數(shù)據(jù)

insert into data_final(urlcategory,ShortName) select urlcategory,ShortName from couponcategory;

4. 批量替換 MySQL 指定字段中的字符串

update 表名 set 字段名=REPLACE (字段名,'原來的值','要修改的值')

update user_item set addr=REPLACE (addr,'成都','天府') where time<'2013-11--5'

update couponcategory.data_source10009 set moreinfo0 =REPLACE (moreinfo0,'[1]','') where moreinfo0 is not null;

5. 魔法函數(shù):筆記string的相似度

php 魔法函數(shù)similar_text(word1,word2compare, percent); 返回percent 兩個str的相似度

6. php函數(shù)

in_array("Runoob", array)

strpos("Hello world!","world");

str_replace("world","Shanghai","Hello world!");

6. python函數(shù)

6.1 list轉(zhuǎn)字符串

命令:

''.join(list)

其中如贷,引號中是字符之間的分割符,如“,”到踏,“;”杠袱,“\t”等等

如:

list = [1, 2, 3, 4, 5]

''.join(list) 結(jié)果即為:12345

','.join(list) 結(jié)果即為:1,2,3,4,5

二、字符串轉(zhuǎn)list

print list('12345')

輸出: ['1', '2', '3', '4', '5']

print list(map(int, '12345'))

輸出: [1, 2, 3, 4, 5]

str2 = "123 sjhid dhi" 

list2 = str2.split() #or list2 = str2.split(" ") 

print list2 

['123', 'sjhid', 'dhi']

str3 = "www.google.com" 

list3 = str3.split(".") 

print list3 

['www', 'google', 'com']

7.mysql 把colA 的值復(fù)制到colB

update data_source10013 set moreinfo0= moreinfo1;

二窝稿、網(wǎng)頁 分析 xpath 語法

三楣富、正則表達式

四、服務(wù)器執(zhí)行抓取腳本(nohup 防止網(wǎng)絡(luò)中斷)

nohup scrapy crawl getdatawiki > getdatawiki.log 2>&1 &

stu1 = [url, href, urlname, '']

            out = open('fix10004.csv', 'a', newline='')

            # out = open('d:/data_source10004_v1.csv', 'a', newline='')

            # 設(shè)定寫入模式

            csv_write = csv.writer(out, dialect='excel')

            # 寫入具體內(nèi)容

            csv_write.writerow(stu1)

            out.close()
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末伴榔,一起剝皮案震驚了整個濱河市纹蝴,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌潮梯,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,539評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件惨恭,死亡現(xiàn)場離奇詭異秉馏,居然都是意外死亡,警方通過查閱死者的電腦和手機脱羡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評論 3 396
  • 文/潘曉璐 我一進店門萝究,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人锉罐,你說我怎么就攤上這事帆竹。” “怎么了脓规?”我有些...
    開封第一講書人閱讀 165,871評論 0 356
  • 文/不壞的土叔 我叫張陵栽连,是天一觀的道長。 經(jīng)常有香客問我,道長秒紧,這世上最難降的妖魔是什么绢陌? 我笑而不...
    開封第一講書人閱讀 58,963評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮熔恢,結(jié)果婚禮上脐湾,老公的妹妹穿的比我還像新娘。我一直安慰自己叙淌,他們只是感情好秤掌,可當(dāng)我...
    茶點故事閱讀 67,984評論 6 393
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著鹰霍,像睡著了一般闻鉴。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上衅谷,一...
    開封第一講書人閱讀 51,763評論 1 307
  • 那天椒拗,我揣著相機與錄音,去河邊找鬼获黔。 笑死蚀苛,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的玷氏。 我是一名探鬼主播堵未,決...
    沈念sama閱讀 40,468評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼盏触!你這毒婦竟也來了渗蟹?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤赞辩,失蹤者是張志新(化名)和其女友劉穎雌芽,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體辨嗽,經(jīng)...
    沈念sama閱讀 45,850評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡世落,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,002評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了糟需。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片屉佳。...
    茶點故事閱讀 40,144評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖洲押,靈堂內(nèi)的尸體忽然破棺而出武花,到底是詐尸還是另有隱情,我是刑警寧澤杈帐,帶...
    沈念sama閱讀 35,823評論 5 346
  • 正文 年R本政府宣布体箕,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏干旁。R本人自食惡果不足惜驶沼,卻給世界環(huán)境...
    茶點故事閱讀 41,483評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望争群。 院中可真熱鬧回怜,春花似錦、人聲如沸换薄。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽轻要。三九已至复旬,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間冲泥,已是汗流浹背驹碍。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留凡恍,地道東北人志秃。 一個月前我還...
    沈念sama閱讀 48,415評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像嚼酝,于是被迫代替她去往敵國和親浮还。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,092評論 2 355

推薦閱讀更多精彩內(nèi)容

  • PHP常用函數(shù)大全 usleep() 函數(shù)延遲代碼執(zhí)行若干微秒闽巩。 unpack() 函數(shù)從二進制字符串對數(shù)據(jù)進行解...
    上街買菜丶迷倒老太閱讀 1,370評論 0 20
  • 手動不易钧舌,轉(zhuǎn)發(fā)請注明出處 --Trance 數(shù)據(jù)庫系統(tǒng)命令: (1).查看存儲過程狀態(tài):show pro...
    Trance_b54c閱讀 1,665評論 0 8
  • pyspark.sql模塊 模塊上下文 Spark SQL和DataFrames的重要類: pyspark.sql...
    mpro閱讀 9,457評論 0 13
  • 這篇文章主要是介紹Python爬取網(wǎng)頁信息時,經(jīng)常使用的正則表達式及方法涎跨。它是一篇總結(jié)性文章洼冻,實用性比較大,主要解...
    妄心xyx閱讀 8,221評論 0 6
  • 詩人死了 大風(fēng)刮不走你的溫柔隅很, 春天撞牢, 我在突來的冷風(fēng)里瑟瑟發(fā)抖, 不見花落如雨外构, 灰蒙蒙普泡, 風(fēng)沙漫天播掷, 誰在橋頭...
    王子少閱讀 253評論 0 0