2019-02.24(review)

1.小說爬戎熳臁(spider)

參照鏈接:使用Beautiful Soup爬取小說(bs4 + urllib)

a.BeautifulSoup

soup = BeautifulSoup(html_doc, 'html.parser')

# print(soup.prettify())

# tag 的內(nèi)容器贩,名稱等。。⊥郏可用于查找文本內(nèi)容

print(soup.title)//print(soup.title.name)//print(soup.title.string)//print(soup.title.parent.name)// print(soup.body.children.name) # children 選項(xiàng)

print(soup.p)//print(soup.p.name)//print(soup.p.get_text())# 獲取所有文字內(nèi)容


.text 與 .string 的區(qū)別于使用范圍: 是否包含多個(gè)子節(jié)點(diǎn),多個(gè)只能用text,返回類型有區(qū)別

# tag中包含多個(gè)字符串 [2] ,可以使用 .strings 來循環(huán)獲取

# 輸出的字符串中可能包含了很多空格或空行,使用 .stripped_strings 可以去除多余空白內(nèi)容


print(soup.a.attrs)# 獲取所有的屬性值? 可使用屬性值進(jìn)行目標(biāo)位置確認(rèn)鲤拿,或者 href,scr,img等獲取

# 屬性值的獲取方式 : ["attrs"] , .get("attrs ")

print(soup.a['class'])? // print(soup.a.get('href'))


# 查找假褪,遍歷

# find_all( name , attrs , recursive , string , **kwargs )

'''

name 參數(shù)可以查找所有名字為 name 的tag,字符串對象會被自動忽略掉,

keyword 參數(shù):搜索指定名字的屬性時(shí)可以使用的參數(shù)值包括 字符串 , 正則表達(dá)式 , 列表, True .

string 參數(shù)可以搜搜文檔中的字符串內(nèi)容.

limit 參數(shù)限制返回結(jié)果的數(shù)量 也可理解find 為 limit= 1

只想搜索tag的直接子節(jié)點(diǎn),可以使用參數(shù) recursive=False,默認(rèn)為True: 搜索所有子孫節(jié)點(diǎn)

'''

eg:

print(soup.find(id="link3"))//print(soup.find_all('a'))

# 關(guān)鍵字: class 改為 class_

for linkin soup.find_all('a', class_="sister"):

? ? print(link['id'], ':', link.get('href'))


Beautiful Soup將復(fù)雜HTML文檔轉(zhuǎn)換成一個(gè)復(fù)雜的樹形結(jié)構(gòu),每個(gè)節(jié)點(diǎn)都是Python對象,所有對象可以歸納為4種:Tag , NavigableString , BeautifulSoup , Comment .

(1)tag

soup = BeautifulSoup('Extremely bold')

tag = soup.b

# tag 的屬性值更改獲取 , tag的屬性操作方法與字典一樣

tag.name ='change'

print(soup.change)

tag["class"] ='blod_change'

print(tag.get('class'))

(2) NavigableString 類來包裝tag中的字符串

一個(gè) NavigableString 字符串與Python中的Unicode字符串相同,

并且還支持包含在 遍歷文檔樹 和 搜索文檔樹 中的一些特性.

通過 unicode() 方法可以直接將 NavigableString 對象轉(zhuǎn)換成Unicode字符串

# tag中包含的字符串不能編輯,但是可以被替換成其它的字符串,用 replace_with()

(3)comment

# Comment 對象是一個(gè)特殊類型的 NavigableString 對象

(4)相關(guān)知識點(diǎn)

.parent 屬性來獲取某個(gè)元素的父節(jié)點(diǎn)

.parents 屬性可以遞歸得到元素的所有父輩節(jié)點(diǎn)

.next_sibling 和 .previous_sibling 屬性來查詢兄弟節(jié)點(diǎn)

.next_siblings 和 .previous_siblings 屬性可以對當(dāng)前節(jié)點(diǎn)的兄弟節(jié)點(diǎn)迭代輸出

.next_element 屬性指向解析過程中下一個(gè)被解析的對象(字符串或tag)近顷,結(jié)果可能與 .next_sibling 相同,但通常是不一樣的.

# Beautiful Soup支持大部分的CSS選擇器: .select() 方法中傳入字符串參數(shù), 即可使用CSS選擇器的語法找到tag

b.小說內(nèi)容實(shí)戰(zhàn)

小說章節(jié)內(nèi)容爬取使用BeautifulSoup進(jìn)行解析文本內(nèi)容嗜价;

針對小說章節(jié)列表進(jìn)行分析,return(list) 小說章節(jié)名+鏈接幕庐;

使用函數(shù)def實(shí)現(xiàn)以上功能久锥,并進(jìn)行代碼整合。

注意:

文本解析時(shí)的空格與換行符异剥;

進(jìn)度顯示:

#打印爬取進(jìn)度

sys.stdout.write("已下載:%.3f%%"% float(index/numbers) +'\r')

sys.stdout.flush()? ? ? ? ? ? ? ? index +=1


2.python運(yùn)算符

Python比較運(yùn)算符:

Python賦值運(yùn)算符:+=瑟由,-=, ......etc簡化操作

Python位運(yùn)算符

python邏輯運(yùn)算符:與或非,and,or,not

身份運(yùn)算符與成員運(yùn)算符:in//not in冤寿;is//not is:

運(yùn)算符優(yōu)先等級(從高到底):


3.user_agent 和 IP

參照資料鏈接: 使用User Agent和代理IP隱藏身份

User Agent存放于Headers中歹苦,服務(wù)器就是通過查看Headers中的User Agent來判斷是誰在訪問。(模擬瀏覽器訪問)對于在程序過程中訪問網(wǎng)頁督怜,發(fā)送請求時(shí)(urlopen/requests.get)需要在請求總添加 “headers=header”或使用add_header()方法殴瘦,添加headers(session/request.Request(url))。

IP設(shè)置可大致分為以下三個(gè)步驟:

s:

需要注意:

這里示例使用的代理IP為開放代理号杠,若使用加密代理第一步需:{'http' : 'user:password @ ip:port}:

可以使用random.choice(ip)//random.choice(user_agent) :此處ip和user_agent 為一組

random.choice():查找內(nèi)容可以為 列表蚪腋,元組或字符串

requests:requests.get(url = http_url, headers = headers, proxies = proxies, timeout =30)

針對第三步:request.install_opener(opener) 目的是將前面的內(nèi)容作為默認(rèn)設(shè)置保存丰歌,后續(xù)使用response = request.urlopen(url)中就已經(jīng)針對ip設(shè)置, 或者也可使用opener .urlopen(url) 進(jìn)行局部使用


4.不同級別的范數(shù)在機(jī)器學(xué)習(xí)中的應(yīng)用

參考鏈接:范數(shù)與距離的關(guān)系以及在機(jī)器學(xué)習(xí)中的應(yīng)用


L1范數(shù)和L2范數(shù)屉凯,用于機(jī)器學(xué)習(xí)的L1正則化立帖、L2正則化。對于線性回歸模型悠砚,使用L1正則化的模型建叫做Lasso回歸晓勇,使用L2正則化的模型叫做Ridge回歸(嶺回歸)。

其作用是:

L1正則化是指權(quán)值向量w中各個(gè)元素的絕對值之和灌旧,可以產(chǎn)生稀疏權(quán)值矩陣(稀疏矩陣指的是很多元素為0绑咱,只有少數(shù)元素是非零值的矩陣,即得到的線性回歸模型的大部分系數(shù)都是0. )枢泰,即產(chǎn)生一個(gè)稀疏模型描融,可以用于特征選擇;

L2正則化是指權(quán)值向量w中各個(gè)元素的平方和然后再求平方根宗苍,可以防止模型過擬合(overfitting);一定程度上薄榛,L1也可以防止過擬合讳窟。


常用的向量的范數(shù):

L1范數(shù)(曼哈頓距離):? ||x|| 為x向量各個(gè)元素絕對值之和。

L2范數(shù)(歐式距離):? ||x||為x向量各個(gè)元素平方和的1/2次方敞恋,L2范數(shù)又稱Euclidean范數(shù)或者Frobenius范數(shù)

Lp范數(shù)(閔可夫斯基距離(Minkowski Distance)):? ||x||為x向量各個(gè)元素絕對值p次方和的1/p次方

L∞范數(shù)(切比雪夫距離):? ||x||為x向量各個(gè)元素絕對值最大那個(gè)元素的絕對值丽啡,如下:




Mahalanobis距離:也稱作馬氏距離。在近鄰分類法中硬猫,常采用歐式距離和馬氏距離补箍。

m

其中p是一個(gè)變參數(shù)。

當(dāng)p=1時(shí)啸蜜,就是曼哈頓距離坑雅,

當(dāng)p=2時(shí),就是歐氏距離衬横,

當(dāng)p→∞時(shí)裹粤,就是切比雪夫距離,? ? ?

根據(jù)變參數(shù)的不同蜂林,閔氏距離可以表示一類的距離遥诉。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市噪叙,隨后出現(xiàn)的幾起案子矮锈,更是在濱河造成了極大的恐慌,老刑警劉巖睁蕾,帶你破解...
    沈念sama閱讀 216,919評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件苞笨,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)猫缭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,567評論 3 392
  • 文/潘曉璐 我一進(jìn)店門葱弟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人猜丹,你說我怎么就攤上這事芝加。” “怎么了射窒?”我有些...
    開封第一講書人閱讀 163,316評論 0 353
  • 文/不壞的土叔 我叫張陵藏杖,是天一觀的道長。 經(jīng)常有香客問我脉顿,道長蝌麸,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,294評論 1 292
  • 正文 為了忘掉前任艾疟,我火速辦了婚禮来吩,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘蔽莱。我一直安慰自己弟疆,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,318評論 6 390
  • 文/花漫 我一把揭開白布盗冷。 她就那樣靜靜地躺著怠苔,像睡著了一般。 火紅的嫁衣襯著肌膚如雪仪糖。 梳的紋絲不亂的頭發(fā)上柑司,一...
    開封第一講書人閱讀 51,245評論 1 299
  • 那天,我揣著相機(jī)與錄音锅劝,去河邊找鬼攒驰。 笑死,一個(gè)胖子當(dāng)著我的面吹牛故爵,可吹牛的內(nèi)容都是我干的讼育。 我是一名探鬼主播,決...
    沈念sama閱讀 40,120評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼稠集,長吁一口氣:“原來是場噩夢啊……” “哼奶段!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起剥纷,我...
    開封第一講書人閱讀 38,964評論 0 275
  • 序言:老撾萬榮一對情侶失蹤痹籍,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后晦鞋,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蹲缠,經(jīng)...
    沈念sama閱讀 45,376評論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡棺克,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,592評論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了线定。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片娜谊。...
    茶點(diǎn)故事閱讀 39,764評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖斤讥,靈堂內(nèi)的尸體忽然破棺而出纱皆,到底是詐尸還是另有隱情,我是刑警寧澤芭商,帶...
    沈念sama閱讀 35,460評論 5 344
  • 正文 年R本政府宣布派草,位于F島的核電站,受9級特大地震影響铛楣,放射性物質(zhì)發(fā)生泄漏近迁。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,070評論 3 327
  • 文/蒙蒙 一簸州、第九天 我趴在偏房一處隱蔽的房頂上張望鉴竭。 院中可真熱鬧,春花似錦岸浑、人聲如沸搏存。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,697評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽祭埂。三九已至面氓,卻和暖如春兵钮,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背舌界。 一陣腳步聲響...
    開封第一講書人閱讀 32,846評論 1 269
  • 我被黑心中介騙來泰國打工掘譬, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人呻拌。 一個(gè)月前我還...
    沈念sama閱讀 47,819評論 2 370
  • 正文 我出身青樓葱轩,卻偏偏與公主長得像,于是被迫代替她去往敵國和親藐握。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,665評論 2 354

推薦閱讀更多精彩內(nèi)容