2019-02.24（review）

1.小說爬戎熳臁（spider）

a.BeautifulSoup

soup = BeautifulSoup(html_doc, 'html.parser')

# print(soup.prettify())

# tag 的內(nèi)容器贩，名稱等。。⊥郏可用于查找文本內(nèi)容

print(soup.title)//print(soup.title.name)//print(soup.title.string)//print(soup.title.parent.name)// print(soup.body.children.name) # children 選項(xiàng)

print(soup.p)//print(soup.p.name)//print(soup.p.get_text())# 獲取所有文字內(nèi)容

.text 與 .string 的區(qū)別于使用范圍: 是否包含多個(gè)子節(jié)點(diǎn)，多個(gè)只能用text,返回類型有區(qū)別

# tag中包含多個(gè)字符串 [2] ,可以使用 .strings 來循環(huán)獲取

# 輸出的字符串中可能包含了很多空格或空行,使用 .stripped_strings 可以去除多余空白內(nèi)容

print(soup.a.attrs)# 獲取所有的屬性值? 可使用屬性值進(jìn)行目標(biāo)位置確認(rèn)鲤拿，或者 href,scr,img等獲取

# 屬性值的獲取方式： ["attrs"] , .get("attrs ")

print(soup.a['class'])? // print(soup.a.get('href'))

# 查找假褪，遍歷

# find_all( name , attrs , recursive , string , **kwargs )

'''

name 參數(shù)可以查找所有名字為 name 的tag,字符串對象會被自動忽略掉,

keyword 參數(shù):搜索指定名字的屬性時(shí)可以使用的參數(shù)值包括字符串 , 正則表達(dá)式 , 列表, True .

string 參數(shù)可以搜搜文檔中的字符串內(nèi)容.

limit 參數(shù)限制返回結(jié)果的數(shù)量也可理解find 為 limit= 1

只想搜索tag的直接子節(jié)點(diǎn),可以使用參數(shù) recursive=False,默認(rèn)為True: 搜索所有子孫節(jié)點(diǎn)

'''

eg:

print(soup.find(id="link3"))//print(soup.find_all('a'))

# 關(guān)鍵字： class 改為 class_

for linkin soup.find_all('a', class_="sister"):

? ? print(link['id'], ':', link.get('href'))

Beautiful Soup將復(fù)雜HTML文檔轉(zhuǎn)換成一個(gè)復(fù)雜的樹形結(jié)構(gòu),每個(gè)節(jié)點(diǎn)都是Python對象,所有對象可以歸納為4種:Tag , NavigableString , BeautifulSoup , Comment .

（1）tag

soup = BeautifulSoup('Extremely bold')

tag = soup.b

# tag 的屬性值更改獲取， tag的屬性操作方法與字典一樣

tag.name ='change'

print(soup.change)

tag["class"] ='blod_change'

print(tag.get('class'))

(2) NavigableString 類來包裝tag中的字符串

一個(gè) NavigableString 字符串與Python中的Unicode字符串相同,

并且還支持包含在遍歷文檔樹和搜索文檔樹中的一些特性.

通過 unicode() 方法可以直接將 NavigableString 對象轉(zhuǎn)換成Unicode字符串

# tag中包含的字符串不能編輯,但是可以被替換成其它的字符串,用 replace_with()

(3)comment

# Comment 對象是一個(gè)特殊類型的 NavigableString 對象

(4）相關(guān)知識點(diǎn)

.parent 屬性來獲取某個(gè)元素的父節(jié)點(diǎn)

.parents 屬性可以遞歸得到元素的所有父輩節(jié)點(diǎn)

.next_sibling 和 .previous_sibling 屬性來查詢兄弟節(jié)點(diǎn)

.next_siblings 和 .previous_siblings 屬性可以對當(dāng)前節(jié)點(diǎn)的兄弟節(jié)點(diǎn)迭代輸出

.next_element 屬性指向解析過程中下一個(gè)被解析的對象(字符串或tag)近顷，結(jié)果可能與 .next_sibling 相同,但通常是不一樣的.

# Beautiful Soup支持大部分的CSS選擇器： .select() 方法中傳入字符串參數(shù), 即可使用CSS選擇器的語法找到tag

b.小說內(nèi)容實(shí)戰(zhàn)

小說章節(jié)內(nèi)容爬取使用BeautifulSoup進(jìn)行解析文本內(nèi)容嗜价；

針對小說章節(jié)列表進(jìn)行分析，return（list）小說章節(jié)名+鏈接幕庐；

使用函數(shù)def實(shí)現(xiàn)以上功能久锥，并進(jìn)行代碼整合。

注意：

文本解析時(shí)的空格與換行符异剥；

進(jìn)度顯示：

#打印爬取進(jìn)度

sys.stdout.write("已下載:%.3f%%"% float(index/numbers) +'\r')

sys.stdout.flush()? ? ? ? ? ? ? ? index +=1

2.python運(yùn)算符

Python比較運(yùn)算符：

Python賦值運(yùn)算符：+=瑟由，-=, ......etc簡化操作

Python位運(yùn)算符

python邏輯運(yùn)算符：與或非，and,or,not

身份運(yùn)算符與成員運(yùn)算符：in//not in冤寿；is//not is：

運(yùn)算符優(yōu)先等級（從高到底）：

3.user_agent 和 IP

參照資料鏈接：使用User Agent和代理IP隱藏身份

User Agent存放于Headers中歹苦，服務(wù)器就是通過查看Headers中的User Agent來判斷是誰在訪問。（模擬瀏覽器訪問）對于在程序過程中訪問網(wǎng)頁督怜，發(fā)送請求時(shí)（urlopen/requests.get）需要在請求總添加 “headers=header”或使用add_header()方法殴瘦，添加headers（session/request.Request(url)）。

IP設(shè)置可大致分為以下三個(gè)步驟：

s：

需要注意：

這里示例使用的代理IP為開放代理号杠，若使用加密代理第一步需：{'http' : 'user：password @ ip:port}：

可以使用random.choice(ip)//random.choice(user_agent) ：此處ip和user_agent 為一組

random.choice()：查找內(nèi)容可以為列表蚪腋，元組或字符串

requests：requests.get(url = http_url, headers = headers, proxies = proxies, timeout =30)

針對第三步：request.install_opener(opener) 目的是將前面的內(nèi)容作為默認(rèn)設(shè)置保存丰歌，后續(xù)使用response = request.urlopen(url)中就已經(jīng)針對ip設(shè)置，或者也可使用opener .urlopen(url) 進(jìn)行局部使用

4.不同級別的范數(shù)在機(jī)器學(xué)習(xí)中的應(yīng)用

參考鏈接：范數(shù)與距離的關(guān)系以及在機(jī)器學(xué)習(xí)中的應(yīng)用

L1范數(shù)和L2范數(shù)屉凯，用于機(jī)器學(xué)習(xí)的L1正則化立帖、L2正則化。對于線性回歸模型悠砚，使用L1正則化的模型建叫做Lasso回歸晓勇，使用L2正則化的模型叫做Ridge回歸（嶺回歸）。

其作用是：

L1正則化是指權(quán)值向量w中各個(gè)元素的絕對值之和灌旧，可以產(chǎn)生稀疏權(quán)值矩陣（稀疏矩陣指的是很多元素為0绑咱，只有少數(shù)元素是非零值的矩陣，即得到的線性回歸模型的大部分系數(shù)都是0. ）枢泰，即產(chǎn)生一個(gè)稀疏模型描融，可以用于特征選擇；

L2正則化是指權(quán)值向量w中各個(gè)元素的平方和然后再求平方根宗苍，可以防止模型過擬合（overfitting）；一定程度上薄榛，L1也可以防止過擬合讳窟。

常用的向量的范數(shù)：

L1范數(shù)（曼哈頓距離）:? ||x|| 為x向量各個(gè)元素絕對值之和。

L2范數(shù)（歐式距離）:? ||x||為x向量各個(gè)元素平方和的1/2次方敞恋，L2范數(shù)又稱Euclidean范數(shù)或者Frobenius范數(shù)

Lp范數(shù)（閔可夫斯基距離(Minkowski Distance)）:? ||x||為x向量各個(gè)元素絕對值p次方和的1/p次方

L∞范數(shù)（切比雪夫距離）:? ||x||為x向量各個(gè)元素絕對值最大那個(gè)元素的絕對值丽啡，如下：

Mahalanobis距離：也稱作馬氏距離。在近鄰分類法中硬猫，常采用歐式距離和馬氏距離补箍。

其中p是一個(gè)變參數(shù)。

當(dāng)p=1時(shí)啸蜜，就是曼哈頓距離坑雅，

當(dāng)p=2時(shí)，就是歐氏距離衬横，

當(dāng)p→∞時(shí)裹粤，就是切比雪夫距離，? ? ?

根據(jù)變參數(shù)的不同蜂林，閔氏距離可以表示一類的距離遥诉。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市噪叙，隨后出現(xiàn)的幾起案子矮锈，更是在濱河造成了極大的恐慌，老刑警劉巖睁蕾，帶你破解...
沈念sama閱讀 216,919評論 6贊 502
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件苞笨，死亡現(xiàn)場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)猫缭，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,567評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門葱弟，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人猜丹，你說我怎么就攤上這事芝加。” “怎么了射窒？”我有些...
開封第一講書人閱讀 163,316評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵藏杖，是天一觀的道長。經(jīng)常有香客問我脉顿，道長蝌麸，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,294評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任艾疟，我火速辦了婚禮来吩，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘蔽莱。我一直安慰自己弟疆，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,318評論 6贊 390
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布盗冷。她就那樣靜靜地躺著怠苔，像睡著了一般。火紅的嫁衣襯著肌膚如雪仪糖。梳的紋絲不亂的頭發(fā)上柑司，一...
開封第一講書人閱讀 51,245評論 1贊 299
城市分裂傳說
那天，我揣著相機(jī)與錄音锅劝，去河邊找鬼攒驰。笑死，一個(gè)胖子當(dāng)著我的面吹牛故爵，可吹牛的內(nèi)容都是我干的讼育。我是一名探鬼主播，決...
沈念sama閱讀 40,120評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼稠集，長吁一口氣：“原來是場噩夢啊……” “哼奶段！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起剥纷，我...
開封第一講書人閱讀 38,964評論 0贊 275
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤痹籍，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后晦鞋，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蹲缠，經(jīng)...
沈念sama閱讀 45,376評論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡棺克，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,592評論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了线定。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片娜谊。...
茶點(diǎn)故事閱讀 39,764評論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖斤讥，靈堂內(nèi)的尸體忽然破棺而出纱皆，到底是詐尸還是另有隱情，我是刑警寧澤芭商，帶...
沈念sama閱讀 35,460評論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布派草，位于F島的核電站，受9級特大地震影響铛楣，放射性物質(zhì)發(fā)生泄漏近迁。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,070評論 3贊 327
男人毒藥：我在死后第九天來索命
文/蒙蒙一簸州、第九天我趴在偏房一處隱蔽的房頂上張望鉴竭。院中可真熱鬧，春花似錦岸浑、人聲如沸搏存。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,697評論 0贊 22
一樁弒父案助琐，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽祭埂。三九已至面氓，卻和暖如春兵钮，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背舌界。一陣腳步聲響...
開封第一講書人閱讀 32,846評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工掘譬，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人呻拌。一個(gè)月前我還...
沈念sama閱讀 47,819評論 2贊 370
代替公主和親
正文我出身青樓葱轩，卻偏偏與公主長得像，于是被迫代替她去往敵國和親藐握。傳聞我的和親對象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,665評論 2贊 354