1.小說爬戎熳臁(spider)
參照鏈接:使用Beautiful Soup爬取小說(bs4 + urllib)
a.BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
# print(soup.prettify())
# tag 的內(nèi)容器贩,名稱等。。⊥郏可用于查找文本內(nèi)容
print(soup.title)//print(soup.title.name)//print(soup.title.string)//print(soup.title.parent.name)// print(soup.body.children.name) # children 選項(xiàng)
print(soup.p)//print(soup.p.name)//print(soup.p.get_text())# 獲取所有文字內(nèi)容
.text 與 .string 的區(qū)別于使用范圍: 是否包含多個(gè)子節(jié)點(diǎn),多個(gè)只能用text,返回類型有區(qū)別
# tag中包含多個(gè)字符串 [2] ,可以使用 .strings 來循環(huán)獲取
# 輸出的字符串中可能包含了很多空格或空行,使用 .stripped_strings 可以去除多余空白內(nèi)容
print(soup.a.attrs)# 獲取所有的屬性值? 可使用屬性值進(jìn)行目標(biāo)位置確認(rèn)鲤拿,或者 href,scr,img等獲取
# 屬性值的獲取方式 : ["attrs"] , .get("attrs ")
print(soup.a['class'])? // print(soup.a.get('href'))
# 查找假褪,遍歷
# find_all( name , attrs , recursive , string , **kwargs )
'''
name 參數(shù)可以查找所有名字為 name 的tag,字符串對象會被自動忽略掉,
keyword 參數(shù):搜索指定名字的屬性時(shí)可以使用的參數(shù)值包括 字符串 , 正則表達(dá)式 , 列表, True .
string 參數(shù)可以搜搜文檔中的字符串內(nèi)容.
limit 參數(shù)限制返回結(jié)果的數(shù)量 也可理解find 為 limit= 1
只想搜索tag的直接子節(jié)點(diǎn),可以使用參數(shù) recursive=False,默認(rèn)為True: 搜索所有子孫節(jié)點(diǎn)
'''
eg:
print(soup.find(id="link3"))//print(soup.find_all('a'))
# 關(guān)鍵字: class 改為 class_
for linkin soup.find_all('a', class_="sister"):
? ? print(link['id'], ':', link.get('href'))
Beautiful Soup將復(fù)雜HTML文檔轉(zhuǎn)換成一個(gè)復(fù)雜的樹形結(jié)構(gòu),每個(gè)節(jié)點(diǎn)都是Python對象,所有對象可以歸納為4種:Tag , NavigableString , BeautifulSoup , Comment .
(1)tag
soup = BeautifulSoup('Extremely bold')
tag = soup.b
# tag 的屬性值更改獲取 , tag的屬性操作方法與字典一樣
tag.name ='change'
print(soup.change)
tag["class"] ='blod_change'
print(tag.get('class'))
(2) NavigableString 類來包裝tag中的字符串
一個(gè) NavigableString 字符串與Python中的Unicode字符串相同,
并且還支持包含在 遍歷文檔樹 和 搜索文檔樹 中的一些特性.
通過 unicode() 方法可以直接將 NavigableString 對象轉(zhuǎn)換成Unicode字符串
# tag中包含的字符串不能編輯,但是可以被替換成其它的字符串,用 replace_with()
(3)comment
# Comment 對象是一個(gè)特殊類型的 NavigableString 對象
(4)相關(guān)知識點(diǎn)
.parent 屬性來獲取某個(gè)元素的父節(jié)點(diǎn)
.parents 屬性可以遞歸得到元素的所有父輩節(jié)點(diǎn)
.next_sibling 和 .previous_sibling 屬性來查詢兄弟節(jié)點(diǎn)
.next_siblings 和 .previous_siblings 屬性可以對當(dāng)前節(jié)點(diǎn)的兄弟節(jié)點(diǎn)迭代輸出
.next_element 屬性指向解析過程中下一個(gè)被解析的對象(字符串或tag)近顷,結(jié)果可能與 .next_sibling 相同,但通常是不一樣的.
# Beautiful Soup支持大部分的CSS選擇器: .select() 方法中傳入字符串參數(shù), 即可使用CSS選擇器的語法找到tag
b.小說內(nèi)容實(shí)戰(zhàn)
小說章節(jié)內(nèi)容爬取使用BeautifulSoup進(jìn)行解析文本內(nèi)容嗜价;
針對小說章節(jié)列表進(jìn)行分析,return(list) 小說章節(jié)名+鏈接幕庐;
使用函數(shù)def實(shí)現(xiàn)以上功能久锥,并進(jìn)行代碼整合。
注意:
文本解析時(shí)的空格與換行符异剥;
進(jìn)度顯示:
#打印爬取進(jìn)度
sys.stdout.write("已下載:%.3f%%"% float(index/numbers) +'\r')
sys.stdout.flush()? ? ? ? ? ? ? ? index +=1
2.python運(yùn)算符
Python比較運(yùn)算符:
Python賦值運(yùn)算符:+=瑟由,-=, ......etc簡化操作
Python位運(yùn)算符
python邏輯運(yùn)算符:與或非,and,or,not
身份運(yùn)算符與成員運(yùn)算符:in//not in冤寿;is//not is:
運(yùn)算符優(yōu)先等級(從高到底):
3.user_agent 和 IP
參照資料鏈接: 使用User Agent和代理IP隱藏身份
User Agent存放于Headers中歹苦,服務(wù)器就是通過查看Headers中的User Agent來判斷是誰在訪問。(模擬瀏覽器訪問)對于在程序過程中訪問網(wǎng)頁督怜,發(fā)送請求時(shí)(urlopen/requests.get)需要在請求總添加 “headers=header”或使用add_header()方法殴瘦,添加headers(session/request.Request(url))。
IP設(shè)置可大致分為以下三個(gè)步驟:
需要注意:
這里示例使用的代理IP為開放代理号杠,若使用加密代理第一步需:{'http' : 'user:password @ ip:port}:
可以使用random.choice(ip)//random.choice(user_agent) :此處ip和user_agent 為一組
random.choice():查找內(nèi)容可以為 列表蚪腋,元組或字符串
requests:requests.get(url = http_url, headers = headers, proxies = proxies, timeout =30)
針對第三步:request.install_opener(opener) 目的是將前面的內(nèi)容作為默認(rèn)設(shè)置保存丰歌,后續(xù)使用response = request.urlopen(url)中就已經(jīng)針對ip設(shè)置, 或者也可使用opener .urlopen(url) 進(jìn)行局部使用
4.不同級別的范數(shù)在機(jī)器學(xué)習(xí)中的應(yīng)用
參考鏈接:范數(shù)與距離的關(guān)系以及在機(jī)器學(xué)習(xí)中的應(yīng)用
L1范數(shù)和L2范數(shù)屉凯,用于機(jī)器學(xué)習(xí)的L1正則化立帖、L2正則化。對于線性回歸模型悠砚,使用L1正則化的模型建叫做Lasso回歸晓勇,使用L2正則化的模型叫做Ridge回歸(嶺回歸)。
其作用是:
L1正則化是指權(quán)值向量w中各個(gè)元素的絕對值之和灌旧,可以產(chǎn)生稀疏權(quán)值矩陣(稀疏矩陣指的是很多元素為0绑咱,只有少數(shù)元素是非零值的矩陣,即得到的線性回歸模型的大部分系數(shù)都是0. )枢泰,即產(chǎn)生一個(gè)稀疏模型描融,可以用于特征選擇;
L2正則化是指權(quán)值向量w中各個(gè)元素的平方和然后再求平方根宗苍,可以防止模型過擬合(overfitting);一定程度上薄榛,L1也可以防止過擬合讳窟。
常用的向量的范數(shù):
L1范數(shù)(曼哈頓距離):? ||x|| 為x向量各個(gè)元素絕對值之和。
L2范數(shù)(歐式距離):? ||x||為x向量各個(gè)元素平方和的1/2次方敞恋,L2范數(shù)又稱Euclidean范數(shù)或者Frobenius范數(shù)
Lp范數(shù)(閔可夫斯基距離(Minkowski Distance)):? ||x||為x向量各個(gè)元素絕對值p次方和的1/p次方
L∞范數(shù)(切比雪夫距離):? ||x||為x向量各個(gè)元素絕對值最大那個(gè)元素的絕對值丽啡,如下:
Mahalanobis距離:也稱作馬氏距離。在近鄰分類法中硬猫,常采用歐式距離和馬氏距離补箍。
其中p是一個(gè)變參數(shù)。
當(dāng)p=1時(shí)啸蜜,就是曼哈頓距離坑雅,
當(dāng)p=2時(shí),就是歐氏距離衬横,
當(dāng)p→∞時(shí)裹粤,就是切比雪夫距離,? ? ?
根據(jù)變參數(shù)的不同蜂林,閔氏距離可以表示一類的距離遥诉。