豆瓣電影名字與年份 selector 運(yùn)用CSS方法
這一版本將年份返回值做了去兩端括號(hào)處理蓬蝶,借鑒了這個(gè)例子https://blog.csdn.net/mach_learn/article/details/41744487
#一個(gè)去除雜亂符號(hào)的例子
import re
temp = "想做/ 兼_職/學(xué)生_/ 的 踊餐、加,我Q: 1 5. 8 0. O侍摹@涤佟?被环? 8 6 楼雹。0. 2。 3 有,驚,喜,哦"
string = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——付翁!简肴,。胆敞?着帽、~@#¥%……&*()]+", "",temp)#用法: re.sub(要被替換的值,替換值移层,text)
print(string)
接下來是我今晚初學(xué)爬蟲的成果XD(雖然很弟弟)
首先當(dāng)然是import部分
from requests_html import HTMLSession
import re
接下來是函數(shù)主體
def clearstr(str1):
str1 = re.sub("[\s+\.\!\/_,$%^*()+\"\']+|[+——仍翰!,观话。予借?、~@#¥%……&*()]+", "",str1)#用法: re.sub(要被替換的值频蛔,替換值灵迫,text)
return str1
def getmovieyear(links):
name = []
year = []
for link in links:
session1 = HTMLSession()
h1 = session1.get(link)
n1=h1.html.find('#content > h1 > span:nth-child(1)',first=True).text#得到name的text格式
y1=clearstr(h1.html.find('#content > h1 > span.year',first=True).text)#得到y(tǒng)ear的text格式并清洗格式
name.append(n1)
year.append(y1)
for movie in name:
i=0
print("《{0}》 is showed in {1}".format(movie,year[i]))
i=i+1
最后是示例效果
mylink=['https://movie.douban.com/subject/1292052/']
getmovieyear(mylink)
輸出為:《肖申克的救贖 The Shawshank Redemption》 is showed in 1994
明天的目標(biāo)
學(xué)習(xí)bs4的使用:Beautiful Soup 的用法