1嫂易、變量
python中通過等號(hào)直接將某值直接賦值給某變量:
例1:a = 1 #即將數(shù)值1賦值于變量
?python中語句結(jié)束不需要以分號(hào),變量不需要提前定義常拓。
例2:現(xiàn)嘗試對(duì)a渐溶、b兩變量進(jìn)行賦值,再對(duì)其值進(jìn)行調(diào)換:
a=1
b=2
t=a
a=b
b=t
print(a弄抬、b)
#result 2 1
2茎辐、字符串中的“加法”和“乘法”
由于Python進(jìn)行爬蟲的過程中,對(duì)象大部分回事文本的形式掂恕,所以字符串的用法也就顯得尤為重要拖陆。
在Python中,字符串由雙引號(hào)或單引號(hào)以及引號(hào)中的字符組成懊亡。接下來依啰,我們分別對(duì)字符串的“加法”和“乘法”進(jìn)行舉例演示:
1)加法:
a="hello"
b=' world'
print(a+b)
#result hello world
?當(dāng)我們?cè)谂老x的過程中會(huì)經(jīng)常需要用到URL,此時(shí)我們就可以通過文本的形式將網(wǎng)址鏈接的幾個(gè)部分進(jìn)行連接店枣,從而形成完整的網(wǎng)頁地址的鏈接速警。
2)乘法:
a=' hello world'
print(a*3)
#result hello world hello world hello world
?將字符串乘以某一數(shù)值,意思就是將字符串復(fù)制出該數(shù)字所對(duì)應(yīng)的份數(shù)鸯两。
3闷旧、字符串的切片和索引
字符串中的每個(gè)元素都有其對(duì)應(yīng)的位置編號(hào),通過定位的方式獲取單個(gè)元素信息或部分元素的信息以達(dá)到索引和切片的效果钧唐。
例:
a='hello world'
print(a[0])
# result h
print(a[0:5])
# result hello
print(a[-1])
# result d
?Python中對(duì)于位置索引的編號(hào)從左往右是從0開始忙灼,依次累加;而倒過來的排序是從-1開始依次累加逾柿。如下圖:
?由操作結(jié)果可知:a[0:5]中5所標(biāo)識(shí)的元素并未被打印出來缀棍,其中是因?yàn)椋撉衅秶鞘孜皇情]區(qū)間机错,末尾是開區(qū)間的原理爬范,末位是不會(huì)被包含到范圍中的。
?在爬蟲實(shí)戰(zhàn)中弱匪,經(jīng)常會(huì)通過字符串的切片和索引青瀑,提取需要的部分璧亮,剔除一些不需要的部分。
4斥难、字符串的方法
這里只額外介紹幾個(gè)爬蟲過程中會(huì)用到的方法枝嘶,如:
1.split()方法
a='www.baidu.com'
print(a.split('.'))
# result ['www', 'baidu', 'com']
split()通過給定的分隔符(上例的分隔符是‘ . ’),將一個(gè)字符串分割為一個(gè)列表哑诊。
?如果沒有提供任何分隔符群扶,程序會(huì)把所有的空格作為分隔符(空格、制表镀裤、換行等)竞阐。
2.replace()方法
a='There is apples'
b=a.replace('is' , 'are')
print(b)
# result There are apples
3.strip()方法
a=' python is cool'
print(a.strip())
# result python is cool
?strip()方法返回的結(jié)果是去除兩側(cè)(不包括內(nèi)部)空格的字符串,也可以指定需要去除的字符暑劝,將它們列入到參數(shù)中即可骆莹。
例:
a=" ***python *is * good*** "
print(a.strip("*!"))
# result python *is *good
?strip()是針對(duì)字符串兩側(cè)的字符進(jìn)行去除的處理,在我們進(jìn)行爬蟲操作的過程中担猛,常會(huì)遇到爬取到的文本中幕垦,文本的兩側(cè)有多余的空格,我們便可以用這種方法來將字符串兩側(cè)多余的空格給去除掉傅联。
4.format()方法
a=" {} is my love".format('python')
print(a)
# result python is my love
?字符串格式化符就像是做選擇題先改,留了空給做題者選擇,在爬蟲的過程中有些網(wǎng)頁的鏈接的部分參數(shù)是可變的纺且,這時(shí)使用字符串格式化符可以減少代碼的使用量盏道。
例:
content=input("請(qǐng)輸入搜索內(nèi)容:")
url_path="https://www.pexels.com/search/{}/".format(content)
print(url_path)