Python網(wǎng)絡(luò)爬蟲

一秩仆、python與網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲

它是指著一類程序——自動(dòng)連接到互聯(lián)網(wǎng)站點(diǎn)坏快,并讀取網(wǎng)頁(yè)中的內(nèi)容或者存放在網(wǎng)絡(luò)上的各種信息辽幌,并按照某種策略對(duì)目標(biāo)信息進(jìn)行采集(如對(duì)某個(gè)網(wǎng)站的全部頁(yè)面進(jìn)行讀认驳隆)

python語(yǔ)言

python的發(fā)展歷程

  • Guido van Rossum在1989年開發(fā)了python語(yǔ)言,他從高級(jí)數(shù)學(xué)語(yǔ)言ABC汲取了大量語(yǔ)法怀各,并從系統(tǒng)編程語(yǔ)言Modula-3借鑒了錯(cuò)誤處理機(jī)制,將其命名為python(大蟒蛇)术浪。
  • python是一種解釋型瓢对、面對(duì)對(duì)象、動(dòng)態(tài)數(shù)據(jù)類型的高級(jí)程序設(shè)計(jì)語(yǔ)言胰苏。python開源硕蛹,遵循GPL(GNU General Public License)協(xié)議,對(duì)所有開發(fā)者完全開放,免費(fèi)法焰。

python主要數(shù)據(jù)類型

  • Number秧荆,數(shù)值類型“R牵可以使Integers(如1和2)乙濒、Float(如1.1和1.2)、Fractions(如1/2和1/3)卵蛉,或者是Complex Number(數(shù)學(xué)里的復(fù)數(shù))
  • String,字符串颁股,主要用于描述文本
  • List,列表傻丝,一個(gè)包含元素的序列
  • Tuple甘有,元祖,和列表類似桑滩,但其實(shí)不可變的
  • Set梧疲,一個(gè)包含元素的集合,其中的元素是無(wú)序的
  • Dict运准,字典幌氮,由一些鍵值對(duì)構(gòu)成
  • Booleam,布爾類型胁澳,其值或?yàn)門ure或False
  • Byte该互,字節(jié),例如一個(gè)以字節(jié)流動(dòng)的jpg文件

python基本語(yǔ)法

  • //表示整除
  • **表示冪次
  • 使用type關(guān)鍵字獲取某個(gè)數(shù)據(jù)的類型

例如:

print(type(1))  # <classs 'int'>
  • 分?jǐn)?shù)運(yùn)算

      import fractions # 導(dǎo)入分?jǐn)?shù)模塊
      a=fractions.Fraction(1,2)
      b=fractions.Fraction(1,3)
      print(a+b) # 輸出5/6
    
  • 復(fù)數(shù)運(yùn)算

復(fù)數(shù)可以使用complex(real,imag)或者帶有后綴“j”的浮點(diǎn)數(shù)來(lái)創(chuàng)建

a=complex(1,2)
b=2+3j
print(type(a),type(b)) # <class'complex'><class'complex'>
print(a+b) # (3+5j)
print(a*b) #(-4+7j)
  • 布爾類型

python中的布爾類型只有True和False兩個(gè)常量為值

print(1<2) #True
print(1>2) #False
  • 列表(list)

對(duì)于列表而言韭畸,序列中的每一個(gè)元素都在一個(gè)固定的位置(稱為索引)宇智,索引從“0”開始。列表中的元素可以是任何數(shù)據(jù)類型胰丁,python中的列表對(duì)應(yīng)形式是“【】”(有點(diǎn)類似于C語(yǔ)言中的數(shù)組)

l1=[1,2,3,4] 
print(l1[0]) #通過(guò)索引訪問(wèn)元素随橘,輸出“1”
print(l1[1]) #輸出“2”
print(l1[-1]) #使用負(fù)索引值可從列表的尾部向前訪問(wèn)元素
# 任何非空列表的最后一個(gè)元素總是list【-1】

列表切片(slice):從列表中提取部分元素的操作,返回值是一個(gè)新列表锦庸。

l1=[i for i in range(20)] #列表解析語(yǔ)句
#l1中的元素為從0到20(不含20)的所有整數(shù)
print(l1)
print(l1[0:5]) #l1的前五個(gè)元素
print(l1[15:-1]) #取索引為15的元素到最后一個(gè)元素
print(l1[:5]) #取前五個(gè)机蔗,"0"可以省略
# 如果左切片索引為零,可以將其留空而將零省去甘萧,如果右切片索引為列表的長(zhǎng)度萝嘁,也可以將其留空
l2=l1[:] #取所有元素,其實(shí)就是復(fù)制列表
print(l1[::2]) #指定步數(shù)扬卷,取所有偶數(shù)索引
print(l1[::-1]) #倒著取所有元素

列表中添加新元素的方法

l1=['a']
l1=l1+['b']
print(l1) # ['a','b']
l1.append('c')
l1.insert(0,'x')
l1.insert(len(l1),'y')
print(l1) #['x', 'a', 'b', 'c', 'y']
l1.extend(['d','e'])
print(l1) #['x', 'a', 'b', 'c', 'y', 'd', 'e']
l1.append(['f','g'])
print(l1) # ['x', 'a', 'b', 'c', 'y', 'd', 'e', ['f', 'g']]

extend()接受一個(gè)列表牙言,并把其元素添加到原有的列表中類似擴(kuò)展的意思。append()把參數(shù)(參數(shù)可能是一個(gè)列表)作為一個(gè)元素添加到原有的列表中怪得,類似于一個(gè)列表中插入另一個(gè)列表咱枉。insert()將單個(gè)元素插入到列表中卑硫,其第一個(gè)參數(shù)是列表插入的位置(索引), 指定位置的插入元素

從類表中刪除元素

del l1[0] #根據(jù)索引指定列表中的一個(gè)元素刪除
print(l1)
#['a', 'b', 'c', 'y', 'd', 'e', ['f', 'g']]
l1.remove('a') #根據(jù)元素刪除庞钢, remove()的方法接受一個(gè)value參數(shù)拔恰,并刪除列表中第一次出現(xiàn)的該值
print(l1)
# ['b', 'c', 'y', 'd', 'e', ['f', 'g']]
l1.pop(0) # 接受一個(gè)特定的索引值進(jìn)行刪除
# ['c', 'y', 'd', 'e', ['f', 'g']]

元祖(tuple)

元祖與列表非常相似,最大的區(qū)別在于:

  1. 元祖是不可修改的定義之后就固定了
  2. 元祖在形式上使用“()”

元祖操作與列表類似:

t1 = (1,2,3,4,5)
print(t1[0]) # 1
print(t1[::-1]) # (5, 4, 3, 2, 1)
print(1 in t1) # 檢查“1”是否在t1中基括,輸出:True
print(t1.index(5)) #返回某個(gè)值所對(duì)應(yīng)的元素索引颜懊,輸出:4

注:元素不可修改是元祖和列表的最大(或者說(shuō)唯一)的區(qū)別,除此之外风皿,列表中修改元素的操作也適用于元祖河爹。

字符串(string)與運(yùn)用方法

str1 = 'abcd'
print(str1[0]) # a
print(str1[:2]) # ab
str1=str1+ 'efg'
print(str1) # abcdefg
str1 = str1 + 'xyz'*2
print(str1) # abcdefgxyzxyz
# 格式化字符串
print('{} is a kind of {}.'.format('cat','mammal'))
# cat is a kind of mammal

# 顯式指定字段
print('{3} is in {2},but {1} is in {0}'.format('china','shanghai','us','newyork'))
# newyork is in us,but shanghai is in china

# 以三個(gè)引號(hào)標(biāo)記多行字符串
long_str ='''I love this girl,
but I don't know if she like me,
what I can do is to keep calm and stay alive.
'''
print(long_str) 

集合(set)

無(wú)序且值唯一,創(chuàng)建集合和操作集合的常見方式包括:

set1 = {1, 2, 3}
l1 = [4, 5, 6]
set2 = set(l1)
print(set1) # {1, 2, 3}
print(set2) # {4, 5, 6}
# 添加元素
set1.add(10)
print(set1)  # {10,1,2,3}
set1.add(2)  # 無(wú)效語(yǔ)句桐款,因?yàn)椤?”在集合中已經(jīng)存在
print(set1)  # {10,1,2,3}
set1.update(set2)  # 類似list中的extend()操作
print(set1)  # {1,2,3,4,5,6,10}

# 刪除元素
set1.discard(4)
print(set1)  # {1,2,3,5,6,10}
set1.remove(5)
print(set1)  # {1,2,3,6,10}
set1.discard(20)  # 無(wú)效語(yǔ)句咸这,不會(huì)報(bào)錯(cuò)
# set1.remove(20): 使用remove()去除一個(gè)并不存在的值時(shí)會(huì)報(bào)錯(cuò)
set1.clear()  # 清空集合
print(set1)  # set()
set1 = {1, 2, 3, 4}
# 并集、交集與差集
print(set1.union(set2))  # 并集
# {1,2,3,4,5,6}
print(set1.intersection(set2))  # 交集
# {4}
print(set1.symmetric_difference(set2))  # 差集魔眨,只在set1或只在set2的元素

字典(dict)

python中的字典是鍵值對(duì)(key-value)的無(wú)序集合媳维。字典形式上和集合類似,創(chuàng)建字典和操作字典的基本方法如下:

d1 = {'a':1,'b':2} # 使用“{}”創(chuàng)建
d2 = dict([['apple','fruit'],['lion','animal']]) # 使用diat關(guān)鍵字創(chuàng)建
d3 = dict(name = 'Paris',status = 'alive',location = 'ohio')
print(d1) # {'a': 1, 'b': 2}
print(d2) # {'apple': 'fruit', 'lion': 'animal'}
print(d3) # {'name': 'Paris', 'status': 'alive', 'location': 'ohio'}

# 訪問(wèn)元素
print(d1['a']) #1
print(d3.get('name')) #Paris
# 使用get方法獲取不存在的鍵值時(shí)不會(huì)觸發(fā)異常

# 修改字典-添加或更新鍵值對(duì)
d1['c'] = 3
print(d1) #{'a': 1, 'b': 2, 'c': 3}
d1['c'] = -3
print(d1) # {'a': 1, 'b': 2, 'c': -3}
d3.update(name = 'Jarvis',location = 'Virginia')
print(d3) # {'name': 'Jarvis', 'status': 'alive', 'location': 'Virginia'}

# 修改字典-刪除鍵值對(duì)
del d1['b']
print(d1) # {'a': 1, 'c': -3}
d1.pop('c')
print(d1) # {'a': 1}

# 獲取keys或values
print(d3.keys()) # dict_keys(['name', 'status', 'location'])
print(d3.values()) # dict_values(['Jarvis', 'alive', 'Virginia'])
for k,v in d3.items():
    print('{}:\t{}'.format(k,v))
# name: Jarvis
# status:   alive
# location: Virginia

邏輯語(yǔ)句

python中表示程序結(jié)構(gòu)的語(yǔ)句不需要用括號(hào)括起來(lái)(比如“{}”)遏暴,而是一個(gè)冒號(hào)結(jié)尾侄刽,以縮進(jìn)為語(yǔ)句塊。if朋凉,else州丹,elif關(guān)鍵詞是條件選擇語(yǔ)句的關(guān)鍵:

 a = 1
if a>0:
    print('Positive')
else:
    print('Negetive')
# 輸出:Positive

b = 2
if b < 0:
    print('b is less than zero')
elif b < 3:
    print('b is not less than zero but less than three')
elif b < 5:
    print('b is not less than three but less than five')
else:
    print('b is equal to or greater than five')
# 輸出:b is not less than zero but less than three
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市杂彭,隨后出現(xiàn)的幾起案子墓毒,更是在濱河造成了極大的恐慌,老刑警劉巖亲怠,帶你破解...
    沈念sama閱讀 222,590評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件所计,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡团秽,警方通過(guò)查閱死者的電腦和手機(jī)醉箕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,157評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)徙垫,“玉大人,你說(shuō)我怎么就攤上這事放棒∫霰ǎ” “怎么了?”我有些...
    開封第一講書人閱讀 169,301評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵间螟,是天一觀的道長(zhǎng)吴旋。 經(jīng)常有香客問(wèn)我损肛,道長(zhǎng),這世上最難降的妖魔是什么荣瑟? 我笑而不...
    開封第一講書人閱讀 60,078評(píng)論 1 300
  • 正文 為了忘掉前任治拿,我火速辦了婚禮,結(jié)果婚禮上笆焰,老公的妹妹穿的比我還像新娘劫谅。我一直安慰自己,他們只是感情好嚷掠,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,082評(píng)論 6 398
  • 文/花漫 我一把揭開白布捏检。 她就那樣靜靜地躺著,像睡著了一般不皆。 火紅的嫁衣襯著肌膚如雪贯城。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,682評(píng)論 1 312
  • 那天霹娄,我揣著相機(jī)與錄音能犯,去河邊找鬼。 笑死犬耻,一個(gè)胖子當(dāng)著我的面吹牛踩晶,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播香追,決...
    沈念sama閱讀 41,155評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼合瓢,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了透典?” 一聲冷哼從身側(cè)響起晴楔,我...
    開封第一講書人閱讀 40,098評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎峭咒,沒(méi)想到半個(gè)月后税弃,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,638評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡凑队,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,701評(píng)論 3 342
  • 正文 我和宋清朗相戀三年则果,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片漩氨。...
    茶點(diǎn)故事閱讀 40,852評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡西壮,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出叫惊,到底是詐尸還是另有隱情款青,我是刑警寧澤,帶...
    沈念sama閱讀 36,520評(píng)論 5 351
  • 正文 年R本政府宣布霍狰,位于F島的核電站抡草,受9級(jí)特大地震影響饰及,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜康震,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,181評(píng)論 3 335
  • 文/蒙蒙 一燎含、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧腿短,春花似錦屏箍、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,674評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至鹦付,卻和暖如春尚粘,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背敲长。 一陣腳步聲響...
    開封第一講書人閱讀 33,788評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工郎嫁, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人祈噪。 一個(gè)月前我還...
    沈念sama閱讀 49,279評(píng)論 3 379
  • 正文 我出身青樓泽铛,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親辑鲤。 傳聞我的和親對(duì)象是個(gè)殘疾皇子盔腔,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,851評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容

  • 1. 概述 本文主要介紹網(wǎng)絡(luò)爬蟲,采用的實(shí)現(xiàn)語(yǔ)言為Python月褥,目的在于闡述網(wǎng)絡(luò)爬蟲的原理和實(shí)現(xiàn)弛随,并且對(duì)目前常見的...
    Lemon_Home閱讀 2,761評(píng)論 0 21
  • 本文為《爬著學(xué)Python》系列第九篇文章。 從現(xiàn)在開始算是要進(jìn)入“真刀真槍”的Python學(xué)習(xí)了宁赤。之所以這么說(shuō)舀透,...
    SyPy閱讀 2,148評(píng)論 0 14
  • 1 前言 作為一名合格的數(shù)據(jù)分析師,其完整的技術(shù)知識(shí)體系必須貫穿數(shù)據(jù)獲取决左、數(shù)據(jù)存儲(chǔ)愕够、數(shù)據(jù)提取、數(shù)據(jù)分析佛猛、數(shù)據(jù)挖掘惑芭、...
    whenif閱讀 18,083評(píng)論 45 523
  • 一 高可用架構(gòu)設(shè)計(jì) 配置說(shuō)明:zookeeper x 3 + canal x 2 + mysql x 2 組件說(shuō)明...
    GuangHui閱讀 2,338評(píng)論 1 7
  • 在腫瘤內(nèi)科實(shí)習(xí)時(shí)遇到過(guò)一位姓鐘的大叔。鐘大叔62歲继找,高高瘦瘦强衡,是一名司機(jī)。他對(duì)于腫瘤有很多錯(cuò)誤的認(rèn)識(shí),并且非常固執(zhí)...
    阿超雙螺旋閱讀 189評(píng)論 5 1