作業(yè)筆記11_selenium

  1. 查找tesseract訓(xùn)練的相關(guān)資料内狗,嘗試訓(xùn)練tesseract
  2. 嘗試使用selenium爬取京東上某商品的價(jià)格與名稱

筆記

動(dòng)態(tài)網(wǎng)頁爬蟲

  • Ajax和動(dòng)態(tài)HTML
    • Ajax(Asynchronous JavaScript and XML)
    • 經(jīng)過JS渲染的網(wǎng)頁直接去分析后臺(tái)請求是狠復(fù)雜的,在Python中可以利用PhantomJS和Selenium這兩個(gè)庫幫助完成JS解析况毅。
  • PhantomJS
    • PhantomJS是一個(gè)無界面的,可腳本編程的WebKit瀏覽器引擎走搁。它原生支持多種web 標(biāo)準(zhǔn):DOM 操作,CSS選擇器,JSON敏晤,Canvas 以及SVG。
    • 嗯缅茉,就是一個(gè)沒有界面的瀏覽器嘴脾。它會(huì)把網(wǎng)頁加載的內(nèi)容儲(chǔ)存到內(nèi)存上。
    • 下載地址:PhantomJS官網(wǎng)
    • 安裝:超簡單蔬墩,解壓縮就好译打。Windows添加一下環(huán)境變量。
    • 打開cmd拇颅,執(zhí)行phantomjs -v奏司,出現(xiàn)版本號,就說明安裝成功了樟插。
    • 執(zhí)行phantomjs结澄,進(jìn)入Phantom環(huán)境哥谷。可以根據(jù)官方文檔進(jìn)行操作了麻献。
  • Selenium
    • 自動(dòng)化測試工具们妥。它支持各種瀏覽器,包括Chrome勉吻,Safari监婶,F(xiàn)irefox等主流界面式瀏覽器,如果你在這些瀏覽器里面安裝一個(gè)Selenium的插件齿桃,那么便可以方便地實(shí)現(xiàn)Web界面的測試惑惶。換句話說叫 Selenium 支持這些瀏覽器驅(qū)動(dòng)。

    • 安裝:pip下載安裝短纵,或官網(wǎng)下載安裝带污。

      C:\Users\yishikeji-05>pip install selenium
      Collecting selenium
        Downloading selenium-3.0.2-py2.py3-none-any.whl (915kB)
          100% |████████████████████████████████| 921kB 439kB/s
      Installing collected packages: selenium
      Successfully installed selenium-3.0.2
      

【這部分筆記參考了靜覓這個(gè)博客,有一系列關(guān)于Python爬蟲的文章香到,值得一看】

文字圖像識(shí)別:驗(yàn)證碼

  • ORC——將圖像翻譯成文字鱼冀,光學(xué)文字識(shí)別(Optical Character Recognition)
  • ORC庫
    • Pillow——圖像庫(已經(jīng)有了)
    • Teseract——文字識(shí)別,GitHub資源
  • Teseract安裝
    • Mac OS: brew install tesseract
    • windows: 下載exe的安裝文件悠就。我安裝在了D:\Program Files\Tesseract-OCR

Tesseract的使用

  • 保存一張圖片到Tesseract的安裝路徑下千绪,擴(kuò)展名改為tif

  • 進(jìn)入cmd命令窗梗脾,cd D:\Program Files\Tesseract-OCR進(jìn)入安裝目錄荸型,執(zhí)行命令:

    >tesseract pic.tif textoutput
    Tesseract Open Source OCR Engine v3.05.00dev with Leptonica
    
  • 然后在安裝目錄下就出現(xiàn)了textoutput.txt的文件。

    txt文件內(nèi)容:This is some text, written in Arial, that will be read by Tesseract. Here are some symbols: !@#$%"&'()


作業(yè)

1. 嘗試訓(xùn)練tesseract

訓(xùn)練步驟:

  • 下載并安裝jTessBoxEditor工具炸茧。

  • 準(zhǔn)備一張用來訓(xùn)練的tiff格式圖片瑞妇。

  • 將10張圖片合并為一張tiff格式的圖片orderNo.tif

  • Make Box Files:打開命令行梭冠,進(jìn)入安裝目錄辕狰,執(zhí)行以下代碼。

    tesseract orderNo.tif orderNo batch.nochop makebox
    
  • 使用jTessBoxEditor打開orderNo.tif文件妈嘹,需要記住的是第2步生成的orderNo.box要和這個(gè)orderNo.tif文件同在一個(gè)目錄下。逐個(gè)校正文字绍妨,后保存润脸。

  • Run Tesseract for Training:執(zhí)行如下命令

    tesseract orderNo.tif orderNo nobatch box.train
    
  • Compute the Character Set:執(zhí)行如下命令

    unicharset_extractor orderNo.box
    
  • 新建字體文件“font_properties”,執(zhí)行命令

    mftraining.exe -F font_properties -U unicharset orderNo.tr
    
  • Clustering

    cntraining orderNo.tr
    
  • 此時(shí)他去,在目錄下應(yīng)該生成若干個(gè)文件了(并沒有)毙驯,把unicharset,inttemp灾测,normproto爆价,pffmtable這四個(gè)文件加上前綴“orderNo.”。然后輸入命令:

combine_tessdata orderNo.

以上是老師給的資料中的訓(xùn)練步驟,然而我嘗試之后并沒有成功铭段。GitHub文檔所介紹的像是用Linux系統(tǒng)做的骤宣,究竟也沒有搞明白。

2. 使用selenium爬取京東上某商品的價(jià)格與名稱

代碼部分:

from selenium import webdriver
import time

driver = webdriver.PhantomJS()
driver.get("http://item.jd.com/3438929.html#")
#driver.page_source
time.sleep(1)
price = driver.find_element_by_class_name("p-price").text
print('商品名稱:', driver.title, '\n', '商品價(jià)格:', price)
driver.close()

結(jié)果輸出:

商品名稱: 【JDtabJ01】JDtab 魅族 哈曼 富士康 樂視 京東聯(lián)袂打造7.9英寸平板電腦 2K視網(wǎng)膜屏 4GB+64GB 香檳金 J01 【行情 報(bào) 價(jià) 價(jià)格 評測】-京東
商品價(jià)格: ¥1499.00

做的很勉強(qiáng)序愚,用selenium提取信息不太熟練憔披,總是出現(xiàn)InvalidSelectorException這個(gè)錯(cuò)誤。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末爸吮,一起剝皮案震驚了整個(gè)濱河市芬膝,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌形娇,老刑警劉巖锰霜,帶你破解...
    沈念sama閱讀 211,948評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異桐早,居然都是意外死亡癣缅,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,371評論 3 385
  • 文/潘曉璐 我一進(jìn)店門勘畔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來所灸,“玉大人,你說我怎么就攤上這事炫七∨懒ⅲ” “怎么了?”我有些...
    開封第一講書人閱讀 157,490評論 0 348
  • 文/不壞的土叔 我叫張陵万哪,是天一觀的道長侠驯。 經(jīng)常有香客問我,道長奕巍,這世上最難降的妖魔是什么吟策? 我笑而不...
    開封第一講書人閱讀 56,521評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮的止,結(jié)果婚禮上檩坚,老公的妹妹穿的比我還像新娘。我一直安慰自己诅福,他們只是感情好匾委,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,627評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著氓润,像睡著了一般赂乐。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上咖气,一...
    開封第一講書人閱讀 49,842評論 1 290
  • 那天挨措,我揣著相機(jī)與錄音挖滤,去河邊找鬼。 笑死浅役,一個(gè)胖子當(dāng)著我的面吹牛斩松,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播担租,決...
    沈念sama閱讀 38,997評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼砸民,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了奋救?” 一聲冷哼從身側(cè)響起岭参,我...
    開封第一講書人閱讀 37,741評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎尝艘,沒想到半個(gè)月后演侯,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,203評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡背亥,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,534評論 2 327
  • 正文 我和宋清朗相戀三年秒际,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片狡汉。...
    茶點(diǎn)故事閱讀 38,673評論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡娄徊,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出盾戴,到底是詐尸還是另有隱情寄锐,我是刑警寧澤,帶...
    沈念sama閱讀 34,339評論 4 330
  • 正文 年R本政府宣布尖啡,位于F島的核電站橄仆,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏衅斩。R本人自食惡果不足惜盆顾,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,955評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望畏梆。 院中可真熱鬧您宪,春花似錦、人聲如沸奠涌。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,770評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽铣猩。三九已至揖铜,卻和暖如春茴丰,著一層夾襖步出監(jiān)牢的瞬間达皿,已是汗流浹背天吓。 一陣腳步聲響...
    開封第一講書人閱讀 32,000評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留峦椰,地道東北人龄寞。 一個(gè)月前我還...
    沈念sama閱讀 46,394評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像汤功,于是被迫代替她去往敵國和親物邑。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,562評論 2 349

推薦閱讀更多精彩內(nèi)容