python視頻下載

最近一兩年短視頻業(yè)務(wù)風(fēng)生水起,各個(gè)視頻網(wǎng)站都有各自特色的短視頻內(nèi)容。如果有這樣一個(gè)程序,可以把各大視頻網(wǎng)站的熱門(mén)用戶(hù)最新發(fā)布的視頻都下載下來(lái)躬柬,不僅方便自己觀看,還可以將沒(méi)有版權(quán)的視頻發(fā)布在個(gè)人社交網(wǎng)站上抽减,增加自己的人氣允青,豈不美哉?

parker就是這樣一個(gè)項(xiàng)目(項(xiàng)目地址:https://github.com/LiuRoy/parker)卵沉,它采用celery框架定時(shí)爬取用戶(hù)視頻列表颠锉,將最新發(fā)布的視頻通過(guò)you-get異步下載法牲,可以很方便地實(shí)現(xiàn)分布式部署。因?yàn)楦鱾€(gè)網(wǎng)站的頁(yè)面布局和接口更新比較頻繁木柬,為了保證程序的高可用皆串,特意增加了Statsd監(jiān)控,方便及時(shí)發(fā)現(xiàn)出錯(cuò)眉枕。

代碼架構(gòu)

代碼架構(gòu)

目前parker中只實(shí)現(xiàn)了B站和秒拍的下載恶复,從框架圖可以看出,針對(duì)每一類(lèi)網(wǎng)站速挑,需要實(shí)現(xiàn)兩個(gè)異步接口:從用戶(hù)視頻主頁(yè)解析發(fā)布視頻的播放地址谤牡、根據(jù)播放地址下載視頻。因此增加網(wǎng)站類(lèi)型姥宝,不需要修改原來(lái)的代碼翅萤,只需要添加新的解析和下載接口即可。針對(duì)視頻下載完成之后的后續(xù)操作腊满,我還沒(méi)有實(shí)現(xiàn)套么,大家可以根據(jù)自己的需求自由的去實(shí)現(xiàn)。

在運(yùn)行的時(shí)候碳蛋,celery會(huì)將配置好的優(yōu)質(zhì)用戶(hù)列表定時(shí)發(fā)送到對(duì)應(yīng)網(wǎng)站的解析接口異步執(zhí)行胚泌,篩選出最新發(fā)布的視頻播放地址,交給對(duì)應(yīng)的下載接口異步下載肃弟,下載完成之后再異步調(diào)用后續(xù)操作玷室。因此需要啟動(dòng)一個(gè)celery beat進(jìn)程發(fā)送定時(shí)任務(wù),以及若干celery異步任務(wù)去執(zhí)行解析和下載操作笤受,對(duì)于比較大的視頻穷缤,下載會(huì)相當(dāng)耗時(shí),建議根據(jù)任務(wù)列表的多少合理分配異步任務(wù)的個(gè)數(shù)箩兽。

程序運(yùn)行

經(jīng)驗(yàn)證津肛,此程序可以在ubuntu和mac下正常運(yùn)行, 由于本地windows下的celery無(wú)法正常啟動(dòng)汗贫,所以沒(méi)有在windows環(huán)境做過(guò)驗(yàn)證身坐。

依賴(lài)庫(kù)安裝

python版本為3.5,進(jìn)入項(xiàng)目目錄后芳绩,執(zhí)行:

pip install -r requirements.txt

創(chuàng)建數(shù)據(jù)庫(kù)表

提前在數(shù)據(jù)庫(kù)中建好兩張表(sql: https://github.com/LiuRoy/parker/blob/master/spider/models/tables.sql

參數(shù)配置

config路徑下的logging.yaml掀亥、params.yaml撞反、sites.yaml分別對(duì)應(yīng)日志配置、運(yùn)行參數(shù)配置、熱門(mén)用戶(hù)配置刁愿。

日志配置

debug模式下日志會(huì)直接輸出在標(biāo)準(zhǔn)輸出流,release模式下會(huì)將日志內(nèi)容輸出到文件中撮竿,因此需要配置輸出日志文件。

運(yùn)行配置

  • mode debug調(diào)試模式笔呀,此模式下日志指向標(biāo)準(zhǔn)輸出幢踏,并且沒(méi)有監(jiān)控?cái)?shù)據(jù);release模式下许师,日志輸出到制定文件房蝉,并且有監(jiān)控?cái)?shù)據(jù)。
  • broker_url 對(duì)應(yīng)于celery的BROKER_URL微渠,可以配置為redis或者rabbitmq
  • mysql_url 數(shù)據(jù)庫(kù)地址搭幻,需要提前建好兩張表
  • download_path 視頻下載路徑
  • statsd_address 監(jiān)控地址
  • video_number_per_page 每次從用戶(hù)視頻主頁(yè)解析出多少條視頻播放地址,因?yàn)榇蟛糠钟脩?hù)每次發(fā)布的視頻個(gè)數(shù)很少逞盆,只需要設(shè)置成一個(gè)很小的值即可檀蹋。在初次運(yùn)行的時(shí)候,也不會(huì)下載大量久遠(yuǎn)的視頻云芦。
  • download_timeout 視頻下載的超時(shí)時(shí)間

熱門(mén)用戶(hù)配置

parker會(huì)根據(jù)此配置生成一份celery beat scheduler列表俯逾。

  • name 規(guī)則是<網(wǎng)站類(lèi)型>-<任務(wù)id>,parker會(huì)根據(jù)此作為scheduler任務(wù)名稱(chēng)
  • url 用戶(hù)的發(fā)布視頻主頁(yè)
  • task 對(duì)應(yīng)的celery解析異步任務(wù)
  • minute 多少分鐘檢查一次用戶(hù)視頻列表

啟動(dòng)任務(wù)

進(jìn)入項(xiàng)目目錄舅逸,執(zhí)行下面命令啟動(dòng)celery worker

celery -A spider worker

執(zhí)行下面命令啟動(dòng)celery beat定時(shí)任務(wù)

celery -A spider beat

監(jiān)控

強(qiáng)烈安利一個(gè)docker鏡像 https://hub.docker.com/r/samuelebistoletti/docker-statsd-influxdb-grafana/桌肴,一分鐘配好監(jiān)控環(huán)境有木有。之后只需要添加執(zhí)行成功和執(zhí)行異常的打點(diǎn)數(shù)據(jù)堡赔,就可以方便的監(jiān)控程序是否正常運(yùn)行了识脆。

監(jiān)控
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市善已,隨后出現(xiàn)的幾起案子灼捂,更是在濱河造成了極大的恐慌,老刑警劉巖换团,帶你破解...
    沈念sama閱讀 217,907評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件悉稠,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡艘包,警方通過(guò)查閱死者的電腦和手機(jī)的猛,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)想虎,“玉大人卦尊,你說(shuō)我怎么就攤上這事∩喑” “怎么了岂却?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,298評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我躏哩,道長(zhǎng)署浩,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,586評(píng)論 1 293
  • 正文 為了忘掉前任扫尺,我火速辦了婚禮筋栋,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘正驻。我一直安慰自己弊攘,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,633評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布姑曙。 她就那樣靜靜地躺著肴颊,像睡著了一般。 火紅的嫁衣襯著肌膚如雪渣磷。 梳的紋絲不亂的頭發(fā)上婿着,一...
    開(kāi)封第一講書(shū)人閱讀 51,488評(píng)論 1 302
  • 那天,我揣著相機(jī)與錄音醋界,去河邊找鬼竟宋。 笑死,一個(gè)胖子當(dāng)著我的面吹牛形纺,可吹牛的內(nèi)容都是我干的丘侠。 我是一名探鬼主播,決...
    沈念sama閱讀 40,275評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼逐样,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼蜗字!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起脂新,我...
    開(kāi)封第一講書(shū)人閱讀 39,176評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤挪捕,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后争便,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體级零,經(jīng)...
    沈念sama閱讀 45,619評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,819評(píng)論 3 336
  • 正文 我和宋清朗相戀三年滞乙,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了奏纪。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,932評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡斩启,死狀恐怖序调,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情兔簇,我是刑警寧澤发绢,帶...
    沈念sama閱讀 35,655評(píng)論 5 346
  • 正文 年R本政府宣布荣挨,位于F島的核電站,受9級(jí)特大地震影響朴摊,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜此虑,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,265評(píng)論 3 329
  • 文/蒙蒙 一甚纲、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧朦前,春花似錦介杆、人聲如沸韭寸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,871評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)恩伺。三九已至赴背,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間晶渠,已是汗流浹背凰荚。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,994評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留褒脯,地道東北人便瑟。 一個(gè)月前我還...
    沈念sama閱讀 48,095評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像番川,于是被迫代替她去往敵國(guó)和親到涂。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,884評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容