Java爬蟲爬取圖片腳本

import java.io.*;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.Date;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Main {

// 地址
// private static final String URL = "https://voice.hupu.com/nba/2176298.html";
// 獲取img標(biāo)簽正則
private static final String IMGURL_REG = "<img.data-original=(.?)[^>]?>";
// 獲取src路徑的正則
// private static final String IMGSRC_REG = "[a-zA-z]+://[^\s]
";
private static final String IMGSRC_REG = "[a-zA-z]+://[^\s]*";
private static final String Download_path = "/Users/yangjunchao/imgdownload/";
public static void main(String[] args) {
// for (long id = 55467; id <= 55467; id++) {
// try {
// System.out.println(id);
// String url = "http://tieba.baidu.com/p/51970"+id;
// System.out.println(url);
// Main cm = new Main();
// //獲得html文本內(nèi)容
// String HTML = cm.getHtml(url);
// //獲取圖片標(biāo)簽
// List<String> imgUrl = cm.getImageUrl(HTML);
// //獲取圖片src地址
// List<String> imgSrc = cm.getImageSrc(imgUrl);
// //下載圖片
// cm.Download(imgSrc);
//
// } catch (Exception e) {
// System.out.println("發(fā)生錯(cuò)誤");
// System.out.println(e);
// }
// }
// }
try {
String url = "http://588ku.com/beijing/0-0-pxnum-0-8-0-0-0-1/?h=bd&sem=1";
System.out.println(url);
Main cm = new Main();
//獲得html文本內(nèi)容
String HTML = cm.getHtml(url);
//獲取圖片標(biāo)簽
List<String> imgUrl = cm.getImageUrl(HTML);
//獲取圖片src地址
List<String> imgSrc = cm.getImageSrc(imgUrl);
//下載圖片
cm.Download(imgSrc);
} catch (Exception e) {
System.out.println("發(fā)生錯(cuò)誤");
System.out.println(e);
}
}
//獲取HTML內(nèi)容
private String getHtml(String url)throws Exception{
URL url1=new URL(url);
URLConnection connection=url1.openConnection();
InputStream in=connection.getInputStream();
InputStreamReader isr=new InputStreamReader(in);
BufferedReader br=new BufferedReader(isr);
String line;
StringBuffer sb=new StringBuffer();
while((line=br.readLine())!=null){
sb.append(line,0,line.length());
sb.append('\n');
}
br.close();
isr.close();
in.close();
return sb.toString();
}
//獲取ImageUrl地址
private List<String> getImageUrl(String html){
Matcher matcher=Pattern.compile(IMGURL_REG).matcher(html);
List<String>listimgurl=new ArrayList<String>();
while (matcher.find()){
listimgurl.add(matcher.group());
}
return listimgurl;
}
//獲取ImageSrc地址
private List<String> getImageSrc(List<String> listimageurl){
List<String> listImageSrc=new ArrayList<String>();
for (String image:listimageurl){
Matcher matcher=Pattern.compile(IMGSRC_REG).matcher(image);
while (matcher.find()){
listImageSrc.add(matcher.group().substring(0, matcher.group().length()-1));
}
}
return listImageSrc;
}
//下載圖片
private void Download(List<String> listImgSrc) {
try {
//開始時(shí)間
Date begindate = new Date();
for (String url : listImgSrc) {
//開始時(shí)間
Date begindate2 = new Date();
String imageName = url.substring(url.lastIndexOf("/") + 1, url.length());
URL uri = new URL(url);
InputStream in = uri.openStream();
FileOutputStream fo = new FileOutputStream(new File(Download_path+imageName));
byte[] buf = new byte[1024];
int length = 0;
System.out.println("開始下載:" + url);
while ((length = in.read(buf, 0, buf.length)) != -1) {
fo.write(buf, 0, length);
}
in.close();
fo.close();
System.out.println(imageName + "下載完成");
//結(jié)束時(shí)間
Date overdate2 = new Date();
double time = overdate2.getTime() - begindate2.getTime();
System.out.println("耗時(shí):" + time / 1000 + "s");
}
Date overdate = new Date();
double time = overdate.getTime() - begindate.getTime();
System.out.println("總耗時(shí):" + time / 1000 + "s");
} catch (Exception e) {
System.out.println("下載失敗");
System.out.println(e);
}
}
}

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末挂谍,一起剝皮案震驚了整個(gè)濱河市隙笆,隨后出現(xiàn)的幾起案子夹供,更是在濱河造成了極大的恐慌腔呜,老刑警劉巖检吆,帶你破解...
    沈念sama閱讀 222,104評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件预烙,死亡現(xiàn)場(chǎng)離奇詭異耀里,居然都是意外死亡韭赘,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,816評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門持搜,熙熙樓的掌柜王于貴愁眉苦臉地迎上來密似,“玉大人焙矛,你說我怎么就攤上這事葫盼。” “怎么了村斟?”我有些...
    開封第一講書人閱讀 168,697評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵贫导,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我蟆盹,道長(zhǎng)孩灯,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,836評(píng)論 1 298
  • 正文 為了忘掉前任逾滥,我火速辦了婚禮峰档,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己讥巡,他們只是感情好掀亩,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,851評(píng)論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著欢顷,像睡著了一般槽棍。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上抬驴,一...
    開封第一講書人閱讀 52,441評(píng)論 1 310
  • 那天炼七,我揣著相機(jī)與錄音,去河邊找鬼布持。 笑死豌拙,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的题暖。 我是一名探鬼主播姆蘸,決...
    沈念sama閱讀 40,992評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼芙委!你這毒婦竟也來了逞敷?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,899評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤灌侣,失蹤者是張志新(化名)和其女友劉穎推捐,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體侧啼,經(jīng)...
    沈念sama閱讀 46,457評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡牛柒,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,529評(píng)論 3 341
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了痊乾。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片皮壁。...
    茶點(diǎn)故事閱讀 40,664評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖哪审,靈堂內(nèi)的尸體忽然破棺而出蛾魄,到底是詐尸還是另有隱情,我是刑警寧澤湿滓,帶...
    沈念sama閱讀 36,346評(píng)論 5 350
  • 正文 年R本政府宣布滴须,位于F島的核電站,受9級(jí)特大地震影響叽奥,放射性物質(zhì)發(fā)生泄漏扔水。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,025評(píng)論 3 334
  • 文/蒙蒙 一朝氓、第九天 我趴在偏房一處隱蔽的房頂上張望魔市。 院中可真熱鬧主届,春花似錦、人聲如沸待德。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,511評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽磅网。三九已至谈截,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間涧偷,已是汗流浹背簸喂。 一陣腳步聲響...
    開封第一講書人閱讀 33,611評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留燎潮,地道東北人喻鳄。 一個(gè)月前我還...
    沈念sama閱讀 49,081評(píng)論 3 377
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像确封,于是被迫代替她去往敵國(guó)和親除呵。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,675評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容

  • 1. Java基礎(chǔ)部分 基礎(chǔ)部分的順序:基本語法爪喘,類相關(guān)的語法颜曾,內(nèi)部類的語法,繼承相關(guān)的語法秉剑,異常的語法泛豪,線程的語...
    子非魚_t_閱讀 31,664評(píng)論 18 399
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn)侦鹏,斷路器诡曙,智...
    卡卡羅2017閱讀 134,707評(píng)論 18 139
  • 一、 1略水、請(qǐng)用Java寫一個(gè)冒泡排序方法 【參考答案】 public static void Bubble(int...
    獨(dú)云閱讀 1,386評(píng)論 0 6
  • 本文包括:1价卤、Listener簡(jiǎn)介2、Servlet監(jiān)聽器3渊涝、監(jiān)聽三個(gè)域?qū)ο髣?chuàng)建和銷毀的事件監(jiān)聽器4慎璧、監(jiān)聽三個(gè)域?qū)?..
    廖少少閱讀 6,087評(píng)論 6 28
  • 人類正在做違反自然進(jìn)化的事情。 這是那天聽了一個(gè)中科院院士上課的時(shí)候說的驶赏。他的意思炸卑,本來人最主要的任務(wù)就是完成自身...
    三福弗朗西斯閱讀 1,082評(píng)論 0 1