java爬蟲(chóng)獲取圖片

獲取每個(gè)頁(yè)面圖片鏈接地址

package com.wxq.pachong;

import com.alibaba.fastjson.JSON;

import java.util.ArrayList;

import java.util.List;

/**

* @title:

* @description:

* @author:

* @date:2019/3/11 15:09

**/

public class JianDanHtmlParserimplements Runnable{

private Stringhtml;

? ? private int page;

? ? public JianDanHtmlParser(String html,int page) {

this.html = html;

? ? ? ? this.page = page;

? ? }

@Override

? ? public void run() {

System.out.println("==========第"+page+"頁(yè)============");

? ? ? ? List list =new ArrayList();

? ? ? ? html =html.substring(html.indexOf("list"));

? ? ? ? String[] images =html.split("li>");

? ? ? ? for (String image : images) {

String[] ss = image.split("br");

? ? ? ? ? ? for (String s : ss) {

if (s.indexOf("<img src=") >0) {

try{

int i = s.indexOf("<img src=\"") +"<img src=\"".length();

? ? ? ? ? ? ? ? ? ? ? ? list.add(s.substring(i, s.indexOf("\"", i +1)));

? ? ? ? ? ? ? ? ? ? }catch (Exception e) {

System.out.println(s);

? ? ? ? ? ? ? ? ? ? }

}

}

}

for(String imageUrl : list){

System.out.println("圖片鏈接:"+ JSON.toJSONString(imageUrl));

? ? ? ? ? ? if(imageUrl.indexOf("uploads")>0){

new Thread(new JianDanImageCreator(imageUrl,page)).start();

? ? ? ? ? ? }

}

}

}


將圖片鏈接下載到本地

package com.wxq.pachong;

import java.io.File;

import java.io.FileOutputStream;

import java.io.InputStream;

import java.io.OutputStream;

import java.net.URL;

/**

* @title:

* @description:

* @author:

* @date:2019/3/11 15:09

**/

public class JianDanImageCreatorimplements Runnable{

private static int count =0;

? ? private StringimageUrl;

? ? private int page;

? ? //存儲(chǔ)路徑,自定義

? ? private static final StringbasePath ="E:/jiandan";

? ? public JianDanImageCreator(String imageUrl,int page) {

this.imageUrl = imageUrl;

? ? ? ? this.page = page;

? ? }

@Override

? ? public void run() {

File dir =new File(basePath);

? ? ? ? if(!dir.exists()){

dir.mkdirs();

? ? ? ? ? ? System.out.println("圖片存放于"+basePath+"目錄下");

? ? ? ? }

String imageName =imageUrl.substring(imageUrl.lastIndexOf("/")+1);

? ? ? ? try {

File file =new File(basePath+"/"+page+"--"+imageName);

? ? ? ? ? ? OutputStream os =new FileOutputStream(file);

? ? ? ? ? ? //創(chuàng)建一個(gè)url對(duì)象

? ? ? ? ? ? URL url =new URL(imageUrl);

? ? ? ? ? ? InputStream is = url.openStream();

? ? ? ? ? ? byte[] buff =new byte[1024];

? ? ? ? ? ? while(true) {

int readed = is.read(buff);

? ? ? ? ? ? ? ? if(readed == -1) {

break;

? ? ? ? ? ? ? ? }

byte[] temp =new byte[readed];

? ? ? ? ? ? ? ? System.arraycopy(buff, 0, temp, 0, readed);

? ? ? ? ? ? ? ? //寫(xiě)入文件

? ? ? ? ? ? ? ? os.write(temp);

? ? ? ? ? ? }

System.out.println("第"+(count++)+"張妹子:"+file.getAbsolutePath());

? ? ? ? ? ? is.close();

? ? ? ? ? ? os.close();

? ? ? ? }catch (Exception e) {

e.printStackTrace();

? ? ? ? }

}

}


爬蟲(chóng)執(zhí)行方法


package com.wxq.pachong;

import org.apache.http.client.config.CookieSpecs;

import org.apache.http.client.config.RequestConfig;

import org.apache.http.client.methods.CloseableHttpResponse;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;

import java.io.InputStream;

/**

* @title:

* @description:

* @author:

* @date:2019/3/11 15:07

**/

public class SimpleSpider {

//起始頁(yè)碼

? ? private static final int page =1264;

? ? public static void main(String[] args) {

//HttpClient 超時(shí)配置

? ? ? ? RequestConfig globalConfig = RequestConfig.custom().setCookieSpec(CookieSpecs.STANDARD).setConnectionRequestTimeout(6000).setConnectTimeout(6000).build();

? ? ? ? CloseableHttpClient httpClient = HttpClients.custom().setDefaultRequestConfig(globalConfig).build();

? ? ? ? System.out.println("5秒后開(kāi)始抓取煎蛋妹子圖……");

? ? ? ? for (int i =page; i >0; i--) {

//創(chuàng)建一個(gè)GET請(qǐng)求

? ? ? ? ? ? HttpGet httpGet =new HttpGet("http://www.jf258.com/nvsheng/"+ i+"1.html");

? ? ? ? ? ? httpGet.addHeader("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 Safari/537.36");

? ? ? ? ? ? httpGet.addHeader("Cookie","_gat=1; nsfw-click-load=off; gif-click-load=on; _ga=GA1.2.1861846600.1423061484");

? ? ? ? ? ? try {

//不敢爬太快

? ? ? ? ? ? ? ? Thread.sleep(5000);

? ? ? ? ? ? ? ? //發(fā)送請(qǐng)求,并執(zhí)行

? ? ? ? ? ? ? ? CloseableHttpResponse response = httpClient.execute(httpGet);

? ? ? ? ? ? ? ? InputStream in = response.getEntity().getContent();

? ? ? ? ? ? ? ? String html = Utils.convertStreamToString(in);

? ? ? ? ? ? ? ? //網(wǎng)頁(yè)內(nèi)容解析

? ? ? ? ? ? ? ? new Thread(new JianDanHtmlParser(html, i)).start();

? ? ? ? ? ? }catch (Exception e) {

e.printStackTrace();

? ? ? ? ? ? }

}

}

}


工具類(lèi)


package com.wxq.pachong;

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStream;

import java.io.InputStreamReader;

/**

* @title:

* @description:

* @author:

* @date:2019/3/11 15:20

**/

public class Utils {

public static StringconvertStreamToString(InputStream is) {

BufferedReader reader =new BufferedReader(new InputStreamReader(is));

? ? ? ? StringBuilder sb =new StringBuilder();

? ? ? ? String line =null;

? ? ? ? try {

while ((line = reader.readLine()) !=null) {

sb.append(line +"\n");

? ? ? ? ? ? }

}catch (IOException e) {

e.printStackTrace();

? ? ? ? }finally {

try {

is.close();

? ? ? ? ? ? }catch (IOException e) {

e.printStackTrace();

? ? ? ? ? ? }

}

return sb.toString();

? ? }

}

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末没卸,一起剝皮案震驚了整個(gè)濱河市泞辐,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌痴柔,老刑警劉巖沦偎,帶你破解...
    沈念sama閱讀 216,843評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡豪嚎,警方通過(guò)查閱死者的電腦和手機(jī)搔驼,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,538評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)疙渣,“玉大人匙奴,你說(shuō)我怎么就攤上這事⊥螅” “怎么了泼菌?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,187評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)啦租。 經(jīng)常有香客問(wèn)我哗伯,道長(zhǎng),這世上最難降的妖魔是什么篷角? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,264評(píng)論 1 292
  • 正文 為了忘掉前任焊刹,我火速辦了婚禮,結(jié)果婚禮上恳蹲,老公的妹妹穿的比我還像新娘虐块。我一直安慰自己,他們只是感情好嘉蕾,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,289評(píng)論 6 390
  • 文/花漫 我一把揭開(kāi)白布贺奠。 她就那樣靜靜地躺著,像睡著了一般错忱。 火紅的嫁衣襯著肌膚如雪儡率。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,231評(píng)論 1 299
  • 那天以清,我揣著相機(jī)與錄音儿普,去河邊找鬼。 笑死掷倔,一個(gè)胖子當(dāng)著我的面吹牛眉孩,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播今魔,決...
    沈念sama閱讀 40,116評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼勺像,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了错森?” 一聲冷哼從身側(cè)響起吟宦,我...
    開(kāi)封第一講書(shū)人閱讀 38,945評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎涩维,沒(méi)想到半個(gè)月后殃姓,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體袁波,經(jīng)...
    沈念sama閱讀 45,367評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,581評(píng)論 2 333
  • 正文 我和宋清朗相戀三年蜗侈,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了篷牌。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,754評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡踏幻,死狀恐怖枷颊,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情该面,我是刑警寧澤夭苗,帶...
    沈念sama閱讀 35,458評(píng)論 5 344
  • 正文 年R本政府宣布,位于F島的核電站隔缀,受9級(jí)特大地震影響题造,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜猾瘸,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,068評(píng)論 3 327
  • 文/蒙蒙 一界赔、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧牵触,春花似錦淮悼、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,692評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至绰更,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間锡宋,已是汗流浹背儡湾。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,842評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留执俩,地道東北人徐钠。 一個(gè)月前我還...
    沈念sama閱讀 47,797評(píng)論 2 369
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像役首,于是被迫代替她去往敵國(guó)和親尝丐。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,654評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 今天是什么日子 起床:7:00 就寢:11:00 天氣:晴 心情:不好不壞 紀(jì)念日:臘月初二衡奥,二九第八天 叫我起床...
    落雪1117閱讀 156評(píng)論 2 4
  • 2016.09.18 今天休了一天假爹袁,和喵一起去公園玩兒。 準(zhǔn)備幼兒園安排的認(rèn)識(shí)花和樹(shù)葉的小簡(jiǎn)報(bào)矮固。 一出門(mén)失息,路上就...
    摹喵居士閱讀 110評(píng)論 0 0
  • 好閨蜜,別人給介紹了個(gè)小伙,迅速甩了前男友盹兢,僅僅一個(gè)月時(shí)間已經(jīng)和現(xiàn)任發(fā)展到見(jiàn)了相互父母到了談婚論嫁的地步邻梆,之前的前...
    一不小心地_閱讀 209評(píng)論 0 0
  • 飛逝之影閱讀 177評(píng)論 0 0
  • 剔透的玻璃珠嵌了一粒沙, 減損了令人癡迷的光華绎秒, 無(wú)辜的失敗品浦妄。
    桐江風(fēng)閱讀 228評(píng)論 2 4