JAVA抓取網(wǎng)頁方法

package com.xxx.core;

import org.apache.http.client.methods.CloseableHttpResponse;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;

import org.apache.http.util.EntityUtils;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.select.Elements;

import java.io.*;

public class GlodonFinanceInfo {

public static void main(String[] args) {

//? ? ? ? String url = args[0];

//? ? ? ? String filePath = args[1];

String url = "http://quote.eastmoney.com/sz002410.html?StockCode=002410";

String jsonUrl = "http://nuff.eastmoney.com/EM_Finance2015TradeInterface/JS.ashx?id=0024102";

String filePath = "E:\\text2.txt";

GlodonFinanceInfo info = new GlodonFinanceInfo();

String html = info.getHtml(url, "gb2312");

String json = info.getHtml(jsonUrl, "utf-8");

System.out.println(json);

//? ? ? ? info.save(filePath, html);

}

private String getHtml(String url, String code) {

String html = "";

try {

CloseableHttpClient httpClient = HttpClients.createDefault();

HttpGet get = new HttpGet(url);

CloseableHttpResponse response = httpClient.execute(get);

int statusCode = response.getStatusLine().getStatusCode();

if (statusCode == 200) {

byte[] bytes = EntityUtils.toByteArray(response.getEntity());

html = new String(bytes, code);

}

} catch (IOException e) {

e.printStackTrace();

} finally {

return html;

}

}

private void saveHtml(String filePath, String text) {

OutputStreamWriter writer = null;

try {

File file = new File(filePath);

writer = new OutputStreamWriter(new FileOutputStream(file), "UTF-8");

Document parse = Jsoup.parse(text);

Elements table = parse.select(".cwzb");

Elements tr = table.select("tr");

for (int i = 1; i < tr.size(); i++) {

if (i == 4) {

tr.select("div").remove();

}

Elements td = tr.get(i).select("td");

for (int j = 0; j < td.size(); j++) {

writer.write(td.get(j).text());

if (j < td.size() - 1) {

writer.write("$");

}

}

writer.write("\r\n");

}

} catch (IOException e) {

e.printStackTrace();

} finally {

try {

if (writer != null) {

writer.close();

}

} catch (IOException e) {

e.printStackTrace();

}

}

}

private void saveJson(String filePath, String text) {

OutputStreamWriter writer = null;

try {

File file = new File(filePath);

writer = new OutputStreamWriter(new FileOutputStream(file), "UTF-8");

} catch (UnsupportedEncodingException e) {

e.printStackTrace();

} catch (FileNotFoundException e) {

e.printStackTrace();

} finally {

try {

if (writer != null) {

writer.close();

}

} catch (IOException e) {

e.printStackTrace();

}

}

}

}

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子奶段,更是在濱河造成了極大的恐慌里逆,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,482評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件墅诡,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)蚌卤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,377評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來奥秆,“玉大人逊彭,你說我怎么就攤上這事」苟” “怎么了侮叮?”我有些...
    開封第一講書人閱讀 152,762評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長悼瘾。 經(jīng)常有香客問我囊榜,道長审胸,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,273評論 1 279
  • 正文 為了忘掉前任卸勺,我火速辦了婚禮砂沛,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘曙求。我一直安慰自己碍庵,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,289評論 5 373
  • 文/花漫 我一把揭開白布悟狱。 她就那樣靜靜地躺著静浴,像睡著了一般。 火紅的嫁衣襯著肌膚如雪挤渐。 梳的紋絲不亂的頭發(fā)上苹享,一...
    開封第一講書人閱讀 49,046評論 1 285
  • 那天,我揣著相機(jī)與錄音浴麻,去河邊找鬼富稻。 笑死,一個胖子當(dāng)著我的面吹牛白胀,可吹牛的內(nèi)容都是我干的椭赋。 我是一名探鬼主播,決...
    沈念sama閱讀 38,351評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼或杠,長吁一口氣:“原來是場噩夢啊……” “哼哪怔!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起向抢,我...
    開封第一講書人閱讀 36,988評論 0 259
  • 序言:老撾萬榮一對情侶失蹤认境,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后挟鸠,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體叉信,經(jīng)...
    沈念sama閱讀 43,476評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,948評論 2 324
  • 正文 我和宋清朗相戀三年艘希,在試婚紗的時候發(fā)現(xiàn)自己被綠了硼身。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,064評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡覆享,死狀恐怖佳遂,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情撒顿,我是刑警寧澤丑罪,帶...
    沈念sama閱讀 33,712評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響吩屹,放射性物質(zhì)發(fā)生泄漏跪另。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,261評論 3 307
  • 文/蒙蒙 一煤搜、第九天 我趴在偏房一處隱蔽的房頂上張望罚斗。 院中可真熱鬧,春花似錦宅楞、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,264評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至绞绒,卻和暖如春婶希,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蓬衡。 一陣腳步聲響...
    開封第一講書人閱讀 31,486評論 1 262
  • 我被黑心中介騙來泰國打工喻杈, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人狰晚。 一個月前我還...
    沈念sama閱讀 45,511評論 2 354
  • 正文 我出身青樓筒饰,卻偏偏與公主長得像,于是被迫代替她去往敵國和親壁晒。 傳聞我的和親對象是個殘疾皇子瓷们,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,802評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 一、流的概念和作用秒咐。 流是一種有順序的谬晕,有起點(diǎn)和終點(diǎn)的字節(jié)集合,是對數(shù)據(jù)傳輸?shù)目偝苫虺橄笮 <磾?shù)據(jù)在兩設(shè)備之間的傳輸...
    布魯斯不吐絲閱讀 10,018評論 2 95
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理攒钳,服務(wù)發(fā)現(xiàn),斷路器雷滋,智...
    卡卡羅2017閱讀 134,599評論 18 139
  • 1. Java基礎(chǔ)部分 基礎(chǔ)部分的順序:基本語法不撑,類相關(guān)的語法,內(nèi)部類的語法晤斩,繼承相關(guān)的語法燎孟,異常的語法,線程的語...
    子非魚_t_閱讀 31,581評論 18 399
  • 每一段路都是一種領(lǐng)悟尸昧,每一個階段都有不同的感觸揩页,你想到的,就去做吧。 ——...
    linguanjie關(guān)節(jié)閱讀 559評論 3 6
  • 別弄丟那個對你好的人 人的心很小很小爆侣,只能裝下那么幾個人萍程,你進(jìn)來了,生根發(fā)芽兔仰,帶來一樹花開茫负;你走了,泛起傷痛乎赴,只是...
    二月219閱讀 250評論 2 3