開學修了一門樓sir的Java應(yīng)用技術(shù)卡骂,上學期選課的時候誰特么跟我說這門課是零基礎(chǔ)的TAT
只能夠邊學暑期的清華課程邊做作業(yè)了……
第二次作業(yè)——爬網(wǎng)頁:
作業(yè):網(wǎng)頁信息提取
讀取網(wǎng)頁,去除廣告等無關(guān)部分,主要內(nèi)容在屏幕顯示或?qū)⑵湟訲XT文件方式存盤车伞。
要求:不使用第三方工具月帝,自己作String處理哪替。
本次作業(yè)經(jīng)驗總結(jié):
1. 一開始爬下來是亂碼拄查,感覺是編碼問題豪娜,但是workspace里面默認UTF-8餐胀,沒有GBK。我想??瘤载,結(jié)果網(wǎng)上搜了一下否灾,直接在設(shè)置中(workspace)填入GBK,結(jié)果就可以了~
初步結(jié)果如下圖所示:
所用到的技術(shù):
1. try-catch 結(jié)構(gòu)
? ? 用于處理異常:
2. URL數(shù)據(jù)類型惕虑,String數(shù)據(jù)類型坟冲,以及緩沖的處理(這一部分上課時候樓sir講過)
3. Pattern類,Matcher類——用于過濾出制定標簽內(nèi)的正文溃蔫。
我首先用它來過濾出通知的標題(標題用<h1>修飾)
4. 使用String類中的replace方法來把超鏈接(<a.xxxx>)及其中間的內(nèi)容全部過濾掉健提。
基本上就是用了這些方法。