最近在著手公開數(shù)據(jù)Common Crawl的解析袭艺,commoncrawl提供的數(shù)據(jù)有三類格式:
- WARC files which store the raw crawl data
- WAT files which store computed metadata for the data stored in the WARC
- WET files which store extracted plaintext from the data stored in the WARC
我們需要的是網(wǎng)頁正文的數(shù)據(jù)wet file召庞。如果是直接解析gz文件可以參考官方網(wǎng)站提供的DEMO驱闷,而我們需要解析的是gz文件解壓后的*.wet文件,其中每個(gè)文件里一個(gè)網(wǎng)頁的數(shù)據(jù)被分散到各行雇毫,所以得想辦法把每個(gè)網(wǎng)頁的數(shù)據(jù)作為一個(gè)整體作為map的輸入,所以調(diào)研了一下自定義inputFormat的方法桨啃,找到了這篇文章自定義 hadoop MapReduce InputFormat 切分輸入文件,寫的很好檬输。