知乎爬蟲項目記錄

這是一個知乎爬蟲項目

項目地址 https://github.com/rensuperk/javaSpider

根據(jù)知乎用戶爬取所有和用戶相關(guān)的數(shù)據(jù)

數(shù)據(jù)包括關(guān)注者,被關(guān)注者,文章,專欄,想法,提問,答案,和用戶相關(guān)的其他信息

應(yīng)的框架有

  1. jdk1.8
  2. spring-boot --基本架構(gòu)
  3. spring-data-elastic --elastic客戶端
  4. elasticsearch --搜索引擎,也用于存儲數(shù)據(jù)
  5. kinaba --數(shù)據(jù)展示和分析
  6. 爬取網(wǎng)頁用的spring提供的restTemplate

說明

  1. 使用spring的resttemplate抓去知乎的接口
  2. 使用數(shù)據(jù)線程池實現(xiàn)多線程抓取
  3. 記錄上次停頓的位置實現(xiàn)連續(xù)抓取
  4. 控制抓取的數(shù)據(jù)類型
  5. 去重使用的是elsstic提供的upset方法,id的話,people使用url_token
  6. 當(dāng)訪問被限制的時候切換本地的http代理,不想找線程池,所以一般只開兩個線程進(jìn)行抓取,不得不說知乎反爬蟲做的挺好,只開一個線程的時候不會被屏蔽,多了就不行了
  7. 跑了一個星期大概抓取了200W的用戶數(shù)據(jù)和其他的一些
  8. 先爬取幾條記錄,然后代碼就會自動把記錄寫入任務(wù)隊列中
  9. 使用java.util.concurrent里面的很多包進(jìn)行多線程訪問的限制,比如緩存線程池,阻塞隊列,atomic原子操作類等

安裝和配置

  • elasticSearch5.5
    cd /apps/
    #下載
    wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.6.0.zip
    #解壓縮
    unzip
    cd elasticsearch-5.6.0
    #改變配置
    vim config/elasticsearch.yml
    #配置外網(wǎng)訪問
    network.host : 0.0.0.0
    #cluster名稱
    cluster.name: elasticsearch
    #節(jié)點名稱
    node.name: node-1
    #啟動 bin/elasticsearch -d
    #注意因為安全設(shè)置elasticsearch不允許用root用戶訪問,所以新建一個用戶用于啟動這個服務(wù)
    
  • kibana安裝
#和上面差不多,略過了
  • jdk1.8安裝
#詳見網(wǎng)上ubuntu安裝jdk的教程,有很多,就不貼了
  • spring-boot版本的選擇
elasticsearch更新比較快
springboot-release版本可能不太適配
現(xiàn)在只能使用2.0.0.M3版本
如果用在正式環(huán)境中,可能需要降低elasticsearch,或者再等幾個月等springboot的適配
  • pom.xml
    <parent>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-parent</artifactId>
        <version>2.0.0.M3</version>
    </parent>
     <dependency>
                <groupId>org.springframework.boot</groupId>
                <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
    </dependency>
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-web</artifactId>
    </dependency>
    <build>
        <plugins>
            <plugin>
                <groupId>org.springframework.boot</groupId>
                <artifactId>spring-boot-maven-plugin</artifactId>
            </plugin>
        </plugins>
    </build>
  • 配置application.properties
spring.data.elasticsearch.cluster-nodes=192.168.56.101:9300
server.port=80
logging.level.root=info
logging.file=D://log.log

  • 啟動類和一些配置
@SpringBootApplication(scanBasePackages = "ren.superk")
@EnableElasticsearchRepositories(basePackages = "ren.superk")
public class ElasticSearchApplication implements CommandLineRunner {
    public static void main(String[] args) {
        SpringApplication.run(ElasticSearchApplication.class,args);
    }


    @Autowired
    private PeopleService peopleService;
    @Override
    public void run(String... strings) throws Exception {
        peopleService.initDataByThreadCount(2);
    }
}


@Configuration
public class RestTemplateConfig{
    @Bean
    public RestTemplate restTemplate(ClientHttpRequestFactory factory){
        return new RestTemplate(factory);
    }

    @Bean
    public ClientHttpRequestFactory simpleClientHttpRequestFactory(){
        SimpleClientHttpRequestFactory factory = new SimpleClientHttpRequestFactory();
        factory.setReadTimeout(5000);//ms
        factory.setConnectTimeout(15000);//ms
        return factory;
    }
}
  • 文件路徑
使用命令行工具 tree /F .\springboot-spider\src\main > d:/tree.txt 

├─java
│  └─ren
│      └─superk
│          └─zhihu
│              ├─action
│              │      PeopleAction.java    --action接口,寫了3個方法
│              │      
│              ├─config                      -- 配置
│              │      ElasticSearchApplication.java
│              │      ElasticSearchConfig.java
│              │      RestTemplateConfig.java
│              │      
│              ├─core                        --核心枚舉,和類型相關(guān)的參數(shù)都存在美劇中
│              │      SortEnum.java
│              │      ZhihuEnum.java
│              │      
│              ├─model                       --實體類
│              │      Answer.java
│              │      Article.java
│              │      Columns.java
│              │      Education.java
│              │      Employment.java
│              │      Fav.java
│              │      People.java
│              │      Pins.java
│              │      Question.java
│              │      Relation.java
│              │      Topic.java
│              │      ZhihuAnswerPager.java  --這幾個本來設(shè)計的有用,但廢棄掉了
│              │      ZhihuArticlePager.java --這幾個本來設(shè)計的有用,但廢棄掉了
│              │      ZhihuColumnsPager.java --這幾個本來設(shè)計的有用,但廢棄掉了
│              │      ZhihuFavPager.java     --這幾個本來設(shè)計的有用,但廢棄掉了
│              │      ZhihuPager.java
│              │      ZhihuPeoplePager.java  --這幾個本來設(shè)計的有用,但廢棄掉了
│              │      ZhihuPinsPager.java    --這幾個本來設(shè)計的有用,但廢棄掉了
│              │      ZhihuQuestionPager.java --這幾個本來設(shè)計的有用,但廢棄掉了
│              │      ZhihuTopicPager.java  --這幾個本來設(shè)計的有用,但廢棄掉了
│              │      
│              ├─repository
│              │      PeopleRepository.java  --elasticsearch-spring-data的從IDUS方法
│              │      RelationRepository.java
│              │      
│              └─service
│                  │  PeopleService.java    --服務(wù)
│                  │  PeopleUrlService.java --網(wǎng)絡(luò)服務(wù)
│                  │  
│                  └─impl
│                          PeopleServiceImpl.java  -- 主要的方法都寫在這里面
│                          PeopleUrlServiceImpl.java
│                          test.java
│                          
└─resources
        application.properties  --配置
日志
日志
索引
索引

一些簡單的分析,見笑了

索引
索引

關(guān)注的人最多的人


索引
索引

被關(guān)注的人最多的人

索引
索引

感謝最多的

索引
索引

學(xué)校 比較有趣

索引
索引

回答問題最多,真勞模

索引
索引

提問最多

索引
索引

提問最多的主題,有趣


索引
索引

職位,也很有趣

看圖把,我不貼了

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末章郁,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子示损,更是在濱河造成了極大的恐慌寿弱,老刑警劉巖犯眠,帶你破解...
    沈念sama閱讀 206,482評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異症革,居然都是意外死亡筐咧,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,377評論 2 382
  • 文/潘曉璐 我一進(jìn)店門噪矛,熙熙樓的掌柜王于貴愁眉苦臉地迎上來量蕊,“玉大人,你說我怎么就攤上這事艇挨〔信冢” “怎么了?”我有些...
    開封第一講書人閱讀 152,762評論 0 342
  • 文/不壞的土叔 我叫張陵缩滨,是天一觀的道長势就。 經(jīng)常有香客問我泉瞻,道長,這世上最難降的妖魔是什么苞冯? 我笑而不...
    開封第一講書人閱讀 55,273評論 1 279
  • 正文 為了忘掉前任袖牙,我火速辦了婚禮,結(jié)果婚禮上舅锄,老公的妹妹穿的比我還像新娘鞭达。我一直安慰自己,他們只是感情好皇忿,可當(dāng)我...
    茶點故事閱讀 64,289評論 5 373
  • 文/花漫 我一把揭開白布碉怔。 她就那樣靜靜地躺著,像睡著了一般禁添。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上桨踪,一...
    開封第一講書人閱讀 49,046評論 1 285
  • 那天老翘,我揣著相機(jī)與錄音,去河邊找鬼锻离。 笑死铺峭,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的汽纠。 我是一名探鬼主播卫键,決...
    沈念sama閱讀 38,351評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼虱朵!你這毒婦竟也來了莉炉?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,988評論 0 259
  • 序言:老撾萬榮一對情侶失蹤碴犬,失蹤者是張志新(化名)和其女友劉穎絮宁,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體服协,經(jīng)...
    沈念sama閱讀 43,476評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡绍昂,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,948評論 2 324
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了偿荷。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,064評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖喘批,靈堂內(nèi)的尸體忽然破棺而出饶深,到底是詐尸還是另有隱情敌厘,我是刑警寧澤俱两,帶...
    沈念sama閱讀 33,712評論 4 323
  • 正文 年R本政府宣布休讳,位于F島的核電站俊柔,受9級特大地震影響活合,放射性物質(zhì)發(fā)生泄漏留晚。R本人自食惡果不足惜错维,卻給世界環(huán)境...
    茶點故事閱讀 39,261評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望宏邮。 院中可真熱鬧蜜氨,春花似錦飒炎、人聲如沸郎汪。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,264評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽波俄。三九已至懦铺,卻和暖如春阀趴,著一層夾襖步出監(jiān)牢的瞬間棚菊,已是汗流浹背统求。 一陣腳步聲響...
    開封第一講書人閱讀 31,486評論 1 262
  • 我被黑心中介騙來泰國打工码邻, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留怕犁,地道東北人奏甫。 一個月前我還...
    沈念sama閱讀 45,511評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像挠进,于是被迫代替她去往敵國和親领突。 傳聞我的和親對象是個殘疾皇子攘须,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,802評論 2 345

推薦閱讀更多精彩內(nèi)容

  • Spring Boot 參考指南 介紹 轉(zhuǎn)載自:https://www.gitbook.com/book/qbgb...
    毛宇鵬閱讀 46,748評論 6 342
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理至会,服務(wù)發(fā)現(xiàn)奉件,斷路器,智...
    卡卡羅2017閱讀 134,599評論 18 139
  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 171,510評論 25 707
  • 韜聲折舊閱讀 164評論 0 0
  • “長生,你答應(yīng)過我的侥猬,啊退唠,你說過的會帶我走” “青花屎债,不是我不帶你走盆驹,是我沒辦法呀躯喇,青花,你就原諒我正压,忘了我吧” ...
    許多霧靄閱讀 1,012評論 6 11