Spark計算《西虹市首富》短評詞云

本文主要記錄利用爬蟲爬取豆瓣對電影《西虹市首富》的短評,使用word分詞器分詞萝快,并使用Spark計算出磁盤取Top20尚粘,使用echats展示。

效果圖如下:


相關(guān)文章:
1.Spark之PI本地
2.Spark之WordCount集群
3.SparkStreaming之讀取Kafka數(shù)據(jù)
4.SparkStreaming之使用redis保存Kafka的Offset
5.SparkStreaming之優(yōu)雅停止
6.SparkStreaming之寫數(shù)據(jù)到Kafka
7.Spark計算《西虹市首富》短評詞云

1.爬取數(shù)據(jù)

參考:使用爬蟲爬取豆瓣電影影評數(shù)據(jù)Java版

其中略微修改:
PageParser.java

public Data<T> parse(String url, String html) {

  Document doc = Jsoup.parse(html, url);

  // 獲取鏈接列表
  List<String> links =
    doc.select("#paginator > a.next")
    .stream()
    .map(a -> a.attr("abs:href"))
    .collect(Collectors.toList());

  // 獲取數(shù)據(jù)列表
  List<Map<String, Object>> results = doc.select("#comments > div.comment-item")
    .stream()
    .map(div -> {
      Map<String, Object> data = new HashMap<>();

      String author = div.selectFirst("h3 > span.comment-info > a").text();
      String date = div.selectFirst("h3 > span.comment-info > span.comment-time").text();
      Element rating = div.selectFirst("h3 > span.comment-info > span.rating");
      String star = "0";
      if (rating != null) {
        // allstar40 rating
        star = rating.attr("class");
        star = star.substring(7, 9);
      }
      String vote = div.selectFirst("h3 > span.comment-vote > span.votes").text();
      String comment = div.selectFirst("div.comment > p").text();

      data.put("author", author);
      data.put("date", date);
      if (star != null)
        data.put("star", star);
      data.put("vote", vote);
      data.put("comment", comment);

      return data;
    })
    .collect(Collectors.toList());

  return new Data(links, results);
}

DataProcessor.java

public void process(List<T> results) {
  if (results == null || results.isEmpty()) {
    return;
  }

  try {

    // 數(shù)據(jù)
    BufferedWriter bw = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(new File("C:\\xhs_json.txt"), true)));
    Gson gson = new Gson();
    for (T result : results) {
      bw.write(gson.toJson(result));
      bw.write("\r\n");
    }
    bw.flush();
    bw.close();

    // 分詞結(jié)果
    PrintWriter pw = new PrintWriter(new OutputStreamWriter(new FileOutputStream(new File("C:\\xhs_word.txt"), true)));
    for (T result : results) {
      if (result instanceof Map) {
        List<Word> words = WordSegmenter.seg(((Map) result).get("comment").toString());
        pw.println(words.stream().map(word -> word.getText()).collect(Collectors.joining(" ")));
      }
    }
    pw.flush();
    pw.close();
  } catch (Exception e) {
    e.printStackTrace();
  }

}

大概540條數(shù)據(jù)衫仑,保存兩份文件,xhs_json.txt是完整的短評json文件堕花,xhs_word.txt是使用word對短評內(nèi)容分詞的文件

xhs_json.txt
xhs_word.txt

爬蟲下載地址
xhs_json.txt下載地址
xhs_word.txt下載地址

2.Spark計算

只需要利用xhs_word.txt文件進(jìn)行wordcount計算即可文狱,然后打印出echat需要顯示的格式即可

object YingPing {
  def main(args: Array[String]): Unit = {
    //創(chuàng)建一個Config
    val conf = new SparkConf()
      .setAppName("YingPing")
      .setMaster("local[1]")

    //核心創(chuàng)建SparkContext對象
    val sc = new SparkContext(conf)

    //WordCount
    sc.textFile("C:\\xhs_word.txt")
      .flatMap(_.split(" "))
      .map((_, 1))
      .reduceByKey(_ + _)
      //.repartition(1)
      .sortBy(_._2, false)
      .take(20)
      .map(x => {
        val map = new java.util.HashMap[String, String]()
        map.put("name", x._1)
        map.put("value", x._2 + "")
        map.put("itemStyle", "createRandomItemStyle()")
        map
      })
      .foreach(item => println(new Gson().toJson(item).replace("\"c", "c").replace(")\"", ")") + ","))
    // 借助http://echarts.baidu.com/echarts2/doc/example/wordCloud.html#infographic可以顯示詞云

    //停止SparkContext對象
    sc.stop()
  }
}

結(jié)果如下:

{"name":"電影","itemStyle":createRandomItemStyle(),"value":"160"},
{"name":"麻花","itemStyle":createRandomItemStyle(),"value":"112"},
{"name":"喜劇","itemStyle":createRandomItemStyle(),"value":"100"},
{"name":"開心","itemStyle":createRandomItemStyle(),"value":"96"},
{"name":"沈騰","itemStyle":createRandomItemStyle(),"value":"92"},
{"name":"笑點(diǎn)","itemStyle":createRandomItemStyle(),"value":"92"},
{"name":"笑","itemStyle":createRandomItemStyle(),"value":"79"},
{"name":"真的","itemStyle":createRandomItemStyle(),"value":"50"},
{"name":"好笑","itemStyle":createRandomItemStyle(),"value":"49"},
{"name":"一部","itemStyle":createRandomItemStyle(),"value":"47"},
{"name":"故事","itemStyle":createRandomItemStyle(),"value":"47"},
{"name":"諷刺","itemStyle":createRandomItemStyle(),"value":"45"},
{"name":"太","itemStyle":createRandomItemStyle(),"value":"44"},
{"name":"尷尬","itemStyle":createRandomItemStyle(),"value":"40"},
{"name":"星","itemStyle":createRandomItemStyle(),"value":"39"},
{"name":"尬","itemStyle":createRandomItemStyle(),"value":"37"},
{"name":"夏洛特","itemStyle":createRandomItemStyle(),"value":"34"},
{"name":"觀眾","itemStyle":createRandomItemStyle(),"value":"33"},
{"name":"金錢","itemStyle":createRandomItemStyle(),"value":"33"},
{"name":"挺","itemStyle":createRandomItemStyle(),"value":"33"},

將結(jié)果復(fù)制到echats的在線頁面顯示即可

image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市缘挽,隨后出現(xiàn)的幾起案子瞄崇,更是在濱河造成了極大的恐慌,老刑警劉巖壕曼,帶你破解...
    沈念sama閱讀 212,454評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件苏研,死亡現(xiàn)場離奇詭異,居然都是意外死亡腮郊,警方通過查閱死者的電腦和手機(jī)楣富,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來伴榔,“玉大人,你說我怎么就攤上這事庄萎∽偕伲” “怎么了?”我有些...
    開封第一講書人閱讀 157,921評論 0 348
  • 文/不壞的土叔 我叫張陵糠涛,是天一觀的道長援奢。 經(jīng)常有香客問我,道長忍捡,這世上最難降的妖魔是什么集漾? 我笑而不...
    開封第一講書人閱讀 56,648評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮砸脊,結(jié)果婚禮上具篇,老公的妹妹穿的比我還像新娘。我一直安慰自己凌埂,他們只是感情好驱显,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,770評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般埃疫。 火紅的嫁衣襯著肌膚如雪伏恐。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,950評論 1 291
  • 那天栓霜,我揣著相機(jī)與錄音翠桦,去河邊找鬼。 笑死胳蛮,一個胖子當(dāng)著我的面吹牛销凑,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播鹰霍,決...
    沈念sama閱讀 39,090評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼闻鉴,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了茂洒?” 一聲冷哼從身側(cè)響起孟岛,我...
    開封第一講書人閱讀 37,817評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎督勺,沒想到半個月后渠羞,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,275評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡智哀,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,592評論 2 327
  • 正文 我和宋清朗相戀三年次询,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瓷叫。...
    茶點(diǎn)故事閱讀 38,724評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡屯吊,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出摹菠,到底是詐尸還是另有隱情盒卸,我是刑警寧澤,帶...
    沈念sama閱讀 34,409評論 4 333
  • 正文 年R本政府宣布次氨,位于F島的核電站蔽介,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏煮寡。R本人自食惡果不足惜虹蓄,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,052評論 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望幸撕。 院中可真熱鬧薇组,春花似錦、人聲如沸杈帐。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,815評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至累铅,卻和暖如春跃须,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背娃兽。 一陣腳步聲響...
    開封第一講書人閱讀 32,043評論 1 266
  • 我被黑心中介騙來泰國打工菇民, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人投储。 一個月前我還...
    沈念sama閱讀 46,503評論 2 361
  • 正文 我出身青樓第练,卻偏偏與公主長得像,于是被迫代替她去往敵國和親玛荞。 傳聞我的和親對象是個殘疾皇子娇掏,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,627評論 2 350

推薦閱讀更多精彩內(nèi)容