緣起 最近為了排查線上系統(tǒng)問題驹饺,讓運維小哥導(dǎo)一份線上系統(tǒng)日志,運維小哥覺得線上導(dǎo)線下覺得十分麻煩最仑,而我只需要在線上開發(fā)機(jī)可看就可以了藐俺,這個就把運維小哥難住了:他覺得每次都需要...
摘要 MLSQL依賴于Spark,而且算法模塊依賴于conda來管理python包泥彤。本文將介紹如何用docker快速搭建mlsql的運行環(huán)境欲芹。 快速啟動 運行docker命令...
spark sql 調(diào)試技巧--內(nèi)置udf查看 Spark SQL內(nèi)置了許多常用的udf,我們該如何拿到用戶的udf和內(nèi)置的udf呢吟吝? DataFrame級別 對于DataF...
log4j2利用SocketAppender將日志寫入rsyslog 摘要:利用elk(elasticsearch/logstash/kibana)做些簡單的分布式日志查看還...
推薦系統(tǒng)是今年的主要工作之一 整體架構(gòu) 推薦系統(tǒng)可以說是一個閉環(huán)的生態(tài)系統(tǒng)了梆奈。從整體架構(gòu)圖中野崇,我們就可以看出來,推薦列表從RankServer產(chǎn)生亩钟,用戶點擊推薦列表產(chǎn)生的日志...
摘要:Shuffle是MapReduce編程模型中最耗時的一個步驟乓梨,而Spark將Shuffle過程分解成了Shuffle Write和Shuffle Read兩個過程,本文...
title: Java命令行使用 本文我們將對java內(nèi)置命令行使用分析清酥,這些命令行在java程序優(yōu)化中扮演著重要的角色扶镀。 Jps 功能 jps(Java Virtual M...
Spark Streaming在狀態(tài)管理時應(yīng)用了一些高效的數(shù)據(jù)結(jié)構(gòu)臭觉,本文我們就來看下這些數(shù)據(jù)結(jié)構(gòu)的實現(xiàn)。 BitSet OpenHashSet OpenHashMap Bit...
Spark Streaming實時長時服務(wù)與MapRedue辱志、Spark蝠筑、Hive等批處理應(yīng)用共享YARN集群資源。在共享環(huán)境中揩懒,經(jīng)常因一個批處理應(yīng)用占用大量網(wǎng)絡(luò)資源或者CP...
由于特殊需求什乙,需要在一次Spark任務(wù)中切換HDFS集群。 本文我將介紹如何在一次的spark任務(wù)中操作不同的HDFS集群 我們以wordcount為例已球,分析如何配置臣镣。我們的...