Gilegamesh - 簡書

IP屬地：內(nèi)蒙古

如何解決spark多表非對等join導(dǎo)致cross join搀突？
一般的join如果兩邊的join條件是一一對應(yīng)是性能比較好的情況掠河，但是當(dāng)遇到j(luò)oin條件兩邊存在多行對應(yīng)一行或者多行對應(yīng)多行的情況吭服。就會出現(xiàn)M行...

713 0 0
spark last first函數(shù)的坑
某天一個(gè)需求需要用上spark sql的內(nèi)置function, first跟last。心想只要把數(shù)據(jù)按某個(gè)字段提前排序，再分組取出first跟l...

1432 0 0

小算法-如何遞歸實(shí)現(xiàn)String的reverse
需求： Array(H, e, l, l, o) ==》Array[Char] = Array(o, l, l, e, H) 遞歸實(shí)現(xiàn)闲勺。看似很...

529 0 0
ElasticSearch: java transportClient
連接： private staticSettingssettings= Settings .builder() .put("cluster.na...

917 0 0
spark結(jié)構(gòu)化流--kafka
我們的場景是通過spark-streaming讀取kafka數(shù)據(jù)旬蟋，實(shí)時(shí)持久化到hdfs上耘纱。并按day和hour分區(qū)敬肚。就像這種格式： kafka：...

0.1 1387 0 1
迭代器模式
java集合類遍歷有個(gè)常見的問題就是想在Iterator里面去判斷刪除某個(gè)符合條件的元素的時(shí)候，如果使用List.remove()的方法就會會報(bào)...

323 0 0
FP-函數(shù)式編程
近些年在大數(shù)據(jù)分布式計(jì)算的急速發(fā)展下束析，催生出各種大型軟件的工業(yè)需求艳馒。而這種大型軟件要容易理解和維護(hù)，OOP繁瑣的語法及指令式編程肯定是力不從心的...

1394 0 0

spark 2.1 sort-based shuffle
spark的shuffle從最開始的basic HashShuffle的M*R個(gè)中間文件员寇，到優(yōu)化的consalidate方式的C*R個(gè)...

403 0 0
scala： map與flatmap的區(qū)別
1) 雖然看過不少FP的東西弄慰，但是有一天碰到一個(gè)操作，還是沒有搞清楚用map與flatmap的區(qū)別何在蝶锋。舉一個(gè)淺顯的栗子： map出來的結(jié)果很顯...

6236 0 0