kafka 知識整理 kafka介紹 kafka是一種分布式的基于發(fā)布/訂閱的消息系統(tǒng)抚岗。具有如下特征: ? 以時(shí)間復(fù)雜度為O(1)的方式提供消息...
Hive性能優(yōu)化: hive分配map和reduce數(shù)量 m,r數(shù)據(jù)量,對效率影響較大抽碌,因?yàn)樵趩?dòng)和初始化階段是很耗費(fèi)時(shí)間和資源的。 (1)控制...
Kylin知識整理與歸納 1. kyliy的介紹及說明 Apache Kylin是一個(gè)開源的分布式分析引擎决瞳,提供Hadoop之上的SQL查詢接口...
kettle配置遠(yuǎn)程連接服務(wù) (1)下載kettle安裝包货徙,在Linux服務(wù)器上進(jìn)行解壓 unzippdi-ce-7.0.0.0-25.zip ...
在工作中難免會遇到需要遷移大數(shù)據(jù)庫,這時(shí)候就涉及到遷移hive等HDFS文件 解決方案: 采用hadoop distcp 來整體遷移 #!/...
在安裝完linux系統(tǒng)后皮胡,執(zhí)行yum痴颊,發(fā)現(xiàn)報(bào)錯(cuò),不能正常使用屡贺。解決方法如下: 1.查看系統(tǒng)中是否有安裝yum rpm -qa | grep yu...
大數(shù)據(jù)集群搭建 主要基于ambari來同一管理監(jiān)控集群 主要安裝步驟: 準(zhǔn)備機(jī)器蠢棱,修改hostname,固定ip等 機(jī)器間免密碼登錄 host機(jī)...
Spark學(xué)習(xí)筆記 Data Source->Kafka->Spark Streaming->Parquet->Spark SQL(SparkS...
Scala學(xué)習(xí)筆記: 1.1 scala的基礎(chǔ)語法 聲明與定義(賦值):聲明變量時(shí)可以指定類型烹笔,不指定也可以自動(dòng)識別數(shù)值類型 ?Val常量val...