原文鏈接使用的是客戶端收集的日志直接輸出到flume中,在flume收集完后钢坦,保存到hdfs中梁钾。其中有定義flume的自定義攔截器。
上面是把數(shù)據(jù)從客戶端收集到了大數(shù)據(jù)平臺的服務器中募判。
下面就是數(shù)據(jù)的處理部分。
需要建立hive的數(shù)據(jù)倉庫咒唆。
方法一:
在收集的數(shù)據(jù)是json格式的話届垫,如果直接使用hive的插入就需要有hive支持json的數(shù)據(jù)格式。
1.說明
? ? ? 因為使用json格式存放數(shù)據(jù)全释,需要第三方serde庫敦腔。
? ? ? 下載json-serde-1.3.8-jar-with-dependencies.jar
? 2.復制以上的jar包hive的lib下,分發(fā)
? 3.配置hive-site.xml文件恨溜,添加jar包的聲明符衔,永久注冊。
? ? ? [hive-site.xml]
? ? ? ? <property>
? ? ? ? ? ? <name>hive.aux.jars.path</name>
? ? ? ? ? ? <value>file:///soft/hive/lib/json-serde-1.3.8-jar-with-dependencies.jar</value>
? ? ? ? </property>
方法二:
自己寫代碼進行數(shù)據(jù)的處理糟袁。
直接使用阿里的json處理工具判族,把數(shù)據(jù)處理成最后的格式。
這里面可以進行對臟數(shù)據(jù)的清洗项戴,或是灰色數(shù)據(jù)的補齊等等操作形帮。
在使用代碼處理完之后,可以直接放到hdfs中周叮,然后再使用hive的插入語句插入到hive中辩撑。
或是直接把數(shù)據(jù)放到hive的表下面的數(shù)據(jù)目錄的地址下,不過這個需要提前建表等操作才可以仿耽。
原文鏈接:http://www.aboutyun.com/forum.php?mod=viewthread&tid=27036