Hive 表之間數(shù)據(jù)處理断国,Int 類型字段部分字段出現(xiàn) NULL情況

背景

hive 中有一張待處理的分區(qū)表,存儲的方式是parquet鱼鸠,處理之后的目標表是一張非分區(qū)的外部表猛拴,并且分隔方式為 “,”。

問題

部分記錄的 int 類型字段 出現(xiàn) null 情況

表結(jié)構(gòu)

原表結(jié)構(gòu)

CREATE EXTERNAL TABLE adm_v1.adm_cms_flow_daily(
url string,
title string,
courseeduid string,
courseeduname string,
catalogid string,
catalogname string,
innercode string,
adduser string,
addtime string,
original string,
pv string,
uv string,
downuv string,
downpv string,
platform string,
areaid string
)
PARTITIONED BY (
dn string,
dt string)
stored as parquet
TBLPROPERTIES ('parquet.compression'='gzip');

目標表結(jié)構(gòu)

CREATE EXTERNAL TABLE tmp_v1.tmp_zdh_test_biz_cms_flow_tmp_v4(
dt string,
dn BIGINT,
addtime BIGINT ,
adduser string,
innercode string,
url string,
title string,
original BIGINT,
timestamp TIMESTAMP,
pv BIGINT,
uv BIGINT
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

處理語句

insert overwrite table tmp_v1.tmp_zdh_test_biz_cms_flow_tmp_v4
select from_unixtime(unix_timestamp(dt,'yyyyMMdd'),'yyyy-MM-dd') as dt,case dn when 'acc' then 1 when 'jianshe' then 2 when 'med' then 3 else 4 end as dn1,addtime,adduser,innercode,url,title,cast(original as bigint ),from_unixtime(unix_timestamp(),'yyyy-MM-dd HH:mm:ss'),cast(pv as bigint),cast(uv as bigint) from adm_v1.adm_cms_flow_daily where dn='acc' and dt='20201110' and addtime='20201110' ;

問題展示

原表中的original 字段 存在 1 的值


file

導(dǎo)入到tmp_v1.tmp_zdh_test_biz_cms_flow_tmp_v4表之后 original 字段變?yōu)閚ull 值


file

問題分析/定位

將有問題的記錄取出蚀狰,觀察數(shù)據(jù)愉昆,要特別注意一下original 的前一個字段是title,title 中可能存在逗號影響目標表的存儲。

查詢原表中記錄


file

查詢目標中記錄


file

從上面兩個查詢結(jié)果對比可以看出麻蹋,title 字段在逗號的位置被截斷了撼唾。這樣問題就找到了,替換目標表的分隔符為 \u0001哥蔚。 重新觀察

CREATE EXTERNAL TABLE tmp_v1.tmp_zdh_test_biz_cms_flow_tmp_v8(
dt string,
dn BIGINT,
addtime BIGINT ,
adduser string,
innercode string,
url string,
title string,
original BIGINT,
pv BIGINT,
uv BIGINT
)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\u0001' ;

file

問題解決倒谷。

引出的問題

最后一列跑哪去了?

測試:最后兩列是pv糙箍、uv渤愁,從下圖看出來,最后一列被舍棄了深夯。


file

本文由博客群發(fā)一文多發(fā)等運營工具平臺 OpenWrite 發(fā)布

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末抖格,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子咕晋,更是在濱河造成了極大的恐慌雹拄,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,290評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件掌呜,死亡現(xiàn)場離奇詭異滓玖,居然都是意外死亡,警方通過查閱死者的電腦和手機质蕉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評論 2 385
  • 文/潘曉璐 我一進店門势篡,熙熙樓的掌柜王于貴愁眉苦臉地迎上來翩肌,“玉大人,你說我怎么就攤上這事禁悠∧罴溃” “怎么了?”我有些...
    開封第一講書人閱讀 156,872評論 0 347
  • 文/不壞的土叔 我叫張陵碍侦,是天一觀的道長粱坤。 經(jīng)常有香客問我,道長瓷产,這世上最難降的妖魔是什么站玄? 我笑而不...
    開封第一講書人閱讀 56,415評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮拦英,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘测秸。我一直安慰自己疤估,他們只是感情好,可當我...
    茶點故事閱讀 65,453評論 6 385
  • 文/花漫 我一把揭開白布霎冯。 她就那樣靜靜地躺著铃拇,像睡著了一般。 火紅的嫁衣襯著肌膚如雪沈撞。 梳的紋絲不亂的頭發(fā)上慷荔,一...
    開封第一講書人閱讀 49,784評論 1 290
  • 那天,我揣著相機與錄音缠俺,去河邊找鬼显晶。 笑死,一個胖子當著我的面吹牛壹士,可吹牛的內(nèi)容都是我干的磷雇。 我是一名探鬼主播,決...
    沈念sama閱讀 38,927評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼躏救,長吁一口氣:“原來是場噩夢啊……” “哼唯笙!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起盒使,我...
    開封第一講書人閱讀 37,691評論 0 266
  • 序言:老撾萬榮一對情侶失蹤崩掘,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后少办,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體苞慢,經(jīng)...
    沈念sama閱讀 44,137評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,472評論 2 326
  • 正文 我和宋清朗相戀三年英妓,在試婚紗的時候發(fā)現(xiàn)自己被綠了枉疼。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片皮假。...
    茶點故事閱讀 38,622評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖骂维,靈堂內(nèi)的尸體忽然破棺而出惹资,到底是詐尸還是另有隱情,我是刑警寧澤航闺,帶...
    沈念sama閱讀 34,289評論 4 329
  • 正文 年R本政府宣布褪测,位于F島的核電站,受9級特大地震影響潦刃,放射性物質(zhì)發(fā)生泄漏侮措。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,887評論 3 312
  • 文/蒙蒙 一乖杠、第九天 我趴在偏房一處隱蔽的房頂上張望分扎。 院中可真熱鬧,春花似錦胧洒、人聲如沸畏吓。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽菲饼。三九已至,卻和暖如春列赎,著一層夾襖步出監(jiān)牢的瞬間宏悦,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工包吝, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留饼煞,地道東北人。 一個月前我還...
    沈念sama閱讀 46,316評論 2 360
  • 正文 我出身青樓诗越,卻偏偏與公主長得像派哲,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子掺喻,可洞房花燭夜當晚...
    茶點故事閱讀 43,490評論 2 348

推薦閱讀更多精彩內(nèi)容