Add sequence
增加新的一列腾它,類(lèi)似于DB的ID,可按要求自增。屬性中Counter name來(lái)區(qū)分計(jì)數(shù)器姻报,同一個(gè)transformation中的相同計(jì)數(shù)器的計(jì)數(shù)是唯一的。若統(tǒng)一數(shù)據(jù)源分別交由多個(gè)Add sequence組件间螟,則這些組件均分?jǐn)?shù)據(jù)源中的數(shù)據(jù)處理吴旋。
Add value fields changing sequence
根據(jù)指定的列來(lái)進(jìn)行add sequence操作损肛,類(lèi)似于Sql Server中row_number()函數(shù),根據(jù)partition by的值來(lái)分組荣瑟。
Generate random value
在源數(shù)據(jù)基礎(chǔ)上增加一列治拿,按照要求生成隨機(jī)的值,值的類(lèi)型多樣褂傀,不僅限于數(shù)字忍啤。
Join rows
根據(jù)條件join數(shù)據(jù)源。
Analytic query
可以查找數(shù)據(jù)流中的前面行或后面行仙辟,并且取值到當(dāng)前行同波。兩種方法:
LEAD "N" rows FORWARD and get Subject ---去后第N行的數(shù)據(jù)
LAG "N" rows BACKWARD in get Subject ---取前第N行的數(shù)據(jù)
Append streams
類(lèi)似DB中union操作,要求數(shù)據(jù)源的列相同叠国,包括各列的類(lèi)型未檩。
數(shù)據(jù)源只能是2個(gè)。
Value mapper
進(jìn)行值的映射粟焊,例如根據(jù)文件的擴(kuò)展名來(lái)決定文件的類(lèi)型冤狡,所得結(jié)果會(huì)以所命名新字段的形式輸出。若圖中Target field name留空项棠,則會(huì)覆寫(xiě)Fieldname to use所輸入字段中的值悲雳。
Select/Rename values
對(duì)input的值進(jìn)行篩選,重命名等操作香追。
Delay row
等待一定時(shí)間后繼續(xù)執(zhí)行合瓢。
Block this step until steps finish
等待制定step完成后繼續(xù)執(zhí)行。
Group by/Memory Group by (區(qū)別透典?)
聚合函數(shù)晴楔,可生成聚合結(jié)果,例如中位數(shù)峭咒,平均數(shù)税弃,百分?jǐn)?shù)等
Calculator
數(shù)學(xué)計(jì)算。
CSV file import
csv文件的導(dǎo)入凑队,可能存在錯(cuò)誤情況则果,可用error handler進(jìn)行處理。
Filter rows
根據(jù)預(yù)設(shè)條件對(duì)input進(jìn)行篩選顽决。
Data Validator
根據(jù)條件對(duì)input的值進(jìn)行驗(yàn)證短条。擁有多種預(yù)設(shè)驗(yàn)證規(guī)則
也可以引入其他step的輸出進(jìn)行值匹配驗(yàn)證
Row denormaliser
將行數(shù)據(jù)轉(zhuǎn)換為列數(shù)據(jù),選定分組的列名才菠,設(shè)定轉(zhuǎn)換后的列名茸时。例如:
The key field作為新列的關(guān)鍵字段,以其中的值作為轉(zhuǎn)換后新列的列名赋访。根據(jù)選定的列進(jìn)行分組可都,圖中所示為code和year兩列缓待。另需選定新字段的值,一般為剩下的源數(shù)據(jù)列渠牲⌒矗可根據(jù)需要選擇聚合函數(shù)進(jìn)行聚合操作分析。
Unique rows
進(jìn)行distinct rows的統(tǒng)計(jì)签杈。