本文大致介紹下SDTM數(shù)據(jù)提交的標(biāo)準(zhǔn)格式,包括數(shù)據(jù)集水平和變量水平的兩種屬性琼开。
· ?正 ?· ?文 ?· ?來· ?啦·
Standard Metadata for Dataset Contents and Attributes
SDTMIG提供了常見數(shù)據(jù)domain的metadata屬性棠绘,在SDTM Specification和Define.xml中均有其詳細(xì)描述任洞,它一般包括以下方面:
標(biāo)準(zhǔn)的變量名衰倦,所有提交的變量名必須標(biāo)準(zhǔn)化座云,即便是申辦方內(nèi)部數(shù)據(jù)庫里的其他變量名疙赠,我們也要盡可能用一些conventional rule來命名。
標(biāo)準(zhǔn)變量標(biāo)簽
數(shù)據(jù)類型朦拖,是數(shù)字型的還是字符型的圃阳,與SAS格式相對應(yīng)
實際的控制術(shù)語和格式
數(shù)據(jù)的來源
數(shù)據(jù)集中的變量role
方便reviewer理解變量或數(shù)據(jù)的comments
◆?◆?◆◆?◆
除了以上這些,CDISC domain model還提供其他3種隱性信息璧帝,方便sponsor呈現(xiàn)他們的數(shù)據(jù):
CDISC Notes捍岳,對變量解釋說明,描述變量的來源、用法锣夹、意義等相關(guān)信息页徐。當(dāng)我們搞不清這個變量是干嘛用的,仔細(xì)研讀這里面的內(nèi)容银萍,或許有所收獲
Core变勇,變量compliance評估,說明此變量是可有可無的贴唇,還是必須要有的
References搀绣,說明有無引用關(guān)系
?
Regulatory Submissions —Dataset Metadata
大部分study都會包括DM和一些安全性的domain(如EX, CM, AE, DS, MH, IE, LB, and VS)。具體提交哪些數(shù)據(jù)要看方案和機構(gòu)要求滤蝠。
數(shù)據(jù)集定義的metadata應(yīng)該包括dataset filenames, descriptions, locations, structures, class, purpose, keys, and comments豌熄。
在試驗設(shè)計之初考慮到可能有合并用藥授嘀,但到最后數(shù)據(jù)鎖定之后物咳,仍然沒有受試者有CM記錄,此時CM是空集蹄皱,我們不用提交览闰,也不用在define.xml中描述。在annotated CRF正常注釋巷折,不需要說明no records压鉴。
◆?◆?◆◆?◆
下表給出SDTM Submission Dataset-Definition Metadata例子,數(shù)據(jù)集水平的Metadata屬性锻拘,描述了數(shù)據(jù)集的整體情況油吭。此表異常重要,它基本是一個標(biāo)準(zhǔn)和參考署拟。
◆?◆?◆◆?◆
Primary Keys用于幫助reviewers理解數(shù)據(jù)集的結(jié)構(gòu)婉宰,這些Keys應(yīng)該確保,在同一個數(shù)據(jù)集中觀測的唯一性推穷;同時心包,它可能用于數(shù)據(jù)集排序,計算--SEQ變量馒铃。
我們以EX domain為例來簡單說明下蟹腾。
EX數(shù)據(jù)集的label是Exposure;Class為Interventions区宇;結(jié)構(gòu)是One record perconstant dosing interval per subject娃殖;Purpose為Tabulation(SDTM都是Tabulation,用于數(shù)據(jù)呈現(xiàn)议谷,如同ADaM都是Analysis珊随,用于分析);Location指define.xml中相應(yīng)的xpt文件;常見的Keys是"STUDYID USUBJID EXTRT EXSTDTC"叶洞。也就是說鲫凶,在EX數(shù)據(jù)集中,不存在兩條及以上觀測這4個變量的值完全一樣衩辟,它是可以確定觀測的唯一性的螟炫,同時基于這個順序,我們再計算EXSEQ艺晴。如果有duplicate records昼钻,那有可能是data issue,或者是map出現(xiàn)錯誤封寞。這里的Keys是SDTMIG給出的常見例子然评,Sponosr應(yīng)該基于實際情形定義Keys,比如可能加入EXCAT狈究,EXLOC等等信息碗淌,關(guān)鍵是做到“唯一”。
◆?◆?◆◆?◆
注意到SE Keys為"STUDYID USUBJID ETCD SESTDTC"抖锥,但我們一般算SESEQ時亿眠,更多的是基于"TUDYID USUBJID SESTDTC ETCD"這個順序,這樣可以更清晰地知道element的經(jīng)歷情況磅废,而不是將ETCD放在前面按字符排序纳像。這里Keys和排序不矛盾,并不一定非得按Keys試算sequence number拯勉。
RELREC中的排序較為復(fù)雜竟趾,基于study而變化,這里不展開討論宫峦。**SUPP的keys是"STUDYID RDOMAIN USUBJID IDVAR IDVARVAL QNAM"岔帽,但考慮到IDVARVAL是個字符值,如果IDVAR=--SEQ斗遏,按這個順序山卦,則會出現(xiàn)"11"排在"2"的前面。所以诵次,我們在最后排序的時候加--SEQ账蓉,這樣與parent domain的順序看起來是相對應(yīng)的,方便reviewer查看逾一。
◆?◆?◆◆?◆
natural key是數(shù)據(jù)的一部分铸本,可能有多個變量,區(qū)別于數(shù)據(jù)中的其他行遵堵。這是本身就存在的箱玷,像CM中Keys?"STUDYID USUBJID CMTRT CMSTDTC"怨规。有時考慮到商業(yè)需要,會加入位置或方位變量锡足。
surrogate key是獨立部分波丰,人為計算加以區(qū)分的,是一種derived data舶得。--SEQ便是一個例子掰烟。有的時候,--SEQ也可作為natural keys的替換沐批。
?
CDISC Submission Value-Level Metadata
Value-Level Metadata纫骑,講的是數(shù)據(jù)集里面的變量屬性,是一種相對數(shù)據(jù)集而言九孩,更微觀的數(shù)據(jù)屬性先馆。
比如VS包括收縮壓,舒張壓躺彬,身高煤墙,體重,身體質(zhì)量指數(shù)BMI顾患。我們知道番捂,VS的結(jié)構(gòu)是一條觀測一次測試个唧,這樣江解,同一個人在某個時間點就有5條觀測,parameter names存儲Code/Name variables徙歼,parameter values存儲結(jié)果犁河,分別由5條不同的記錄表示。為了加以區(qū)分魄梯,這5條Test Code/Names必有不同的屬性桨螺。
CDISC V3.x Findings是一種標(biāo)準(zhǔn)的垂直的數(shù)據(jù)結(jié)構(gòu),一條記錄酿秸,一條觀測灭翔。因為要將多種不同類型的觀測以同一種結(jié)構(gòu)呈現(xiàn),有必要有另外的metadata來描述可能的不同辣苏。故而需要value-level metadata肝箱,它存放于一個單獨的文件Report Tabulation Data Definition Specification(Define-XML)。在SDTM編程過程中稀蟋,經(jīng)常會碰到數(shù)據(jù)結(jié)構(gòu)從橫向往縱向的轉(zhuǎn)換煌张。
?
Conformance表示數(shù)據(jù)集要符合一定的標(biāo)準(zhǔn),至少要滿足以下條件:
有完整的數(shù)據(jù)結(jié)構(gòu)
符合SDTMIG model
使用SDTM-specified標(biāo)準(zhǔn)的domain名字退客,前綴骏融,變量名链嘀,標(biāo)簽,變量類型档玻,控制術(shù)語
包括所有Required and Expected變量怀泊,保證所有的Required變量有值。
有適合的Identifier and, Timing variables,Topic variable
是否符合CDISC Notes描述的business rules和domain-specific假設(shè)
我們不用將數(shù)據(jù)集一一做這種排查误趴,已經(jīng)有像OpenCDISC之類的工具來幫我們做validation包个,而這一步不僅僅是完善SDTM數(shù)據(jù)集,同時也包括其他submission?package的更新和發(fā)展過程冤留。