SDTM數(shù)據(jù)提交的標(biāo)準(zhǔn)格式

本文大致介紹下SDTM數(shù)據(jù)提交的標(biāo)準(zhǔn)格式，包括數(shù)據(jù)集水平和變量水平的兩種屬性琼开。

· ?正 ?· ?文 ?· ?來· ?啦·

Standard Metadata for Dataset Contents and Attributes

SDTMIG提供了常見數(shù)據(jù)domain的metadata屬性棠绘，在SDTM Specification和Define.xml中均有其詳細(xì)描述任洞，它一般包括以下方面：

標(biāo)準(zhǔn)的變量名衰倦，所有提交的變量名必須標(biāo)準(zhǔn)化座云，即便是申辦方內(nèi)部數(shù)據(jù)庫里的其他變量名疙赠，我們也要盡可能用一些conventional rule來命名。

標(biāo)準(zhǔn)變量標(biāo)簽

數(shù)據(jù)類型朦拖，是數(shù)字型的還是字符型的圃阳，與SAS格式相對應(yīng)

實際的控制術(shù)語和格式

數(shù)據(jù)的來源

數(shù)據(jù)集中的變量role

方便reviewer理解變量或數(shù)據(jù)的comments

◆?◆?◆◆?◆

除了以上這些，CDISC domain model還提供其他3種隱性信息璧帝，方便sponsor呈現(xiàn)他們的數(shù)據(jù)：

CDISC Notes捍岳，對變量解釋說明，描述變量的來源、用法锣夹、意義等相關(guān)信息页徐。當(dāng)我們搞不清這個變量是干嘛用的，仔細(xì)研讀這里面的內(nèi)容银萍，或許有所收獲

Core变勇，變量compliance評估，說明此變量是可有可無的贴唇，還是必須要有的

References搀绣，說明有無引用關(guān)系

Regulatory Submissions —Dataset Metadata

大部分study都會包括DM和一些安全性的domain（如EX, CM, AE, DS, MH, IE, LB, and VS）。具體提交哪些數(shù)據(jù)要看方案和機構(gòu)要求滤蝠。

數(shù)據(jù)集定義的metadata應(yīng)該包括dataset filenames, descriptions, locations, structures, class, purpose, keys, and comments豌熄。

在試驗設(shè)計之初考慮到可能有合并用藥授嘀，但到最后數(shù)據(jù)鎖定之后物咳，仍然沒有受試者有CM記錄，此時CM是空集蹄皱，我們不用提交览闰，也不用在define.xml中描述。在annotated CRF正常注釋巷折，不需要說明no records压鉴。

◆?◆?◆◆?◆

下表給出SDTM Submission Dataset-Definition Metadata例子，數(shù)據(jù)集水平的Metadata屬性锻拘，描述了數(shù)據(jù)集的整體情況油吭。此表異常重要，它基本是一個標(biāo)準(zhǔn)和參考署拟。

◆?◆?◆◆?◆

Primary Keys用于幫助reviewers理解數(shù)據(jù)集的結(jié)構(gòu)婉宰，這些Keys應(yīng)該確保，在同一個數(shù)據(jù)集中觀測的唯一性推穷；同時心包，它可能用于數(shù)據(jù)集排序，計算--SEQ變量馒铃。

我們以EX domain為例來簡單說明下蟹腾。

EX數(shù)據(jù)集的label是Exposure；Class為Interventions区宇；結(jié)構(gòu)是One record perconstant dosing interval per subject娃殖；Purpose為Tabulation（SDTM都是Tabulation，用于數(shù)據(jù)呈現(xiàn)议谷，如同ADaM都是Analysis珊随，用于分析）；Location指define.xml中相應(yīng)的xpt文件；常見的Keys是"STUDYID USUBJID EXTRT EXSTDTC"叶洞。也就是說鲫凶，在EX數(shù)據(jù)集中，不存在兩條及以上觀測這4個變量的值完全一樣衩辟，它是可以確定觀測的唯一性的螟炫，同時基于這個順序，我們再計算EXSEQ艺晴。如果有duplicate records昼钻，那有可能是data issue，或者是map出現(xiàn)錯誤封寞。這里的Keys是SDTMIG給出的常見例子然评，Sponosr應(yīng)該基于實際情形定義Keys，比如可能加入EXCAT狈究，EXLOC等等信息碗淌，關(guān)鍵是做到“唯一”。

◆?◆?◆◆?◆

注意到SE Keys為"STUDYID USUBJID ETCD SESTDTC"抖锥，但我們一般算SESEQ時亿眠，更多的是基于"TUDYID USUBJID SESTDTC ETCD"這個順序，這樣可以更清晰地知道element的經(jīng)歷情況磅废，而不是將ETCD放在前面按字符排序纳像。這里Keys和排序不矛盾，并不一定非得按Keys試算sequence number拯勉。

RELREC中的排序較為復(fù)雜竟趾，基于study而變化，這里不展開討論宫峦。**SUPP的keys是"STUDYID RDOMAIN USUBJID IDVAR IDVARVAL QNAM"岔帽，但考慮到IDVARVAL是個字符值，如果IDVAR=--SEQ斗遏，按這個順序山卦，則會出現(xiàn)"11"排在"2"的前面。所以诵次，我們在最后排序的時候加--SEQ账蓉，這樣與parent domain的順序看起來是相對應(yīng)的，方便reviewer查看逾一。

◆?◆?◆◆?◆

natural key是數(shù)據(jù)的一部分铸本，可能有多個變量，區(qū)別于數(shù)據(jù)中的其他行遵堵。這是本身就存在的箱玷，像CM中Keys?"STUDYID USUBJID CMTRT CMSTDTC"怨规。有時考慮到商業(yè)需要，會加入位置或方位變量锡足。

surrogate key是獨立部分波丰，人為計算加以區(qū)分的，是一種derived data舶得。--SEQ便是一個例子掰烟。有的時候，--SEQ也可作為natural keys的替換沐批。

CDISC Submission Value-Level Metadata

Value-Level Metadata纫骑，講的是數(shù)據(jù)集里面的變量屬性，是一種相對數(shù)據(jù)集而言九孩，更微觀的數(shù)據(jù)屬性先馆。

比如VS包括收縮壓，舒張壓躺彬，身高煤墙，體重，身體質(zhì)量指數(shù)BMI顾患。我們知道番捂，VS的結(jié)構(gòu)是一條觀測一次測試个唧，這樣江解，同一個人在某個時間點就有5條觀測，parameter names存儲Code/Name variables徙歼，parameter values存儲結(jié)果犁河，分別由5條不同的記錄表示。為了加以區(qū)分魄梯，這5條Test Code/Names必有不同的屬性桨螺。

CDISC V3.x Findings是一種標(biāo)準(zhǔn)的垂直的數(shù)據(jù)結(jié)構(gòu)，一條記錄酿秸，一條觀測灭翔。因為要將多種不同類型的觀測以同一種結(jié)構(gòu)呈現(xiàn)，有必要有另外的metadata來描述可能的不同辣苏。故而需要value-level metadata肝箱，它存放于一個單獨的文件Report Tabulation Data Definition Specification(Define-XML)。在SDTM編程過程中稀蟋，經(jīng)常會碰到數(shù)據(jù)結(jié)構(gòu)從橫向往縱向的轉(zhuǎn)換煌张。

Conformance表示數(shù)據(jù)集要符合一定的標(biāo)準(zhǔn)，至少要滿足以下條件：

有完整的數(shù)據(jù)結(jié)構(gòu)

符合SDTMIG model

使用SDTM-specified標(biāo)準(zhǔn)的domain名字退客，前綴骏融，變量名链嘀，標(biāo)簽，變量類型档玻，控制術(shù)語

包括所有Required and Expected變量怀泊，保證所有的Required變量有值。

有適合的Identifier and, Timing variables,Topic variable

是否符合CDISC Notes描述的business rules和domain-specific假設(shè)

我們不用將數(shù)據(jù)集一一做這種排查误趴，已經(jīng)有像OpenCDISC之類的工具來幫我們做validation包个，而這一步不僅僅是完善SDTM數(shù)據(jù)集，同時也包括其他submission?package的更新和發(fā)展過程冤留。