SDTM數(shù)據(jù)提交的標(biāo)準(zhǔn)格式

本文大致介紹下SDTM數(shù)據(jù)提交的標(biāo)準(zhǔn)格式,包括數(shù)據(jù)集水平和變量水平的兩種屬性琼开。

· ?正 ?· ?文 ?· ?來· ?啦·

Standard Metadata for Dataset Contents and Attributes

SDTMIG提供了常見數(shù)據(jù)domain的metadata屬性棠绘,在SDTM Specification和Define.xml中均有其詳細(xì)描述任洞,它一般包括以下方面:

標(biāo)準(zhǔn)的變量名衰倦,所有提交的變量名必須標(biāo)準(zhǔn)化座云,即便是申辦方內(nèi)部數(shù)據(jù)庫里的其他變量名疙赠,我們也要盡可能用一些conventional rule來命名。

標(biāo)準(zhǔn)變量標(biāo)簽

數(shù)據(jù)類型朦拖,是數(shù)字型的還是字符型的圃阳,與SAS格式相對應(yīng)

實際的控制術(shù)語和格式

數(shù)據(jù)的來源

數(shù)據(jù)集中的變量role

方便reviewer理解變量或數(shù)據(jù)的comments

◆?◆?◆◆?◆

除了以上這些,CDISC domain model還提供其他3種隱性信息璧帝,方便sponsor呈現(xiàn)他們的數(shù)據(jù):

CDISC Notes捍岳,對變量解釋說明,描述變量的來源、用法锣夹、意義等相關(guān)信息页徐。當(dāng)我們搞不清這個變量是干嘛用的,仔細(xì)研讀這里面的內(nèi)容银萍,或許有所收獲

Core变勇,變量compliance評估,說明此變量是可有可無的贴唇,還是必須要有的

References搀绣,說明有無引用關(guān)系

?

Regulatory Submissions —Dataset Metadata

大部分study都會包括DM和一些安全性的domain(如EX, CM, AE, DS, MH, IE, LB, and VS)。具體提交哪些數(shù)據(jù)要看方案和機構(gòu)要求滤蝠。

數(shù)據(jù)集定義的metadata應(yīng)該包括dataset filenames, descriptions, locations, structures, class, purpose, keys, and comments豌熄。

在試驗設(shè)計之初考慮到可能有合并用藥授嘀,但到最后數(shù)據(jù)鎖定之后物咳,仍然沒有受試者有CM記錄,此時CM是空集蹄皱,我們不用提交览闰,也不用在define.xml中描述。在annotated CRF正常注釋巷折,不需要說明no records压鉴。

◆?◆?◆◆?◆

下表給出SDTM Submission Dataset-Definition Metadata例子,數(shù)據(jù)集水平的Metadata屬性锻拘,描述了數(shù)據(jù)集的整體情況油吭。此表異常重要,它基本是一個標(biāo)準(zhǔn)和參考署拟。

◆?◆?◆◆?◆

Primary Keys用于幫助reviewers理解數(shù)據(jù)集的結(jié)構(gòu)婉宰,這些Keys應(yīng)該確保,在同一個數(shù)據(jù)集中觀測的唯一性推穷;同時心包,它可能用于數(shù)據(jù)集排序,計算--SEQ變量馒铃。

我們以EX domain為例來簡單說明下蟹腾。

EX數(shù)據(jù)集的label是Exposure;Class為Interventions区宇;結(jié)構(gòu)是One record perconstant dosing interval per subject娃殖;Purpose為Tabulation(SDTM都是Tabulation,用于數(shù)據(jù)呈現(xiàn)议谷,如同ADaM都是Analysis珊随,用于分析);Location指define.xml中相應(yīng)的xpt文件;常見的Keys是"STUDYID USUBJID EXTRT EXSTDTC"叶洞。也就是說鲫凶,在EX數(shù)據(jù)集中,不存在兩條及以上觀測這4個變量的值完全一樣衩辟,它是可以確定觀測的唯一性的螟炫,同時基于這個順序,我們再計算EXSEQ艺晴。如果有duplicate records昼钻,那有可能是data issue,或者是map出現(xiàn)錯誤封寞。這里的Keys是SDTMIG給出的常見例子然评,Sponosr應(yīng)該基于實際情形定義Keys,比如可能加入EXCAT狈究,EXLOC等等信息碗淌,關(guān)鍵是做到“唯一”。

◆?◆?◆◆?◆

注意到SE Keys為"STUDYID USUBJID ETCD SESTDTC"抖锥,但我們一般算SESEQ時亿眠,更多的是基于"TUDYID USUBJID SESTDTC ETCD"這個順序,這樣可以更清晰地知道element的經(jīng)歷情況磅废,而不是將ETCD放在前面按字符排序纳像。這里Keys和排序不矛盾,并不一定非得按Keys試算sequence number拯勉。

RELREC中的排序較為復(fù)雜竟趾,基于study而變化,這里不展開討論宫峦。**SUPP的keys是"STUDYID RDOMAIN USUBJID IDVAR IDVARVAL QNAM"岔帽,但考慮到IDVARVAL是個字符值,如果IDVAR=--SEQ斗遏,按這個順序山卦,則會出現(xiàn)"11"排在"2"的前面。所以诵次,我們在最后排序的時候加--SEQ账蓉,這樣與parent domain的順序看起來是相對應(yīng)的,方便reviewer查看逾一。

◆?◆?◆◆?◆

natural key是數(shù)據(jù)的一部分铸本,可能有多個變量,區(qū)別于數(shù)據(jù)中的其他行遵堵。這是本身就存在的箱玷,像CM中Keys?"STUDYID USUBJID CMTRT CMSTDTC"怨规。有時考慮到商業(yè)需要,會加入位置或方位變量锡足。

surrogate key是獨立部分波丰,人為計算加以區(qū)分的,是一種derived data舶得。--SEQ便是一個例子掰烟。有的時候,--SEQ也可作為natural keys的替換沐批。

?

CDISC Submission Value-Level Metadata

Value-Level Metadata纫骑,講的是數(shù)據(jù)集里面的變量屬性,是一種相對數(shù)據(jù)集而言九孩,更微觀的數(shù)據(jù)屬性先馆。

比如VS包括收縮壓,舒張壓躺彬,身高煤墙,體重,身體質(zhì)量指數(shù)BMI顾患。我們知道番捂,VS的結(jié)構(gòu)是一條觀測一次測試个唧,這樣江解,同一個人在某個時間點就有5條觀測,parameter names存儲Code/Name variables徙歼,parameter values存儲結(jié)果犁河,分別由5條不同的記錄表示。為了加以區(qū)分魄梯,這5條Test Code/Names必有不同的屬性桨螺。

CDISC V3.x Findings是一種標(biāo)準(zhǔn)的垂直的數(shù)據(jù)結(jié)構(gòu),一條記錄酿秸,一條觀測灭翔。因為要將多種不同類型的觀測以同一種結(jié)構(gòu)呈現(xiàn),有必要有另外的metadata來描述可能的不同辣苏。故而需要value-level metadata肝箱,它存放于一個單獨的文件Report Tabulation Data Definition Specification(Define-XML)。在SDTM編程過程中稀蟋,經(jīng)常會碰到數(shù)據(jù)結(jié)構(gòu)從橫向往縱向的轉(zhuǎn)換煌张。

?

Conformance表示數(shù)據(jù)集要符合一定的標(biāo)準(zhǔn),至少要滿足以下條件:

有完整的數(shù)據(jù)結(jié)構(gòu)

符合SDTMIG model

使用SDTM-specified標(biāo)準(zhǔn)的domain名字退客,前綴骏融,變量名链嘀,標(biāo)簽,變量類型档玻,控制術(shù)語

包括所有Required and Expected變量怀泊,保證所有的Required變量有值。

有適合的Identifier and, Timing variables,Topic variable

是否符合CDISC Notes描述的business rules和domain-specific假設(shè)

我們不用將數(shù)據(jù)集一一做這種排查误趴,已經(jīng)有像OpenCDISC之類的工具來幫我們做validation包个,而這一步不僅僅是完善SDTM數(shù)據(jù)集,同時也包括其他submission?package的更新和發(fā)展過程冤留。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末碧囊,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子纤怒,更是在濱河造成了極大的恐慌糯而,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,383評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件泊窘,死亡現(xiàn)場離奇詭異熄驼,居然都是意外死亡,警方通過查閱死者的電腦和手機烘豹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,522評論 3 385
  • 文/潘曉璐 我一進店門瓜贾,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人携悯,你說我怎么就攤上這事祭芦。” “怎么了憔鬼?”我有些...
    開封第一講書人閱讀 157,852評論 0 348
  • 文/不壞的土叔 我叫張陵龟劲,是天一觀的道長。 經(jīng)常有香客問我轴或,道長昌跌,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,621評論 1 284
  • 正文 為了忘掉前任照雁,我火速辦了婚禮蚕愤,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘饺蚊。我一直安慰自己萍诱,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,741評論 6 386
  • 文/花漫 我一把揭開白布卸勺。 她就那樣靜靜地躺著砂沛,像睡著了一般。 火紅的嫁衣襯著肌膚如雪曙求。 梳的紋絲不亂的頭發(fā)上碍庵,一...
    開封第一講書人閱讀 49,929評論 1 290
  • 那天映企,我揣著相機與錄音,去河邊找鬼静浴。 笑死堰氓,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的苹享。 我是一名探鬼主播双絮,決...
    沈念sama閱讀 39,076評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼得问!你這毒婦竟也來了囤攀?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,803評論 0 268
  • 序言:老撾萬榮一對情侶失蹤宫纬,失蹤者是張志新(化名)和其女友劉穎焚挠,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體漓骚,經(jīng)...
    沈念sama閱讀 44,265評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡蝌衔,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,582評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了蝌蹂。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片噩斟。...
    茶點故事閱讀 38,716評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖孤个,靈堂內(nèi)的尸體忽然破棺而出剃允,到底是詐尸還是另有隱情,我是刑警寧澤硼身,帶...
    沈念sama閱讀 34,395評論 4 333
  • 正文 年R本政府宣布硅急,位于F島的核電站覆享,受9級特大地震影響佳遂,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜撒顿,卻給世界環(huán)境...
    茶點故事閱讀 40,039評論 3 316
  • 文/蒙蒙 一丑罪、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧凤壁,春花似錦吩屹、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,798評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至唧席,卻和暖如春擦盾,著一層夾襖步出監(jiān)牢的瞬間嘲驾,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,027評論 1 266
  • 我被黑心中介騙來泰國打工迹卢, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留辽故,地道東北人。 一個月前我還...
    沈念sama閱讀 46,488評論 2 361
  • 正文 我出身青樓腐碱,卻偏偏與公主長得像誊垢,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子症见,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,612評論 2 350