假設(shè)剛進(jìn)公司的你經(jīng)過(guò)幾個(gè)月的培訓(xùn)峭火,現(xiàn)在學(xué)習(xí)完SAS Base了,不要以為可以喘一口氣了劲腿,接下來(lái)就要進(jìn)入到我們SAS程序員的重頭戲了---CDISC標(biāo)準(zhǔn)之SDTM俏险,我以前的一篇文章粗略介紹過(guò)這個(gè)肴楷,可以點(diǎn)擊鏈接看看水由。
接下來(lái)的文章我會(huì)詳細(xì)介紹SDTMIG中的各種domain,一是向你們分享知識(shí),另一方面也是加深自己的印象和理解赛蔫,當(dāng)然主要還是以翻譯為主砂客,再加上自己的理解泥张。
在沒(méi)有執(zhí)行CDISC標(biāo)準(zhǔn)之前鞠值,很多組織或者制藥公司還有一些CRO公司因?yàn)椴①?gòu)或者其他一些原因媚创,CRF設(shè)計(jì)、變量名稱和他們工作的不同化合物的數(shù)據(jù)格式也發(fā)生了變化彤恶。
所以當(dāng)這些公司給監(jiān)管機(jī)構(gòu)提交數(shù)據(jù)時(shí)钞钙,大量時(shí)間都花在了決定用于集成數(shù)據(jù)庫(kù)的結(jié)構(gòu)和變量名上。與此同時(shí)FDA的審查員不得不處理不同贊助商之間完全不同的數(shù)據(jù)格式和結(jié)構(gòu)声离。
隨著時(shí)間的累積芒炼,相關(guān)人員開(kāi)始看到在整個(gè)行業(yè)中擁有一個(gè)標(biāo)準(zhǔn)的好處。于是在FDA的支持下抵恋,一群人就開(kāi)始研究相關(guān)的標(biāo)準(zhǔn)了焕议。這可以說(shuō)是CDISC標(biāo)準(zhǔn)的來(lái)源宝磨。
這就像學(xué)生做一樣的作業(yè)弧关,有的學(xué)生喜歡把答案寫(xiě)在題目后面的括號(hào)里;有的學(xué)生喜歡把答案寫(xiě)在題目的前面唤锉;還有的學(xué)生喜歡把所有答案都寫(xiě)在作業(yè)的最后面...這樣等老師批改作業(yè)的時(shí)候世囊,翻來(lái)翻去,頭都要大了窿祥,所以老師索性直接規(guī)定你們把答案都給我寫(xiě)在作業(yè)后面株憾。學(xué)生按照這種要求完成作業(yè),老師批改起來(lái)速度快了晒衩,效率自然高嗤瞎。
作為CDISC標(biāo)準(zhǔn)重要組成之一---SDTM(Study Data Tabulation Model),大致定義了研究數(shù)據(jù)表的標(biāo)準(zhǔn)結(jié)構(gòu)听系。而這個(gè)Model的具體應(yīng)用贝奇、指導(dǎo)準(zhǔn)則以及法規(guī)實(shí)現(xiàn)則在SDTMIG(Study Data Tabulation Model Implementation Guide)中體現(xiàn)。這個(gè)文件的目的是指導(dǎo)(藥廠靠胜、CROS .etc)提交給監(jiān)管當(dāng)局的標(biāo)準(zhǔn)臨床試驗(yàn)表格數(shù)據(jù)集的組織掉瞳、結(jié)構(gòu)和格式。
具體文件可以登入CDISC官網(wǎng)下載浪漠,或者直接百度CDISC陕习,一般公司資料文件夾也都會(huì)配備的。
在這份文件中址愿,規(guī)定了一些domain需要采集的變量该镣,但是你的項(xiàng)目中具體需要哪些變量,一般要根據(jù)申辦方的方案和其他需求來(lái)決定响谓,然后制定CRF用于采集受試者數(shù)據(jù)拌牲。
下面一張圖是任何方案都需要的一個(gè)domain俱饿,也就是DM domain,這里面收集的包括受試者的年齡塌忽,身高拍埠,體重,第一次給藥時(shí)間土居,分組等非常重要的信息枣购,但是不會(huì)出現(xiàn)受試者的個(gè)人隱私(這在臨床試驗(yàn)中是很忌諱的,要保證受試者信息安全和知情同意)擦耀,所以一般用唯一的一個(gè)usubjid來(lái)代替這個(gè)受試者棉圈。
假設(shè)我們知道要采用哪些變量了,但是放到哪里去呢眷蜓?這就有專門(mén)的excel文件來(lái)說(shuō)明了分瘾,也就是specification,簡(jiǎn)稱SPEC.下圖是我自己編寫(xiě)的一個(gè)說(shuō)明文檔,只有幾個(gè)domain和從ig上復(fù)制過(guò)來(lái)的幾個(gè)變量吁系。(因?yàn)榕R床項(xiàng)目文件德召,包括數(shù)據(jù)都是保密的,所以我不可能把公司的數(shù)據(jù)和說(shuō)明文件直接拿過(guò)來(lái)用)
每個(gè)公司那行灰色的標(biāo)題取名可能不一樣汽纤,但大致內(nèi)容是相同的上岗。都需要有變量,變量的標(biāo)簽蕴坪、長(zhǎng)度肴掷、類型、控制術(shù)語(yǔ)(不是所有變量都有)等背传。
Notes那一列就是我們SAS程序員要做的事了呆瞻,將文字用代碼轉(zhuǎn)換過(guò)來(lái),生成我們需要的變量径玖。就像下面一樣:
因?yàn)楝F(xiàn)在我沒(méi)有數(shù)據(jù)痴脾,所以也跑不出來(lái)結(jié)果,大致流程是這樣的挺狰。最后將所有需要的變量集中輸出到一個(gè)數(shù)據(jù)集中明郭,我們將這個(gè)數(shù)據(jù)集命名為“DM”。
為什么我要rename subjid呢丰泊?因?yàn)閞awdata里面的變量薯定,即使跟你要輸出的變量長(zhǎng)得一樣,但是經(jīng)常因?yàn)殚L(zhǎng)度不一樣會(huì)報(bào)錯(cuò)瞳购,所以才這樣做话侄。
length語(yǔ)句放到set語(yǔ)句前面,這樣輸出數(shù)據(jù)集的時(shí)候前幾個(gè)展示的變量就是你設(shè)定長(zhǎng)度的那幾個(gè)變量,便于檢查年堆。如果放到set語(yǔ)句后面吞杭,你可以去試試看是什么樣的。
今天就介紹到這里变丧,不想寫(xiě)了芽狗,記得當(dāng)初培訓(xùn)完SAS Base,然后經(jīng)理第一次給我們培訓(xùn)SDTM痒蓬,當(dāng)時(shí)同事聽(tīng)完出來(lái)一臉懵逼童擎,都不知道講的是什么,一方面是以前沒(méi)有從來(lái)沒(méi)有接觸過(guò)攻晒,另一方面是經(jīng)理可能沒(méi)有像我這樣一步一步講的通俗好理解吧顾复。
對(duì)于從來(lái)沒(méi)有接觸過(guò)這些的你們,也算是有個(gè)大致印象了鲁捏,知道是怎么回事了芯砸,不至于輪到你們培訓(xùn)的時(shí)候也是一臉懵逼。
我很想單獨(dú)編寫(xiě)出一套SPEC還有一套對(duì)應(yīng)的數(shù)據(jù)给梅,但是對(duì)于我個(gè)人假丧,是一個(gè)浩大的工程,費(fèi)時(shí)費(fèi)力又費(fèi)腦破喻,至于最后會(huì)不會(huì)去做虎谢,看心情吧盟榴。如果做出來(lái)了曹质,我可是要收費(fèi)的!嘿嘿嘿擎场。羽德。。
/***********************************************************************/
我這個(gè)公眾號(hào)不像其他那么專業(yè)的公眾號(hào)只講臨床知識(shí)迅办,我還會(huì)穿插自己的生活宅静,感悟,吐槽站欺,八卦等等姨夹。你們有些私信(雖然沒(méi)幾個(gè)私信)問(wèn)我在哪個(gè)公司,工資多少矾策,恕不能告訴你們磷账。
只會(huì)講個(gè)大致范圍:江浙滬,兩年經(jīng)驗(yàn)贾虽,沒(méi)有月入過(guò)萬(wàn)逃糟,只能求個(gè)溫飽,生活困難。單身绰咽,佛系青年菇肃。
要加聯(lián)系方式的,我以前一篇文章有放過(guò)取募,以前會(huì)很熱心解答問(wèn)題琐谤,喜歡當(dāng)人生導(dǎo)師,說(shuō)些心靈雞湯玩敏;現(xiàn)在愛(ài)問(wèn)不問(wèn)笑跛,關(guān)我屁事。
無(wú)所謂~誰(shuí)會(huì)愛(ài)上誰(shuí)~~~
注:文末的贊賞是我為了看看這個(gè)功能怎么用聊品,當(dāng)然你是個(gè)小富婆飞蹂,又覺(jué)得我寫(xiě)的不錯(cuò)的話,歡迎贊賞翻屈。