在我們經(jīng)常接觸的統(tǒng)計(jì)模式中捺弦,我們是在尋求推翻原假設(shè),證明差異孝扛,這種統(tǒng)計(jì)模型在傳統(tǒng)的臨床試驗(yàn)中列吼,在各種統(tǒng)計(jì)推斷中已經(jīng)成為默認(rèn)了。在傳統(tǒng)的臨床試驗(yàn)中通常會(huì)將一種新的治療方法與標(biāo)準(zhǔn)治療或安慰劑進(jìn)行比較苦始,從而證明這種新治療具有更好的療效冈欢,這類試驗(yàn)的原假設(shè)是這兩種治療方案的治療效果沒有差異。如果統(tǒng)計(jì)分析拒絕這一假設(shè)盈简,說明這兩種治療的療效是有差別的凑耻,即出現(xiàn)統(tǒng)計(jì)學(xué)上差異性展示出顯著的P值太示,這個(gè)時(shí)候就證明了我們的研究目的。
Traditional statistical methods were designed to demonstrate differences and cannot easily show that a new treatment is similar to an older one.
但是香浩,當(dāng)我們開發(fā)新藥或者新的治療方法的時(shí)候类缤,這個(gè)時(shí)候我們的目的可能并不是找到一種更有效的方法,而是找到一種與標(biāo)準(zhǔn)治療療效相似的新療法邻吭,同時(shí)具有其他一些優(yōu)勢餐弱,如成本更低、副作用更少囱晴,或更加便捷膏蚓。因其具備的這些優(yōu)勢,這種幾乎與標(biāo)準(zhǔn)治療一樣有效的新治療方法畸写,在實(shí)踐中對某些特定的患者來說可能是首選驮瞧。換成統(tǒng)計(jì)語言就是我們這個(gè)時(shí)候的統(tǒng)計(jì)目的并不是要證明差異性,而是要證明相似性枯芬。我們要回答的問題是“這個(gè)新藥或者新方法是不是不劣于現(xiàn)有的治療方法”而非“新方法是否有效”论笔。傳統(tǒng)的統(tǒng)計(jì)推斷證明差異存在的思路就行不通了。
上面這種情況所對應(yīng)的試驗(yàn)設(shè)計(jì)就是非劣效性試驗(yàn)(等效性實(shí)驗(yàn)也是如此理解)千所。目的是嚴(yán)格評估一種新的治療方案狂魔,通過與公認(rèn)有效的治療方案進(jìn)行對比,來證明該治療方案幾乎與標(biāo)準(zhǔn)治療方案的療效一致性(即不存在劣勢)淫痰。
In another context, the new treatment may offer lower cost and/or better patient compliance but might have a lower efficacy than the standard treatment. A non-inferiority study is designed to show that the new treatment is not less effective than the standard treatment to within a pre-specified margin of clinical indifference
傳統(tǒng)統(tǒng)計(jì)為什么不行
為了大家更好地理解最楷,在寫非劣實(shí)驗(yàn)正確的統(tǒng)計(jì)方法之前,我們先幫助大家理解“為什么傳統(tǒng)統(tǒng)計(jì)推斷不能回答“非劣效”的問題”待错。
同學(xué)們經(jīng)常有一個(gè)比較容易陷進(jìn)去的邏輯是:既然統(tǒng)計(jì)顯著可以說明兩組間有差異籽孙,那么反過來一想統(tǒng)計(jì)不顯著不就是兩組差異不顯著嗎,這不是就是說兩組效果相近----就證明了“非劣效”嗎朗鸠?這個(gè)邏輯似乎說的通,但是是不對的础倍。統(tǒng)計(jì)不顯著并不意味著沒差異烛占,并不意味著兩個(gè)方法效果一樣。
比如沟启,看下圖:
[圖片上傳失敗...(image-5285ee-1706361737803)]
上圖描述的是三種治療方案ABC的效應(yīng)值分布忆家,在上圖中B和C的效應(yīng)相對于0效應(yīng)線都是不顯著的,但是其分布不同(點(diǎn)估計(jì)和置信區(qū)間不同)德迹,我們就不能簡單說B和C都不劣于原方法芽卿。如果這樣說了,和方案A比較就矛盾了(A是一定優(yōu)于原方案胳搞,而且也優(yōu)于B卸例,但是不優(yōu)于C称杨,那么B個(gè)C能一樣嗎?)筷转;從另外的角度也可以理解這個(gè)問題:統(tǒng)計(jì)上不顯著是沒有達(dá)到小概率的標(biāo)準(zhǔn)姑原,比如新藥事實(shí)上在94%的情況下都比原藥劣,但是其沒達(dá)到我們設(shè)定的小概率標(biāo)準(zhǔn)呜舒,這個(gè)時(shí)候在統(tǒng)計(jì)上兩藥是沒差異的锭汛,但是以此來說明新藥的非劣效性肯定是錯(cuò)的離譜了嘛(本身新藥在94%的情況下都比原藥效果劣怎么能說是非劣呢)。所以直接以統(tǒng)計(jì)差異來證明“非劣效”是很荒唐的袭蝗。
以上希望能幫助大家理解為什么統(tǒng)計(jì)不顯著不能證明相似性唤殴。要記住:'No statistically significant difference’ can-not be used to support a conclusion of ‘no difference’ or of ‘equivalence'.
非劣效界值
上面講過非劣效并不是一個(gè)簡單的統(tǒng)計(jì)推斷得到個(gè)顯著性就行的到腥,要說明新藥不比老藥差我們需要提前設(shè)定“不比老藥差的標(biāo)準(zhǔn)”朵逝,然后將差異的置信區(qū)間和這個(gè)標(biāo)準(zhǔn)進(jìn)行比較從而得出結(jié)論。這個(gè)標(biāo)準(zhǔn)就叫做“非劣效界值”左电,關(guān)于這個(gè)界值的理解廉侧,下面文獻(xiàn)給出了很好的示例說明:
[圖片上傳失敗...(image-8827f9-1706361737803)]
非劣效性界值的選擇往往是主觀的,而不是基于特定的標(biāo)準(zhǔn)篓足,自己去文獻(xiàn)薈萃或者自己能自圓其說就行段誊。但一點(diǎn)是明確的的這個(gè)界值一定比目前方法能達(dá)到的效應(yīng)值小很多。
https://support.sas.com/resources/papers/proceedings20/4641-2020.pdf
[圖片上傳失敗...(image-c455fc-1706361737803)]
統(tǒng)計(jì)原理
通常在進(jìn)行非劣效性試驗(yàn)結(jié)果分析的時(shí)候栈拖,我們會(huì)為兩種藥效果之間的差異構(gòu)建一個(gè)單側(cè)95%或97.5%的置信區(qū)間(從L到∞连舍;負(fù)值代表了試驗(yàn)治療的劣效性),并將下限“-L”與非劣效性界值進(jìn)行比較涩哟。如果置信區(qū)間的下限值高于或位于非劣效性界值的右側(cè)索赏,則證明了其非劣效性。
[圖片上傳失敗...(image-a6732c-1706361737803)]
設(shè)定好非劣效界值之后我們判斷結(jié)果時(shí)遇到的可能性有三個(gè)贴彼,像下圖中一樣潜腻,藍(lán)色的情況就是新藥與老藥效應(yīng)差的效應(yīng)置信區(qū)間全部在非劣效界值區(qū)域,效應(yīng)的置信區(qū)間低點(diǎn)都在非劣效界值內(nèi)器仗,就意味著A是非劣效的融涣;同理綠色的就是可能非劣效也可能不是;紅色則是劣效精钮。
[圖片上傳失敗...(image-723b6b-1706361737803)]
實(shí)際例子
下圖中是一個(gè)簡明的非劣效性試驗(yàn)結(jié)果分析的實(shí)際例子:
[圖片上傳失敗...(image-c8bbe2-1706361737803)]
上面的例子的效應(yīng)是連續(xù)的威鹿,整個(gè)統(tǒng)計(jì)分析過程已經(jīng)寫的非常清楚了,我們再來看一個(gè)分類變量的做法轨香,依然是做差比置信區(qū)間的思想:
[圖片上傳失敗...(image-576271-1706361737803)]
[圖片上傳失敗...(image-e59b34-1706361737803)]
在上面的例子中忽你,依然是將效應(yīng)差值的置信區(qū)間求出來,將區(qū)間和非劣效界值進(jìn)行對比臂容。
但是很多的時(shí)候?qū)τ诜诸惤Y(jié)局很多的時(shí)候我們的效應(yīng)表示是OR或者RR科雳,這個(gè)時(shí)候就不是做差了根蟹,而是直接將OR或RR和界值進(jìn)行比較,如下:
[圖片上傳失敗...(image-3e5b51-1706361737803)]
那么這個(gè)時(shí)候我們需要計(jì)算OR或RR的置信區(qū)間炸渡,示例如下:
[圖片上傳失敗...(image-81fa02-1706361737803)]
可以看到這個(gè)時(shí)候我們是估計(jì)的RR的置信區(qū)間娜亿,然后和界值比較得到的非劣效結(jié)論。
實(shí)際上有學(xué)者提出來蚌堵,做差好一點(diǎn)买决,建議大家還是去做差。
testing NI using RD not only controls well the Type I error and achieves the highest statistical power but also requires the smallest sample size compared to RR and OR
We performed a search for non-inferiority trials with binary outcomes reported in the New England Journal of Medicine between 2016 and 2019. Of the 24 randomized controlled trial (RCTs) found, 16 used an RD to specify the non-inferiority margin. Two used RR and six used OR.
實(shí)操
在弄明白原理并且看到了實(shí)際例子之后我們再來看操作吼畏。RD的置信區(qū)間計(jì)算督赤,我們來看一個(gè)分類結(jié)局的置信區(qū)間的計(jì)算實(shí)例
下面的統(tǒng)計(jì)結(jié)果表達(dá)來自The Lancet。結(jié)果變量是分類變量泻蚊,使用的率差來進(jìn)行非劣效性的判斷躲舌,方法就是得到兩組率差的置信區(qū)間,將置信區(qū)間下限和非劣效界值進(jìn)行對比從而得到結(jié)論性雄。
[圖片上傳失敗...(image-26ee30-1706361737803)]
我們來實(shí)操一波没卸,在R語言的dani包中test.NI函數(shù)是專門用來進(jìn)行非劣實(shí)驗(yàn)的數(shù)據(jù)法分析的。
[圖片上傳失敗...(image-ada52b-1706361737803)]
還有我們也可以使用catfun包中的riskdiff函數(shù)
[圖片上傳失敗...(image-f2e14b-1706361737803)]
我們按照相應(yīng)的參數(shù)說明秒旋,寫出分類變量的四格表约计,運(yùn)用兩函數(shù)后兩函數(shù)結(jié)果一模一樣,結(jié)果如下:
[圖片上傳失敗...(image-edcdc4-1706361737803)]
推薦閱讀:
Walker J. Non-inferiority statistics and equivalence studies. BJA Educ. 2019 Aug;19(8):267-271. doi: 10.1016/j.bjae.2019.03.004. Epub 2019 Apr 24. PMID: 33456901; PMCID: PMC7808096.
Tunes da Silva G, Logan BR, Klein JP. Methods for equivalence and noninferiority testing. Biol Blood Marrow Transplant. 2009 Jan;15(1 Suppl):120-7. doi: 10.1016/j.bbmt.2008.10.004. PMID: 19147090; PMCID: PMC2701110.
Testing Hypotheses for Equivalence and Non-inferiority with Binary and Survival
Outcomes. Joseph C. Gardiner, Department of Epidemiology and Biostatistics,
Michigan State University, East Lansing, MI 48824