交叉設計在臨床試驗上的應用　　　by 盧誌明藍守仁蘇清泉李瀛輝黃榮慶, 1997-09-15

前言
Moolell等人[1]使用交叉設計來研究Sildenatil這種治療性無能的新藥，事實上有很多新藥都採用這種設計進行臨床試驗。
McNair[2]指出有68﹪的抗焦慮藥物是以交叉設計法進行人體實驗的；Cleophas[3]統計The Lanect在1986年有16篇，1987年有13篇交叉設計研究；Packer宣稱交叉設計是決定新藥效用最有力的研究法[3]；但交叉設計的研究並不被美國食品藥物管理局（FDA）鼓勵，該局認為：除非研究者能從以前的資料或目前的數據中，証明他所有的假設都是對的，否則交叉設計法不應被使用。但Poloniecki等[4]則沒有如此悲觀；不論如何，交叉設計顯然是臨床研究者在擬定研究計劃時應想到的研究設計之一。臨床試驗第三期為了比較兩種治療方法或藥物（新開發藥品與舊藥或安慰劑），我們可以將此兩種治療施予不同的兩群人--即是研究組與對照組，然後比較其結果，這種研究方法的基本假設是：研究組與對照組的人員具有相同的體質，且對於同一種治療法的反應沒有不同。但當這兩群人有明顯的個人內在差異時，研究者觀測到的結果，可能是兩群人之間的差異, 而不是藥物所導致的差異。為了避免此種錯誤，我們可將兩種治療依不同的順序施予同一個人，即讓每個研究對象做自己的對照組（Each patient ，his own control）[4,5]，同時可藉著治療順序的變化，來估計治療與期別之間的效應，這種研究方法稱為交叉設計（Crossover design）。以前的研究設計是以匹配（matching）來調整已知的干擾因子，如性別、年齡、種族、社經地位等，但未知的干擾因子則無法匹配；隨機分派及雙盲設計或許可以調整未知的因子，但研究對象做自己的對照組，更可以有效除去個人體質差異的干擾[4]。
和其他的臨床試驗設計，如平行設計、矩陣設計相較之下，交叉設計在理論上尚有減少樣本大小、降低成本等好處[5]。
郭[6]定義交叉設計如下：『將病人隨機分配，分成A、B兩組，A組先服用藥物甲，B組先服用藥物乙。......經過一段適當的清除期，確定藥物作用已經消失，再分別給病人另一種藥物。』他指出交叉設計的優點是：需要的樣本數較少，干擾因子容易控制。缺點則是：易受傳遞效應影響（Carry-over effects，相當於本文所說的累積效應減治療效應，或剩餘效應加交感效應)，易受次序效應影響（order effects，相當於本文所說的期別效應）。另外，交叉設計也不適用於療效產生較慢或療效持久的研究，因為那會使原本即比其他研究設計時間長的交叉設計的時間更為增長[6]；時間延長不僅不經濟，並會增加病人流失的機會。
交叉設計在實務上，不能應用於具破壞性治療方法的研究，例如外科手術及拔牙都無法以交叉設計加以研究[7]。
交叉設計的方法
交叉設計的方法，有Grizzle[8]提出的兩階段兩個治療法設計模式，Berenblut[9]的多階段多治療非線性模式，Koch[10]的無母數模式，此外，Kerchner及Federer[11]曾提出多種不同的兩個治療線性模式。本文的討論將限於兩個治療法的線性模式，在此模式中又可分為兩階段及多階段兩大類。本節將依循Grizzle[4]的模式進行討論。
表一是Grizzle使用的符號表。在該表中，A．B 代表兩種不同的治療法, S(1j)與S(2j)分別代表第一組與第二組的研究對象，Y(1j1)代表S(1j)接受第一階段治療後的結果，餘類推。Y 值是研究對象的內在特質, 不同階段，不同藥物的總合反映。我們可以藉著Y 值的算術運算而得到我們想瞭解的各項效應的差異。交叉設計中常見名詞的定義列於表二。
在表一的設計下，觀測值Y（ijk）為第i組的第j位研究對象，接受第k階段治療的結果，其值應為：
Y（ijk）＝總平均值+P（k）+T（u）+R（u）＋I（ij）+E（ijk） …(1)
理論上,
期別效應的總和＝治療效應的總和＝剩餘效應的總和＝0
I（ij）和 E（ijk）的變異數分別以SSI及SSE代表，且平均值等於零[7]；同時本模式不考慮交感效應（interaction effect）存在的情況。而實際上期別、治療及剩餘效應之間的交感效應是可能存在的，本文將在稍後討論這點。
在統計檢定上，吾人可以用配對t檢定(paired-t test), 對兩種治療的差異及兩個階段的差異加以檢定，以嘹解某一種治療是否優於另一種治療。進行配對t檢定必須知道兩個數字，即平均差(分子部分)與變異數(分母部分) 。各效應平均差與變異數的計算公式列於表三。
關於交感效應的討論，見諸於Hill及Armitage[12]、Kershner 及Federer[11]、Poloniecki等[4]及Cleophas[3]。讀者可自行參閱相關文獻。
交感效應的問題，可以在設計上加以解決，也可以如Cleophas[3]將它併入剩餘效應中加以檢定。從交叉設計中，我們可以得到三種型態的療效估計，第一種是治療效應差異（公式2），第二種是由A換至B與由B換至A的療效差異〔T(AB)－T(BA)〕，第三種是累積效應的差異。第三種估計，可以更明確的代表一藥物的全部療效是否比另一藥物好。
交叉設計之組合
兩個治療交叉設計，除了表一所示的簡單設計之外，尚有許多變形，這些其他設計的目的，在於使治療效應差異的估計更精確。所使用的手段，主要有三種：第一，增加期數；第二，增加空白期（清除期，即不給研究對象任何治療）；第三，增加基準值測量。
Kershner及Federer[11]提出一套用於設計討論的符號。這符號是CO（u,i,p），CO代表交叉設計，u代表治療數，i代表組數，p代表期數。表一的設計可寫成CO（2.2.2），在每一個CO（u,i,p）之下，若可分做幾種不同的設計，則以D（i,p,x）代表。他們發現空白期的設計會提供許多關於剩餘效應的資料。例如D(2.3.1)只要用B-D(2.2.1)所需樣本數的一半，就能得到同樣精確的治療效應差異估計。在D(2.3.4)的設計下，治療效應差異、剩餘效應差異和累積效應差異的估計都較同樣組數的設計要更精確，這表示讓研究對象多接受一個治療療程是很有用的設計。Kershner及Federer的設計中，最精確的是D(4.4.1)，但它會使交叉設計裡的一些誘因消失，因為它需要四期，因此在倫理、時間、經費上都很不利。
關於基準值測量，Varma及Chilton[7]指出：治療效應差異只有在剩餘效應不存在時才可被估計，而且兩次基準值測量(第一個治療前一次，治療間一次)不會比一次基準值測量（治療間一次）更好。
樣本大小、經濟效益與檢力
交叉設計的優點是所需樣本數較少，但這個優點只有在剩餘效應不存在時才能成立。本節將討論樣本大小、經濟、效益和檢力三者的關係。
Brown[5]指出：令So為一個新研究對象的收案成本（含尋找、篩檢、檢定是否適於研究及獲取對象的同意）；S1為研究對象在某一期的治療及觀測成本，則交叉設計的成本（Sco）為：
Sco ＝ 2n x S0 + 4n x S1 ...(9)
完全隨機設計的成本（Scr）為：
Scr ＝ 2m x S0 + 2m x S1 ...(10)
n代表交叉設計的研究對象人數，m代表完全隨機設計的研究對象人數。
當剩餘效應不存在時，S1/S0愈小（收案成本比治療成本小），SSI/SSE 愈大（個體間差異比個體內差異大）時，交叉設計就愈比完全隨機設計省錢。舉例而言，當治療成本為收案成本的四倍，個體間變異為個體內變異的二倍時，交叉設計只需要完全隨機設計成本的30﹪(即可省下70﹪的成本)。
但是，如果剩餘效應存在，交叉設計的變異數估計將會變大。當完全隨機設計以α為顯著水準，1-β為檢力，交叉設計以α1為顯著水準，1-β1為檢力；假設兩設計要得到相同的檢力(95﹪)，α＝0.05 α1=0.1且SSI＝SSE，則交叉設計的樣本大小約為完全隨機設計所需要的10倍。也就是交叉設計的成本將是完全隨機設計的R倍。
R＝Sco/Scr＝20S0＋40S1/2S0＋2S1＝10×〔(1+2S1/S0)/(1+S1/S0)
在剩餘效應存在時，交叉設計不僅無法減少樣本大小，而且會大大地增加成本。
待解決的問題
以前的學者建議在下列情形下，應該避免選用交叉設計[5．6]:
一．餘效應無法確定不存在時
二．治療會產生不可逆的變化時，例如治癒或破壞性治療
三．可預見中途流失者很多時
四．治療期間過長時
此外，個別效應和期別是否相關，以及個別效應和期別效應的交感效應的估計與檢定，均有待進一步的探討。
在醫學倫理上，空白期及重覆用同一種治療都很難被接受，而且也會增加病人的流失率。增加期數會使成本提高，同時也有醫學倫理上的問題。因此以上述方法來解決剩餘效應的問題，在臨床試驗上並不妥當。因此，更精確的剩餘效應估計與檢定方法，應是極需要發展的課題
結語
交叉設計在臨床試驗上，有減少樣本大小，降低研究經費及干擾因子易控制等優點。但當剩餘效應無法確定不存在時，交叉設計的樣本大小及研究成本都會遠超過完全隨機設計。
在應用簡單模式下的兩治療交叉設計研究，可以用公式6及7來檢定剩餘效應差異的大小，用公式2及3來計算兩治療間的差異檢定。
增加空白期、基準測量及期數可使治療效應差異估計更加精確，但是交叉設計原本的經費誘因將會消失，而且在醫學倫理上有時無法被接受，在研究上會增加病人流失的危險。
在臨床應用時，必須選用可量化的測量指標，而且必需建立流程圖。雖然流程圖的建立會使研究產生選擇偏差，但在醫學倫理的考量上是必要的。
交叉設計在下列情形時不宜採行：剩餘效應無法確定存在不存在；產生不可逆的治療結果；流失率高；治療期長。
誌謝
感謝蘇聖惠小姐的協助。
參考文獻
1. Boolell M, Gepi-Attee S, Gingell JG, Allen MJ: Sildenafil, a novel effective oral therapy for male erectile dysfunction. Brit J. Urol. 78:257-261, 1996.
2. McNair DM: Antianxiety drugs and human performance. Arch Gen Psychiatry 29:611-617, 1971.
3. Cleophas TJM: Interaction biases in two-period crossover studies: a modified analysis to test with more sensitiv- ity. Biom J. 35:181-191, 1993.
4. Poloniecki J,Hews R,Barker N:A review of cross-over trials The statistican 31:71-80, 1982.
5. Brown BW: The crossover experiment for clinical trials. Biometrics 36:69-79, 1980.
6. 郭英調:臨床試驗常用之研究設計。臨床醫學 31:427-430, 1993.
7. Varma AO, Chilton NW:Crossover designs invvolving two treatment. J. Periodontal Res.9:Supple 14:160-170, 1974.
8. Grizzle JE: The two-period change-over design and its use in clinical trials. Biometrics 21:467-480, 1965.
9. Berenblut II: Changover designs balanaced for the linear component of first residual effects. Biometrika 55:297- 303, 1968.
10. Koch GG: The use of the non-parametric methods in the statistical analysis of the two period changeover design. Biometrics 28:577-584, 1972.
11. Kershner RP,Fedreer WT:Two-treatment crossover designs for estimating a variety of effects.J. of the Amerrican statistical association. 76:612-619, 1981.
12. Hills M, Arnitage P: The two-period crossover clinical trial. Brit J. Clin Pharmacol.8:7-20, 1979.

表一. 簡單交叉設計

第一組第二組
期別治療觀察值治療觀察值
1 A Y(111) Y(121)...Y(1n11) B Y(211) Y(221)...Y(2n21)
2 B Y(112) Y(122)...Y(1n12) A Y(221) Y(222)...Y(2n22)
（本表摘自Brown BW ：The Crossover experiment for clinical trials. Biometrics 36：69-79，1980)
表二交叉設計常見術語的定義

治療效應（Treatment effect）以T（u）代表，u＝A．B 使用A治療或B治療的當期效果。
剩餘效應（Residual effect) 以R（u）代表，u＝A．B 使用A治療或B治療後，在下一階段所產生的效果。
累積效應（Cumulative effect）以C（u）代表，u＝A．B A治療或B治療在某一研究對象的全部效果。
期別效應（Period effect）以P（k）代表，k＝1．2 在第k期所產生的效應。
個別效應（Individual effect）以I（ij)代表，i＝1．2 第i組的第j個研究對象內在特質 j＝1, 2 所產生的效應。
機會效應（Random effect）以E（ijk）代表，i=1．2 第i組第j個研究對象在第k期所產生的隨機偏誤。

表三交叉設計時各效應的平均差與變異數

在剩餘效應不存在(R(u)=0)時，Cox[5]指出治療效應差異為T(B)－T(A)，治療效應差異的無偏估計為:
(1/2){[(第一組第二階段的平均值)－(第一組第一階段的平均值)]＋ [(第二組第一階段的平均值)－(第二組第二階段平均值)]} ...(2)
變異數為: (1/2)SSE(1/n1＋1/n2) ...(3)
總自由度為（n1-1）+（n2-1）, n1, n2分別代表兩組的人數.
Varma及Chilton[7]指出期別效應差異（P2-P1)其無偏估計可由下式得之：
(1/2){[(第一組第二階段的平均值)－(第一組第一階段的平均值)]＋ [(第二組第二階段的平均值)－(第二組第一階段平均值)]} ...(4)
變異數為:
(1/2)SSE(1/n1＋1/n2) ...(5)
總自由度為（n1-1）+（n2-1）, n1, n2分別代表兩組的人數.
Grizzle[8]指出，若剩餘效應總和不等於零，則治療效應差異將不是（2）所示的式子，治療效應差異的估計將受到剩餘效應的影響，因此我們有興趣知道剩餘效應之間的關係。依Grizzle[8]及Brown[5]的推算，剩餘效應差異（R(B)-R(A)），其無偏估計可由下式求得：
(1/2){[(第二組第一階段的平均值)＋(第二組第二階段的平均值)] －[(第一組第一階段的平均值)＋(第一組第二階段平均值)]} ...(6)
變異數為:
(4SSE+2SSI)(1/n1＋1/n2) ...(7)
總自由度為（n1-1）+（n2-1）, n1, n2分別代表兩組的人數.
有以上各公式的估計後，我們即能進行R(A)=R(B)的無效假設（Nall hypothesis）檢定。
當R(A)≠R(B)時，我們只能從兩組的第一階段觀察值來估計治療效應差異,而其變異數為
（SSI＋SSE）（1/n1＋1/n2） ...(8)
因此Grizzle[8]建議，只在無剩餘效應的假設成立時，才使用交叉設計，但他也進一步建議，當上述假設不確定時，應該以10﹪顯著水準（α＝0.1) 檢定R(A)＝R(B)的無效假設，若未能推翻虛無假設，則仍用公式(2)估計治療效應差異。

台灣醫界 1997, 40(9):

Hosted by www.Geocities.ws