整合分析在流行病學研究的應用   by 盧誌明 蘇清泉 藍守仁 謝中誠, 1999-08-15

前言

整合分析﹝meta-analysis﹞是一種用來分析多篇論文的統計方法[1-2]。這種方法目前已廣泛地應用於教育、社會科學、決策、及醫學等領域[3-7]。近三年﹝1995-1997﹞以「meta-analysis」為關鍵字發表,而被收錄於Medline的醫學論文分別有586、594、794篇。在中文醫學論述方面,據我們所知,在1995年即有李智貴與陳恆順醫師的引介論著[8]。這種分析方法較常見於臨床研究,非實驗設計的醫學研究﹝例如流行病學研究﹞則有較多的爭議。

本文以精索切除術﹝vasectomy﹞做為原發性攝護腺癌危險因子、及體重﹝BMI﹞做為腎細胞癌危險因子,這二個泌尿科仍在爭論的研究為例,說明二項式與非二項式的整合分析研究步驟、可能的問題、限制、解決方案,以及統計程式。

研究設計與蒐集資料

在整合分析的研究設計階段,研究者必須決定﹝一﹞研究主題的界定、﹝二﹞蒐集文獻的範圍、﹝三﹞適用模式的選擇、﹝四﹞蒐集資料的範圍。

﹝一﹞研究主題的界定

在研究主題方面,研究者需明確地定義「因」﹝臨床試驗通常是指治療的方式﹞─或稱作「暴露因子」﹝exposure﹞、「果」﹝outcome﹞、「干擾因子」﹝confunders﹞、「中間因子」﹝intermediates﹞、「效應調整因子」﹝effect modifiers﹞[1-2]。「因」是指研究者有興趣的、比「果」要早發生的事件。「干擾因子」則是和研究主題無關,但會讓「因」或「果」在測量上產生變化的因子。「中間因子」是在因果之間、由「因」造成的一個事件。「效應調整因子」是對不同的暴露類別有不同的影響,致使「果」的測量上發生變化的因子。

舉例而言,如果研究的題目為「精索手術為攝護腺癌之危險因子」,則在「因」方面,除了精索切除外,還應包含輸精管曩腫切除術、輸精管吻合術、精索靜脈結紮術••等等。題目為「絕孕手術為攝護腺癌之危險因子」時,則應包含雙側睪丸切除術。在「果」方面,要考慮「攝護腺癌」是否應包括轉移自直腸膀胱或其它器官的癌症﹝在ICD-9中,這些轉移癌與原發癌的疾病碼均為185﹞?只包括攝護腺腺癌、還是含括其他細胞癌﹝例如:移形細胞癌﹞?

已知的攝護腺癌危險因子:抽煙、年齡、荷爾蒙,其中的抽煙是研究中可能的「干擾因子」。此外,癌細胞需要一段時間﹝誘發期與潛伏期﹞的發展才會被診斷出來,所以進行精索切除術時病人的年齡、手術與診斷的時間間隔,也都是可能的「干擾因子」。如果研究對象的攝護腺已被切除,假設病人會因進行精索切除術而在數十年後導致癌症,也因可發病器官﹝攝護腺﹞已不存在而無法得知,這會使手術的致癌危險性被低估。所以攝護腺手術也是可能的「干擾因子」。有干擾因子存在而未加以調整的文獻,可以收入整合分析之中,但需經整合分析研究者加以調整,調整程序會在下文述及。

一般都認為睪固酮﹝testosterone﹞是攝護腺癌的危險因子,另外也曾有文獻報告睪固酮﹝testosterone﹞與精索切除術有關[9]。所以睪固酮﹝testosterone﹞在此例中是一個「中間因子」,如果研究者將其視為「干擾因子」而加以剔除,則有一些發病而且曾做過精索切除術的病例將被剔除,研究的結果將會傾向於「精索切除不是原發性攝護腺癌的危險因子」。因此辨識「中間因子」,並小心地將其與「干擾因子」釐清,才能減少第二型偏誤﹝將相關誤判為不相關﹞。

年齡通常被視為「效應調整因子」。三十多歲與六十多歲的人因曾暴露於某種危險因子,導致發生攝護腺癌的機會似乎會有所不同。此外,性別也是常見的「效應調整因子」。但攝護腺癌似乎不會發生於女性﹝一九九八年四月曾有人於美國泌尿科年會報告女性攝護腺癌﹞,所以可以不考慮性別造成的效應。

﹝二﹞蒐集文獻的範圍

在蒐集文獻方面,Medline是一個很好的起步資料庫[1,2],它所蒐集的都是具備一定研究品質的文獻。但對於尚未發表、或因沒有正相關而沒被接受、或只以「致編者函」、「摘要」型式發表的論文,則無法由Medline獲得整合分析所需的資料。所以透過相關研究者的網絡,例如研討會,請相關研究者提供他所知道的資料,是一條可行的蒐集文獻方法。國內的中文資料庫﹝例如教育部國家圖書館全國博碩士論文摘要檢索系統、中華民國期刊論文索引影像系統﹞可能也有相關且品質良好的文獻。

有些大型研究可能包含數個實驗室,所以同樣的研究對象可能出現在共同發表的文獻上,然後又出現在這些實驗室各別的報告之中。基於每個病例或對照只算一次的原則,整合分析研究者應小心的剔除這類報告。至於各別實驗室在原計畫外,加上一些病例或對照後再行發表的數據,也應剔除重覆者後再收集。最佳方案是能取得由原計畫研究主持人提供的原始數據。

﹝三﹞適用模式的選擇

對二項式的研究而言,其暴露的類別只有兩類﹝例如:精索切除術只有「做過」、「沒做過」兩種、攝護腺癌只有「有」、「沒有」兩種﹞,所以只需將原始數據換算一下即可。但對非二項式的研究而言,暴露的類別不只兩類,各類﹝層﹞的人數、間距可能不一致,因此整合分析研究者需選擇一個模式來計算每一單位暴露所產生的效果。以表一的BMI與腎細胞癌的研究為例,各層之間都是不等距的數字範圍,要計算每一BMI單位所能引起的腎細胞癌危險性,必須借助於一個合理的模式才可行。通常我們會採用下列的兩種模式的其中一種[1-2]:﹝In:自然對數;rr:相對危險性;a:截距;b:x的迴歸係數;x:研究因子;i:暴露層別;k:研究別﹞

模式(1) In (rrik) = ak + bxik
模式(2) In (rrik) = bxik

模式(1)與模式(2)的差異在於截距。一般來說,當暴露層有「0」這個數字時採用模式(1) ﹝如:每天抽幾支煙﹞,否則採用模式(2)﹝如:BMI﹞。詳細的應用程序會在下文述及。

﹝四﹞蒐集資料的範圍

醫學文獻所應用的研究族群、研究方法與統計分析,常常造成各個文獻的效力有所差異。為了令整合分析研究者有機會進一步了解各個不同結果是否因設計不同所致,我們建議收集每一篇文獻下列變項的數據:出版年代、研究方法﹝世代研究法、病例對照研究法─社區型或醫院型、橫斷型研究法﹞、病例來源﹝發病中、曾發病、死亡﹞、研究國家、性別﹝男、女、男與女混合﹞、干擾因子﹝年齡、抽煙、社經地位……﹞、對照組年齡的上下限、每一暴露類別的範圍﹝在二項式研究中為有或無、在非二項式研究中為數組標示上下限的數值﹞、每一暴露類別的病例人數與對照人數、每一暴露類別的相對危險性﹝relative risk﹞及其百分之九十五信賴區間﹝95% of confidence intervals﹞。若無百分之九十五信賴區間則收集每一暴露類別的p值,再由整合分析研究者換算為百分之九十五信賴區間。整合分析研究者擁有以上資料,才能對不同類型的研究試算其整合分析的結果,並了解其差異。表一是從兩篇論文中蒐集到的上述變項的資料[10-11]。

個別研究的加權調整

在這階段,整合分析研究者將對個別研究進行﹝一﹞單位暴露相對危險性及其標準誤的計算、﹝二﹞干擾效應、選樣偏差、錯誤分類的調整、﹝三﹞其他型式的數據及其標準誤的加權調整。

﹝一﹞計算單位暴露相對危險性及其標準誤

大多數的醫學文獻都以「相對危險性」﹝relative risk﹞報告研究結果。在病例對照研究則以「勝算比」﹝odds ratios﹞做為相對危險性的最佳估計。相對危險性是以暴露族群的罹病比例,除以非暴露族群的罹病比例而得。勝算比則是以暴露組的罹病人數與非暴露組的未罹病人數之積,除以暴露組的未罹病人數與非暴露組的罹病人數之積而得。在族群中,病例罕見的話,勝算比與相對危險性幾乎是相等的[12-13]。當病例罕見時,可將勝算比視為相對危險性[1-2],研究者毋須將不同的率轉換為相對危險性。

非二項式研究的每一暴露層通常就是一段數值的範圍,這段範圍在同一文獻內、或不同文獻間可能不同,所以必須將各層的相對危險性轉換為相等單位﹝單位暴露﹞的相對危險性。另外各文獻的人數與相對危險性的分佈也不一樣,所以還需進行加權調整才能進行下一步的整合分析。而通用的轉換、調整方法都是基於兩個假設:﹝一﹞各族群的單位暴露相對危險性一致、﹝二﹞追蹤期間各時點的單位暴露相對危險性一致[1-2]。這個同質性假設﹝homogeneity assumption﹞並非一定成立。表二顯示:在同一研究[10]中,加權調整後男、女每一單位BMI所引起的腎臟細胞癌相對危險性分別是1.02及1.08。下文會介紹檢定同質性的統計方法,但對於大多數結果為「不顯著」的研究而言,這類檢定的檢力﹝檢定出兩族群間有差異的能力,通常以百分比表示﹞太小[14],所以較佳的方案是研究者在做整合分析前,辨識年齡、性別……等顯著的「效應調整因子」,以增加上述假設的可能性。

前文提到的模式(1)、模式(2)是兩個計算單位暴露危險性的方法。模式中沒有交互作用的變項,因為不管模式中是否有這類變項,暴露層i的相對危險性總是等於自然對數的b(xik-x0k)次方﹝ln(rrik)=b(xik-x0k)﹞。因此可得下列公式[1-2] ﹝rrlik, rruik :rrik95%信賴區間,rrlik為下限,rruik為上限﹞:

公式(1) bik= In (rrik) /(xik-x0k)

此外,還可以由百分之九十五信賴區間算出bik值的標準誤seik:

公式(2) seik={In(rruik)-In(rrlik)}/3.92=In(rruik/rrlik)/3.92

有些文獻只提供p值,如果p值夠精確的話﹝p>0.1時準確到小數點下二位數;p<0.1時準確到至少出現一位非零的數字﹞[1],則可得到下式:﹝zp :p值等於p時標準常態分配下的Z值﹞

公式(3) seik=In(rrik)/Zp

在公式(2)可用的情況下,不要以公式(3)估算迴歸係數b的標準誤,如果文獻未報告可用的p值,則應考慮與原作者連絡或捨棄該文獻。

計算單一文獻各暴露層的整合迴歸係數bk及其標準誤sek時,需要加上各層的加權量,通常以1/ seik 2做為加權量[15]。由此可得到下列公式:

公式(4) wik=1/seik2
公式(5) bk=Swikbik/Swik
  公式(6) sek=1/OSwik
附錄一的SAS程式可以計算上述諸值。這個SAS程式是非二項式暴露變項的程式,舉例所用的數據取自表一的研究3a,這個程式每次只能計算一個研究的迴歸係數與標準誤。也就是說,當整合分析要處理二十六個研究時,必需跑此一程式二十六次。SAS輸出﹝output﹞報告中的「estimate」就是SAS程式2.A的b,也是公式(5)的bk,「error」就是SAS程式2.A的se,也是公式(6)的sek。二項式暴露變項研究直接應用附錄二的SAS程式2.B,不需像非二項式暴露變項研究跑多次SAS程式。

﹝二﹞調整干擾效應、選樣偏差、錯誤分類

部分早期的研究文獻,或是限於當年可用的統計方法,對於某些現在已知的干擾因子並未加以控制。整合分析研究者需為這類研究的相對危險性進行干擾因子的調整。統計學家建議:以其他用相同方法測量「結果」的文獻所估算的特定干擾因子效應,來調整那些未控制干擾因子的研究數據[16-20]。一個常見的方法是由其他文獻算出調整干擾因子前後的相對危險性﹝以RRc、RRa分別代表調整前與調整後的相對危險性﹞,將其相除算出干擾效應因子U﹝U=RRc/RRa﹞。未控制干擾因子的文獻,其調整後相對危險性rra及迴歸係數ba即能由原相對危險性rrc及迴歸係數bc估算:

公式(7) rra=rrc/U

公式(8) exp(ba)=exp(bc)/U 或 U=exp(bc-ba)  或 ba=bc-lnU

理論上調整後迴歸係數ba的標準誤sea應該是干擾效應因子U的變異數與調整前變異數sec2之和的平方根﹝sea=O{Var(lnU)+ sec2}﹞。但目前還沒有方法可以算lnU的變異數。由於ba與bc的高度相關,所以lnU的變異數應會遠小於sea2,所以一般都以sec代替sea。

  理論上,如果有可用的文獻、原始資料,選樣偏差﹝selection bias﹞是可用調整干擾效應的相似方法加以調整[2]。同樣的,如果有可用的錯誤分類表及原始資料,錯誤分類﹝misclassification﹞也是可用相似方法加以調整[2]。

  ﹝三﹞加權調整其他型式的數據及其標準誤

文獻中常見作者並不是報告單位暴露相對危險性,而是以類別﹝有無暴露﹞的型式報告其發生率﹝rates﹞、危險性﹝risks﹞、標準化死亡比﹝standardized mortality ratios﹞、或是只有平均值的資料。

如果原始文獻的資料只有發生率或危險性﹝以r代表﹞,則應用類別變項最小均方迴歸加權的方法將其調整為整合分析可用的資料[15]。這種加權的假設是ln(r)或logit(r)﹝即ln(r/1-r)﹞為常態分配。根據Howe[21]及Walker[22]的研究,只要每一細格的研究對象數﹝即算率或危險性時,分子的人數﹞期望值大於等於四,上述假設即可成立。對於ln(r)而言,加權後應該是(r/se)2;對於logit(r)或ln(r/(1-r))而言,加權後應該是{r(1-r)/se}2。若ru、rl為r之95%信賴區間,rl為下限,ru為上限,則當ru-r=r-rl時﹝即上下限是以算術對稱呈現﹞,標準誤為(ru-rl)/3.92;當ru/r=r/rl時﹝即上下限是以幾何對稱呈現﹞,標準誤為{In(ru/rl)}/3.92。如果沒有標準誤或信賴區間的資料,但知道和r有關的人時數﹝以N代表﹞,則加權後為rN,標準誤為O(r/N)。如果只知道和r有關的人數﹝以n代表﹞,則加權後為r(1-r)n,標準誤為O{r(1-r)/n} [2]。

當文獻以標準化死亡比﹝以smr代表﹞、95%信賴區間﹝以smrl代表下限、smru代表上限﹞報告結果時,則ln(smr)的標準誤為ln{(smru/smrl)/3.92}。如果不知道信賴區間的資料,但知道和各smr有關人數﹝以m代表﹞,則ln(smr)標準誤為Om [2]。

當文獻報告的資料為病例組與對照組的人數﹝分別以M1、M2代表﹞、平均值﹝分別以m1、m2代表﹞、標準差﹝分別以S1、S2代表﹞時,Cornfield[23]建議其估計變異數S2為{(M1-1)S12+(M2-1)S22}/( M1+M2-2),迴歸係數b為(m1-m2)/ S2,b的標準誤為O {[(1/M1)+(1/M2)]/ S2}。

  當文獻以「以上」、「以下」之類的描述取代數值範圍時,應考慮參考其他有同質研究族群的文獻報告的數據。例如:在某文獻中以BMI小於等於22為一個類別,而有另一同質族群的研究指出每一BMI的人數﹝例如:BMI為19的有5人,20的有6人,21的有6人,22的有5人,23的有6人,﹞,則以這研究中「BMI小於等於22的人的BMI平均值」20.5﹝(19x5 + 20x6 + 21x6 + 22x5)/22 = 20.5﹞代表「BMI小於等於22」的人的BMI。

整合分析的方法

個別整理單位暴露效應與干擾效應之後,下一步是將可用的文獻進行整合分析。首先是對各文獻的效應﹝單位暴露相對危險性﹞加權處理。Grizzle等人[15]指出:各效應的的加權量w應該是其變異數的倒數。也就是:

公式(9) wk=1/sek2

當然不是所有的文獻其加權量都是其變異數的倒數。例如:被捨棄的文獻,其加權量是零;經干擾效應調整的文獻,其加權量應小於變異數的倒數。但大多數學者不主張在正式的整合分析中調整加權量[1-2]。一般認為可以在敏感度分析﹝sensitivity analysis﹞、影響度分析﹝influence analysis﹞、討論的部份提及這些問題。

第二步為估算整合後的迴歸係數。將個別文獻的迴歸係數乘上加權量之和,除以加權量之和,可以得到整合後的迴歸係數B:

公式(10) B=Swkbk/Swk

迴歸係數B代表相對危險性﹝RR﹞或勝算比﹝OR﹞的自然對數值﹝ln(RR)、ln(OR)﹞,可同時適用於二項式與非二項式暴露變項。其標準誤SE則是加權量之和的倒數:

公式(11) SE=1/OSwk

相對危險性或勝算比的百分之九十五信賴區間如下:

公式(12) 95% CI of RR=exp(B±1.96(SE))

附錄二的SAS程式可以處理上述計算。只有最後一筆數值是代表整合分析的相對危險性﹝meta_rr﹞與信賴區間﹝meta_rrl、meta_rru﹞。其他是計算過程可以略過。

此外,還可以近似Z檢定「迴歸係數B等於零」的假設:

公式(13) Z=B/(SE)

如果Z值大於1.96,則p值小於0.05,即整合分析的結果為暴露與結果有顯著相關。這個檢定及信賴區間的計算都不可以用t檢定的值[15]。

為了進一步討論整合分析的結果,通常還須進行異質性分析、敏感度分析、及影響度分析。

上文曾提過,整合分析的轉換、調整方法都是基於同質性假設,即各族群及追蹤期間各時點的單位暴露相對危險性一致。同質性假設在整合分析中的重要性甚至比上述的計算過程還要重要[24]。但在實務上,由於各文獻的共變數、偏差、暴露的差異,「一致」假設幾乎是不可能成立的。但異質性分析﹝analysis of heterogeneity﹞可以令我們了解:各文獻間的差異是否小到可以忽略它的存在。另外,一個無顯著差異﹝p值大於0.05﹞的異質性分析結果,並不保證各文獻間的差異是可以忽略的,這是在詮釋整合分析的結果時必須小心的地方。最常用的異質性分析公式如下﹝自由度為文獻數減一﹞[2]:

  公式(14) Xh2=Swk(bk-B)2

附錄二的SAS程式可處理上述計算。只有最後一筆數值﹝x2﹞是異質性分析的結果。其他是計算過程同樣可以略過。

敏感度分析是將各種可能的調整值,各自進行一次整合分析,以了解該項調整的效應。例如:將干擾效應的調整拿掉,以了解如果不對干擾效應進行調整,對整合分析的影響有多大。如果差異不大,那就代表干擾效應在整合分析中並「不敏感」,我們可以對整合分析的結果更有信心。如果差異太大,則應該以調整後的結果為主。

影響度分析是將某特定的一篇文獻或某特定群的文獻﹝例如:以社區為母群體的研究﹞,暫時抽出或給予較低的加權量﹝通常是原加權量的一半﹞,再進行一次整合分析,以了解某些特定的文獻對整個分析的影響。如果差異不大,那就代表問題不大。如果有某一篇文獻的影響很大,應該檢查這筆資料是否有問題,如果沒有問題,則不宜改變它的加權量。

在此之前,本文假設各研究都有一個相同的迴歸係數,所以當公式(14)所得到的Xh2值太大時﹝Xh2=Swk(bk-B)2﹞,代表至少有一個研究的迴歸係數和其它迴歸係數有差異,這時應該考慮以隨機效應模式﹝Random-effect model﹞進行整合分析[1-2]。DerSimonian與Laird已經發展出一個模式,讓各研究的迴歸係數不需固定,而以隨機分配的方式呈現[25]。附錄三的SAS程式可以用來計算隨機效應模式下的相對危險性與信賴區間。在該公式中需知道某些數值,其中 lrr可以自SAS程式2.A或2.B的結果得知﹝只要最後一筆的lrr值﹞,N為納入該次分析的文獻數,可以手算得知,m可以自SAS程式3.a的結果得知﹝只要最後一筆的m值﹞,然後將上述三個數字填入SAS程式 3.b。SAS程式3.a的最後一筆Q值應和Xh2相同。最後可以得到隨機效應模式下的相對危險性﹝SAS程式3.b的expu﹞與信賴區間﹝SAS程式3.b的ul、uu﹞。

最後,發表時可用下列方式報告整合分析的結果:

﹝一﹞表格:論述引用文獻時,可用包含下列項目的表格:研究設計的型態、樣本大小、母群體的類型、干擾因子控制與否、病例數﹝或人時數﹞、對照數﹝或人時數﹞、暴露層的描述、調整前後的相對危險性與信賴區間﹝或標準誤﹞、調整前後的相對危險性之差、加權量[2,26]。

﹝二﹞圖示:有以下兩種常見的作法,即以各文獻的迴歸係數﹝bk﹞為橫軸,加權量﹝wk﹞為縱軸,繪出各迴歸係數的加權長條圖﹝weighted histogram﹞[2]。或是以迴歸係數﹝bk﹞為橫軸,作出各文獻迴歸係數的點估計與其信賴區間的點線圖[26]。本文圖例的資料取至自表二。

可能的問題、限制、解決方案

整合分析可能遇到的問題將在以下討論:

  一、擴大解釋﹝Overconclusiveness﹞:因為整合分析的總樣本數很大,因此其信賴區間常常很窄,這可能會導致過度擴張結果的解釋。此外,整合分析的結果完全基於研究者所蒐集到的文獻資料,Greenland[1]曾報告在咖啡與心肌梗塞的關係上,如果只蒐集到病例對照研究部份的文獻,整合分析的結果是「每天喝五杯咖啡增加30-55%的心肌梗塞機會」,但世代研究部份,同樣的模式得到的數據是9-26%。LeLorier[27]以整合分析的結論與後來的大型研究比較,發現它們的一致性只有三分之一左右﹝kappa = 0.35; 95% CI 6-64%﹞,整合分析的陽性預測值是68%,陰性預測值是 67%。總之整合分析只能就所蒐集到的文獻討論,過度擴大解釋可能導致錯誤。

二、集體偏差﹝Aggregation bias﹞:假設有一項肥胖與鹽食用量關係的研究,發現肥胖組的用鹽量遠高於非肥胖組,而下結論說:「肥胖與鹽食用量有關」,但事實上只是因為肥胖組中有一個用鹽量特別高的人,除去此人後,兩組的用鹽量即無顯著差異。這種將全體所得的數據用來推論個人的數據所產生的錯誤,被流行病學家稱做生態謬誤﹝ecological bias﹞或集體偏差。在整合分析中,這種偏差可能因為由文獻的最終資料反推個人的危險性而產生[28]。整合分析因為方法上的問題,無法完全避免此類偏差,所以研究者在詮釋整合分析的結果時必需考慮這種可能性。

三、出版偏差﹝Publication bias﹞:因為醫學雜誌的編輯傾向於刊登有顯著相關的論文[24,29],沒有顯著相關的文獻進入整合分析可能性比有顯著相關的文獻低,造成整合分析的結果較可能接受「有顯著相關」[29]。唯一解決方法是直接向相關領域的研究者查詢未發表的論文。用修正數據或估計未發表的數據都是不可靠的方法[2]。

四、樣本太小﹝small studies﹞:整合分析在做計算、調整或加權時,都假定文獻的研究樣本都大到符合常態分配。前文曾提到,如果每一細格的研究對象數期望值大於等於四,則可以符合常態分配[21-22]。在一比四配對病例對照研究中,如果勝算比介於0.3至3.5,則只要二十五個病例就可以符合常態分配[2,4]。如果樣本小到無法符合上述要求,當其加權量佔全整合分析的比重不大時,重要性就不會太高。但它的加權量佔的比重很大時,可以參考McCullagh與Nelder[30]、及Dyer[31]的方法加以處理。

五、捨棄的資料:有時因為文獻的結果以非正統的統計術語或型式呈現,而被捨棄。這樣的資料當然無法用在整合分析上,但在捨棄這類報告後,仍要小心地評估它們的價值[1-2]。

六、研究品質的加權:有學者進行整合分析時採用研究品質的加權,即世代研究設計給十分,巢式病例對照研究設計給八分,社區型病例對照研究設計給四分;或是將抽煙的類型分為二、三、四類的分別給予二、三、四分,然後以得分除以變異數做為加權量。這方法完全依研究者個人而定,而且會使結果看不出各種研究類型的結果是否不同,所以應該避免這種方法。合理的辦法是每一類型各進行一次整合分析[1]。

七、論篇計算的結論:即使不看文獻的詳細數據,也可以將它們分為「正相關」、「不相關」、「負相關」,但是不能以這種方式來決定整合分析的結論。因為「不相關」可能是未達到顯著水準的「正相關」或「負相關」,「正相關」或「負相關」可能有很大的偏誤,而且這也看不出文獻之間的異質性。因此,不要以文獻的定性分類來判斷其整合分析的結果[1-2,30]。

八、檢定統計值離散圖:每篇文獻「檢定統計值」﹝卡方值或Z值﹞的離散圖,並不能提供有用的資訊。因為檢定統計值的大小決定於樣本大小,又因為自由度的考慮,較大的卡方值不一定代表顯著相關,較小的也不一定代表不相關。所以對於整合分析,只有誤導的效果[32]。

  九、迴歸係數、相關、效應大小的標準化﹝Standardized coefficients, correlations, effect sizes﹞:「標準化」是指將暴露效應除以標準差,然後會得到一個Z值之類的統計值,使不同文獻的暴露效應可以互相比較。但是這個統計值的大小並不代表單位暴露效應的大小,有時甚至完全相反[33]。整合分析的結果就可以說明全部文獻的總效應,文獻間的比較並非重心。所以整合分析中,以暴露單位﹝而不是標準差單位﹞來報告暴露效應方可提供足夠的資訊。

結論

  醫學界應用整合分析的歷史至少可以追溯到一九八O年代初期,近年發表的論文數也在增加中。這是一種將結論互相牴觸的文獻集合起來,用客觀的數學方法,檢視其數據的一個統計工具,同時也是時間短、花費小、人力少的研究方法。在臨床試驗方面,整合分析已有很多良好的應用,但在非實驗設計的研究方面,必需處理與注意詮釋的問題較多。本文引介了整合分析的計算原理與公式、同質性假設及檢定方法、敏感度分析、影響度分析,研究人員可以按步就班設計一個整合分析的研究。此外,本文也提到隨機效應的檢定、研究上的可能問題及解決方法,並提供整合分析的SAS統計程式,使研究人員能快速計算出結果,並且正確地詮釋結果。(最近研究者以混合模式 (mixed model) 從事整合分析時的干擾因素控制。作者將另文討論此一議題。)

參考文獻

1. Greenland S: Meta-analysis. In: Rothman KJ, Greenland S (eds): Modern Epidemiology 2nd ed. Philadelphia: Lippincott-Raven Publishers 1998:643-673.
2. Greenland S: Quantitative methods in the review of epidemiologic literature. Epidemiol Rev 9:1-30, 1987.
3. Louis TA, Fineberg HV, Mosteller F: Findings for public health from meta-analysis. Annu Rev Public Health 6:1-20, 1985.
4. Yusuf S: Obtaining medically meaningful answers from an overview of randomized clinical trials. Stat Med 6:281-294, 1987.
5. Mosteller F, chalmers TC: Some progress and problems in meta-analysis of clinical trials. Stat Sci 7:227-236, 1992.
6. Petiti DB: Meta-analysis, decision analysis, and cost-effectiveness analysis in medicine. New York: Oxford University Press, 1994.
7. Shapiros S: Meta-analysis/shmeta-analysis. Am J Epidemiol 140:771-778, 1994.
8. 李智貴 陳恆順: 統合分析 (Meta-analysis) 之簡介. 當代醫學 2:167-172, 1995.
9. James WH: Prostatic cancer, coital rates, vasectomy and testosterone. J Biosocial Sci 26:269-272, 1994.
10. McLaughlin JK, Mandel JS, Blot WJ, Schuman LM, Mehl ES, Fraumeni JF Jr: A population-based case-control study of renal cell carcinoma. J Natl Cancer Inst 72:275-284, 1984.
11. Goodman MT, Morgenstern H, Wynder EL: A case-control study of factors affecting the development of renal cell cancer. Am J Epidemiol 124:926-941, 1986.
12. Miettinen OS: Estimability and estimation in case-referent studies. Am J Epidemiol 103:226-235, 1976.
13. Greenland S, Thomas DC: On the need for the rare disease assumption in case-control studies. Am J Epidemiol 116:547-553, 1982.
14. Greenland S: Tests for interaction in epidemiologic studies: a review and a study of power. Stat Med 2:243-251, 1983.
15. Grizzle JE, Starmer CF, Koch CG: Analysis of categorical data by linear models. Biometrics 25:489-504, 1969.
16. Bross IDJ: Spurious effects from an extraneous variable. J Chronic Dis 19:637-647, 1966.
17. Bross IDJ: Pertinency of an extraneous variable. J Chronic Dis 20:487-495, 1967.
18. Schlesselman JJ: Assessing effects of confounding variables. Am J Epidemiol 108:3-8, 1978.
19. Simon R: Re: Assessing effects of confounding variables. Am J Epidemiol 111:127-128, 1980.
20. Yanagawa T: Case-control studies: assessing the effect of a confounding factor. Biometrika 71:191-194, 1984.
21. Howe GR: confidence interval estimation for the ratio of simple and standardized rates in cohort studies. Biometrics 39:325-331, 1983.
22. Walker AM: Small sample properties of some estimators of a common hazard ratio. Appl Stat 34:42-48, 1985.
23. Cornfield J: Joint dependence of risk of coronary heart disease on serum cholesterol and systolic blood pressure: a discriminant function analysis. Fed Proc 21:58-61, 1962.
24. Light RJ, Pillemer DB: Summing up: the science of reviewing research. Cambridge, MA: Harvard University Press, 1984.
25. DerSimonian R, Laird N: Meta-analysis in clinical trial. Controlled Clin Trials 7:177-188, 1986.
26. Bernal-Delgado E, Latour-Perez J, Pradas-Arnal F, Gomez-Lopez LI: The association between vasectomy and prostate cancer: a systemic review of the literature. Fertil Steril 70:191-203, 1998.
27. LeLorier J, Gregoire G, Benhaddad A, Lapierre J, Derderian F:Discrepancies between meta-analyses and subsequent large randomized, controlled trials. N Engl J Med 337:536-542, 1997.
28. Morgenstern H: Uses of ecologic analysis in epidemiolohic research. Am J Public Health 72:1336-1344, 1982.
29. Hedges LV, Oklin I: Statistical methods for meta-analysis. New York: Academic Press, 1985.
30. McCullagh P, Nelder JA: Generalized linear models. New York: Chapman and Hall, 1983.
31. Dyer AR: A method for combining results from several prospective epidemiologic studies. Stat Med 5:303-317, 1986.
32. Cox DR, Hinkley DV: Theoretical statistics. New York: Chapman and Hall, 1974.
33. Greenland S, Schlesselman JJ, Criqui MH: The fallacy of employing standardized regression coefficients and correlations as measures of effect. Am J Epidemiol 123:203-208, 1986.

台灣醫界 1999, 42(8):

Hosted by www.Geocities.ws

1