| 簡介遺傳流行病學的研究設計 by 盧誌明 蘇清泉 藍守仁 謝中誠, 2000-05-15 |
|
一、前言 遺傳流行病學是一門較新的學科,七十年代起,遺傳流行病學開始與分子生物學結合,成為探討人類遺傳病的正式學科1。第一本討論遺傳流行病學的書籍(Morton的「Outline of Genetic Epidemiology2」)出版於一九八二年,一九八四年第一本遺傳流行病學期刊(Genetic Epidemiology)才開始發行3。第一本專書的作者Morton定義遺傳流行病學為「研究家族疾病,或人群遺傳疾病的病因、分佈與管制的科學」2,另一本書的作者Khoury指出:遺傳流行病學尋求清楚地說明「在人群疾病的發生機轉裡,遺傳因子的角色及其與環境因子的交互作用」3。在此之前,流行病學的研究把環境因子(例如社會、地區、營養、飲食、化學物質、生物體及其所含物質、身體、感染病原)作為研究目標,而將遺傳因子(例如性別)視為干擾,而傳統遺傳學研究則是在嚴格控制環境因子下,以實驗的方法探討遺傳機轉3-4。早年遺傳學家只能透過少數具多形性狀的(polymorphic)基因座來測量遺傳訊息5,現在由於「人類基因輿圖計畫」(Human Genome Project,另文介紹)及相關研究的成果,遺傳流行病學家已掌握了更多研究疾病機轉的工具(例如多形性狀基因標記、分析方法),可以同時研究家族性疾病的遺傳與環境致病因子1。 本文將介紹應用於群體性遺傳流行病學研究,傳統的病例對照研究設計:近親通婚研究、異族通婚研究、候選基因研究;非傳統的無對照研究、病例父母對照研究、罹病親屬配對研究;以及家族性研究中的家族研究、領養研究、雙胞胎研究、分離分析、與連鎖分析的研究設計。 二、群體性研究設計 遺傳流行病學的研究可分為群體性研究(population study)與家族性研究3(family study)(表一)。 群體研究討論的主題是:一)、不同族群易感對偶基因(susceptibility alleles)的盛行率;二)、不同種族變異的決定因子;三)、遺傳特徵與疾病的相關性3(表一)。群體性研究的研究設計以病例對照研究法為主,就傳統的流行病學研究法來說,病例對照研究法比世代研究法及橫斷式研究法更適合於遺傳病研究。由於遺傳病的病因(基因)與生俱來、通常是罕見疾病,對遺傳病研究而言,病例對照研究法在因果時序方面和世代研究法一樣明確,且能同時研究多種危險因子及遺傳環境交互作用3。這類研究又可分為不涉及遺傳因子(例如特定對偶基因)的近親通婚研究(inbreeding study)與異族通婚研究(Admixture study),以及涉及遺傳因子的候選基因研究(candidate gene approach)。非傳統研究設計的特點是沒有對照組,常用的設計有以下三種:無對照研究(case-only study)、病例父母對照研究(case-parental control study)、罹病親屬配對研究3(affected relative-pair study)。 近親通婚研究 近親通婚研究比較近親通婚所生子女與對照者所生子女的發病率或死亡率6-7,以證明可能有遺傳因子的存在,適合用在隱性遺傳病,對於病因不明的疾病,近親通婚研究有助於釐清隱性遺傳因子和疾病的關係。 假設某基因有A、B、C、D四個不同的對偶基因(allele,同源基因座上不同的DNA順序,即不同版本的基因),父親的基因型為AB,母親為CD,若子代有對偶基因A,則這個A就是來自父親,這種能夠辨認子代的對偶基因來源的,稱為「血統證明」4(IBD,identity-by-descent)。近親通婚係數(inbreeding coefficient)是近親通婚研究的暴露變項,此一係數代表某人自體染色體基因座的兩個對偶基因都有血統證明的機率,這個機率是已知數,表兄妹通婚所生子女的近親通婚係數是1/16,表兄妹通婚所生子女之間的通婚所生子女的近親通婚係數是1/64。如果使用多代家族資料,可用徑路分析法算出近親通婚係數3。 由於近親通婚研究的病例父母除了血緣關係外,還可能有相同的地域、文化、宗教、及人口學特徵,完全與病例配對的對照者可能不易招募。因此分析近親通婚效應時必需進行分層分析與調整3。 異族通婚研究 異族通婚研究比較病例組與對照組的異族通婚程度(extent of racial admixture),例如患糖尿病黑人和無糖尿病黑人比較,前者與白人通婚率較高,則白人的致病基因可能對黑人的糖尿病有部分相關8。此種研究適合用在各種族間發生率有顯著不同的疾病3。 異族通婚程度是異族通婚研究的暴露變項,祖先原籍或原族法、姓氏法、基因標記是現在用於測量種族通婚程度的方法。異族通婚研究和其它病例對照研究一樣,會有潛在的干擾因子,例如:異族通婚可能與社經地位、文化、或某種暴露因子有關。 候選基因研究 候選基因研究用於評估特定基因在致病機轉中的角色,候選基因是一種基因標記(genetic marker),它可以表現出人類特徵(例如決定的血型基因),知道它在染色體上的位置及遺傳型式的基因,它必需可以被檢測4。有兩類基因標記可用於候選基因研究,第一類是基因的「產品」,例如:色盲、人類白血球抗原(HLA)、血型、酵素、蛋白;另一類是DNA定序技術產生的基因標記3。 乳癌的致癌基因BRCA1(位於17q21)於一九九o年被Hall等人發現9,後來一項針對乳癌家族的研究發現:娶這些家族女性為妻的男人全未罹患攝護腺癌,而乳癌家族中共有十三位攝護腺癌患者,研究者以BRCA1為攝護腺癌的候選基因設計研究,結果發現有BRCA1的十六人中已有七人發病(44%)10。 傳統研究設計的問題 干擾、基因型錯誤分類是傳統研究設計的主要問題3。 對遺傳流行病學研究而言,人種或種族是重要的干擾來源,例如Knowler等人報告的基因標記Gm3,5,13,14與糖尿病的相關性,在調整異族通婚程度後相關性就消失了3,11。 以間接的觀測資料(例如尿中代謝物)做為基因型的分類標準,以及連鎖不平衡(linkage disequilibrium)均可能造成基因型錯誤分類3。假設基因座(locus,基因在染色體上所佔的特定位置)A的對偶基因分別是A、a,基因座B的對偶基因是B、b,若基因座A出現對偶基因A、a的機率為P(A) 、P(a),基因座B出現對偶基因B、b的機率為P(B) 、P(b),在理論上似乎兩個基因座出現對偶基因A、B的機率(P(AB))應符合獨立事件的機率乘法法則,即P(AB) = P(A)×P(B),同理P(Ab) = P(A)×P(b)。如果遺傳是以這種方式進行,即使已知基因座A的對偶基因是A,仍無法知道另一基因座上的對偶基因是B或b。但研究證明,對偶基因並非隨機配對,例如:胰島素依賴型糖尿病患的胰島素基因座的對偶基因是致病對偶基因,則Class I對偶基因出現於鄰近的5'FP基因座的可能就增高,也就是P(Ab) ≠ P(A)×P(b)12-14。這種對偶基因不隨機分配的現象稱為連鎖不平衡4。但是基因標記的特定對偶基因,仍有可能因重組而不與致病對偶基因連鎖,如以基因標記的變異(variation)決定疾病基因的基因型則會產生錯誤分類。這兩類的錯誤分類通常使顯著差異變成無顯著差異3。 無對照研究 無對照研究法用於探討環境暴露與易感基因型之間的相關3。因為沒有對照組,所以研究數據完全來自病例,以表二為例,這個研究可用的數據只有病例欄的四個數字,分析的結果是代表病例的勝算比(ORca = ad/bc),令ORca代表對照的勝算比(= eh/gf),則: ORca = [ORge/( ORe×ORg)]×ORco = {(de/ah)/[(ce/ag)×(be/af)]}×(eh/gf)= ad/bc。 假設遺傳因子、環境暴露互為獨立事件,則對照的勝算比期望值應為一,所以ORca恰好是遺傳環境交互作用勝算比與遺傳因子勝算比、環境暴露勝算比乘積之比。如果ORca大於一,則代表有相乘效應3。 由於無對照研究的前題假設為「遺傳因子、環境暴露互為獨立事件」,因此這個研究設計不能用於遺傳因子與環境暴露可能有關的研究,例如酒精去氫 (遺傳因子)較少的人較不喜歡喝酒(環境暴露),酒精去氫 與酒癮的研究就不宜用這個設計15。此外,無對照研究不能估計遺傳因子、環境暴露的各別危險性,如果ORca等於一,不一定代表遺傳因子、環境暴露有相加效應。由於連鎖不平衡,無對照研究發現與疾病有關的基因,可能是一個位於疾病基因座附近的基因標記,而不是疾病基因座本身3。 父母對照研究 父母對照研究法以罹病者的父母為對照組,探討特定基因型或對偶基因是否和疾病危險性相關13,16-17。在Spielman等人的論文中13,假設疾病基因座的對偶基因分別是A(致病對偶基因)、a,基因標記基因座的對偶基因是B、b、……,為了便於討論假設每一家族只有一罹病者,n為進入研究的家族數,共有2n位父母,之中把對偶基因B傳給子女而另一個對偶基因b未傳下去(記為B/b)的人有j位,同樣的,B/B、b/B、b/b的情況各有i、k、l位(表三),則χ2 = (j-k)2/(j+k) ,自由度為一。這個χ2稱為「TDT」,記做χ2td,也就是基因子傳遞不平衡檢定(transmission/disequilibrium tests)統計值。如果χ2td > 3.86,則此一特定對偶基因所在的基因座與疾病有關。 父母對照研究不能估環境暴露的危險性,但優於無對照研究法,它可以估計基因型的危險性。由於父母對照研究是一個匹配設計,危險性的估計應採用匹配設計的算法,以表三為例,危險性是j/k3,16。 罹病親屬配對研究 罹病親屬配對研究法是罹病兄弟姐妹配對法的擴大應用,它把全部罹病親屬都視為研究對象,而且不需知道或假設遺傳型式,只需引用「形貌證明」的資訊18-23。和「血統證明」(IBD)相較,若父親的基因型為AB,母親為AC,則無法分辨出子代的A是父母的那一方給予的,僅能辨認親代與子代的對偶基因相同,無法決定子代對偶基因的真正來源的,這種情形稱為「形貌證明」24-25(IBS,identity-by-state)。在孟德爾氏遺傳律下,兩兄弟的對偶基因完全不同的機率為0.25,有一個相同的機率為0.5,完全相同的機率為0.25,如果罹病親屬配對的對偶基因分配機率偏離上述分配(可以用適合度檢定,goodness-of-fit test),則這個基因座和疾病有關(表四)3,也就是此一基因座與疾病基因座很接近(術語稱為「連鎖」,linked),或者就是疾病基因座本身。 和其它無對照研究一樣,罹病親屬配對研究不能估環境暴露的危險性,但可以估計基因型的危險性,選擇偏差(selection bias)對危險性估計的影響很大,因此要特別注意存活率、慢性化及抽樣方法對危險性估計的影響3。 三、家族性研究設計 家族性研究討論的主題是:一)、疾病的家族聚集性(family aggregation);二)、家族聚集性疾病的病因;三)、建立遺傳型態3(modes of inheritance)。家族性研究(包括家族研究與家族史研究、領養研究與雙胞胎研究、分離分析、連鎖分析與相關性分析)的研究順序被稱為「遺傳流行病學研究之鏈」26(chain of genetic epidemiologic research)。研究之鏈的第一個環節:家族研究或家族史研究,用於查證疾病是否具有家族聚集性;其次,領養或雙胞胎研究用於確定家族聚集性與遺傳因子是否相關,由於家族聚集疾病,除了遺傳之外,也可以由環境(如膀胱癌與井水含砷)、病媒(如肺結核病與結核菌)、共同的生活習慣(如肺癌與抽煙)所引起,因此「家族聚集性疾病」並不是遺傳病的同義詞4。確定疾病的病因與遺傳因子有關之後,接著以遺傳模式(genetic models)、分離分析(segregation analysis)研究致病機轉,再以連鎖分析(linkage analysis)、相關性分析(association analysis)瞭解控制遺傳特徵的基因在染色體上的位置(表一)。 家族研究 傳統流行病學研究以類別變項的問卷調查家族聚集性,例如:家族中有沒有其他人罹患癌症?然後把這個變項當做危險因子處理,Khoury與Flander發現這樣的調查方式會導致測量偏差,因為上述問題的答案與家族成員多寡、年齡分佈、和病例的遺傳因子分享程度、及環境暴露有關27。 調查家族聚集性的研究設計,將被研究家族以指標病例有無罹病分為兩組,訪視每一位親屬的罹病狀態,然後依親等計算危險性3(表五)。指標病例(probands)這個術語是指引起研究者開始注意該家族的成員,有人將他譯為首發病例,但這個首發病例並不一定是家族中第一個發病者,也不一定只有一位4。如果遺傳性存在,同一親等的病例組罹病率應較對照組高,病例組一等親(父母、子女、兄弟姐妹)的罹病率比二等親(祖父母、孫子女、伯、叔、舅、姑、姨、姪、甥、同父異母或同母異父的兄弟姐妹)高,二等親比三等親(堂兄弟姐妹、表兄弟姐妹)高……3-4。「醫學上」的親等與「民法上」的親等有所差異,醫學上的親等是依基因的分享程度而定的,研究對象與其一等親之間的基因分享程度是百分之五十,與二等親之間的基因分享程度是百分之二十五4。 研究家族聚集性有兩種方法:家族研究法(family study)與家族史研究法(family history method)。前者訪視家族的每一成員,後者只訪問少數成員,由這些成員提供其它成員的資訊。家族研究與家族史研相較,資料品質較好、成本較高、敏感度較高、特異度較低4。一些實證研究發現家族史研究有低估真實發病率的傾向28。理論上,研究對象的選取最好是採用遮盲的方式選自一般族群。但採用醫院病人作為研究對象,有減少篩選成本、降低錯誤分類、與增加診斷真陽性率29(即被診斷為有病的人中,真正有病的比率)等優點,缺點是不曾到醫院求診或不曾接受診斷的病人會被漏失,因而使偽陰性率(即對照組中有病的患者比例)增加。家族研究對象的選取仍須服膺傳統流行病學研究的基本原則,這部份可以參考Miettinen30、MacMahon與Trichopoulos31、及Wacholder等人32-34的著作。 雙胞胎研究 雙胞胎研究(Twin studies)與領養研究(Adoption studies)是了解家族聚集性疾病的病因,釐清遺傳因子與環境因子與疾病關係的研究方法4。因為罹病的雙胞胎是稀有病例、且領養的登記大多不完備,因而收集夠多的、足以達到統計顯著的雙胞胎或領養人數,是這類研究高難度的挑戰。 就生物學的觀點而言,同卵雙胞胎(MZ,monozygotic/identical)的基因分享程度是100%,異卵雙胞胎(DZ,dizygotic/fraternal)的基因分享程度與兄弟姐妹之間一樣,是50%。如果雙胞胎是在同一個家庭裡成長,遺傳性存時在,同卵雙胞胎的雙包胎二人都發病的比例(concordance,稱做一致率),應遠高於異卵雙胞胎。一致率的計算因取樣的方法不同而有不同的算法:配對一致率(pairwise concordance rate)是以二人都發病的雙胞胎對數除以全部雙胞胎對數,指標病例一致率(probandwise concordance rate)則以二人都發病的雙胞胎病例人數除以全部雙胞胎對數。如果每對雙胞胎都只有一個人是指標病例,這兩種算法是相同的,但是當雙胞胎兩人都是指標病例時,指標病例一致率的分子事實上是二人都發病的雙胞胎對數,再加上兩人均入選的發病對數4。 雙胞胎研究除了直接以雙胞胎為研究對象外,還有以雙胞胎的父母及兄弟姐妹的資料,或生長環境的變數,做為分析的對象35。此外,也有人以分開養育的同卵雙胞胎為研究對象,事實上,這種設計並不適用於發生率極低的疾病。另外,有些研究以一位發病一位不發病的同卵雙胞胎的子女為研究對象,如果疾病是由遺傳所致,則這兩個族群的子女發病率應該相似4。 領養研究 如果疾病是由遺傳所致,則親生親屬的發病率應該較領養家庭的親屬高。領養研究有三種主要設計。第一種設計稱做親生父母為指標研究」(parent-as-proband design),這種設計以親生父母有無發病分為兩組,測量被領養者的發病率,如果親生父母有病組的發病率較高,則認為研究結果支持該疾病的遺傳性。第二種方法是被領養者為指標研究(adoptee-as-proband design),這種設計將有病被收養者的親屬分為親生與領養兩組,測量兩組親屬的發病率,如果親生親屬發病率較高,則認為研究結果支持該疾病的遺傳性。第三種設計稱做「交叉領養研究」(cross-fostering design),親生父母有病、被無病養父母領養,及親生父母無病、被有病養父母領養的被收養者的親屬為研究對象,測量被領養者的發病率,如果親生父母有病、養父母無病組的發病率較高,則認為研究結果支持該疾病的遺傳性4。 由於領養者與被領養者所構成的族群不同於一般族群,所以將結果推論到一般人時必需小心。同時,有些疾病好發於被領養者(例如精神科疾病36-37);又,如果被領養者和親生父母共同生活一段時間,親生父母對被領養者的影響,應該是包含了遺傳與環境兩部分,這些因素使得收養研究的結果詮釋必需更加謹慎。 巢式病例對照研究 連鎖分析(定位基因位置的分析方法)可以採用家族研究、家族史、罹病兄弟姐妹配對、罹病親屬配對等研究設計,此外還可以用世代研究法與巢式病例對照研究法3(nested case-control approach)。 世代研究法是追蹤指標病例全部親屬的發病狀態,依親屬與指標病例之間相同的血統證明(IBD)對偶基因個數計算累積危險性及危險性比3。由於遺傳病的發病多數與年齡有關,所以發病比例(發病人數/觀察人數)無法像累積危險性(發病人數/觀察人年)一樣正確。 巢式病例對照研究法不追蹤指標病例全部親屬,只觀察被抽樣的親屬。它的分析與世代研究法類似,但直接以人數計算危險性比3。 家族性研究設計的問題 抽樣偏差調整、年齡層危險性調整是家族性研究的主要問題4。 主要的抽樣偏差來源有兩種,第一種是採用無病自願者,自願加入的原因若與研究的議題有關,則對照組中可能有較一般族群還多的潛在有病者。第二種是以其他疾病的病人為對照,這個對照組中也可能有比一般族群還高的潛在有病者。此外,研究設計也會誘導抽樣偏差,例如抽樣對象只限於有一罹病父親與一罹病兒子的家庭,則顯性遺傳疾病似乎較容易出現於這樣的研究族群。傳統流行病學以隨機抽樣來減低抽樣偏差,但一般來說遺傳病是罕見疾病,如果採取一般族群的隨機抽樣,可能抽數百人才有一位合適的研究對象4。 遺傳流行病學的策略是依「指標病例」抽樣。根據Weinberg39與Fisher40發展的抽樣方法,這些方法可分為完全抽樣與不完全抽樣。前者以家族為單位進行簡單隨機抽樣,在實務上很難做到;以指標病例為抽樣對象的方法稱為不完全抽樣,又可以分為截頭式抽樣(truncate ascertainment)、單一抽樣(single ascertainment)、多重抽樣4(multiple ascertainment)。 截取式抽樣將同一家族中所有的病例當做一個指標病例,每個家族被選的機率和家族中的病例數無關。就統計學而言,這樣抽樣得到的估計不需調整,但是除非是稀有疾病,否則不易進行截取式抽樣4。 單一抽樣每次只抽一個病例,每個家族被抽到的機率與家族中的病例人數有關。兩個家族如果分別有十人和三人,其中分別有六位及一位患者,則前一個家族被抽到的機會是後一個家族的六倍。這表示危險性將被高估4。 多重抽樣介於上述兩種方法之間,以家族中兩個以上的病例當做一個指標病例,但不是把所有的病例當做一個指標病例,族群中病例被抽到的機率介於上述兩種方法之間。有時自醫院以單一抽樣選到的家族,可能有兩個以上的指標病例,也就是被抽到兩次,因此單一抽樣就變成多重抽樣4。 單一抽樣與多重抽樣都需對危險性加權調整4。 很多疾病在估計危險性時,都把「發病年齡」視為一個變項。就遺傳病的角度來看,因為攜帶致病基因的人死亡的比例較一般族群高,所以致病基因的比例(頻率)會隨年齡的增加而減少41。Vogel與Motulsky建議以罹病危險性(morbidity risk)調整42。罹病危險性是一個人得到某種疾病的機率,因為一個潛在病例可能在發病前死於其他疾病,所以這是一個機率,而不是有時間單位的「率」(rate),因此罹病危險性又稱為終生危險性(lifetime risk)。假設研究對象共有n人,罹病的研究對象有m人,wi為第i位研究對象的加權值,罹病危險性為MR,則:
MR = m/Σn i=1wi。 四、結語 傳統流行病學以傳統的病例對照研究設計:近親通婚研究、異族通婚研究、候選基因研究探討變異決定因子及基因與疾病相關性;近年則發展了非傳統的無對照研究、病例父母對照研究、罹病親屬配對研究探討基因與疾病相關性;在家族性研究中,家族研究、家族史研究、領養研究、雙胞胎研究、罹病親屬配對研究、巢式病例對照研究,用於討論家族聚集性的有無、原因、遺傳模式、與基因定位。本文介紹了上述個研究設計的原理與方法。
參考文獻
1. Ellsworth DL, Hallman DM, Boerwinkle E: Impact of the human genome project on epidemiologic research. Epidemiol Rev 19:3-13, 1997. 圖表說明 表一、遺傳流行病學研究的議題、研究設計、統計分析方法
表二、遺傳環境交互作用2×4偶發事件表
表三、病例父母對照研究2×2偶發事件表
表四、罹病親屬配對遺傳環境交互作用 2×3偶發事件表
表五、家族聚集研究2×2偶發事件表
台灣醫界 2000, 43(5): |