遺傳模式簡介   by 盧誌明 蘇清泉 藍守仁 謝中誠, 2000-06-15

前 言

在1966年,可以辨識遺傳型式(mode or pattern of inheritance)的「單一基因遺傳疾病」(即孟德爾氏遺傳病)只有574種,到1994年版的「人類孟德爾氏遺傳病」中,已列出4,458種顯性遺傳疾病、1,730種隱性遺傳疾病、412種性聯遺傳疾病,也就是說可以確認遺傳類型的疾病數目在30年之間已劇增約12倍(1)。傳統流行病學在遺傳病方面的主要研究領域是:「家族聚集性」存在的真實性與聚集現象是否可歸因於遺傳因子。70年代起,遺傳流行病學開始與分子生物學結合,成為探討人類遺傳病的正式學科之一。遺傳流行病學至少包含2個目標:一、發展環境與遺傳交互作用(gene-environment interaction)的疾病預測模式;二、指出孟德爾氏遺傳病,即由單一基因引起的遺傳病中致病基因的位置(2)。本文將討論第一個目標,簡略介紹相關的人類基因知識及常見的遺傳模式(genetic model)。

人類基因

去氧核糖核酸(deoxyribonucleic acid, DNA)是所有生物儲存遺傳訊息的處所,它由多個去氧核糖啟(deoxyribonucleotides)構成。構成DNA的去氧核糖啟只有四種不同的結構,這四種去氧核糖干都是由一個去氧核糖(deoxyribose)、加上磷酸基(phosphate group)、以及下列四種不同的鹼基(nitrogenous base)的其中一種:腺嘌呤(adenine)、鳥糞嘌呤(guanine)、胞嘧啶(cystosine)、胸腺嘧啶(thymine)所組成,以下以A、G、C、T分別代表腺嘌呤、鳥糞嘌呤、胞嘧啶、胸腺嘧啶。這些去氧核糖啟會一個接一個排成一直線,兩股排成一直線的DNA以「A對T」、「C對G」這兩種鹼基對(base pairs)的方式,以氫鍵結合為互補的雙螺旋結構(double-helix molecule),一般教科書常以一小段直線型的雙螺旋結構說明此一構造,但在細胞核的染色體中,此一雙螺旋結構並不以直線的方式存在。它纏繞在組織蛋白球(histone protein core)外圍,形成核質體(nucleosome),纏繞每一組織蛋白球的雙螺旋結構大約含140至150個鹼基對,在兩個核質體之間大約有20至60個鹼基對,然後每六個核質體形成一個螺旋線圈(solenoid),螺旋線圈再構成染色質套圈(chromatin loops),染色質套圈外面覆蓋著蛋白質,最後染色質套圈構成染色體,這時的長度大約只有把DNA完全拉直時的萬分之一(3)。DNA除了少數存於粒線體外,絕大多數都存在於染色體(4)。

遺傳學所說的「基因」(genes)對應於上述結構,就是指其中可以產生功能的DNA片斷,也就是說:這片斷的鹼基可以被轉錄(transcribed)為信息核糖核酸(mRNA),然後在轉移核糖核酸(tRNA)、核糖體核糖核酸(rRNA)的協助下轉譯(translated)為蛋白(包括各類酵素)。因為一段基因序列轉錄為mRNA之後,只有部份(稱為Exon)會被成熟mRNA保留,另一部份(稱為Intron)則在mRNA離開細胞核之前即被捨棄,所以成熟mRNA被稱為基因的表現(expression)。基因在染色體上所佔的特定位置稱為「基因座」(genetic locus)。減數分裂時,彼此配對的染色體稱為「同源」(homologous)染色體,同源染色體一個來自父親,一個來自母親。在同源基因座上不同的DNA順序(不同版本的基因)稱為「對偶基因」(allele),孟德爾律的對偶基因數剛好是2個,但有些對偶基因數是在2以上,例如決定ABO血型的對偶基因就有三個:IA、IB、IO,它們位於第9對染色體上的ABO血型基因座。如果兩個同源基因座的對偶基因相同則稱為同型接合子(homozygote)、對偶基因不同則稱為異型接合子(heterozygote),異型接合子中表現出遺傳特徵的對偶基因被稱顯性(dominant),另一個對偶基因則被稱為隱性(recessive),這種關係是相對而不是絕對的,例如ABO血型對偶基因 IA、IB 對 IO 而言是顯性,但對彼此而言則沒有顯性或隱性的關係。一個基因若具有2個以上的對偶基因,且有2個以上不同的對偶基因在人群中的存在率超過1%,則稱這個基因具有多形性狀(5) (polymorphism)。多形性狀可以做為定位鄰近基因之用。

遺傳的型式

大部份的遺傳特徵都不是由兩個對偶基因「平等」決定的(術語稱為「共治」,codominant)。對於疾病來說,如果致病對偶基因相對於其他對偶基因是顯性,則稱這個疾病是顯性遺傳病(dominant disease)。相反的,若致病對偶基因相對於其他對偶基因是隱性,則稱這個疾病是隱性遺傳病(recessive disease)。顯性的致病對偶基因較容易被天擇所淘汰,所以顯性遺傳病是罕見的疾病,而且幾乎所有罹病者都是異型接合子,在一家族裡,幾乎每一代都有罹病者,而且罹病者大約有半數的子代會是罹病者。這樣的族譜幾乎可以確定罹病者都是異型接合子,而未罹病者都是兩個正常的對偶基因。這樣豐富的資訊是最適於進行連鎖分析(linkage analysis,另文介紹)的。隱性的致病對偶基因相較之下,被天擇所淘汰的速度較慢,而且所有罹病者都是同型接合子,罹病者的父母若非罹病者必是異型接合子。在父母是非罹病者的子代裡,罹病者約佔25%,常常只有一個或幾個罹病者,非罹病者可以是一對正常對偶基因、或是異型接合子。所以罹病子代有較足夠的資訊進行連鎖分析。但有例外,如果異型接合子的表現型與正常同子不同,則不管罹病與否都能提供充分的資訊(6)。不管是顯性或隱性遺傳病,某些人的基因型與表現型的關係仍然不明,因為基因型與表現形之間很少是一對一的關係。

遺傳模式是探討基因與環境因子及其交互作用的模式。遺傳模式除了孟德爾遺傳學的單一基因模式外,還有三種:一、單一主基因(single major gene)模式,由一個主要基因決定疾病遺傳與否,其他基因與環境因素只扮演小角色;二、少基因(oligogenic)模式,由少數幾個基因共同決定疾病的遺傳,這些基因可能是以加成或交互作用的方式使人發病;三、多因子多重基因模式(multifactorial polygenic, MFP),即一群環境因子與遺傳因子共同影響特徵,少數基因模式與多因子多基因模式的差異通常只是基因數的多寡,譬如有10個基因參與疾病機轉時為少數基因模式,有一百個基因參與則是多因子多基因模式(7)。

一般認為只有少數的人類常見疾病係由主要易感受基因(susceptibility gene)控制,大多數疾病是由多個基因與環境因子交互作用造成(8)。Goldstein和Brown對家族性高膽固醇血症的研究,發現該病符合體染色體顯性的遺傳模式,進一步的研究發現該遺傳特徵(血中膽固醇濃度高)是由控制低密度脂蛋白接受器的基因缺陷造成的,但是它只佔所有高膽固醇血症者的3-5%。相對多數的高膽固醇血症,很可能並不是單一主要基因所造成,而是由多個基因與其相對之環境因子的交互作用所造成。

大多數的慢性病,如癌症、心血管疾病、糖尿病都不是孟德爾氏遺傳病,它們可能是由數個基因彼此互相作用,或與環境因子交互作用(例如苯丙氨酸對酮尿症基因的發病作用(9)),這些疾病被稱為多因子疾病(multifactorial diseases)或複雜疾病(10)(complex diseases)。它們的遺傳型式不像上一段所描述的孟德爾氏遺傳病那樣清楚,往往需藉著複雜的模式來探討這類疾病。

遺傳模式

由於只能觀察罹病者的表現型,罹病者的基因型是未知,所以,若以pi代表i這個人的表現型、gi代表基因型,Pr(p|g)=Pr(p1, p2, ..., pn|g1, g2, ..., gn)代表一家族中n位被研究者的特定基因型組合(g1, g2, ..., gn)產生特定表現型組合(p1, p2, ..., pn)的機率。如果被研究的基因有k種基因型,則n位被研究者共有kn種基因型組合,每一種基因型組合的發生機率(Pr(g))不同,各個基因型組合產生上述表現型組合的機率(Pr(p|g))也不一樣,因此共有kn個不同的Pr(p|g),把Pr(p|g)與Pr(g)相乘可以得一家族正好是某一種基因組合而且產生觀察到的表現型組合的機率(Pr(p|g)Pr(g)),將這些機率相加可得到這個家族發生觀察到的表現型組合的機率(ΣPr(p|g)Pr(g))。如果有數個家族,則把各家族的機率相乘,就可得到所有被研究家族發生觀察到的表現型組合的機率(IIΣPr(p|g)Pr(g))。實際上,由於多數疾病的發病與否並不完全取決於單一主要基因,上述方法並不能解答多數疾病的遺傳機轉,而模式提供計算上述機率的公式與特定條件的假設。理論上,只要比較不同特定條件的各個模式的可能性(Likelihood(模式|觀察)),就可以從中選擇一個最佳模式。

遺傳模式的依變項是疾病表現的遺傳特徵(traits),也就是表現型。多數疾病都是以定性(有病、無病)、或是定量(如血糖、血壓、血脂的數值)的方式定義,另外有學者提出「發病度」(liability)的觀念,代替定性定義。發病度升高,則發病的機率增高,發病度升高到某個閾值時就會發病,而且「發病度」呈常態分配(11)。McGue等人以多因子多基因模式研究肺結核病與精神分裂症的遺傳性與環境性,結果發現:肺結核病的遺傳發病度係數是0.06、文化發病度係數是0.62,精神分裂症的遺傳發病度係數是0.67、文化發病度係數是0.19(11)。這研究說明應用「發病度」、徑路分析、多因子多基因模式(path analytic MPF)可以正確地將肺結核病的家族聚集現象歸因於環境。以下介紹的遺傳模式都是假設只有一個主要疾病基因的模式,迴歸對數模式(regressive logistic models)以定性表現型為依變項,迴歸模式(regressive models)以定量表現型為依變項,混合模式(mixed models)以發病度表現型為依變項。

遺傳模式常見的參數是發生率(frequency)、以及發病率(penetrances)(10)(表1)。

發病率是指特定基因型表現出特定型(或稱遺傳特徵)的機率(Pr(p|g))。如果該發病的基因型卻未發病,或者發病時年齡已經很大,這些現象稱為減低的或與年齡相依的發病率(2, 10)(reduced/age-dependent penetrance)。

發生率對於父母在被研究家族的被研究者(記為Ⅰ)與父母不在被研究家族的被研究者(記為F、M)有不同的意義,F、M是指家族建立者、及因嫁娶(marry-in)而被納入研究家族的人。對於F、M而言,他們的基因型發生率通常假設與一般人相同。如果考慮孟德爾氏遺傳律,疾病基因的對偶基因分別是A、a,基因型為AA、Aa、aa,A代表致病對偶基因,以q長對偶基因A的發生率,根據Hardy-Weinberg原理(Hardy-Weinberg Principle)(9),各基因型AA、Aa、aa的發生率(Pr(AA)、Pr(Aa)、Pr(aa))分別是q2、2q(1-q)、(1-q)2。對父母在被研究家族的被研究者而言,Elston與Stewart以τ1、τ2、τ3分別代表親代基因型AA、Aa、aa將致病對偶基因A遺傳給子代的機率(12)(表2)。

迴歸對數模式

最早的主基因定量表現型遺傳模式(E-S模式)是由Elston與Stewart在1971年提出的(12),接著Morton與MacLean、擴大了E-S模式的範圍(13)。Morton與MacLean把個人無法由主基因效應解釋的發病度(殘餘變異,residual variation,個別主基因效應與平均效應的差異)歸入其它遺傳因素或環境因素。Bonney於1984年,以E-S模式為藍本,發表迴歸模式(regressive models)(14),把殘餘變異視為隨機分配的依變項,而不併入其它遺傳因素或環境因素。

最初迴歸模式是一個機率密度函數(pdf, probability density function)的遺傳模式,1986年擴展為可適用於二項式變項的遺傳模式(15)。

Bonney把表現型(phenotype,記為p)定為「有病」(記為p=1)與「無病」(記為p=0)。為了建立一個不含做任何特定條件的機率函數,假設自變項Xi(例如年齡)與pi有關,且n位被研究者的Xi可記為X=[X1, X2, ..., Xn]、p=[p1, p2, ..., pn]。則特定X下發生特定p的機率(Pr(p|X))為:

Pr(p|X)=Pr(p1, p2, ..., pn|X)=Pr(p1|X)Pr(p2|p1, X)... Pr(pn|p1, p2, ..., X)。為了使下列的討論簡化,改寫Pr(pi|p1, p2, ..., X)為P(pi|p1, p2, ..., Xi)。

假設Zi=2pi-1,pi未時Zi=0,γj 為第j位與第j+1位被研究者之間的相關係數,α、β為logit(Pi)(即ln{(Pr(Pi)/[1-Pr(Pi)]},記為θi)之基準值、及自變項Xi之相關係數,令:

θi =logit[Pr(pi=1|p1, p2, ..., Xi)]
=ln[Pr(pi=1|p1, p2, ..., Xi)/Pr(pi=0|p1, p2, ..., Xi)]
=α+βXi+Σij -=11γj Zj。

則Pr(pi|p1, p2, ..., Xi)=eθipi/(1+eθi),因此Pr(p|X)=Ⅱin=1eθipi/(1+eθi)。

在只有X一個變項,且不假設被研究的表現型彼此不相關的條件下,θi=α+βXi+Σij -=11γj Zj 代表當第j位被研究者是罹病者(pj=1),則第i位被研究者 以下將上述的一般模式在各種特定條件下加以改寫:

一、假設各被研究者的發病機會與彼此的關係(例如兄弟姐妹、親子、配偶)無關,且彼此的相關係數均相等:γ1=γ2= ...=γn-1=γ,令Si-1=Σij -=11 Zj,則:

θi=α+βXi+γSi-1。

上式代表pi+1=1勝算將隨pi的狀態而以eγ倍數增減或不變,也就是Pr(p|X)=Pr(p1|X)Ⅱin=2Pr(pi|pi-1, X)。這種第i+1位的狀態只與第i位的狀態有關,和更前面諸位無關的現象,和俄國數學家Markov提出的馬科夫模式(Markovian Model)是一致的,因此該模式的特質可適用於本遺傳模式。

二、假設各被研究者的發病機會與父、母、配偶有關,但與兄弟姐妹無關(Bonney將它稱為Class A),,令父子、母子、配偶的相關係數為γfo、γmo、γs,則:

θi=α+βXi+γfo Zfo+γmo Zmo+γs Zs。

三、假設各被研究者的發病機會與父、母、配偶、長子(代表兄弟姐妹)有關,(Bonney將它稱為Class B),這個條件是考慮兄弟姐妹共同的生長環境可能會影響發病,令父子、母子、配偶、被研究者與長子的相關係數為γfo、γmo、γs、γsib(1),則:

θi=α+βXi+γfo Zfo+γmo Zmo+γsZs+γsib(1) Zsib(1)。

四、假設各被研究者的發病機會與父、母、配偶、前一位兄弟姐妹有關,(Bonney將它稱為Class C),這個條件是考慮排行越接近的兄弟姐妹分享共同的生長環境的可能最高,令父子、母子、配偶、被研究者與前一位兄弟姐妹的相關係數為γfo、γmo、γs、γsib(-1),則:

θi=α+βXi+γfo Zfo+γmo Zmo+γsZs+γsib(1) Zsib(-1)。

五、假設各被研究者的發病機會與父、母、配偶、比被研究者大的兄弟姐妹有關(Bonney將它稱為Class D),令父子、母子、配偶、被研究者與比被研究者大的兄弟姐妹的相關係數為γfo、γmo、γs、γos,Sos為比被研究者大的兄弟姐妹的Zi 總合,則:

θi =α+βXi+γfo Zfo+γmo Zmo+γsZs+γos Zos。

加入遺傳變項

在上述模式內加入基因型變項g,根據基因型是已知或未知,有不同的處理方式:

一、若被研究的基因和基因標記一樣,有已知的基因型,可直接將g當做和X一樣的自變項,則發生特定表現型組合的機率是Pr(p|g, X),

θi =α+βXi+Σγj Zj+δgi,

Pr(p|g, X)=Ⅱin=1 eθipi/(1+eθi)。

二、若模式不含g以外的其它自變項(例如X變項),但基因型組合g未知,則需考慮每一種基因型組合的發生機率(Pr(g),則發生特定表現型組合的機率為Pr(p),

Pr(p)=ΣPr(g)Pr(p|g)。

三、若模式含有p、g、X三個變項,則發生特定表現型組合的機率為:

Pr(p|X)=ΣPr(g)Pr(p|g, X)或

Pr(p, X, g)=Pr(g)Pr(X|g)Pr(p|g, X)

第二個式子比第一個式子需多估一個機率函數Pr(X|g),如果知道Pr(X|g)的值,則第二個式子比第一個式子估計的機率精確。在g未知、而且存在其它自變項時,必需計算Pr(g)、Pr(p|g, X)才能得知發生特定表現型的機率。

計算Pr(p|g, X)

Pr(p|g, X)=Pr(p1, p2, ..., pn|g, X)
=Pr(p1|g, X)=Pr(p2 |g, p1, X) ...Pr(pn|g, p1, p2, ..., X)。

為了使下列的討論簡化,改寫Pr(pi|g, p1, p2, ...,X)為Pr(pi|gi, p1, p2, ..., X)。

Pr(pi|gi, p1, p2, ...,X)和Pr(pi|p1, p2, ..., X)相較,只多了一個自變項gi。所以可將α視為與gi相依,一般模式將成為:

θi(gi)=αgi+βXi+Σij -=11γj Zj;

Pr(p|g, X)=eθi(gi)pi/(1+eθi(gi))。

舉例而言,假設被研究基因有三個基因型AA、Aa、aa,對一個基因型為AA的研究對象而言,他的上述公式將是:

θi(AA)=αAA+βXi+Σij -=11γj Zj;

Pr(p|g=AA, X)=eθi(AA)pi/(1+eθi(AA))。

其他特定條件下的模式,如Class A等也可比照改寫。

計算Pr(g)

以Pri代表在前i-1位成員分別攜帶特定基因型,g.1、g.2、...、g.i-1的情況下(1, 2, ..., i, ..., n代表一家族中各研究對象的代號:「.」代表基因型),第i位成員特定攜帶基因型,g.i的機率。則:

Pr(g)=Pr(g.1, g.2, ..., g.n)
=Pr(g.1)Pr(g.2|g.1)Pr(g.3|g.1, g.2) ...Pr(g.n|g.1, g.2, ..., g.n-1)
=Ⅱin=1 Pri。
理論上Pri的值是Pr(g.i|g.1, g.2, ..., g.i-1),但依現在所知的遺傳學知識,一個人攜帶某特定基因型的機率和父母有關,和兄弟姐妹無關,所以當一位研究對象(Ⅰ)的父母出現在譜系中時,Pri可以簡化為Pr(g.i|g.f, g.m),g.f、g.m代表父母的基因型。

Elston與Stewart假設τ1、τ2、τ3分別代表AA、Aa、aa,把致病對偶基因A傳給子女的機率(12)。令τ.s、τ.t分別代表父母把致病基因座A傳給子女的機率,則:

Pr(g.i=AA|g.f=s, g.m=t)τsτt;

Pr(g.i=Aa|g.f=s, g.m=t)=τs(1-τt)+τt (1-τs);

Pr(g.i=aa|g.f=s, g.m=t)=(1-τs)(1-τt)。

根據傳統孟德爾遺傳律,父親把位於自體染色體上的二個對偶基因座之中的致病基因座A傳給子女的機率τ1、τ2、τ3分別是100%、50%、0%,母親亦同。如果知道父母雙方的基因型,就可以依據公式算出子女各基因型的發生機率(12)(表2)。

如果某個研究對象是家族建立者(F)或隨機「嫁入」(M)這個家族的,一般假設嫁娶與基因型無關,所以Pr(gi)就是g.在人群中的發生頻率。根據Hardy-Weinberg原理(9),若被研究的基因是位於自體染色體上的兩個對偶基因座,致病對偶基因A的發生頻率為q則:g=AA=1時,Pri=q2;

g=Aa=2時,Pri=2q(1-q);

g=aa=3時,Pri=(1-q)2。

即「建立」者(F)及隨機「嫁入」者(M),Pri=Pri,以Hardy-Weinberg原理計算;「生於」者(Ⅰ),Pri=Pr(g.ilg.f, g.m),依孟德爾律計算。但不是隨機婚配者的Pri,可參考Lange(16)、Bonney(15)的討論。

計算ΣPr(g)Pr(p|g, X)

經由上述計算,已知第i位研究對象某一種基因型的機率為Pri(由q、τ1、τ2、τ3四個參數代表),對應該基因型之表現型為pi的機率為eθi(gi)pi/(1+eθi),所以第i位研究對象的條件連合機率為Pri eθi(gi)pi/(1+eθ1),全體研究對象恰好是某一種基因型組合為g,且表現型組合為p的機率為Ⅱin=1Pri eθi(gi)pi/(1+eθi),然後將所有可能的基因型組合所產生的機率Ⅱin=1Pri eθi(gi)pi/(1+eθi)加總可得Pr(p|X)。因此:

Pr(p|X)=ΣPr(g)Pr(p|g, X)

=ΣΣ ...ΣⅡin=1Pri eθi(gi)pi/(1+eθ1)

迴歸模式

這個模式的表現型是連續變數(14)。每個在這個家族的人都有一個代表表現型的遺傳特徵值p、k個(k為基因型的類別數)代表基因型的數值g、k個代表特定基因型g的母群體遺傳特徵平均值μg、k個主基因表現型殘量y、以及k個調整後的主基因表現型殘量z。舉例來說,如果某基因是位於自體染色體,有兩個對偶基因:A、a,有三種(k=3)不同的基因型AA、Aa、aa。令g=1代表AA,2代表Aa,3代表aa,則μ1代表所有基因型為AA的研究對象之表現型x的平均值,餘類推。如果這個家族有n位成員,他們的上述資料可整理成以下的向量矩陣:

p=[p1, p2, ..., pn];

g=[g.1, g.2, ..., g.n];

μg=[μg.1, μg.2, ..., μg.n];

y=[y1, y2, ..., yn]=p-μg;

(1, 2, ..., i, ..., n代表一家族中各研究對象的代號;「.」代表基因型)。

因為每個人有k種可能的基因型,所以其中的基因型矩陣g共有kn種不同,的組合。令f(p)為表現型矩陣p的機率密度函數,即成員們出現某一特定p的可能性;f(p|g)為當基因型矩陣為g時,p的機率函數。令g.1、g.2、...g.n分別代表第1、2、...n位成員的基因型,某特定基因型矩陣g記為[g.1, g.2, ..., g.n],Pr(g)為基因型矩陣g的發生機率,[g.1, g.2, ..., g.n]的發生機率記為Pr(g.1, g.2, ..., g.n)。f(p)即為kn個f(p|g)「加權」的總和(f(p)=Σf(p|g).P(g)。

依據機率乘法法則,個別機率互相獨立時,可將各機率相乘而得到總機率。因此為了使計算簡易,在推算表現型條件機率之前必須先行調整使其相互獨立。

由於第i位成員的表現型殘值,部份與序位在他之前各成員的表現型殘值有關(如果無關,則係數為零),即:

pi=μi+γ1y1+γ2y2+ ...+γi-1 yi-1+zi。

所以第i位成員的表現型殘值可寫成下式:

yi=pi-μi=γ1y1+γ2y2+ ...+γi-1 yi-1+zi。

其中y1、y2、...yi為第一、二、...、i位成員的主現型殘值,γ1、γ2、...、γ1代表迴歸係數,Zi為與其他成員無關(獨立的)的表現型殖值。z調整表現型殘值向量矩陣中各成員的調整遺傳特徵殘值如下:

z1=y1
z2=y2-γ1y1
z3=y3-(γ1y1+γ2y2)

zn=yn-(γ1y1+γ2y2+...γn-1yn-1)。

令wi為zi之變異數,調整表現型殘值zi為以零為平均值、wi為變異數之常態分配,特定基因型g時,調整表現型殘值等於zi的條件式機率為Φ(zi, wi),則:

Φ(zi, wi)=(√2πwi)-1e-(1/2)(z i2/wi)。

因為表現型pi、表現型殘值yi、調整表現型殘值Zi可以互為替代,所以其條件機率相同,即:

f(x|g)=f(y|g)=Ⅱin=1Φ(zi, wi)。

zi 的計算可以簡化為只考慮配偶間、親子間、及兄弟姐妹間的相關性。

對於「嫁入」者而言,他的表現型殘值應只與配偶有關,和其他成員無關,因此若Ys代表配偶表現型殘值、γs代表迴歸係數(迴歸係數γs=Cov(yi, ys)/V(ys)),則:

zi=yi-γsys。

傳統遺傳學將親子間的相關係數γpo (γfo及γmo)定為1/2。祖父母與孫子女的相關係數則是ρpo2,1/4。

與迴歸對數模式相同,前述一般模式可在特定條件下簡化為以下三類模式:

一、Class A:假設各被研究者的發病機會與父、母有關,但與兄弟姐妹無關,令父子、母子的相關係數為γfo、γmo,則:

zi=yi-γfo yf-γmoym

=(xi-μgi)-γmo(xf-μg.f)-γmo(xm-μg.m)。

二、Class B:假設各被研究者的發病機會與父、母、配偶、長子(代表兄弟姐妹)有關,令父子、母子、被研究者與長子的相關係數為γfo、γmo、γsib(1),則:

zi=yi-γfoyf-γmoym-γsib(1)y1
=(xi-μgi)-γfo(xf-μg.f)-γmo(xm-μg.m)-γsib(1)(x1-μg.1)。

三、Class C:假設各被研究者的發病機會與父、母、配偶、前一位兄弟姐妹有關,令父子、母子、配偶、被研究者與前一位兄弟姐妹的相關係數為γfo、γmo、γsib(-1),則

zi=yi-γfoyf-γmoym-γsib(-1)y1
=(xi-μgi)-γfo(xf-μg.f)-γmo(xm-μg.m)-γsib(-1)(x1-μg.1)。

混合模式

除了E-S模式與迴歸模式外,另一較常見的模式是混合模式(17)(mixed model),它是由Morton與MacLean在1974年提出的一致化模式(13)(unified model)發展出來的。

一致化模式假設:發病度受到服膺孟德爾氏遺傳律的一固主要基因座、其他遺傳因子、及環境因子的共同作用。以統計學符號N(μ, V)代表變數乘以μ為平均值、V為變異數的常態分配。發病度x為N(0, 1)。發病度由三部份組成:一、基因座效應(g),其對偶基因為A、a;二、其他遺傳因子效應(c),c為N(0, C);三、環境效應(e),e為N(0, E)。假設cov(a, b)代表因子a與b的共變數,此模式假設cov(c, e)=cov(g, c)=cov(g, e)=0。則:x=g+c+e, V=G+C+E。

假設A為致病對偶基因,即對偶基因A可增加發病度x。三種基因型AA、Aa、aa的發病度平均值分別是μAA、μAa、μaa。

混合模式(17)在一致性模式中,加入以下參數,一、τAA、τAa、τaa分別代表基因型AA、Aa、aa將致病對偶基因A遺傳給子代的機率;二、A、K代表成人與小孩:

xA=gA+cA+eA, VA=GA+CA+EA;

xK=gK+cK+eK, VK=GK+CK+EK。

H,代表遺傳可能性(heritability),H=CK/V,HZ=CA/V,Z=CA/CK。三、R代表多因子在親子間的相關係數,小孩與成人之R分別呈N(RCA-1/2CK1/2,[1-R2]CK)、N(RCA, [1-R2]CA)。

假設檢定

假設已收集大量的家族資料,知道每位被研究者的表現型、性別、親屬關係,下一步是研究那一種模式最適合於解釋現有的資料。這個過程被稱為分離分析(segregation analysis)。

如果被比較的模式間有函括關係,例如模式A與一般模式的參數相同,但模式A限制τ1=1、τ2=1/2、τ3 =0,而一般模式的上述參數並未限定,則兩模式的比較可計算兩模式負兩倍的可能性差的自然對數值(-21n [Likelihood(模式A)-Likelihood(一般模式)])(7)。該值是卡方檢定值(χ2),而自由度(degree of freedom)是兩模式需估計的參數數之差。

例如Schaid等人對攝護腺癌遺傳型式的研究結果如下(-21n(L)、與一般模式相較需估計參數數差)(17):

1.孟德爾氏遺傳律顯性遺傳模式(-21n(L)=3,101.44、4);
2.孟德爾氏遺傳律隱性遺傳模式(-21n(L)=3,119.44、4);
3.孟德爾氏遺傳律加成遺傳模式(-21n(L)=3,120.69、4);
4.孟德爾氏遺傳律共治遺傳模式(-21n(L)=3,101.44、3);
5.無遺傳效應的環境模式(-21n(L)=3,136.99、3);
6.有遺傳效應的環境模式(-21n(L)=3,123.39、2);
7.一般模式(-21n(L)=3,100.53);

第一個模式與一般模式之間,-21n(L)差值(χ2)為0.91,自由度為4,p值為0.923。即這兩模式之間沒有差異。p值越小代表差異越大、且越不能解釋觀察的結果。上述數據表示顯性遺傳模式是解釋攝護腺癌遺傳型式的最佳模式(17)。

如果模式之間所用的參數不同,則不能以上述方法檢定。Bonney的方法是以1974年Akaike發表的AIC(19)做為選擇最佳模式的標準(15),AIC(Akaike's Information Theoretic Criterion)是以模式的可能性自然對數值乘負2,與該模式所需估算的參數數目乘2相加而得,即AIC=-2 ln〔Likelihood(模式)〕+2(參數數)。AIC越低的模式就是越好的模式。

統計套裝軟體

POINTER(20)與S.A.G.A.(21)是常見的用於分離分析(segregation analysis)的套裝軟體。其中S.A.G.A. (Statistical Analysis for Genetic Epidemiology)是付費軟體,相關資料可查:http://darwin.cwru.edu/pub/sage.html。

POINTER以GEMENI計算各參數的最大可能性估計。兩個模式的檢定採用-2[ln(L1)-ln(L2)](21)。

S.A.G.A.套裝軟體有四個研究遺傳模式與分離分析的程式(REGC、REGD、REGTL、REGTN),產生的資料可以直接提供給計算連鎖分析的LODLINK使用。REGC用於分析連續性表現型,REGD用於分析離散性表現型,REGTL以對數機率密度函數處理連續性或離散性表現型,REGTN以常態機率密度函數處理連續性或離散性表現型。REGTL是最常用的程式。

REGTL程式的計算採用迴歸對數模式(14-15)。它的參數包括:一、ΨAA、ΨAa、Ψaa分別代表基因型AA、Aa、aa的發生率,使用者可以自定發生率代替Hardy-Weinberg原理(q2、2q(1-q)、(1-q)2);二、γAA、γAa、γaa分別代表基因型AA、Aa、aa的發病率;三、β、α分別代表基準效應與年齡調整係數;四、τAA、τAa、τaa分別代表基因型AA、Aa、aa將對偶基因A遺傳給子代的機率。

結 語

遺傳模式是遺傳流行病學進行分離分析,了解遺傳機轉的基本工具。Elston與Stewart在1971年提出最早的主基因定量表現型遺傳模式(12)(E-S模式),接著在1974年Morton與MacLean、Lalouel擴大了E-S模式的範圍,發展出一致性模式(13),及後來的混合模式(17)。Bonney於1984年,以E-S模式為藍本,發表迴歸模式(14)。迴歸模式是一個連續表現型的模式,1986年Bonney將它擴展為可適用於二項式表現型的迴歸對數遺傳模式(15)。了解這些模式的發展與適用對象將有益於進行分離分析,釐清遺傳機轉。

參考文獻

1.McKusick VA: Mendelian Inheritance in Man: Catalogs of Autosomal Dominant, Autosomal Recessive, and X-linked Phenotypes, ed 11. Baltimore: John Hopkins Press, 1994.
2.Ellsworth DL, Hallman DM, Boerwinkle E: Impact of the human genome project on epidemiologic research. Epidemiol Rev 1997; 19: 3-13.
3.Jorde LB, Carey JC, White RL: Basic cell biology: Structure and function of Genes and chromosomes. In: Jorde LB, Carey JC, White RL (Eds): Medical Genetics. St. Louis, Mosby, 1994; 7-29.
4.Morton NE: Parameters of the human genome. Proc Natl Acad Sci U S A 1991; 88: 7474-7476.
5.Jorde LB, Carey JC, White RL: Genetic variation: its origin and detection. IN: Jorde LB, Carey JC, White RL(Eds): Medical Genetics. St. Louis, Mosby, 1994; 30-55.
6.Risch N: Evolving methods in genetic epidemiology. II. Genetic linkage from an epidemiologic perspective. Epidemiol Rev 1997; 19: 24-32.
7.Faraone SV, Tsuang MT: Methods in psychiatric genetics. In: Tsuang MT, Tohen M, Zahner GEP (eds): Textbook in Psychiatric Epidemiology. New York: Wiley-Liss, 1995; 81-134.
8.Jorde LB, Carey JC, White RL: Multifactorial inheritance and common diseases. In: Jorde LB, Carey JC, White RL(Eds): Medical Genetics. St. Louis, Mosby, 1994; 185-209.
9.Jorde LB, Carey JC, White RL: Autosomal dominant and recessive inheritance. In: Jorde LB, Carey JC, White RL(Eds): Medical Genetics. St. Louis, Mosby, 1994; 56-82.
10.Beaty TH: Evolving methods in genetic epidemiology. I. Analysis of genetic and environmental factors in family study. Epidemiol Rev 19: 14-23.
11.McGue M, Gottesman II, Rao DC: Resolving genetic models for the transmission of schizophrenia. Genet Epidemiol 1985; 2: 99-110.
12.Elston RC, Stewart J: A general model for the genetic analysis of pedigree data. Human Heredity 21:523-542, 1971.
13.Morton NE, MacLean CJ: Analysis of family resemblance. III. Complex segregation analysis of quantitative traits. Am J Hum Genet 1974; 26: 489-503.
14.Bonney GE: On the statistical determination of major gene mechanisms in continuous human traits: regressive models. Am J Med Genet 1984; 18: 731-749.
15.Bonney GE Regressive logistic models for familial disease and other binary traits. Biometrics 1986; 42: 611-625.
16.Lange K: Stable gene equilibria for mixtures of random and assortative mating. Mathematical Biosciences 1976; 29: 49-57.
17.Lalouel JM, Morton NE: Complex segregation analysis with pointers. Hum Hered 1981; 31: 312-321.
18.Schaid DJ, McDonnell SK, Blute ML, et al: Evidence for autosomal dominant inheritance of prostate cancer. Am j Hum Genet 1998; 62: 1425-1438.
19.Akaike, H: A new look at the statistical model identification. IEEE Transactions of Automatic Control AC 1974; 19: 716-723.
20.Morton NE, Rao DC, Lalouel JM: Methods in Genetic Epidemiology. New York: Karger, 1983; 62-102.
21.Sorant AJM, Elston RC: Segregaion analysis of a truncated (censored) trait with logistic P.D.F. (REGTL version 1.0). In: Bailey-Wilson JE, elston RC (eds): Statistical Analysis for Genetic Epidemiology. New Orleans: Department of Biometry and Genetics, LSU Medical Center, 1989.

表1 遺傳模式常見參數(11)

參數定義符號
基因型 Genotype對偶染色體同一基因 g=AA、Aa、aa對偶基因的組合
表現型 Phenotype以定性或定量表現的遺傳特徵p
發病率 Penetrance特定基因型表現出特定表現型的機率Pr(p|g)
發生率 Frequency父母不在被研究家族者:人群中特定對偶基的存在率Pr(AA)=q2
Pr(Aa)=2q(1-q)
Pr(aa)=(1-q)2
父母在被研究家族者:特定對偶基因傳給子代的機率Pr(A|AA)=τ1
Pr(A|Aa)=τ2
Pr(A|aa)=τ3
殘值相關 Residual correlations家人之間殖值的相關係數γfo、γmo、γs、γsib
共變效應 Covariate effects可觀察的共變數之迴歸係數βage、βsex
詳細說明請參考本文

表2 位於自體染色體上的二個對偶基因之遺傳率轉移矩陣(12)

g.fg.m=1=AAg.m=2=Aag.m=3=aa
1=AA[100](1)[1/2/1/20][010]
2=Aa[1/2 1/20][1/4 1/2 1/4][0 1/2 1/2]
3=aa[010][0 1/2/1/2][001]
各矩陣代表[P(1|(gf, gm)P(2|(gf, gm)P(3|(gf, gm)]。本表摘譯自Elston RC, Stewart J,

台灣醫界 2000, Vol.43, No.6
http://www.med-assn.org.tw/ltk/89430603.htm

Hosted by www.Geocities.ws

1