| ROC 曲線 by 盧誌明 藍守仁, 1997-01-15 |
|
前言 近年可以看到愈來愈多的醫學文獻以「ROC curve」做為標題或關鍵字,常用的醫學文獻查詢系統--MEDLINE已經把它列為「醫學標題」(Medical Subject Heading)。放射線科醫師使用ROC曲線分析電腦斷層攝影術與核醫掃描的診斷能力【1-4】,精神科醫師用它來決定問卷的決策點【5】,泌尿科醫師用它來檢定前列腺專一抗體密度(PSA density)是否比前列腺專一抗體濃度(PSA concentration)更能診斷出前列腺癌【6】。1989年和1990年在MEDLINE中可以查到178篇以「ROC曲線」為標題的文獻【7】,1994年略微減少,但仍可找到20篇。本文將對ROC曲線的基本概念加以介紹。 歷史回顧 ROC曲線的全名為Receiver Operating Characteristic Curve,中文或可譯為「接收器運作指標曲線」,這項技術起初是為了增進軍事雷達的敵我偵測能力而發展的。舉例而言:雷達接收的無線電波可能只是雜訊,也可能是雜訊加上真正的電磁波,如果把雜訊判為敵機,或把敵機誤判為雜訊,都會使我方蒙受損失,因此選擇一個合理的指標做為判斷標準,顯然是極具軍事價值的。在1954年的情報理論研討會上,哈佛大學的Meter及Middleton和密西根大學的Peterson、Birdsall及Fox同時提出了應用概算比(likelihood ratio)做為決策法則的報告【8】。隨後,這項決策法則被整合為ROC曲線。 1971年,Lusted把ROC曲線的觀念引介給醫學界【9】。他指出ROC曲線是以「X軸與Y軸分別代表偽陽性診斷與真陽性診斷」的點狀圖【9】。 1973年,Simpson及Fitter提出以「ROC曲線下的面積」做為診斷工具分辨能力的指標【10】。根據此一理論,要了解一個診斷工具是否優於另一工具,只要比較兩者「ROC曲線下的面積」就可以得到答案了。 1975年,Bamber【11】指出「ROC曲線下的面積」的意義。他認為這個面積(大於0,小於1的一個數字)代表「強迫二選一」(two-alternative-forced-choice, 2AFC)的情形下,診斷工具猜對有病者、無病者的機率。 1988年Hanley提出「ROC曲線下的面積」的計算方法【12】。 1983年Hanley及McNeil提出二條「ROC曲線下的面積」的統計檢定方法【2】。 Centor在1991年的論文【7】中,對ROC曲線的發展有更詳細的描述,有興趣者可自行參考。 從陽性預測值到ROC曲線 在臨床實務上,我們幾乎不可能找到百分之百「正確」的診斷工具。一般認為可以做為「黃金標準」的長期追蹤、組織切片檢查、造影攝影術和屍體解剖【13】,除了最後一項外,也不是絕對正確。因此,「陽性預測值」、「陰性預測值」、「敏感度」、「精確度」、「概算比」等概念紛紛被提出來。醫師較喜歡使用「陽性預測值」(或「陰性預測值」),因為這項指標是以具有某種檢驗結果的人數做為分母,以真實健康狀態與檢驗結果相符的人數做為分子。醫師如果知道某檢驗的陽性預測值是90﹪,他就可以告訴一個檢驗結果為陽性的人說:「你有90﹪的機會得了某病。」預測值的缺點是會受到盛行率的影響。如果甲、乙兩醫院的某病盛行率不同,這兩家醫院同一檢驗的陽性預測值也會不同。「敏感度」與「精確度」是以真實的健康狀態人數為分母,以檢驗結果與該健康狀態相符的人數做為分子,不會受到盛行率的影響,各醫院同一檢驗的「敏感度」與「精確度」是相同的。而其缺點在於「敏感度」與「精確度」彼此之間有交換性,當診斷標準趨於嚴格時(檢驗為陽性的人數減少),「敏感度」會降低,但「精確度」會升高,例如:把血糖的「正常值」從140mg/dl提高到180mg/dl,敏感度的分母(真正的糖尿病患者人數)不變,但分子減少,所以敏感度會下降,而精確度則正好相反,因此這兩個指標會隨著「正常值」的改變而一升一降,我們無法由這兩個指標中的任何一個知道最適當的「正常值」該定在那裡。「陽性概算比」的定義是:「具有某一狀態者被檢驗為陽性」的機率和「不具有某一狀態者被檢驗為陽性」的機率之比值。因此「陽性概算比」就是真陽性率與偽陽性率的比值,由於真陽性率等於敏感度,偽陽性率等於一減去精確度,所以「陽性概算比」是整合敏感度與精確度的一個指標。不同的正常值就會產生不同的「陽性概算比」,當我們以一項檢驗工具,各個不同「正常值」下的「陽性概算比」的分母、分子畫入X-Y座標,即可得到一條以偽陽性率為X軸,真陽性率為Y軸的曲線,這條曲線即是ROC曲線。 ROC曲線的製成 假設圖一的橫軸代表某項檢驗的數值,縱軸代表人數比例(機率),h(x)代表無病者的分布曲線,d(x)代表有病者的分布曲線,h(x)與d(x)底下的面積均為1(100%),且H(x)代表無病者的檢驗值小於或等於X的機率(即自負無限大至x之間h(x)的積分),D(x)代表有病者的檢驗值小或等於X的機率。
則 偽陽性率=1-H(x)..... (1) (1-H(x),1-D(x))的點集合即構成圖二的ROC曲線。 上述觀念,也可以擴展到離散機率函數。假設某項檢驗的結果可以分為五級,有病組與無病組被分到各級的人數如表一,則以不同級為診斷標準時,即可得到如表二的敏感度與偽陽性率,根據表二的資料,即可得到圖三的ROC曲線。 臨床上可用的診斷工具,其ROC曲線是一條凸向左上方的曲線,而且愈偏離45度對角線愈好【14】。45度對角線(圖二)被稱為「無訊息線」(Line of no information),這條線代表診斷工具的診斷結果,對醫師判斷病人是否有病,沒有提供任何有效的訊息,也就是說,做這項檢驗的效用和扔銅板(指正反面出現機率相等的銅板)決定有病、沒病是一樣的。因此,早期判斷一項診斷工具是否可用的指標,就是ROC曲線偏離45度對角線多遠。Peterson和Birdsall提出的d'指數【8】,Lusted所提的de'(敏感指標)【9】都是屬於這方面的研究。 繼敏感指標後,被提出的指標是「ROC曲線下的面積」,這面積是指在「強迫二選一」的情形下,猜對有病者、無病者的機率。「強迫二選一」是指從有病組中挑出一個人,再從無病組中挑出一人,做一項檢驗後,「必須」指出兩人中那一個是有病者【1,7】。「ROC曲線下的面積」就代表診斷工具猜對的機率有多大。猜對的機率愈大代表診斷工具愈好。 讀者若對於「ROC曲線下的面積」的計算及多條「ROC曲線下的面積」的統計檢定有興趣,可以進一步參考Hanley及McNeil所寫的論文【1,2】。 Catalona等【6】的論文則是選定,每條ROC曲線最好的反折點來進行比較。因為有些醫師覺得,臨床上不必去考慮敏感度或精確度太差的情形,因此比較整條ROC曲線,在臨床上是沒有意義的。 選擇反折點 ROC曲線的用處之一,是提供研究者找出一個較好的反折點(或正常值),使診斷工具的敏感度與精確度能有合理的平衡。 對一位求診者而言,如果把有病誤診為無病,和把無病誤診為有病視為同樣重要,這時的反折點應是使敏感度與精確度的和有最大值的檢驗值。這個最大值是Youden在1950年提出的。 如果h(x)與d(x)是平均值不同,變異數相同的兩族群的常態分布曲線,則由圖一可知:x=c*,使H(x)=1-D(x),這條線是圖一中的-45度對角線,也就是說:(1-H(c*),1-D(c*))正好是ROC曲線與-45度對角線交點。但ROC曲線不是平滑曲線時,最好的反折點則不一定是(1-H(c*),1-D(c*))。Chong及Wilkinson【5】, Catalona【6】等的論文就是以這種方法選擇反折點的。 Sox等提出了選擇最佳反折點的另一種想法【15】。他們認為最好的反折點是與下列斜率直線相切的ROC曲線上的一點: 治療無病者的淨成本 無病者盛行率 與ROC曲線相切之斜率: ------------------- × -------------- 治療有病者的淨利潤 有病者盛行率 Sox等的觀念比Yuden的觀念更合理。但可能因為損益數據不易取得,而較少(或沒有?)被採用。 電腦程式 Centor指出:Metz曾開發多種可用於微電腦的ROC曲線相關程式【7】。 我們曾為個人電腦使用者以SAS/PC寫過可計算ROC曲線各點及找出Yuden index 最佳反折點的程式。應用我們的程式的研究者,必須確認他的每筆資料至少有檢驗值、真實健康狀態及各真實健康狀態的人數等項。 結語 在臨床上,由於新的檢驗技術不斷地推陳出新,如果這個新技術是以數字呈現檢驗結果,則必須訂出一個「正常值」的範圍,作為醫療人員解讀的依據。而ROC曲線正是許多研究者用以決定「正常範圍」的工具。因此了解ROC曲線的原理,將有助於臨床醫療人員對各種檢驗數據的理解與詮釋。 REFERENCES
1. Hanley JA, McNeil BJ: The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology, 1982;143:29-36. 台灣醫界 1997, 40(1): |