ROC 曲線   by 盧誌明 藍守仁, 1997-01-15

前言

近年可以看到愈來愈多的醫學文獻以「ROC curve」做為標題或關鍵字,常用的醫學文獻查詢系統--MEDLINE已經把它列為「醫學標題」(Medical Subject Heading)。放射線科醫師使用ROC曲線分析電腦斷層攝影術與核醫掃描的診斷能力【1-4】,精神科醫師用它來決定問卷的決策點【5】,泌尿科醫師用它來檢定前列腺專一抗體密度(PSA density)是否比前列腺專一抗體濃度(PSA concentration)更能診斷出前列腺癌【6】。1989年和1990年在MEDLINE中可以查到178篇以「ROC曲線」為標題的文獻【7】,1994年略微減少,但仍可找到20篇。本文將對ROC曲線的基本概念加以介紹。

歷史回顧

ROC曲線的全名為Receiver Operating Characteristic Curve,中文或可譯為「接收器運作指標曲線」,這項技術起初是為了增進軍事雷達的敵我偵測能力而發展的。舉例而言:雷達接收的無線電波可能只是雜訊,也可能是雜訊加上真正的電磁波,如果把雜訊判為敵機,或把敵機誤判為雜訊,都會使我方蒙受損失,因此選擇一個合理的指標做為判斷標準,顯然是極具軍事價值的。在1954年的情報理論研討會上,哈佛大學的Meter及Middleton和密西根大學的Peterson、Birdsall及Fox同時提出了應用概算比(likelihood ratio)做為決策法則的報告【8】。隨後,這項決策法則被整合為ROC曲線。

1971年,Lusted把ROC曲線的觀念引介給醫學界【9】。他指出ROC曲線是以「X軸與Y軸分別代表偽陽性診斷與真陽性診斷」的點狀圖【9】。

1973年,Simpson及Fitter提出以「ROC曲線下的面積」做為診斷工具分辨能力的指標【10】。根據此一理論,要了解一個診斷工具是否優於另一工具,只要比較兩者「ROC曲線下的面積」就可以得到答案了。

1975年,Bamber【11】指出「ROC曲線下的面積」的意義。他認為這個面積(大於0,小於1的一個數字)代表「強迫二選一」(two-alternative-forced-choice, 2AFC)的情形下,診斷工具猜對有病者、無病者的機率。 1988年Hanley提出「ROC曲線下的面積」的計算方法【12】。

1983年Hanley及McNeil提出二條「ROC曲線下的面積」的統計檢定方法【2】。

Centor在1991年的論文【7】中,對ROC曲線的發展有更詳細的描述,有興趣者可自行參考。

從陽性預測值到ROC曲線

在臨床實務上,我們幾乎不可能找到百分之百「正確」的診斷工具。一般認為可以做為「黃金標準」的長期追蹤、組織切片檢查、造影攝影術和屍體解剖【13】,除了最後一項外,也不是絕對正確。因此,「陽性預測值」、「陰性預測值」、「敏感度」、「精確度」、「概算比」等概念紛紛被提出來。醫師較喜歡使用「陽性預測值」(或「陰性預測值」),因為這項指標是以具有某種檢驗結果的人數做為分母,以真實健康狀態與檢驗結果相符的人數做為分子。醫師如果知道某檢驗的陽性預測值是90﹪,他就可以告訴一個檢驗結果為陽性的人說:「你有90﹪的機會得了某病。」預測值的缺點是會受到盛行率的影響。如果甲、乙兩醫院的某病盛行率不同,這兩家醫院同一檢驗的陽性預測值也會不同。「敏感度」與「精確度」是以真實的健康狀態人數為分母,以檢驗結果與該健康狀態相符的人數做為分子,不會受到盛行率的影響,各醫院同一檢驗的「敏感度」與「精確度」是相同的。而其缺點在於「敏感度」與「精確度」彼此之間有交換性,當診斷標準趨於嚴格時(檢驗為陽性的人數減少),「敏感度」會降低,但「精確度」會升高,例如:把血糖的「正常值」從140mg/dl提高到180mg/dl,敏感度的分母(真正的糖尿病患者人數)不變,但分子減少,所以敏感度會下降,而精確度則正好相反,因此這兩個指標會隨著「正常值」的改變而一升一降,我們無法由這兩個指標中的任何一個知道最適當的「正常值」該定在那裡。「陽性概算比」的定義是:「具有某一狀態者被檢驗為陽性」的機率和「不具有某一狀態者被檢驗為陽性」的機率之比值。因此「陽性概算比」就是真陽性率與偽陽性率的比值,由於真陽性率等於敏感度,偽陽性率等於一減去精確度,所以「陽性概算比」是整合敏感度與精確度的一個指標。不同的正常值就會產生不同的「陽性概算比」,當我們以一項檢驗工具,各個不同「正常值」下的「陽性概算比」的分母、分子畫入X-Y座標,即可得到一條以偽陽性率為X軸,真陽性率為Y軸的曲線,這條曲線即是ROC曲線。

ROC曲線的製成

假設圖一的橫軸代表某項檢驗的數值,縱軸代表人數比例(機率),h(x)代表無病者的分布曲線,d(x)代表有病者的分布曲線,h(x)與d(x)底下的面積均為1(100%),且H(x)代表無病者的檢驗值小於或等於X的機率(即自負無限大至x之間h(x)的積分),D(x)代表有病者的檢驗值小或等於X的機率。

則 偽陽性率=1-H(x)..... (1)
真陽性率=1-D(x)..... (2)

(1-H(x),1-D(x))的點集合即構成圖二的ROC曲線。

上述觀念,也可以擴展到離散機率函數。假設某項檢驗的結果可以分為五級,有病組與無病組被分到各級的人數如表一,則以不同級為診斷標準時,即可得到如表二的敏感度與偽陽性率,根據表二的資料,即可得到圖三的ROC曲線。

臨床上可用的診斷工具,其ROC曲線是一條凸向左上方的曲線,而且愈偏離45度對角線愈好【14】。45度對角線(圖二)被稱為「無訊息線」(Line of no information),這條線代表診斷工具的診斷結果,對醫師判斷病人是否有病,沒有提供任何有效的訊息,也就是說,做這項檢驗的效用和扔銅板(指正反面出現機率相等的銅板)決定有病、沒病是一樣的。因此,早期判斷一項診斷工具是否可用的指標,就是ROC曲線偏離45度對角線多遠。Peterson和Birdsall提出的d'指數【8】,Lusted所提的de'(敏感指標)【9】都是屬於這方面的研究。

繼敏感指標後,被提出的指標是「ROC曲線下的面積」,這面積是指在「強迫二選一」的情形下,猜對有病者、無病者的機率。「強迫二選一」是指從有病組中挑出一個人,再從無病組中挑出一人,做一項檢驗後,「必須」指出兩人中那一個是有病者【1,7】。「ROC曲線下的面積」就代表診斷工具猜對的機率有多大。猜對的機率愈大代表診斷工具愈好。

讀者若對於「ROC曲線下的面積」的計算及多條「ROC曲線下的面積」的統計檢定有興趣,可以進一步參考Hanley及McNeil所寫的論文【1,2】。

Catalona等【6】的論文則是選定,每條ROC曲線最好的反折點來進行比較。因為有些醫師覺得,臨床上不必去考慮敏感度或精確度太差的情形,因此比較整條ROC曲線,在臨床上是沒有意義的。

選擇反折點

ROC曲線的用處之一,是提供研究者找出一個較好的反折點(或正常值),使診斷工具的敏感度與精確度能有合理的平衡。

對一位求診者而言,如果把有病誤診為無病,和把無病誤診為有病視為同樣重要,這時的反折點應是使敏感度與精確度的和有最大值的檢驗值。這個最大值是Youden在1950年提出的。

如果h(x)與d(x)是平均值不同,變異數相同的兩族群的常態分布曲線,則由圖一可知:x=c*,使H(x)=1-D(x),這條線是圖一中的-45度對角線,也就是說:(1-H(c*),1-D(c*))正好是ROC曲線與-45度對角線交點。但ROC曲線不是平滑曲線時,最好的反折點則不一定是(1-H(c*),1-D(c*))。Chong及Wilkinson【5】, Catalona【6】等的論文就是以這種方法選擇反折點的。

Sox等提出了選擇最佳反折點的另一種想法【15】。他們認為最好的反折點是與下列斜率直線相切的ROC曲線上的一點:

治療無病者的淨成本 無病者盛行率

與ROC曲線相切之斜率: ------------------- × --------------

治療有病者的淨利潤 有病者盛行率

Sox等的觀念比Yuden的觀念更合理。但可能因為損益數據不易取得,而較少(或沒有?)被採用。

電腦程式

Centor指出:Metz曾開發多種可用於微電腦的ROC曲線相關程式【7】。

我們曾為個人電腦使用者以SAS/PC寫過可計算ROC曲線各點及找出Yuden index 最佳反折點的程式。應用我們的程式的研究者,必須確認他的每筆資料至少有檢驗值、真實健康狀態及各真實健康狀態的人數等項。

結語

在臨床上,由於新的檢驗技術不斷地推陳出新,如果這個新技術是以數字呈現檢驗結果,則必須訂出一個「正常值」的範圍,作為醫療人員解讀的依據。而ROC曲線正是許多研究者用以決定「正常範圍」的工具。因此了解ROC曲線的原理,將有助於臨床醫療人員對各種檢驗數據的理解與詮釋。

REFERENCES

1. Hanley JA, McNeil BJ: The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology, 1982;143:29-36.
2. Hanley JA, McNeil BT: A method of comparing the areas under receiver operating characteristic curve derivedfrom the same cases. Radiology 1983;148:839-843
3. Swets JA, Pickett RM, Whitehead SF et al. Assessment of diagnostic technologies. Science 1979;205:753-759.
4. Somoza E, Mossman D: Comparing and optimizing diagnostic tests: an information-theoretical approach
5. Chong MY, Wilkinson G: Validation of 30-and 12-item versions of the Chinese health questionnaire(cHQ) in patient admitted for general health screening. Psychol Med 1989;19:495-505.
6. Catalona WJ, Richie JP, deKernion JB et al: Comparison of prostate specific antigen concentration versus prostate specific antigen density in the early detection of prostate cancer: receiver operation characteristic curves. J Urol 1994;152:2031-2036.
7. Centor: Signal detectability: the use of ROC curves and their analyses. Med Decis Making 1991; 11:102-106.
8. Swets JA: The relative operating characteristic in psychology-- a technique or isolating effects of response bias finds wide use in the study of perception and cognition. Science 1973;182:990-1000.
9. Lusted LB: Signal detectability and medical decision-making. Science 1971;171:1217-9.
10. Simpson AJ, Fitter MJ: What is the best index of detectability?Psychol Bull 1973;80:481-8.
11. Bamber D: The area above the ordinal dominance graph and the area below the receiver operating characteristic graph. J Math Psych 1975;12:387-415.
12. Hanley JA: The robustness of the "binominal" assumptions used in fitting ROC curves. Med Decis Making 1988;8:197-203.
13. Fletcher RH, Flether SW, Wagner EH: Clinical epidemiology. Baltimore: Williams & Wilkins 1988; 2nd:43-45.
14. Murphy JM, Berwick DM, Weinstein MC: Performance of screening and diagnostic tests. Arch Gen Psychiatry 1987;44:550-555.
15. Sox HC, Blatt MA, Higgins MC et al: Medical decision making. singapore: PE Publishing Pte Ltd. 1990;1st ed:134-138.

台灣醫界 1997, 40(1):

Hosted by www.Geocities.ws

1