ＲＯＣ曲線　　　by 盧誌明藍守仁, 1997-01-15

前言
近年可以看到愈來愈多的醫學文獻以「ROC curve」做為標題或關鍵字，常用的醫學文獻查詢系統--MEDLINE已經把它列為「醫學標題」（Medical Subject Heading）。放射線科醫師使用ROC曲線分析電腦斷層攝影術與核醫掃描的診斷能力【1-4】，精神科醫師用它來決定問卷的決策點【5】，泌尿科醫師用它來檢定前列腺專一抗體密度（PSA density）是否比前列腺專一抗體濃度（PSA concentration）更能診斷出前列腺癌【6】。1989年和1990年在MEDLINE中可以查到178篇以「ROC曲線」為標題的文獻【7】，1994年略微減少，但仍可找到20篇。本文將對ROC曲線的基本概念加以介紹。
歷史回顧
ROC曲線的全名為Receiver Operating Characteristic Curve，中文或可譯為「接收器運作指標曲線」，這項技術起初是為了增進軍事雷達的敵我偵測能力而發展的。舉例而言：雷達接收的無線電波可能只是雜訊，也可能是雜訊加上真正的電磁波，如果把雜訊判為敵機，或把敵機誤判為雜訊，都會使我方蒙受損失，因此選擇一個合理的指標做為判斷標準，顯然是極具軍事價值的。在1954年的情報理論研討會上，哈佛大學的Meter及Middleton和密西根大學的Peterson、Birdsall及Fox同時提出了應用概算比(likelihood ratio)做為決策法則的報告【8】。隨後，這項決策法則被整合為ROC曲線。
1971年，Lusted把ROC曲線的觀念引介給醫學界【9】。他指出ROC曲線是以「X軸與Y軸分別代表偽陽性診斷與真陽性診斷」的點狀圖【9】。
1973年，Simpson及Fitter提出以「ROC曲線下的面積」做為診斷工具分辨能力的指標【10】。根據此一理論，要了解一個診斷工具是否優於另一工具，只要比較兩者「ROC曲線下的面積」就可以得到答案了。
1975年，Bamber【11】指出「ROC曲線下的面積」的意義。他認為這個面積（大於0，小於1的一個數字）代表「強迫二選一」（two-alternative-forced-choice, 2AFC）的情形下，診斷工具猜對有病者、無病者的機率。 1988年Hanley提出「ROC曲線下的面積」的計算方法【12】。
1983年Hanley及McNeil提出二條「ROC曲線下的面積」的統計檢定方法【2】。
Centor在1991年的論文【7】中，對ROC曲線的發展有更詳細的描述，有興趣者可自行參考。
從陽性預測值到ROC曲線
在臨床實務上，我們幾乎不可能找到百分之百「正確」的診斷工具。一般認為可以做為「黃金標準」的長期追蹤、組織切片檢查、造影攝影術和屍體解剖【13】，除了最後一項外，也不是絕對正確。因此，「陽性預測值」、「陰性預測值」、「敏感度」、「精確度」、「概算比」等概念紛紛被提出來。醫師較喜歡使用「陽性預測值」（或「陰性預測值」），因為這項指標是以具有某種檢驗結果的人數做為分母，以真實健康狀態與檢驗結果相符的人數做為分子。醫師如果知道某檢驗的陽性預測值是90﹪，他就可以告訴一個檢驗結果為陽性的人說：「你有90﹪的機會得了某病。」預測值的缺點是會受到盛行率的影響。如果甲、乙兩醫院的某病盛行率不同，這兩家醫院同一檢驗的陽性預測值也會不同。「敏感度」與「精確度」是以真實的健康狀態人數為分母，以檢驗結果與該健康狀態相符的人數做為分子，不會受到盛行率的影響，各醫院同一檢驗的「敏感度」與「精確度」是相同的。而其缺點在於「敏感度」與「精確度」彼此之間有交換性，當診斷標準趨於嚴格時（檢驗為陽性的人數減少），「敏感度」會降低，但「精確度」會升高，例如：把血糖的「正常值」從140mg/dl提高到180mg/dl，敏感度的分母（真正的糖尿病患者人數）不變，但分子減少，所以敏感度會下降，而精確度則正好相反，因此這兩個指標會隨著「正常值」的改變而一升一降，我們無法由這兩個指標中的任何一個知道最適當的「正常值」該定在那裡。「陽性概算比」的定義是：「具有某一狀態者被檢驗為陽性」的機率和「不具有某一狀態者被檢驗為陽性」的機率之比值。因此「陽性概算比」就是真陽性率與偽陽性率的比值，由於真陽性率等於敏感度，偽陽性率等於一減去精確度，所以「陽性概算比」是整合敏感度與精確度的一個指標。不同的正常值就會產生不同的「陽性概算比」，當我們以一項檢驗工具，各個不同「正常值」下的「陽性概算比」的分母、分子畫入X-Y座標，即可得到一條以偽陽性率為X軸，真陽性率為Y軸的曲線，這條曲線即是ROC曲線。
ROC曲線的製成
假設圖一的橫軸代表某項檢驗的數值，縱軸代表人數比例（機率），h(x)代表無病者的分布曲線，d(x)代表有病者的分布曲線，h(x)與d(x)底下的面積均為1（100%），且H(x)代表無病者的檢驗值小於或等於X的機率（即自負無限大至x之間h(x)的積分），D(x)代表有病者的檢驗值小或等於X的機率。
則偽陽性率＝1－H（x）..... （1）
真陽性率＝1－D（x）..... （2)
（1－H（x），1－D（x））的點集合即構成圖二的ROC曲線。
上述觀念，也可以擴展到離散機率函數。假設某項檢驗的結果可以分為五級，有病組與無病組被分到各級的人數如表一，則以不同級為診斷標準時，即可得到如表二的敏感度與偽陽性率，根據表二的資料，即可得到圖三的ROC曲線。
臨床上可用的診斷工具，其ROC曲線是一條凸向左上方的曲線，而且愈偏離45度對角線愈好【14】。45度對角線（圖二）被稱為「無訊息線」（Line of no information），這條線代表診斷工具的診斷結果，對醫師判斷病人是否有病，沒有提供任何有效的訊息，也就是說，做這項檢驗的效用和扔銅板（指正反面出現機率相等的銅板）決定有病、沒病是一樣的。因此，早期判斷一項診斷工具是否可用的指標，就是ROC曲線偏離45度對角線多遠。Peterson和Birdsall提出的d'指數【8】，Lusted所提的de'（敏感指標）【9】都是屬於這方面的研究。
繼敏感指標後，被提出的指標是「ROC曲線下的面積」，這面積是指在「強迫二選一」的情形下，猜對有病者、無病者的機率。「強迫二選一」是指從有病組中挑出一個人，再從無病組中挑出一人，做一項檢驗後，「必須」指出兩人中那一個是有病者【1，7】。「ROC曲線下的面積」就代表診斷工具猜對的機率有多大。猜對的機率愈大代表診斷工具愈好。
讀者若對於「ROC曲線下的面積」的計算及多條「ROC曲線下的面積」的統計檢定有興趣，可以進一步參考Hanley及McNeil所寫的論文【1,2】。
Catalona等【6】的論文則是選定，每條ROC曲線最好的反折點來進行比較。因為有些醫師覺得，臨床上不必去考慮敏感度或精確度太差的情形，因此比較整條ROC曲線，在臨床上是沒有意義的。
選擇反折點
ROC曲線的用處之一，是提供研究者找出一個較好的反折點(或正常值)，使診斷工具的敏感度與精確度能有合理的平衡。
對一位求診者而言，如果把有病誤診為無病，和把無病誤診為有病視為同樣重要，這時的反折點應是使敏感度與精確度的和有最大值的檢驗值。這個最大值是Youden在1950年提出的。
如果h(x)與d(x)是平均值不同，變異數相同的兩族群的常態分布曲線，則由圖一可知：x=c*，使H（x）＝1－D(x),這條線是圖一中的－45度對角線，也就是說：(1－H（c*），1－D（c*）)正好是ROC曲線與－45度對角線交點。但ROC曲線不是平滑曲線時，最好的反折點則不一定是(1－H（c*），1－D（c*）)。Chong及Wilkinson【5】, Catalona【6】等的論文就是以這種方法選擇反折點的。
Sox等提出了選擇最佳反折點的另一種想法【15】。他們認為最好的反折點是與下列斜率直線相切的ROC曲線上的一點：
治療無病者的淨成本無病者盛行率
與ROC曲線相切之斜率： ------------------- × --------------
治療有病者的淨利潤有病者盛行率
Sox等的觀念比Yuden的觀念更合理。但可能因為損益數據不易取得，而較少（或沒有？）被採用。
電腦程式
Centor指出：Metz曾開發多種可用於微電腦的ROC曲線相關程式【7】。
我們曾為個人電腦使用者以SAS/PC寫過可計算ROC曲線各點及找出Yuden index 最佳反折點的程式。應用我們的程式的研究者，必須確認他的每筆資料至少有檢驗值、真實健康狀態及各真實健康狀態的人數等項。
結語
在臨床上，由於新的檢驗技術不斷地推陳出新，如果這個新技術是以數字呈現檢驗結果，則必須訂出一個「正常值」的範圍，作為醫療人員解讀的依據。而ROC曲線正是許多研究者用以決定「正常範圍」的工具。因此了解ROC曲線的原理，將有助於臨床醫療人員對各種檢驗數據的理解與詮釋。
REFERENCES
1. Hanley JA, McNeil BJ: The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology, 1982;143:29-36.
2. Hanley JA, McNeil BT: A method of comparing the areas under receiver operating characteristic curve derivedfrom the same cases. Radiology 1983;148:839-843
3. Swets JA, Pickett RM, Whitehead SF et al. Assessment of diagnostic technologies. Science 1979;205:753-759.
4. Somoza E, Mossman D: Comparing and optimizing diagnostic tests: an information-theoretical approach
5. Chong MY, Wilkinson G: Validation of 30-and 12-item versions of the Chinese health questionnaire(cHQ) in patient admitted for general health screening. Psychol Med 1989;19:495-505.
6. Catalona WJ, Richie JP, deKernion JB et al: Comparison of prostate specific antigen concentration versus prostate specific antigen density in the early detection of prostate cancer: receiver operation characteristic curves. J Urol 1994;152:2031-2036.
7. Centor: Signal detectability: the use of ROC curves and their analyses. Med Decis Making 1991; 11:102-106.
8. Swets JA: The relative operating characteristic in psychology-- a technique or isolating effects of response bias finds wide use in the study of perception and cognition. Science 1973;182:990-1000.
9. Lusted LB: Signal detectability and medical decision-making. Science 1971;171:1217-9.
10. Simpson AJ, Fitter MJ: What is the best index of detectability？Psychol Bull 1973;80:481-8.
11. Bamber D: The area above the ordinal dominance graph and the area below the receiver operating characteristic graph. J Math Psych 1975;12:387-415.
12. Hanley JA: The robustness of the "binominal" assumptions used in fitting ROC curves. Med Decis Making 1988;8:197-203.
13. Fletcher RH, Flether SW, Wagner EH: Clinical epidemiology. Baltimore: Williams & Wilkins 1988; 2nd:43-45.
14. Murphy JM, Berwick DM, Weinstein MC: Performance of screening and diagnostic tests. Arch Gen Psychiatry 1987;44:550-555.
15. Sox HC, Blatt MA, Higgins MC et al: Medical decision making. singapore: PE Publishing Pte Ltd. 1990;1st ed:134-138.

台灣醫界 1997, 40(1):

Hosted by www.Geocities.ws