Slov. radiol. 18 (2), 2011, 62 66 P. Slezák 1, I. Waczulíková 2 1 Ústav normálnej a patologickej fyziológie, Slovenská akadémia vied, Bratislava 2 Katedra jadrovej fyziky a biofyziky, Oddelenie biomedicínskej fyziky, Fakulta matematiky fyziky a informatiky, Univerzita Komenského v Bratislave Hodnotenie užitočnosti diagnostických testov (Likelihood ratio pozitívneho/negatívneho výsledku testu, Diagnostic Odds ratio, Diagnostic accuracy, Youdenov index) Článok nadväzuje na prvú prácu 1 zaoberajúcu sa hodnotením užitočnosti diagnostických testov. V tomto článku zadefinujeme parametre, ktoré sa používajú pri hodnotení výsledkov diagnostických testov a pri porovnávaní výkonnosti rôznych diagnostických testov. Zameriame sa na miery (ukazovatele) využívané pri popise výkonnosti testov s binárnym výstupom t.j. pozitívny/negatívny a okrem už diskutovaných základných indikátorov senzitivity, špecificity, pozitívnej a negatívnej prediktívnej hodnoty, bližšie rozoberieme ukazovatele: likelihood ratio pozitívneho (negatívneho) výsledku testu, diagnostic odds ratio, diagnostic accuracy a Youdenov index. (V článku používame aj anglické výrazy, pretože slovenské a české preklady nie sú zaužívané, alebo sú nejednotné, čo by mohlo viesť k nedorozumeniam.) Pre úplnosť pripomíname, že pre diagnostické testy, ktorých výstupom je číslo na spojitej škále (napr. rôzne biochemické parametre), existujú aj ďalšie miery výkonnosti a to hlavne ROC krivka (receiver operating curve/characteristics), ktorá má aj v rádiológii časté využitie (pozri napr. 2 ). V článku budeme pracovať s časťou údajov publikovaných v práci Tempany a kol. 3, v ktorej autori porovnávali hodnotenie klinického nálezu na základe troch rozdielnych rádiologických diagnostických metód ultrasonografie (USG), počítačovej tomografie (CT) a zobrazenia magnetickou rezonanciou (MRI). Tieto metódy boli použité pri diagnostike a stanovení stagingu rakoviny ovárií (pre detailný opis štúdie pozri 3 ). V stručnosti štúdia zahŕňala 280 pacientok podozrivých z tohto ochorenia a bola zameraná na diagnostikovanie nádoru ovárií a prítomnosť metastáz v lymfatických uzlinách, peritoneu a pečeni. Referenčný štandard predstavovala kombinácia chirurgického a histopatologického nálezu. Porovnanie diagnostickej výkonnosti týchto rádiologických metód je prezentované v Tab. 1 a 2. (Poznámka: nie u všetkých pacientok boli použité všetky tri modality.) Dáta prezentované v článku boli reanalyzované programom StatsDirect verzia 2.7.3. Tab. 1. ukazovatele diagnostickej výkonnosti rádiologických metód použitých v štúdii 3 Senzitivita Špecificita PPV NPV USG 31,6 (12,6-56,6) 92,8 (88,7-95,8) 26,1 (10,2-48,4) 94,4 (90,6-97,0) CT 42,9 (17,7-71,1) 89,0 (83,7-93,0) 22,2 (8,6-42,2) 95,5 (91,3-98,0) MRI 38,5 (13,9-68,4) 83,5 (76,8-89,0) 16,1 (5,5-33,7) 94,3 (89,1-97,5) USG ultrasonografia, CT počítačová tomografia, MRI magnetická rezonancia, PPV pozitívna prediktívna hodnota, NPV negatívna prediktívna hodnota. Hodnoty sú uvedené v percentách. Údaje v zátvorke predstavujú 95% interval spoľahlivosti (95% confidence interval resp. 95% CI). Tab. 2. ukazovatele diagnostickej výkonnosti rádiologických metód použitých v štúdii 3 (pokračovanie) Diagnostic accuracy Diagnostic OR LR+ LR- Youdenov index USG 88,2% 5,9 (1,6-19,3) 4,4 (1,9-9,1) 0,7 (0,5-0,9) 0,24 CT 85,9% 6,1 (1,6-22,0) 3,9 (1,8-7,4) 0,6 (0,4-0,9) 0,32 MRI 80,1% 3,2 (0,7-12,0) 2,3 (1,0-4,5) 0,7 (0,4-1,0) 0,22 OR odds ratio, (LR+) likelihood ratio pozitívneho výsledku testu, (LR) likelihood ratio negatívneho výsledku testu. Prevalencia prítomnosti metastáz v študovanom súbore: MRI 7,6% (4,1-12,7) 13/171, CT 6,8% (3,9-11,2) 14/205, USG 7,5% (4,6-11,4) 19/255. Údaje v zátvorke predstavujú 95% interval spoľahlivosti.
P. Slezák, I. Waczulíková: Hodnotenie užitočnosti diagnostických testov 63 Pre interpretovanie údajov uvedených v tabuľke 1 si pripomenieme, aké možnosti môžu nastať 1 : výsledok testu je TP správne/skutočne pozitívny (true positive), alebo FP falošne pozitívny (false positive), alebo FN falošne negatívny (false negative), alebo je TN správne/skutočne pozitívny (true positive) (Tab. 3). Tab. 3. Prezentovanie výsledkov použitého diagnostického testu pomocou 2x2 tabuľky Referenčný test (zlatý štandard) výsledok testu pozitívny negatívny pozitívny TP FP Test negatívny FN TN TP správne/skutočne pozitívny (true positive), FP falošne pozitívny (false positive), FN falošne negatívny (false negative), TN správne/ skutočne pozitívny (true positive). Vierohodnostný pomer Likelihood ratio (LR) Likelihood ratio (LR) kombinuje senzitivitu a špecificitu testu a poskytuje priamy odhad toho, ako veľmi výsledok testu zmení šancu mať dané ochorenie (resp. pozitívny nález) u pacienta. Rozlišujeme LR pozitívneho výsledku testu (LR+) a LR negatívneho výsledku test (LR-). senzitivita R+ = (1 špecificita) LR+ je pomer pozitívnych výsledkov u skutočne chorých osôb, k počtu pozitívnych výsledkov u osôb, ktoré sú v skutočnosti zdravé (nemajú dané ochorenie). To znamená, že je to podiel šance, že chorá osoba je testom označená ako pozitívna k šanci, že je zdravá osoba testom chybne označená ako pozitívna. (1 senzitivita) R- = špecificita LR- je pomer negatívnych výsledkov medzi skutočne chorými osobami, k negatívnym výsledkom medzi zdravými osobami. Teda je to podiel šance, že chorá osoba je testom chybne označená ako negatívna, k šanci, že zdravá osoba je testom správne označená ako negatívna. Hodnota LR rovná 1 znamená, že test neprináša žiadnu použiteľnú informáciu; čím je hodnota LR viac vzdialená od jednotky, tým má test väčšiu diskriminačnú schopnosť. Z definície vyplýva, že kvalitný test má mať čo možno najvyššiu hodnotu LR+ a čo najnižšiu hodnotu LR-. Všeobecne sú LR+ väčšie ako 10 a LR- menšie ako 0,1 považované za veľmi presvedčivý dôkaz potvrdenia prítomnosti resp. vylúčenia prítomnosti danej diagnózy 4. Hodnoty nad 5 pre LR+ resp. pod 0,2 pre LR- poskytujú pomerne silný diagnostický dôkaz potvrdenia resp. vylúčenia ochorenia 5. Keď sa vrátime k nášmu príkladu, LR+ pri diagnostikovaní prítomnosti metastáz v lymfatických uzlinách u pacientok podozrivých z prítomnosti rakoviny ovárií pomocou CT je 3,9. Znamená to, že pozitívny výsledok z CT sa vyskytne približne 4-krát častejšie u pacientok s metastázami v lymfatických uzlinách, ako u pacientok bez týchto metastáz. Nemusí to však nevyhnutne znamenať, že ak máme pozitívny výsledok testu, tak je 4-krát pravdepodobnejšie, že tento výsledok je od pacientky s metastázami ako od pacientky bez metastáz. Ak je LR+ rovné 4, potom frakcia chorých subjektov s pozitívnym výsledkom testu je 4-krát väčšia ako frakcia zdravých subjektov s pozitívnym výsledkom testu. Inými slovami, hodnota LR+ rovná 4 znamená, že na jednu zdravú osobu nesprávne diagnostikovanú ako pozitívnu (chorú) pripadajú 4 chorí pacienti správne diagnostikovaní ako pozitívni. V klinickej praxi je užitočné vedieť, ako výsledok daného testu predpovedá riziko prítomnosti daného ochorenia. Prediktívne hodnoty nám udávajú pravdepodobnosti prítomnosti ochorenia na základe výsledku daného diagnostického testu, avšak ich hodnoty závisia od prevalencie daného ochorenia vo vyšetrovanej populácii (vyšetrovanom súbore) a preto musíme byť opatrní pri zovšeobecnení na inú populáciu. Hlavný úžitok LR spočíva v tom, že nám s použitím Bayesovho teorému umožňuje previazať pred-testovú (a priori) a po-testovú (a posteriori) pravdepodobnosť daného ochorenia (t.j. pred a po vykonaní daného diagnostického testu). Znalosť LR tak poskytuje nástroj na výpočet pravdepodobnosti prítomnosti daného ochorenia na základe výsledkov diagnostického testu pre rôzne pred-testové pravdepodobnosti, keďže hodnoty prevalencie sa môžu v rôznych populáciách líšiť, o čom sa často presviedčame v publikovanej literatúre. Ako zrejmý príklad uvedieme rozdiel v prevalenciách toho istého ochorenia v populácii hospitalizovaných a ambulantných pacientov. Bayesov teorém sa používa na výpočet šance namiesto pravdepodobnosti, preto môže byť jeho použitie pre lekárov nepraktické. Použitie Faganovho nomogramu (Obr. 1) však umožňuje predísť komplikáciám s prevodom šancí na pravdepodobnosti 6. Pred-testová pravdepodobnosť je najčastejšie odhadovaná na základe údajov zo štúdií na pacientoch s podobnými charakteristikami, ktoré sú známe pred testom, odhad (stupeň podozrenia) tiež záleží na skúsenosti lekára a druhu pacientov, s ktorými sa stretáva v klinickej praxi. Situáciu dobre popisuje tzv. prahový model: 0% X Y 100% Cieľom diagnostického procesu je dospieť do situácie, v ktorej sú s veľkou pravdepodobnosťou určité možné ochorenia vylúčené po prekročení prahu vylúčenia X (no- -treatment/test treshold) a pravdepodobnosť iných vzrastie do úrovne, pri ktorej sa lekár rozhodne pacienta liečiť (prekročenie prahu liečenia Y test/treatment treshold).
64 P. Slezák, I. Waczulíková: Hodnotenie užitočnosti diagnostických testov Presnosť diagnostického testu Diagnostic accuracy Senzitivita, špecificita, pozitívna a negatívna prediktívna hodnota, LR+ a LR- predstavujú užitočné ukazovatele výkonnosti (kvality) diagnostického testu, ich nevýhodou je ale, že musia byť uvádzané v pároch. Existujú však aj globálne ( single ) ukazovatele výkonnosti diagnostických testov. Jedným z nich je presnosť diagnostického testu (diagnostic accuracy, v literatúre označovaná aj ako overall accuracy, test efficiency, ktorá je definovaná ako proporcia správne klasifikovaných subjektov TP+TN (t.j. súčet tých, ktorí boli správne diagnostikovaní ako pozitívni a tých, ktorí boli správne diagnostikovaní ako negatívni) k celkovému počtu vyšetrených subjektov. Tento ukazovateľ je vo všeobecnosti závislý od prevalencie ochorenia v študovanej populácii. Za predpokladu rovnakej senzitivity a špecificity daného testu bude hodnota diagnostic accuracy klesať so zvyšujúcou sa prevalenciou ochorenia v študovanom súbore (pre ďalšie informácie pozri referenciu 9 ). Diagnostický pomer šancí Diagnostic odds ratio (DOR) Diagnostic odds ratio testu je definované ako podiel šance pozitivity výsledku testu pri prítomnosti ochorenia k šanci pozitivity výsledku testu v neprítomnosti ochorenia. R+ DOR = R- Obr. 1. Faganov nomogram (obrázok prevzatý a upravený z 8 ). Príklad jeho použitia pre diagnostickú metódu CT z diskutovaného príkladu. Čierna čiara predstavuje pozitívny, sivá čiara predstavuje negatívny výsledok testu. Ak po použití testu nie je dosiahnutý ani jeden prah, použijú sa ďalšie testy, pričom po-testová pravdepodobnosť prvého testu slúži ako pred-testová pravdepodobnosť nasledovného testu. V prípade, keď je ťažké pred-testovú pravdepodobnosť odhadnúť, použijeme najnižšiu a najvyššiu prijateľnú hodnotu, čo nám pri známom LR umožní vypočítať po-testové pravdepodobnosti, ktoré interpretujeme ako najlepší a najhorší scenár. Praktické využitie LR v klinickej praxi je širšie prezentované a diskutované v 7. Na obrázku 1 je prezentované použitie Faganovho nomogramu pre výpočet po-testovej pravdepodobnosti po pozitívnom a negatívnom výsledku na CT vyšetrení, pri diagnostikovaní prítomnosti metastáz v lymfatických uzlinách. Hodnota DOR sa vždy nachádza v rozsahu hodnôt 0 až nekonečno, pričom vyššie hodnoty znamenajú lepšiu diskriminačnú schopnosť testu, t.j. schopnosť rozlišovať medzi subjektmi s ochorením a bez daného ochorenia. Hodnoty menšie ako 1 poukazujú na nesprávnu interpretáciu testu (viac negatívnych výsledkov medzi chorými pacientmi). DOR významne závisí na hodnotách senzitivity a špecificity, t.j. test s vysokou hodnotou senzitivity a špecificity (a tým pádom malými početnosťami FP a FN výsledkov) má vysoké hodnoty DOR. Je potrebné upozorniť, že dva testy s rovnakými hodnotami DOR môžu mať veľmi rozdielne hodnoty senzitivity a špecificity a s tým odpovedajúco rozdielnymi klinickými dôsledkami. Preto je porovnanie testov pomocou DOR užitočné hlavne v prípadoch, keď rovnováha medzi falošne pozitívnymi a falošne negatívnymi početnosťami nehrá dôležitú úlohu. DOR ako miera výkonnosti testu kombinuje výhody senzitivity a špecificity ako indikátorov nezávislých od prevalencie s výhodami parametra diagnostic accuracy ako globálneho single indikátora a tým je tento indikátor užitočný pri porovnávaní rôznych diagnostických testov 10. Jeho priama aplikácia v klinickej praxi je však zložitá 11. Na základe tohto ukazovateľa môžeme povedať, že v príklade uvedenom na začiatku sú porovnávané diagnostické metódy približne rovnako výkonné. (Poznámka:
P. Slezák, I. Waczulíková: Hodnotenie užitočnosti diagnostických testov 65 Tab. 4. zhrnutie bežne používaných indikátorov kvality diagnostických testov Výpočet Popis Senzitivita TP/(TP + FN) Proporcia pozitívnych výsledkov testu medzi chorými Špecificita TN/(TN + FP) Proporcia negatívnych výsledkov testu medzi zdravými PPV TP/(TP + FP) Proporcia chorých medzi subjektmi s pozitívnym výsledkom testu NPV TN/(TN + FN) Proporcia zdravých medzi subjektmi s negatívnym výsledkom testu LR+ senzitivita/(1-špecificita) Podiel pozit. výsledkov medzi chorými k pozit. výsledkom medzi zdravými LR- (1 senzitivita)/špecificita Podiel negat. výsledkov medzi chorými k negat. výsledkom medzi zdravými Diagnostic accuracy (TP + TN)/(TP + TN + FP + FN) Proporcia správne identifikovaných subjektov DOR (LR+)/(LR-) Šanca pozitivity výsledku testu u chorého k šanci pozitivity u zdravého subjektu Youdenov index senzitivita + špecificita 1 * Tabuľka bola inšpirovaná tabuľkou z práce 10. PPV pozitívna prediktívna hodnota, NPV negatívna prediktívna hodnota, LR+ vierohodnostný pomer (likelihood ratio) pozitívneho výsledku testu, LR- vierohodnostný pomer negatívneho výsledku testu, DOR diagnostický pomer šancí (diagnostic odds ratio), * klinická interpretácia je problematická, pre bližšie informácie pozri 14. hodnoty DOR uvedené v tabuľke 2 sú počítané z nezaokrúhlených hodnôt LR+ a LR-, ktoré sa pri výpočte zo zaokrúhlených hodnôt môžu líšiť.) Youdenov index Youdenov index patrí medzi najstaršie miery výkonnosti diagnostických testov 12. Youdenov index sa počíta odčítaním 1 od sumy senzitivity a špecificity (senzitivita + špecificita -1). Tento index nadobúda hodnoty od 0 do 1, pričom 0 odpovedá klinicky bezcennému testu a hodnota 1 odpovedá dokonalému testu. Treba poznamenať, že Youdenov index nie je citlivý na rozdiely medzi senzitivitou a špecificitou. Napríklad test so senzitivitou 0,95 a špecificitou 0,45 má rovnaký Youdenov index = 0,4 ako test so senzitivitou 0,7 a špecificitou rovnou 0,7. Pritom je zrejmé, že tieto dva testy nie sú ekvivalentné a záver urobený na základe hodnoty Youdenovho indexu môže byť nesprávny. Youdenov index sa využíva hlavne pri testoch ktoré majú spojitý výstup (alebo aspoň v intervalovej mierke) na určenie optimálnej deliacej hranice (cut-off point), keď nie je rozdiel v závažnosti a dôsledkoch medzi falošne pozitívnymi a falošne negatívnymi výsledkami 13. Ďalej sa s ním môžeme stretnúť v meta-analýzach hodnotiacich výkonnosť/ presnosť diagnostických testov. Záver Existuje veľa rôznych mier presnosti, výkonnosti a užitočnosti diagnostického testu. Každý z týchto indikátorov slúži na rôzne účely a prináša viac alebo menej odlišnú informáciu (pozri sumárnu tabuľku 4). Záleží preto od aktuálneho zámeru lekára (klinická prax, výskum, prehľadová práca, meta-analýza apod.), o ktorý z indikátorov je vhodné sa zaujímať, pričom treba kriticky posúdiť nielen jeho hodnotu, ale aj celý interval spoľahlivosti obvykle je to 95% CI. Pre klinickú prax je najužitočnejšou charakteristikou testu vierohodnostný pomer LR, ktorý pri odhade pred-testovej pravdepodobnosti ochorenia u konkrétneho pacienta slúži pre výpočet po-testovej pravdepodobnosti prítomnosti ochorenia za predpokladu, že sa charakteristiky daného pacienta neodlišujú od charakteristík súboru pacientov zo štúdie, ktoré hodnotila daný diagnostický test (od charakteristík vyšetrovanej populácie pacientov). Hodnoty LR nad 5 už prinášajú klinicky veľmi užitočnú informáciu. V zásade je však aj nižšia hodnota LR užitočná, ak použitím testu prechod od pred-testovej pravdepodobnosti k po-testovej pravdepodobnosti umožní prekročiť prah liečenia alebo prah vylúčenia ochorenia. V opačnom prípade sa použije ďalší test, pričom po-testová pravdepodobnosť prvého testu slúži ako pred-testová pravdepodobnosť nasledovného testu. V klinickej praxi sa často používajú dva rôzne testy po sebe, prvý test s vysokou senzitivitou (vyselektovanie potenciálnych chorých) a druhý s vysokou hodnotou špecificity (potvrdenie choroby). Ukazovatele senzitivita a špecificita sú pri hodnotení výkonnosti testu najpoužívanejšie a preto ich význam majú lekári najviac vžitý. Pri porovnávaní viacerých testov majú single indikátory ako diagnostický pomer šancí nesporné výhody nad párovými ako napríklad senzitivita a špecificita. Samozrejme nechceme naším článkom budiť dojem, že by mali lekári každý klinický problém riešiť s kalkulačkou v ruke. Nie je na to dôvod, ani čas a ani potrebný počet údajov. Chceme skôr poukázať na to, že znalosť ukazovateľov (LR, pravdepodobnosť a posteriori) diagnostických testov, hlavne u tých najčastejšie doporučovaných, nám umožní presnejšie stanoviť klinický význam daného výsledku testu v diagnostickom procese. Porovnanie LR rôznych testov nám tiež umožňuje ľahšie sa zorientovať a hodnotiť užitočnosť danej diagnostickej stratégie. Literatúra 1. Slezák P., Waczulíková I.: Hodnotenie užitočnosti diagnostických testov (senzitivita, špecificita, pozitívna a negatívna
66 P. Slezák, I. Waczulíková: Hodnotenie užitočnosti diagnostických testov prediktívna hodnota). Slov. Radiol. 17 (2), 2010, 42 44 2. Langerak S.E., Vliegen H.W., de Roos A., Zwinderman A.H., Jukema J.W., Kunz P., Lamb H.J., van der Wall E.E.: Detection of Vein Graft Disease Using High-Resolution Magnetic Resonance Angiography. Circulation. 2002;105:328-333 3. Tempany C.M., Zou K.H., Silverman S.G., Brown D.L., Kurtz A.B., McNeil B.J.: Staging of advanced ovarian cancer: comparison of imaging modalities-report from the Radiological Diagnostic Oncology Group. Radiology 2000;215(3):761 7 4. Deeks J.J., Altman D.G.: Diagnostic tests 4: likelihood ratios. BMJ 2004; 329: 168 9 5. Jaeschke R., Guyatt G.H., Sackett D.L. for the Evidence- Based Medicine Working Group. Users guides to the medical literature. VI. How to use an article about a diagnostic test. B: What are the results and will they help me in caring for my patients? JAMA 1994;271:703 7 6. Fagan T.J.: Nomogram for Bayes theorem. N Engl J Med 1975;293:257 7. Halkin A., Reichman J., Schwaber M., Paltiel O., Brezis M.: Likelihood ratios: getting diagnostic testing into perspective. Q J Med 1998; 91:247 258 8. http://img.medscape.com/fullsize/migrated/editorial/journalcme/2005/3760/oksengard.fig1.gif 9. Alberg A.J., Park J.W., Hager B.W., Brock B.A.M.V., Diener-West M.: The Use of Overall Accuracy to Evaluate the Validity of Screening or Diagnostic Tests. J GEN INTERN MED 2004;19:460 465 10. Glasa A.S., Lijmerb J.G., Prinsc M.H., Bonseld G.J., Bossuyta P.M.M.: The diagnostic odds ratio: a single indicator of test performance. Journal of Clinical Epidemiology 56 (2003) 1129 1135 11. Deeks J.J.: Systematic reviews of evaluations of diagnostic and screening tests. BMJ 2001;323:157 62 12. Youden W.J.: Index for rating diagnostic tests. Cancer. 1950;3:32-35 13. Bewick V., Cheek L., Ball J.: Statistics review 13: Receiver operating characteristic curves. Critical Care 2004, 8:508-512 14. Hilden J., Glasziou P.: Regret graphs, diagnostic uncerainty and Youden s index. Stat Med 1996;15(10):969 86.