Detekcia anomálií

Podobné dokumenty
Teória pravdepodobnosti Zákony velkých císel

Metrické konštrukcie elipsy Soňa Kudličková, Alžbeta Mackovová Elipsu, ako regulárnu kužeľosečku, môžeme študovať synteticky (konštrukcie bodov elipsy

SRPkapitola06_v1.docx

Pokrocilé programovanie XI - Diagonalizácia matíc

Microsoft Word - skripta3b.doc

Pokrocilé spracovanie obrazu - Fourierová transformácia

Dobývanie znalostí

PowerPoint Presentation

2.5. Dotyčnica krivky, dotykový kužeľ. Nech f je krivka a nech P V (f) (t.j. m P (f) 1). Ak m P (f) = r a l je taká priamka, že I P (f, l) > r, potom

9.1 MOMENTY ZOTRVACNOSTI \(KVADRATICKÉ MOMENTY\) A DEVIACNÝ MOMENT PRIEREZU

DediĊnosť

Paralelné algoritmy, cast c. 3

Operačná analýza 2

Metódy násobenie v stredoveku

Matematický model činnosti sekvenčného obvodu 7 MATEMATICKÝ MODEL ČINNOSTI SEKVENČNÉHO OBVODU Konečný automat predstavuje matematický model sekvenčnéh

WP summary

Informačné technológie

Analýza sociálnych sietí Geografická lokalizácia krajín EU

Priebeh funkcie

Snímka 1

Verejná konzultácia k článku 18 Nariadenia Komisie (EÚ) 2017/2195, ktorým sa ustanovuje usmernenie o zabezpečovaní rovnováhy v elektrizačnej sústave P

Preco kocka stací? - o tom, ako sú rozdelené vlastné hodnoty laplasiánu v limite, ked sú velké

Siete vytvorené z korelácií casových radov

Úvodná prednáška z RaL

Paralelné algoritmy, cast c. 2

SK MATEMATICKÁOLYMPIÁDA skmo.sk 2009/ ročník MO Riešenia úloh česko-poľsko-slovenského stretnutia 1. Určte všetky trojice (a, b, c) kladných r

Vzorové riešenia úlohy 4.1 Bodovanie Úvod do TI 2010 Dôvod prečo veľa z Vás malo málo bodov bolo to, že ste sa nepokúsili svoje tvrdenia dokázať, prič

Študijný program (Študijný odbor) Školiteľ Forma štúdia Téma Elektronické zbraňové systémy (8.4.3 Výzbroj a technika ozbrojených síl) doc. Ing. Martin

1 Portál pre odborné publikovanie ISSN Heuristický adaptívny PSD regulátor založený na miere kmitavosti Šlezárová Alexandra Elektrotechnika

Inteligentné rozhodovacie systémy Heuristické prehľadávanie SP Október, 2018 Katedra kybernetiky

Microsoft Word - 6 Výrazy a vzorce.doc

Úvod do lineárnej algebry Monika Molnárová Prednášky 2006

Príklad 5 - Benzén 3. Bilančná schéma 1. Zadanie príkladu n 1 = kmol/h Definovaný základ výpočtu. Na základe informácií zo zadania si ho bude v

8

Neineárne programovanie zimný semester 2018/19 M. Trnovská, KAMŠ, FMFI UK 1

NSK Karta PDF

8 Cvičenie 1.1 Dokážte, že pre ľubovoľné body X, Y, Z platí X + Y Z = Z + Y X. 1.2 Dokážte, že pre ľubovoľné body A, B, D, E, F, G afinného priestoru

Microsoft Word - 06b976f06a0Matice - Uzivatelska Dokumentacia

Pokrocilé programovanie II - Nelineárne iteracné schémy, chaos, fraktály

Microsoft Word - Algoritmy a informatika-priesvitky02.doc

III. Diferenciálny počet funkcie viac premenných (Prezentácia k prednáškam, čast B) Matematická analýza IV (ÚMV/MAN2d/10) RNDr. Lenka Halčinová, PhD.

Viacnásobne použitelné oblasti spolahlivosti pre viacrozmernú kalibráciu

Slide 1

Úroveň strojového kódu procesor Intel Pentium Pamäťový operand Adresovanie pamäte Priama nepriama a indexovaná adresa Práca s jednorozmerným poľom Pra

STRUČNÝ NÁVOD KU IP-COACHU

Klasická metóda CPM

Didaktické testy

Snímka 1

MO_pred1

Operačná analýza 2

Informačná a modelová podpora pre kvantifikáciu prvkov daňovej sústavy SR

Podpora metód operačného výskumu pri navrhovaní systému liniek doc. RNDr. Štefan PEŠKO, CSc. Katedra matematických metód, Fa

Tomáš Jelínek - včely vyhľadávanie

Ekon Supply of labour by John Pencavel

Zeszyty Naukowe PWSZ, Nowy Sącz 2013 Konštrukcie magických obdĺžnikov Marián Trenkler Faculty of Education, Catholic University in Ružomberok Hrabovsk

Príloha č

Microsoft Word - mnohouholnik.doc

Relačné a logické bázy dát

VZTAH STUDENTŮ VŠ K DISCIPLÍNÁM TEORETICKÉ INFORMATIKY

Microsoft Word - Zaver.pisomka_januar2010.doc

Vzhľadom k tomu, že Žiadosť o platbu č

Zadanie_1_P1_TMII_ZS

Prenosový kanál a jeho kapacita

1. KOMPLEXNÉ ČÍSLA 1. Nájdite výsledok operácie v tvare x+yi, kde x, y R. a i (5 2i)(4 i) b. i(1 + i)(1 i)(1 + 2i)(1 2i) (1 7i) c. (2+3i) a+bi d

O možnosti riešenia deformácie zemského povrchu z pohladu metódy konecných prvkov konference pro studenty matematiky

TESTOVANIE STABILITY PROCESU POKRAČOVANIA GRADIOMETRICKÝCH MERANÍ DRUŽICE GOCE NADOL

Prezentácia programu PowerPoint

Metódy dokazovanie v matematike 1 Základné pojmy Matematika exaktná veda vybudovaná DEDUKTÍVNE ZÁKLADNÉ POJMY základy každej matematickej teórie sú in

eKasa

Študent 1. kapitola Maticová algebra I 1.1 Definícia matice V mnohých prípadoch dáta majú štruktúru dvojrozmernej tabuľky, ktorá má m riadkov a n stĺp

Snímka 1

Prezentácia programu PowerPoint

Novinky programu MSklad

MERANIE U a I.doc

Microsoft PowerPoint - OOP_prednaska_10.pptx

NSK Karta PDF

Regionálne printové periodikum - dvojtýždenník, distribuovaný v náklade ks do domácností v Mestskej časti Bratislava-Petržalka. Prinášame aktuá

Manažment v Tvorbe Softvéru 2018/2019

Detektor kovu, napätia a dreva 3 v 1 DM-902 Každé kopírovanie, reprodukovanie a rozširovanie tohto návodu vyžaduje písomný súhlas firmy Transfer Multi

Centrum vedecko-technických informácií, Odbor pre hodnotenie vedy, Oddelenie pre hodnotenie publikačnej činnosti Vyhľadávanie a práca so záznamami - C

1

Photo Album

Operačná analýza 2

K-prumeru

Numerické riešenie všeobecnej (klasickej) DMPK rovnice.

Paralelné algoritmy, cast c. 3

Úloha č.2 Meranie odporu rezistorov Vladimír Domček Astrofyzika semester Skupina č Laboratórne podmienky: Teplota: 22,6 C Tlak:

Analýza hlavných komponentov

NÁVRH UČEBNÝCH OSNOV PRE 1

9. kapitola Maticová algebra II systém lineárnych rovníc, Frobeniova veta, Gaussova eliminačná metóda, determinanty 1. Systém lineárnych rovníc Systém

Inflácia Nezamestnanosť

Rozvojom spoločnosti najmä v druhej polovici minulého storočia dochádza čím ďalej tým viac k zásahu človeka do životného prostredia

(Microsoft Word Zadanie na s\372\235a\236 KROS DESIGN AWARD .doc)

SK MATEMATICKA OLYMPIADA 2010/ ročník MO Riešenia úloh domáceho kola kategórie Z4 1. Doplň do prázdnych políčok čísla od 1 do 7 každé raz tak,

Snímka 1

Jozef Kiseľák Sada úloh na precvičenie VIII. 15. máj 2014 A. (a) (b) 1

Microsoft Word - 16.kapitola.doc

Sila [N] Sila [N] DIPLOMOVÁ PRÁCA Príloha A: Sila v ose skrutky v mieste predpätia P = 0,

trafo

untitled

Prepis:

Detekcia anomálií OBSAH PREDNÁŠKY Validácia zhlukov dokončenie minulej prednášky interné a externé kritériá validity Úvod do detekcie anomálií, príklady aplikácií Analýza extrémnych hodnôt (extreme value analysis) Jednorozmerná a Viacrozmerná Metódy založené na hĺbke (depth-based methods) Zhlukovanie pre detekciu anomálií Metódy založené na vzdialenosti Metódy korigujúce lokálnu vzdialenosť: LOF a ISMD Metódy založené na hustote (density-based methods) Validita anomálií (ROC krivka)

Interné validačné kritériá (1) 1. Suma štvorcov vzdialeností od centroidov: najprv sa určia centroidy jednotlivých zhlukov a následne sa spočíta súčet kvadrátov odchýlok (sum of squared (SSQ) distances) jednotlivých bodov zhlukov od centroidov príslušných zhlukov. 2. Pomer vnútrozhlukovej a medzizhlukovej vzdialenosti: najskôr sa vyberie náhodná vzorka r párov dátových bodov. Nech P z nich patria to rovnakého zhluku, ostatné páry tvoria Q. Potom výsledná hodnota tohto kritéria je Intra/Inter. Malé hodnoty indikujú lepšie zhlukovanie. Objavovanie znalostí (zhlukovanie) 2

Interné validačné kritériá (2) 3. Koeficient silhouette: Nech je priemerná vzdialenosť bodu od ostatných bodov v danom zhluku a najmenšia (priemerná) vzdialenosť bodu od ostatných zhlukov. Potom koeficient silhouette pre i-ty objekt je: Celkový koeficient silhouette (z intervalu -1 až 1) je potom priemer všetkých bodových hodnôt tohto koeficientu. Vysoké kladné hodnoty indikujú dobre odseparované zhluky, negatívne hodnoty zasa prekrývajúce sa zhluky. Objavovanie znalostí (zhlukovanie) 3

Ladenie parametrov internými mierkami validity zhlukov Všetky algoritmy zhlukovania používajú na vstupe nejaké parametre. Hodnoty niektorých z nich je možné vyladiť pomocou interných kritérií validity zhlukov. Kľúčová myšlienka je nájdenie inflexného bodu v priebehu internej validačnej mierky pri zmenách daného parametra (viď. nasledovný príklad). Prevzaté z: Charu C. Aggarwal: Data Mining: The Textbook. Springer, 2015 4

Externé validačné kritériá (1) Také kritériá možno použiť, ak je k dispozícii informácia o skutočnom zaradení do zhlukov. Toto v reálnych dátach spravidla nie je možné, je to možné pri synteticky generovaných datasetoch. Toto validačné kritérium možno veľmi dobre použiť aj pre klasifikačné modely. Tieto kritériá sú preferované voči interným, nakoľko sa spravidla vedia vyhnúť preferovaniu určitého typu algoritmov (kvôli zvolenej kriteriálnej funkcii). V niektorých prípadoch sa počet skutočných zhlukov k t zhoduje s počtom algoritmom určených zhlukov k d. V takom prípade je veľmi užitočná confusion matrix Objavovanie znalostí (zhlukovanie) 5

Externé validačné kritériá (2) Riadky (i) zodpovedajú skutočným zhlukom a stĺpce (j) zhlukom určeným algoritmom. Hodnota m ij v znamená počet záznamov ktoré skutočne patria do zhluku i a boli algoritmom priradené do zhluku j. Keď algoritmom nájdené zhluky sú kvalitné, potom je možné nájsť takú permutáciu riadkov a stĺpcov, aby boli vysoké iba hodnoty na hlavnej diagonále. Pri nekvalitnom zhlukovaní budú hodnoty v matici rozdelené rovnomernejšie. Pre väčšie rozmery je už vizuálne posúdenie nepraktické. Okrem toho aj keď sa dajú zostrojiť matice aj v prípade že k t k d ich vizuálne posúdenie je omnoho zložitejšie. Objavovanie znalostí (zhlukovanie) 6

Externé validačné kritériá (3) Preto je potrebné mať číselné metriky na celkové posúdenie kvality confusion matrix, napr.: 1. Čistota zhlukov (cluster purity) 2. Gini index Počet dátových bodov v jednotlivých zhlukoch určime nasledovne: Pre kvalitne určený zhluk j by mal obsahovať dátové body prevažne z jednej triedy. Dominantná trieda: Kvalitné zhluky budú mať hodnoty P j blízke hodnotám M j. Objavovanie znalostí (zhlukovanie) 7

Čistota zhlukov (Purity) Žiadúce sú vysoké hodnoty čistoty. Čistotu možno počítať dvojakým spôsobom: Čistota algoritmom určených zhlukov najprv pre jednotlivé zhluky (k d ) výpočtom uvedeným na predchádzajúcom slide a potom tieto hodnoty agregovať. Čistota skutočných zhlukov analogickým spôsobom, ale pre k t. Takto získané hodnoty pre k d a k t môžu byť dosť odlišné. Ich priemer sa používa ako sumárne externé kritérium kvality zhlukov. Objavovanie znalostí (zhlukovanie) 8

Úvod do detekcie anomálií, príklady aplikácií Neformálna definícia: Anomália (outlier) je dátový bod ktorý je veľmi odlišný od ostatných bodov. Hawkins: Anomália je pozorovanie, ktoré sa natoľko odchyľuje od ostatných pozorovaní, až vzniká podozrenie, že bolo generované iným mechanizmom. Aplikácie anomálií v dolovaní v dátach: Čistenie dát anomálie predstavujú šum v dátach, preto sa zvyknú v procese predspracovania odstrániť. Podvody s kreditnými kartami netypické vzory v aktivite kreditnej karty môžu poukazovať na jej zneužitie. Prieniky do sietí Prevádzka rôznych typov sietí môže byť chápaná ako prúd multidimenzionálnych záznamov. Anomálie sú často definované ako netypické záznamy v tomto prúde, alebo netypické zmeny v základných trendoch. Objavovanie znalostí (detekcia anomálií) 9

Miera anomality Väčšina metód na detekciu anomálií vytvára model normálneho správania (normal patterns) a anomálie sú definované ako dátové body ktoré prirodzene nepasujú do tohto normálneho modelu. Miera anomality je spravidla definovaná numerickou hodnotou (anglicky outlier score). Výstup algoritmov je dvoch typov: 1. reálne číslo určujúce skóre anomality 2. binárne označenie indikujúce či daný dátový bod je anomália, alebo nie Prvý typ výsledku možno vždy previesť na druhý, nie však naopak, preto prvá možnosť je všeobecnejšia ako druhá. Objavovanie znalostí (detekcia anomálií) 10

Vybrané modely pre detekciu anomálií 1. Extrémne hodnoty: ktoré ležia na jednom z dvoch koncov distribúcie pravdepodobnosti. 2. Zhlukovacie modely: mnohé zhlukovacie modely určujú anomálie ako vedľajší produkt algoritmu. Je tiež možné optimalizovať zhlukovacie modely špecificky na detegovanie anomálií. 3. Modely založené na vzdialenosti: v tomto prípade sa analyzuje distribúcia založená na k-najbližších susedoch (anomálie majú vyššiu vzdialenosť k-teho najbližšieho suseda než väčšina ostatných bodov). 4. Modely založené na hustote: používajú lokálnu hustotu dátového bodu na stanovenie jeho miery anomality. 5. Ďalšie modely: napr. pravdepodobnostné alebo informačnoteoretické. Objavovanie znalostí (detekcia anomálií) 11

Analýza extrémnych hodnôt Ide o veľmi špecifický typ detekcie anomálií, ktoré ležia na okraji distribúcie pravdepodobnosti hodnôt. Všetky extrémne hodnoty sú anomálie, ale nie všetky anomálie sú extrémne hodnoty: jednorozmerný príklad: {1,3,3,3,50,97,97,97,100}, viacrozmerný príklad na obrázku nižšie: Prevzaté z: Charu C. Aggarwal: Data Mining: The Textbook. Springer, 2015 Objavovanie znalostí (detekcia anomálií) 12

Jednorozmerná analýza extrémnych hodnôt (1) Úzko súvisí so štatistickým testom extrémnych hodnôt Grubbsov parametrický test alebo Dixonov neparametrický test Typicky jednorozmerné (parametrické) štatistické testy extrémnych hodnôt predpokladajú že jednorozmerné dáta sú popísané určitou distribučnou funkciou f X (x). Pre extrémne regióny platí, že f X (x) θ pre používateľom definovanú hranicu θ. Prevzaté z: Charu C. Aggarwal: Data Mining: The Textbook. Springer, 2015 13

Jednorozmerná analýza extrémnych hodnôt (2) Najčastejšie používaný model je normálna distribúcia pravdepodobnosti, t.j.: Štandardné normálne rozdelenie (Z) má strednú hodnotu 0 a štandardnú odchýlku 1. V niektorých prípadoch môžu byť tieto parametre známe, alebo je možné ich dosť presne odhadnúť pomocou dostatočne veľkej dátovej vzorky. Tieto hodnoty možno použiť pre výpočet Z-hodnoty náhodnej premennej. Z-hodnotu z i pozorovanej hodnoty x i možno vypočítať takto: x z = i i Veľké kladné hodnoty z i zodpovedajú hornému okraju a veľké záporné hodnoty dolnému okraju rozdelenia pravdepodobnosti, t.j. extrémnym hodnotám. 14

Jednorozmerná analýza extrémnych hodnôt (3) Normálne rozdelenie sa dá vyjadriť priamo pomocou Z hodnôt, pretože zodpovedajú preškálovanej náhodnej premennej so strednou hodnotou 0 a štandardnou odchýlkou 1: To znamená, že možno použiť kumulatívnu normálnu distribúciu na určenie oblasti okraja, ktorá je väčšia ako z i. Jednoduché pravidlo potom hovorí, že ak Z-hodnota je väčšia ako 3, dátové body spĺňajúce túto podmienku sú považované za extrémne hodnoty. Dá sa ukázať že táto okrajová oblasť zodpovedajúca extrémnym hodnotám je menej ako 0,01% pre normálne rozdelenie. Objavovanie znalostí (detekcia anomálií) 15

Viacrozmerná analýza extrémnych hodnôt (1) Tu možno použiť podobný koncept stanovenia hranice pre hustotu pravdepodobnosti viacrozmernej distribučnej funkcie. Opäť sa predpokladá rozdelenie s jedným vrcholom (jeden Gaussovský zhluk). Distribúcia pravdepodobnosti pre d-rozmerný dátový bod je definovaná takto (Σ je kovariančná matica): f ( X ) = (2 ) ( d / 2) 1 ( X ) 2 ( X ) Výraz v exponente je polovica štvorca Mahalanobisovej vzdialenosti, t.j.: 1 2 f ( X ) = 1 1 (2 ) e ( d / 2) e 1 T Maha ( X,, ) 2 Objavovanie znalostí (detekcia anomálií) 16

Viacrozmerná analýza extrémnych hodnôt (2) Aby hustota pravdepodobnosti klesla pod stanovenú hranicu, musí byť Mahalanobisova vzdialenosť dátového bodu od stredu väčšia ako istá hranica => Mahalanobisova vzdialenosť od stredu môže slúžiť ako skóre pre extrémne hodnoty. Mahalanobisova vzdialenosť je podobná Euclidovskej (rovná sa jej v prípade rotácie osí podľa PCA). Predelenie štandard. odchýlkou v danom smere spôsobí že B na obr. bude ďalej od stredu ako A. Prevzaté z: Charu C. Aggarwal: Data Mining: The Textbook. Springer, 2015 17

Na hĺbke založené metódy V každej iterácii sa odstránia dátové body, ktoré tvoria vrcholy konvexného obalu až kým počas k iterácií nedôjde k odstráneniu všetkých bodov. Poradové číslo iterácie, v ktorej bol bod odstránený, je jeho miera anomality (analógia šúpania cibule viď. nasledujúci obrázok). S narastajúcou dimenzionalitou sa zhoršuje kvalita výsledku. Naviac stúpa výpočtová náročnosť. Prevzaté z: Charu C. Aggarwal: Data Mining: The Textbook. Springer, 2015 18

Zhlukovanie pre detekciu anomálií (1) Komplementárny charakter zhlukovania a detekcie anomálií je dobre známy. Anomálie sú detegované ako vedľajší produkt zhlukovania, ale algoritmy zhlukovania nie sú optimalizované na detekciu anomálií. Zhlukovacie algoritmy môžu mať ale aj výhody, nakoľko anomálie majú tendenciu vytvárať malé zhluky (proces, ktorý anomáliu vyvolal, sa môže zopakovať viackrát). Prevzaté z: Charu C. Aggarwal: Data Mining: The Textbook. Springer, 2015 19

Zhlukovanie pre detekciu anomálií (2) Jednoduchý spôsob definovania miery anomality v tomto prípade môže byť vzdialenosť dátového bodu od centroidu najbližšieho zhluku. V prípade že sú ale zhluky pretiahnuté, alebo majú rozličnú hustotu, je lepšie použiť Mahalanobisovu vzdialenosť. Avšak nie tak, ako v prípade analýzy extrémnych hodnôt, kde sa používala globálna verzia tejto vzdialenosti, ale v tomto prípade sa používa lokálna Mahalanobisova vzdialenosť. Predpokladajme že bolo nájdených k zhlukov. Nech r-tý zhluk v d-rozmernom priestore má vektor priemerných hodnôt μ r a kovariančnú maticu Σ r. Potom lokálna Mahalanobisova vzdialenosť bodu X od centra zhluku = miera anomality je: Maha ( X,, ) = ( X ) ( X ) r r r 1 r r T 20

Metódy založené na vzdialenosti Anomálie sú vzdialené od hustých oblastí bodov (zhlukov). Prirodzený spôsob definovania miery anomality je preto pre každú inštanciu definovaný ako jej vzdialenosť ku k-temu najbližšiemu susedovi. Alternatívne možno použiť priemer vzdialeností k najbližších susedov. Parameter k určuje používateľ. Zadaním väčšej hodnoty ako 1 možno odhaliť aj menšie zhluky anomálií (pre predchádzajúci príklad ak k > 3). Tieto metódy majú jemnejšiu granularitu než zhlukovanie a lepšie rozlišujú šum od skutočných anomálií. Cenou zato je vyššia výpočtová zložitosť O(n 2 ). Preto sa používajú rôzne metódy na zrýchlenie, 1. Indexové štruktúry (nie pre mnohorozmerné dáta) 2. Orezávanie priestoru prehľadávania Objavovanie znalostí (detekcia anomálií) 21

Metódy korigujúce lokálnu vzdialenosť V prednáške o vzdialenosti a podobnosti sme hovorili o vplyve lokálnej distribúcie dát na výpočet vzdialenosti. V kontexte detekcie anomálií situáciu ilustrujú dva rozdielne prípady kedy je potrebné korigovať použitú vzdialenosť vzhľadom na lokálne špecifiká. Local Outlier Factor Instance-specific Mahalanobis distance Prevzaté z: Charu C. Aggarwal: Data Mining: The Textbook. Springer, 2015 22

Local Outlier Factor (1) Prispôsobuje sa lokálnym variáciám v hustote zhlukov normalizáciou vzdialeností priemerom bodovo-špecifických vzdialeností v lokalite bodu. Pre daný dátový bod X, nech: V k (X) je vzdialenosť k jeho k-temu najbližšiemu susedovi L k (X) je množina bodov v rámci tejto vzdialenosti R k (X,Y) je vzdialenosť dosiahnuteľosti X vzhľadom na Y R k ( X, Y ) max Dist( X, Y ), V ( Y k = AR k (X) je priemerná vzdialenosť dosiahnuteľosti X vzhľadom na jeho okolie L k (X) AR Objavovanie znalostí (detekcia anomálií) k ( X ) = MEAN R ( X, Y ) Y L ( X ) k k ) 23

Local Outlier Factor (2) Konečne Local Outlier Factor (LOF) sa rovná: LOF k ( X ) = MEANY L ( X ) AR AR ( X ) ( Y ) LOF hodnoty pre objekty v zhluku sú často blízke 1 pokiaľ sú body v zhluku rovnomerne distribuované. Tak tomu bude pre body z oboch zhlukov na obr. (a). Na druhej strane pre oba anomálne body (A a B) na obr. (a) bude ich faktor oveľa väčší, lebo budú počítané v kontexte priemerných vzdialeností dosiahnuteľnosti susedných bodov. k k k 24

Local Outlier Factor (3) V praxi sa používa ako výsledná miera anomality maximálna hodnota LOF k (X) z množiny rôznych hodnôt k. Metóda LOF má preto schopnosť dobre sa prispôsobiť regiónom s rôznou hustotou kvôli relatívnej normalizácii menovateľom vyššie uvedeného výrazu. Objavovanie znalostí (detekcia anomálií) 25

Instance-Specific Mahalanobis Distance (1) Táto metrika je navrhnutá pre prispôsobenie sa rôznym tvarom distribúcie v lokalite daného dátového bodu prípad na obrázku (b). V tomto prípade sa Mahalanobisova vzdialenosť počíta vzhľadom distribúciu okolitých bodov. Otázka je ako určiť vhodné okolie daného dátového bodu X? Používa sa tu aglomeratívny prístup pre určenie okolia L k (X): Najprv sa tam pridá bod X, a potom sa iteratívne pridávajú tie body, ktoré majú najmenšiu vzdialenosť k najbližšiemu bodu z L k (X). Vypočíta sa vektor priemerných hodnôt μ k (X) a kovariančná matica Σ k (X) okolia L k (X). Potom inštancii-špecifická Mahalanobisova vzdialenosť bodu X od μ k (X) je mierou anomality: LMaha k ( X ) = Maha( X, ( X ), ( X k k )) Objavovanie znalostí (detekcia anomálií) 26

Instance-Specific Mahalanobis Distance (2) Jediným rozdielom vo výpočte globálnej Mahalanobisovej vzdialenosti pri detekcii extrémnych hodnôt a tejto inštančne-špecifickej je, že v tomto prípade sa uvažuje iba lokálne okolie L k (X) dátového bodu X. Pričom dôležitý je aj spôsob, akým sa toto okolie konštruuje (pri zväčšujúcom sa k narastá v proporcionálnom tvare najbližšieho zhluku). Podobne ako v prípade LOF aj tu sa aplikujú rôzne hodnoty k a ako výsledná miera anomality sa berie najväčšia hodnota. Objavovanie znalostí (detekcia anomálií) 27

Instance-Specific Mahalanobis Distance (3) Použitie tejto metriky správne odhalí jedinú anomáliu v príklade uvedenom na obrázku (b). Vďaka použitiu Mahalanobisovej vzdialenosti tento prístup správne odhalí anomálie aj v prípade (a). 28

Metódy založené na hustote Metódy zhlukovania založené na hustote hľadajú husté oblasti, v prípade detekcie anomálií sa analogicky hľadajú riedke oblasti v dátach. Pre jednorozmerné dáta možno použiť histogram. Ako miera anomality slúži počet ostatných bodov v danom bine. Prirodzeným zovšeobecnením v kontexte viacrozmerných dát je mriežka (každá dimenzia sa diskretizuje na p intervalov rovnakej šírky). Mierou anomality je počet ďalších bodov v danom regióne mriežky. Problémom týchto metód je určenie optimálnej šírky intervalu. Ďalšou nevýhodou je, že sú príliš lokálne a neberú tak do úvahy globálne charakteristiky dát. Objavovanie znalostí (detekcia anomálií) 29

Validita anomálií Validita sa v tomto prípade nedá jednoducho odvodiť z validity zhlukov, je zložitejšia. Interné kritériá validity sa pre anomálie prakticky nepoužívajú, aj keď v zhlukovaní sa používajú pomerne často. Väčšina kritérií validity pre anomálie sú externé, napr. ROC krivka (Receiver Operating Characteristics). Pri detekcii anomálií sa spravidla používa nejaká mierka anomality a stanovená hranica, podľa ktorej sa určí binárna hodnota (je/nie je anomália). Objavovanie znalostí (detekcia anomálií) 30

ROC krivka (1) Ak je stanovená hranica príliš reštriktívna, algoritmus môže minúť niektoré anomálie, t.j. označí ich za falošne negatívne (false negatives - FN). Ak je ale táto hranica príliš voľná, to spravidla vedie k väčšiemu počtu falošne pozitívnych prípadov (false positives - FP). To vedie ku kompromisu medzi FP a FN. Problém je, že optimálnu hranicu nikdy nepoznáme vopred. Na hľadanie optimálneho kompromisu medzi FP a FN slúži ROC krivka. Objavovanie znalostí (detekcia anomálií) 31

ROC krivka (2) Nech pre ľubovoľnú zadanú hraničnú hodnotu t na mieru anomality je výsledná množina anomálií S(t). Nech G je skutočná množina anomálií. D celá množina dát. Skóre skutočne pozitívnych prípadov (true positive rate) sa vypočíta nasledovne: TPR( t) = Recall( t) = 100 S( t) G Skóre falošne pozitívnych S( t) G FPR( t) = 100 prípadov (false positive rate): D G ROC krivka vznikne vynesením hodnôt FPR(t) na X-ovú os a TPR(t) na Y-ovú os. Krajné body ROC krivky sú vždy (0,0) a (100,100). Náhodná metóda vykazuje výkonnosť okolo diagonály. Lift (zdvih) nad touto diagonálou poskytuje predstavu o kvalite danej metódy. Objavovanie znalostí (detekcia anomálií) G 32

ROC krivka - príklad Majme množinu 100 dátových bodov, z ktorých je 5 anomálií. Dva algoritmy A a B sú aplikované na túto množinu a usporiadajú dátové body podľa ich miery anomality (od najväčšej po najmenšiu). Prevzaté z: Charu C. Aggarwal: Data Mining: The Text-book. Springer, 2015 Plocha pod ROC krivkou sa používa ako sumárny indikátor kvality algoritmu, avšak opatrne, nie všetky časti ROC krivky musia byť aplikačne rovnako dôležité. 33