FIIT STU / Vyhľadávanie informácií / Športové udalosti Vyhľadávanie informácií Vypracoval: Milan Baran Téma projektu: Športové udalosti Kľúčové slová:

Podobné dokumenty
DODATOK Č. 2 K ZMLUVE O POSKYTNUTÍ NENÁVRATNÉHO FINANČNÉHO PRÍSPEVKU ČÍSLO ZMLUVY: 076/1.2MP/2010 (ďalej len Dodatok č. 2") NÁZOV PROJEKTU: Jesenské -

ASP DSD

Microsoft Word - ESEJ_SLIDESHARE_RYBAR.doc

MASTER LEDtube InstantFit HF |

Objektovo orientované programovanie

Matej Kendera - PDF, word, lucene, java

LED svetelné zdroje |

Používateľská príručka POUŽÍVATEĽSKÁ PRÍRUČKA Generátor XML dávok pre Informačný systém kontrolných známok z MS Excel šablóny Dátum: Verzia

Všeobecná správa 2009 Rok príprav

ŤAHÁK PRAKTICKÁ ČASŤ Prerekvizity: LINUX: WINDOWS: Inštalácia Oracle VirtualBoxu a vytvorenie virtuálneho stroja /návod nižšie/ Operačný system Window

Snímek 1

Reklamačný poriadok 1. Úvodné ustanovenia 1.1. Spoločnosť, Designed for Fitness Slovakia s.r.o. so sídlom na adrese Ružinovská 3 Bratislava - mestská

GEODETICKÝ A KARTOGRAFICKÝ ÚSTAV BRATISLAVA Chlumeckého 4, Bratislava II Obsah 1. Export údajov ZBGIS do CAD formá

msipapersource62-teslar

1. Zmluvné strany Zmluva o používaní služieb programu MerkuriS číslo.:..rh9!//1 uzatvorená v zmysle zákona č. 513/1991 Z.z. Obchodný zákonník a zákona

NÁVOD NA PRÁCU S DATABÁZOU ŠTUDIJNÝCH ODBOROV/PROGRAMOV NA WWW

Stretnutie vedenia Národnej banky Slovenska s predstaviteľmi inštitúcií platobných služieb, lízingových spoločností a nebankových subjektov v Slovensk

Spôsob administrácie projektov na MTF STU Trnava

Metoclopramide Art CHMP Opinion

Microsoft Word - prirucka_katedry_nova

MASTER LEDspot LV AR111 |

Prehľad biznis validácií aplikovaných na podanie Oznámenia DAC2/CRS (platné od ) Tento dokument slúži ako pomôcka pre finančné inštitúcie (F

JoH^OS/fo^ Zmluva č. 1/2011 o poskytnutí finančného príspevku na úhradu nákladov na sociálnu službu v zariadení pestúnskej starostlivosti podľa 100 od

Transformácia uhoľného regiónu horná Nitra 24. mája 2019 Akčný plán

Základná škola Pavla Horova Michalovce

Verejná súťaž

Riadenie elektrizačných sústav

enum

Kam kráčajú telekomunikačné siete Slovensko Rozvoj vysokorýchlostného internetu na Slovensku z pohľadu dotačnej politiky a transpozícia smernice EÚ 20

Ako si mám nainštalovať nový upgrade z Internetu?

História

PRÍLOHA PODMIENKY ALEBO OBMEDZENIA S OHĽADOM NA BEZPEČNÉ A ÚČINNÉ POUŽITIE LIEKU NA REALIZÁCIU ČLENSKÝMI ŠTÁTMI 1

Transformácia uhoľného regiónu Horná Nitra 31. marec 2019 Akčný plán

NAŠA VÍZIAPRE KULTÚRU, UMENIE A MÉDIÁ

DediĊnosť

1

Úvod

Centrum vedecko-technických informácií, Odbor pre hodnotenie vedy, Oddelenie pre hodnotenie publikačnej činnosti Vyhľadávanie a práca so záznamami - C

KONTRAKT

MsZ,návrh ŤZP+krajské mestá,

26 Správa o výsledku kontroly - motor. vozidlá v majetku MČ BA-Rača

MONEY VERZIA Prehľad noviniek vo verzii zavedených do Money od verzie Vážení zákazníci a obchodní p

PROSPEKT CENNÉHO PAPIERA Eurovea byty, a.s. Dlhopisy Eurovea byty 2024 podriadené dlhopisy bez úrokového výnosu (zero coupon) v predpokladanej celkove

VŠEOBECNÉ OBCHODNÉ PODMIENKY I. VYSVETLENIE ZÁKLADNÝCH POJMOV Verzia: v02 ; V platnosti od: 09. júnia 2018 Služba WebEye Poskytovateľ sprostredkuje pr

PowerPoint Presentation

NAŠA VÍZIAPRE KULTÚRU, UMENIE A MÉDIÁ

ŠKOLSKÁ ZRELOSŤ Vstup do školy je pre dieťa novou vývinovou úlohou, môžeme ho považovať za rozhodujúcu životnú zmenu. Tento krok je potrebné správne n

Microsoft Word - TSSK - VP úprava zverejnené

aplikácia do mobilého telefónu na stiahnutie digitálneho tachografu

Balíčkovanie FreeSWITCH-u pre Debian Autor: Zdenko Holeša, InžProjekt 1, KIS FRI ŽU Predkompilované balíčky Predkompilované balíčky existujú pre Debia

Platný od: OPIS ŠTUDIJNÉHO ODBORU

CURRICULUM VITAE

SAEAUT SNMP OPC Server

User:tomas.melicher

User:Michal.Palcek

SMERNICA pre ustanovenie a činnosť rybárskej stráže 1518/331/12-OO Platná od Článok I. Úvodné ustanovenia 1. Zákon o rybárstve č. 139/02 Z.z

Manuál aplikácie eoev

Služby Microsoft Enterprise Popis služieb Január 2019

dFlex Nitra spol. s r.o.

Jazdci propozicie Nemšova sawrr v2

Základná škola s materskou školou, Gottwaldova 81, Želovce

Princípy tvorby softvéru Programovacie paradigmy

MacBook Pro Sprievodca rýchlym štartom

2599_SK.qxd

User:Peter.Michalec

iot business hub whitepaper isdd_em_New.pdf

PowerPoint Presentation

Rada Európskej únie V Bruseli 6. decembra /2/17 REV 2 OJ CRP2 41 PREDBEŽNÝ PROGRAM VÝBOR STÁLYCH PREDSTAVITEĽOV (časť II) budova Europa, Bru

Import absencí z ASC

Distance search Ján Garaj Fakulta informatiky a informačných technológií Slovenská technická univerzita Školský rok: 2008/09 Popis problému a motiváci

Navigácia po úvodnej stránke elektronickej schránky Dátum zverejnenia: Verzia: 10 Dátum aktualizácie: Navigácia po úvodnej st

ZMLUVA o poskytovani pracovných zdravotných siužieb v súlade pinením povinností, ktoré všetkým zamestnávatel'om ukladá Zákon č. 124/2006 o bezpe čnost

(Manu\341l)

Microsoft Word - pouzivatelska_prirucka.doc

Xesar Softvér Stručný návod

Manuál pre nastavenie tlače z VRP elio m500 Elio m500 Manuál pre nastavenie tlače -1-

Funkcionálne programovanie Cvičenie 9 Funkcionálne programovanie v Jave Sergej Chodarev 22. november 2017 Technická Univerzita v Košiciach

Parsovanie MusicXML súborov Bc. Ondrej Grman Študijný program: Informačné systémy Predmet: Vyhľadávanie informácií Ak. rok: 2013/2014

21. medzinárodná vedecká konferencia Riešenie krízových situácií v špecifickom prostredí Fakulta bezpečnostného inžinierstva UNIZA, Žilina,

Manuál pre nastavenie tlače z VRP Bluetooth, USB tlačiarne Bluetooth, USB tlačiarne Manuál pre nastavenie tlače -1-

Identity Lifecycle Management

Návod na obsluhu ekasy FiskalPRO VX520 (ETH/GPRS/GPRS s batériou)

Identity Lifecycle Management

(Microsoft Word Zadanie na s\372\235a\236 KROS DESIGN AWARD .doc)

Obec Malé Kršteňany Všeobecne záväzné nariadenie Obce Malé Kršteňany č. 3/2011 o miestnych daniach a o miestnom poplatku za komunálne odpady a drobné

bakalarska prezentacia.key

Časť II. Obchodné podmienky pre osoby, ktoré nie sú spotrebiteľmi 1. Všeobecné ustanovenia 1.1. Tieto všeobecné obchodné podmienky (ďalej aj ako Obcho

IAB budicek - Branding Landscape & Research options_FINAL_Gregor.pptx

Sirius II Sprievodca inštaláciou a návod na použitie Sirius II - sprievodca inštaláciou a návod na použitie (verzia 3) 1

(

Microsoft Word - Dokument2

CHEMICKÉ ZVESTI 27, (1967) 87 Hemicelulózy mladých vetvičiek vŕby bielej (Salix alba ъ.) (П) Izolácia a charakterizácia hrubých frakcií hemicelu

Microsoft Word - statut-1805 copy.docx

MATERSKÁ ŠKOLA VYHNE č VYHNE SPRÁVA O VÝCHOVNO VZDELÁVACEJ ČINNOSTI, JEJ VÝSLEDKOCH A PODMIENKACH MATERSKEJ ŠKOLY ZA ŠKOLSKÝ ROK 2016/2017

MO_pred1

PowerPoint Presentation

Prepis:

Vyhľadávanie infrmácií Vypracval: Milan Baran Téma prjektu: Šprtvé udalsti Kľúčvé slvá: IR, vyhľadávanie infrmácií, GATE, Jape, LKB Gazetteer, Lucene, crawler, websphinx, sccer, events, scre Opis prjektu Cieľm prjektu je vytvriť aplikáciu, ktrá by bla schpná vyextrahvať dáta z zvlenéh dátvéh zdrja a tiet dáta rzumnu frmu prezentvať užívateľvi. Takt prezentvané údaje užívateľvi zjedndušujú prácu a šetria čas. Pri veľkm bjeme dát nie je nútený manuálne vyhľadávať určitý typ infrmácie ale aplikácia h vyhľadá autmaticky. Ďalej cieľm bl zrejmiť si techniky a prstriedky spjené s prblematiku vyhľadávania infrmácií. Nadbudnuté infrmácie bli následne využité pri tvrbe zadania Šprtvé udalsti. V tmt prjekte bl ptrebné identifikvať šprtvé kluby, knkrétne futbalvé tímy a následne vyhľadať futbalvý výsledk. GATE General Architecture fr Text Engineering V tejt časti nie je cieľm pisvať č t GATE vlastne je. Všetk hľadne tht silnéh nástrja na pdpru vyhľadávania infrmácií sa dzviete na jeh dmvskej stránke (http://gate.ac.uk/). Osbne dprúčam zbežne si prezrieť dmvskú stránku a ta.pdf, ktrý je pribalený v inštalačnm balíku GATE, a zvážiť jeh využitie v vašm prjekte. Kladne stránky: Mnžstv pdprných pluginv Websphinx crawler Vizualizácia antácií LKB Gazetteer (gazetteer genervaný z nlógie) Lucene Searchable Datastre (lucene úlžisk s mžnsťu vyhľadávania) ANNIE (všetk ptrebné na základnú antáciu textu) Mžnsť vyhdncvať výsledky (prvnanie autmatickéh a manuálneh antvania) Veľmi slušná dkumentácia a JavaDc Jednduchá integrácia d vlastnej Java aplikácie Nastaviteľnsť Záprné stránky: Celý GATE je static inštancia (takže pdpra multi-threadv je slabá) Lucene Datastre nie je mžné tvriť a prehliadať v Luke Celkv hdntím prstredie GATE ak veľmi schpný nástrj, ktrý dkáže veľmi rýchl a spľahliv vyriešiť prblém v blasti vyhľadávania infrmácií. Každému by sm h dpručil využiť pre všetky malé a stredné prjekty a v budúcnsti s jeh využitím pčítam aj ja. - 1 -

JAPE Transducent ukážka pravidiel V mjm prjekte sm identifikval 4 typy antácií a t knkrétne: Názv (Name) Original Markups - H1 element Dátum (Date) Gazetteer + JAPE transducent Tím (Team) LKB Gazetteer + JAPE transducent Výsledk (Scre) JAPE tranducent Názv je získavaný z základnej antácie riginal markups, ktrý bsahuje html elementy. Na antáciu Dátumu sm pužil klasický gazetteer a transducent z príkladu v plugine ANNIE, s drbnymi upravami. Zaujímavejšie praktiky sm pužil na antvanie tímu, kde je pužitý LKB gazetteer genervaný ntlógiu. Ak zdrj sm pužil DBPedia (ntlgia z Wikipedia) a vytiahl sm si znej všetky futbalvé mužstvá. Na rzdiel d ANNIE gazetteeru, ktrý bsahuje minr a majr type LKB gazetter bsahuje infrmácie len triede (class) a inštancie (inst) knkrétnej antácie. Pričm trieda je autmaticky nastavená na typ inštancie, v mjm prípade na http://www.w3.rg/2002/07/wl#thing. Inštancia antácie je nastavená pdľa druhéh parametru v skripte v mjm prípade na http://dbpedia.rg/resurce/názv, tent parameter bude pravdepdbne dôležitý pre funkciu Semantic Anntatin Enrichment, ktrá by mala rzširvať jedntlivé antácie ďalšie prvky (features) a t realtime spaql dtazmi. Môj Gazetteer je získaný skriptm napísanm v SPARQL jazyku (veľmi pdbné ak SQL). Tent skript musí byť ulžený ak query.txt v adresári, ktrý sa predá ak parameter pluginu LKB Gazetter. Adresár taktiež musí bsahvať cnfig.ttl, ktrý je mžné nájsť v ukážkvých príkladch pluginu. Súbr: Query.txt PREFIX faf: <http://xmlns.cm/faf/0.1/> PREFIX rdf: <http://www.w3.rg/1999/02/22-rdf-syntax-ns#> PREFIX db: <http://dbpedia.rg/ntlgy/> PREFIX rdfs: <http://www.w3.rg/2000/01/rdf-schema#> SELECT?Name?Subject WHERE { }?Subject rdf:type <http://dbpedia.rg/ntlgy/sprtsteam>.?subject faf:name?name V prípade, že si chcete práve získaným antáciám pridať ďalšie infrmácie (features) budete ptrebvať vytvriť JAPE Transducer. Ak základ môžete pužiť nasledujúci transducer, ktrý pridá k antácií tímu infrmácie kind a string. Na pridávanie nvých infrmácií k antácii existujú dve cesty v tmt prípade ide tú zlžitejšiu. O tej jednduchšej sa dčítate v manuály aleb ju pchpíte z príkladv v adresári pluginu. Súbr: Team.jape Phase: Team Input: Tken SpaceTken Lkup Cntext //nezabudnite pripísať všetky druhy antácií, ktré chcete pužiť Optins: cntrl = appelt debug=true //debug=true pridá debugvacie infrmácie d message knzly Rule: Team - 2 -

({Lkup.class == "http://www.w3.rg/2002/07/wl#thing"}) :team //berie t č je uzavreté v pslednej zátvrke --> { gate.anntatinset teamset = ((gate.anntatinset)bindings.get("team")); gate.anntatin teamann = (gate.anntatin) teamset.iteratr().next(); //teamann je antácia typu Lkup genervaná LKB Gazetterm a bsahuje class a inst features gate.anntatinset tkenas = inputas.get("tken", entityann.getstartnde().getoffset(), entityann.getendnde().getoffset()); List tkens = new ArrayList(tkenAS); if (tkens.isempty()) return; gate.anntatin curtken=null; String teamname = ""; fr (int i=0; i < tkens.size(); i++) { curtken = (gate.anntatin) tkens.get(i); teamname = teamname + (String) curtken.getfeatures().get("string") + " "; } teamname = teamname.substring(0,teamname.length()-1); entityann.getfeatures().put("kind", "current"); entityann.getfeatures().put("string", teamname); utputas.add(annset.firstnde(), annset.lastnde(), "TempTeam", entityann.getfeatures()); //pridá na výstup nvý druh antácie TempTeam } Č dôležité si je ptrebné uvedmiť pri integrácií GATE d JAVA aplikácie? Je ptrebné si uvedmiť, že GATE je static trieda a teda nie je ptrebné vytvárať jej inštanciu. Na jej inicializáciu stačí zavlať príkaz Gate.init(); Tu je ptrebné zabezpečiť aby bli v prjekte pridané všetky knižnice z adresára {GATE_HOME}\lib a nastavená dmvský adresár GATE-u v systémvých premených aleb predaný prepinačm Dgate.hme ale na t vás upzrní chybvá hláška v knzle. Ďalej je dôležité vedieť, že skr všetk v GATE je typu LR (Language Resurce) ak Crpus, Dcument, PR (Prcesing Resurce) ak rôzne generátry, parsery aleb tagery a nakniec VR (Visual Resurce) slúžiace na prezentáciu výsledkv. Inštancie sa nevytvárajú klasickým spôsbm new NázvTriedy(parametre); ale využitým statickej triedy Factry takže na vytvrenie nvéh Crpus-u nepužijeme príkaz Crpus názv_súbru_dkumentv = new Crpus(parametre); ale Crpus názv_súbru_dkumentv = Factry.newCrpus("Názv"); Obdbne t je v prípade dkumentu. Ďalší príklad je na načítanie a pužitie pluginu na autmatické sťahvanie stránk. Knkrétne sa jedná plugin Web_Crawler_Websphinx a najprv h je ptrebné načítať d GATE: - 3 -

File pluginhme = new File(new File(Gate.getGateHme(), "plugins"), "Web_Crawler_Websphinx"); try { Gate.getCreleRegister().registerDirectries(pluginHme.tURI().tURL()); } catch (MalfrmedURLExceptin e) { return; } catch (GateExceptin gex) { return; } Následne je ptrebné vytvriť inštanciu pluginu a správne h nastaviť. Pret si vytvríme FeatureMap, ak je vidieť aj tu je ptrebné získať inštanciu z Factry. FeatureMap nám slúži na predanie parametrv sťahvaču. FeatureMap features = Factry.newFeatureMap(); features.put("name", "názv"); //názv PR features.put("rt", "http://niec.sk"); //dkiaľ sa bude sťahvať features.put("dmain", "SUBTREE"); //ak sa bude sťahvať (viď. Dkumentácia pluginu) features.put("depth", 3); //hĺbka d ktrej sa bude sťahvať features.put("max", 10); //maximálny pčet stiahnutých stránk features.put("dfs", false); //ak sa bude sťahvať (viď. Dkumentácia pluginu) features.put("surce", null); //prepisuje rt, zznam stránk na stiahnutie features.put("utputcrpus", inštanciacrpusu); //tu je ptrebné uviesť inštanciu Crpusu kam sa majú stiahnuté dkumenty nahrať Keď už máme načítaný plugin v GATE a vytvrenú mapu parametrv je ptrebné vytvriť inštanciu pluginu a t nasledvne. PrcessingResurce PR = (PrcessingResurce) Factry.createResurce("crawl.CrawlPR", features); PR.execute(); A nakniec spustiť činnsť pluginu. Ak všetk zamrzl, paradxne plugin pravdepdbne funguje! V systémvej knzle by sa mali zbraziť infrmačné hlásenia pluginu. Kým sa nestiahnu všetky stránky tak sa nebude dať nič rbiť. Odprúčam samtné spustenie pluginu implementvať ak thread ale upzrňujem, že spúšťať plugin v viacerých threadch nefunguje, pravdepdbne pretže celý GATE je static inštancia. V prípade, že by ste chceli pužiť iný plugin pstup je bdbný, parametre získate z adresára pluginu v {GATE_HOME}\plugins\názv_pluginu\crele.xml. Z tht xml súbru je mžné vyčítať aké parametre je ptrebné nastaviť a taktiež akéh typu. Vyhdntenie výsledkv Na kniec tht prjektu je ptrebné vyhdntiť presnsť a pkrytie s ktrým aplikácia vyhdncuje stránky. Tiet vlastnsti sm vypčítal na vzrke dvch dkumentv. Súbr (vzrka.zip) bsahuje tiet dkumenty antvané autmaticky Trarex aplikáciu a taktiež manuálne mnu sbne, súbry sú ulžené v adresárvej štruktúre pužívanej Lucene Based Searchable Datastre a taktiež v xml štruktúre. Na vyhdntenie sm pužil nástrj GATE Anntatin Diff Tl, ktrý mi vyhdntil presnsť a pkrytie pre pužívané antácie. Pzn.: Keďže nie sm nemylný - mhl sa stať, že sm manuálne zabudl za-antvať nejaký tím č by mal za následk zhršenie hdnty Recall (pkrytia). Pzn.2: Názv článku sm nehdntil, keďže ide element H1, ktrý sa v prevažnej väčšine na stránke nachádza len raz. Hdnty pre Recall a Precisin sa v tmt prípade blížia 1.00. - 4 -

Súbr: Chelsea Zdrj: http://uk.eursprt.yah.cm/ Slv: 3732 All Crrect Missing False Ps. Recall Precisin Date 41 38 0 3 1.00 0.93 Scre 24 12 12 0 0.50 1.00 Team 97 64 7 26 0.90 0.71 Súbr: Prfutbal Zdrj: http://www.prfutbal.sk/ Slv: 1514 All Crrect Missing False Ps. Recall Precisin Date 18 13 0 5 1.00 0.72 Scre 1 0 1 0 0.00 - Team 3 0 3 0 0.00 - Súbr: LiveScre Zdrj: http://www.livescre.cm/ Slv: 876 All Crrect Missing False Ps. Recall Precisin Date 65 65 0 0 1.00 1.00 Scre 64 19 45 0 0.30 1.00 Team 124 72 50 2 0.59 0.97 Prvá tabuľka vyhdncuje anglickú stránku z prtálu eursprt. V tmt prípade sú hdnty pkrytia a presnsti veľmi dbré. Za zmienku stjí pkrytie Scre, ktré je len 50%. Tent jav je zapríčinený tým, že jeden aleb ba tímy, ktrých sa výsledk týka nebli rzpznané gazetteerm a teda transducer ich nerzpznal ak tímy ale len ak textvé reťazce. Druhá tabuľka vyhdncuje slvenskú stránku z prtálu prfutbal. Pre tút kmbináciu vstupv pracuje aplikácia úplne zle. Najväčšie prblémy v tmt prípade zapríčiňuje diakritika a sklňvanie. V prípade dátumv iný frmát dátumv a slvenské názvy. Tretia tabuľka vyhdncuje anglickú úvdnú stránku z prtálu livescre. Aplikácia identifikvala dátum správne. Scre identifikvala s malým pkrytím č zapríčinila nízka schpnsť rzpznať futbalvý tím viď pkrytie tímu je len 60% aj keď presnsť je výbrná. Inštalácia Aplikácia Crbelus bla vyvíjaná v vývjvm prstredí Netbeans 6.7.1. Archivvané súbry si pridajte d NetBeans nasledvne: 1. Otvrte si vývjvé prstredie NetBeans. 2. Vyberte z hlavnéh menu File> Open Prject a v tvrenm najdíte rzbalené súbry z archivu. 3. Skntrlujte či su v prjekte správne pridané všetky GATE library 4. V triede Engine.java si upravte cesty k súbrm ak ptrebujete 5. Spustite aplikáciu všetk statné sa nastaví samé - 5 -

- 6 -