Distance search Ján Garaj Fakulta informatiky a informačných technológií Slovenská technická univerzita Školský rok: 2008/09 Popis problému a motiváci

Podobné dokumenty
Snímka 1

Centrum vedecko-technických informácií, Odbor pre hodnotenie vedy, Oddelenie pre hodnotenie publikačnej činnosti Vyhľadávanie a práca so záznamami - C

Georeceive a Geoshopping

Matej Kendera - PDF, word, lucene, java

gis5 prifuk

Slovenská technická univerzita v Bratislave FAKULTA INFORMATIKY A INFORMAČNÝCH TECHNOLÓGIÍ Ilkovičova 3, Bratislava Tímový projekt Ponuka Grafi

Vyhľadávanie v CREPČ 2 (aktualizované dňa ) Centrum vedecko-technických informácií SR Odbor pre hodnotenie vedy Oddelenie pre hodnotenie pub

Slovenská technická univerzita v Bratislave

iot business hub whitepaper isdd_em_New.pdf

eKasa

sprievodca_exp.pdf

User:tomas.melicher

sprievodca-priestor.pdf

eKasa

SLOVENSKÁ TECHNICKÁ UNIVERZITA V BRATISLAVE Fakulta informatiky a informačných technológií STU Ústav počítačových systémov a sietí ZADANIE SEMESTRÁLNE

Tomáš Jelínek - včely vyhľadávanie

Používateľská príručka Obsah Používateľská príručka... 1 Administrácia servera... 2 FTP... 2 Remote Desktop... 3 Administrácia databáze:... 3 Spusteni

PowerPoint Presentation

portál scientia.sk

PowerPoint Presentation

Informačný systém pre externú časť a písomnú formu internej časti maturitnej skúšky Informačný systém pre EČ a PFIČ maturitnej skúšky Užívateľská prír

Finančné riaditeľstvo Slovenskej republiky Testovacie scenáre

Vlastná Vlastná tvorba tvorba Neobmedzene Neobmedzene Voľný Voľný obsah obsah my website Kdekoľvek Kdekoľvek na na internet internet Jednoduché Jednod

Agenda záverečnej práce pedagóg Celá agenda týkajúca sa záverečnej práce je dostupná v obrazovke Záverečná práca (menu Agenda pedagóga -> Záverečné pr

Aktion.NEXT Novinky vo verzii 1.9

User:Michal.Palcek

Template for PowerPoint

Prezentácia programu PowerPoint

VSDC Free Video Editor stručný návod na používanie Link na sťahovanie softvéru: K prog

Detail správy a súvisiace prvky Dátum zverejnenia: Verzia: 5 Dátum aktualizácie: Detail správy a súvisiace prvky UPOZORNENIE

web2_infos

Operačná analýza 2

SÚŤAŽNÉ PODKLADY k zriadeniu dynamického nákupného systému Dynamický nákupný systém (ďalej len DNS ) Predmet zákazky: Asfaltovanie Verejné o

SKPOS

Prezentácia programu PowerPoint

Microsoft PowerPoint - OOP_prednaska_10.pptx

PowerPoint Presentation

2.5. Dotyčnica krivky, dotykový kužeľ. Nech f je krivka a nech P V (f) (t.j. m P (f) 1). Ak m P (f) = r a l je taká priamka, že I P (f, l) > r, potom

bakalarska prezentacia.key

Dobývanie znalostí

Microsoft Word Nextra_ADSLink.doc

NSK Karta PDF

Detekcia akustických udalostí v bezpečnostných aplikáciách

Start of the Week Call

Teória pravdepodobnosti Zákony velkých císel

User:viliam.kubis

Microsoft Word - VI xfilcakt.docx

Microsoft Word - ESD_-_DA_-_MA_-_Ucastnicka_verzia_video_V_3.docx

UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY Informačný systém pre materské školy Bakalárska práca 2019 Monika Vlčková

Microsoft PowerPoint - CONNECT_R&A_76_sk

Portál VŠ a CEP

Návod na obsluhu ekasy FiskalPRO VX520 (ETH/GPRS/GPRS s batériou)

Snímka 1

Prezentácia programu PowerPoint

Ness Technologies, Inc. Česká republika

Používateľská príručka POUŽÍVATEĽSKÁ PRÍRUČKA Generátor XML dávok pre Informačný systém kontrolných známok z MS Excel šablóny Dátum: Verzia

Parsovanie MusicXML súborov Bc. Ondrej Grman Študijný program: Informačné systémy Predmet: Vyhľadávanie informácií Ak. rok: 2013/2014

PowerPoint Presentation

Cieľové požiadavky na vedomosti a zručnosti pri maturitnej skúške skupiny odborov 25 Informačné a komunikačné technológie Všeobecné - cieľové požiadav

REFORMNÝ ZÁMER Verejný manažment otvorených a dôveryhodných dát Reformný zámer, verzia 1.2 1/70

eKasa

Reprezentácia Reprezentácia ontológií ontológií relačným relačným modelom modelom a realizácia a realizácia dopytovania dopytovania Richard Veselý, a

Navigácia po úvodnej stránke elektronickej schránky Dátum zverejnenia: Verzia: 10 Dátum aktualizácie: Navigácia po úvodnej st

Manuál pre nastavenie tlače z VRP Bluetooth, USB tlačiarne Bluetooth, USB tlačiarne Manuál pre nastavenie tlače -1-

SLOVENSKÁ TECHNICKÁ UNIVERZITA V BRATISLAVE FAKULTA INFORMATIKY A INFORMAČNÝCH TECHNOLÓGIÍ Metodika archivácie verzií HW Tímový projekt Stratos FIIT M

OPIdS - finančné riadenie

Konfigur[PleaseinsertPrerenderUnicode{á}intopreamble]cia dynamick[PleaseinsertPrerenderUnicode{é}intopreamble]ho smerovania na routroch Cisco - Seme

Manažment v Tvorbe Softvéru 2018/2019

MediatelYext

Microsoft Word - visittrencin_analyza navstevnosti.docx

Platy.sk

(Microsoft Word - Diplomov\341 pr\341ca.doc)

Komplexný informa ný a monitorovací systém Monitorovanie biotopov a druhov európskeho významu Používate ská dokumentácia KIMS modul Mobilná aplikácia

Pracovný postup pre vypĺňanie údajov elektronického formulára IŠIS pre spravodajskú jednotku 1

Pomoc pri práci s Online katalógom 1. Prihlásenie do konta používateľa v OPACu Jednoduché vyhľadávanie Rozšírené vyhľadávanie Zob

Pravidelné úlohy verzia ku dňu SEAL IT Services, s.r.o. Kontakt: SEAL IT Services, s.r.o., Topoľová 4, Bratislava 1, tel.:

Úvodná prednáška z RaL

Microsoft Word - 06b976f06a0Matice - Uzivatelska Dokumentacia


aplikácia do mobilého telefónu na stiahnutie digitálneho tachografu

SAEAUT SNMP OPC Server

17. medzinárodná vedecká konferencia Riešenie krízových situácií v špecifickom prostredí, Fakulta špeciálneho inžinierstva ŽU, Žilina, máj 2

8 Cvičenie 1.1 Dokážte, že pre ľubovoľné body X, Y, Z platí X + Y Z = Z + Y X. 1.2 Dokážte, že pre ľubovoľné body A, B, D, E, F, G afinného priestoru

Microsoft PowerPoint - 3 PrednaskaMiroslavDrobny2

Možnosti ultrazvukovej kontroly keramických izolátorov v praxi

Finančné riaditeľstvo Slovenskej republiky 10/ORP/2019/IM Stiahnutie identifikačných a autentifikačných údajov pri ORP - rola Administrátor Informácia

Poloautomatická anotácia stránok internetových obchodov Dávid Varga 4Ib, Abstrakt. Bakalárska práca sa zaoberá vytvorením metód na indukciu

Microsoft PowerPoint - Homola+Maruniak.ppt

GEODETICKÝ A KARTOGRAFICKÝ ÚSTAV BRATISLAVA Chlumeckého 4, Bratislava II Obsah 1. Export údajov ZBGIS do CAD formá

News Flash 25. augusta, 2015 Zabezpečenie stravovania pre zamestnancov

trafo

Novinky v OpcDbGateway 5.0

Dotazník spokojnosti zákazníka s produktmi a službami ŠÚ SR

Intellectual Property, Psychology and Sociology

ZBIERKA ZÁKONOV SLOVENSKEJ REPUBLIKY Ročník 2018 Vyhlásené: Časová verzia predpisu účinná od: Obsah dokumentu je právne záväzný

Chemical Business NewsBase

Metrické konštrukcie elipsy Soňa Kudličková, Alžbeta Mackovová Elipsu, ako regulárnu kužeľosečku, môžeme študovať synteticky (konštrukcie bodov elipsy

Manuál pre nastavenie tlače z VRP tlačiarní bluetooth Bluetooth Manuál pre nastavenie tlače z VRP tlačiarní -1-

RADELA s

Prepis:

Distance search Ján Garaj Fakulta informatiky a informačných technológií Slovenská technická univerzita Školský rok: 2008/09 Popis problému a motivácia Vyhľadávanie podľa vzdialenosti hľadá relevanciu k dotazovanému objektu (refernčnému bodu) podľa vzdialenosti. Vzdialenosť je možné špecifikovať rôzne, napr. bitová vzdialenosť, vektorová vzdialenosť, fyzická vzdialenosť, komunikačná vzdialenosť. Riešený problém v tomto projekte rieši vyhľadávanie nad doménou firiem a spoločností uverejnených na verejne dostupných stránkach slovenského portálu www.zoznam.sk podľa geografických umiestnení (vzdialeností) sídel spoločností. Každá spoločnosť má na zoznam.sk uverejnené svoje sídlo, pričom obec sídla spoločnosti je považovaná za základ pri vyhľadávaní. Každá obec má presne stanovenú svoju zemepisnú šírku - latitude a zemepisnú výšku longtitude. Z týchto súradníc označujúcich zemepisnú polohu obce je možné následne vypočítať ich vzdialenosť. Reálny vzorec na výpočet vzdialenosti musí zohľadňovať aj zakrivenie zemegule, avšak vzhľadom, že daná doména firiem a spoločností uverejnených na www.zoznam.sk je lokalizovaná na relatívne malé územie je možné v prípadných výpočtoch zakrivenie zemegule zanedbať. Potrebné je si však aj uvedomiť, že vzdialenosť medzi dvoma bodmi (obcami) je ich vzdušná vzdialenosť a ich reálna vzdialenosť napríklad po cestných komunikáciách je vždy reálne dlhšia. Vyhľadávania podľa vzdialenosti je praktické pri vyhľádávaní v zadanej lokalite, resp pri hľadaní podobných objektov umiestnených v blízkosti referenčného bodu. Napríklad nájdi mi všetky betonárne na tomto definovanom území. Alebo nájdi mi najbližšie obuvníctvo od tohto obuvníctva, keďže v tomto obuvníctve nemajú také topánky ako potrebujem, možno ich budú mať v inom blízkom obuvníctve. Praktické využitie teda je možné nájsť vyhľadávaní blízkych ekvivalentov referenčných objektov (služieb). Minimalizuje sa tým prejdená vzdialenosť, prípadne prepravná vzdialenosť, keďže pri použití klasického vyhľadávania sa geografická poloha nezohľadňuje vo výsledkoch vyhľadávania. Z uvedého vyplýva hlavná výhoda hlavne v minimalizácii nákladov a skracovaní potrebných časov.

Prehľad súčasných riešení: Napriek tomu, že sa môže jednať o zaujímavé vylepšenie, bežne slovenské vyhľadávače neimplementujú priamo distance search, avšak zvyčajne iba obmedzujú vyhľadávanie na kraje, okresy prípadne jednotlivé obce (napríklad centrum.sk). Vyhľadávaním, ktoré je možné označit za distance search disponuje spoločnosť Google vo svojom produkte Google Maps, cez funkcionalitu "Search near by". Po zadaní klúčového slova sa zobrazia výsledky, ktoré zodpovedajú kľúčovému slovu a sú v predefinovanej vzdialenosti. Vzdialenosť je možné zmeniť v niekoľkých krokoch od 800m do 150km. Nevýhoda tohto vyhľadávania, je že vyhľadáva iba v objektoch POI (Point of interest), ktoré vyznačili a vytvorili používatelia systému maps.google.com. Na veľkej väčšine webových stránok je distance search ponímaný vo forme hľadania najkratšej (najrýchlejšej) cesty medzi dvoma mestami. Toto ponatie nie je však úplne správne, nakoľko v tomto prípade sa jedna o hľadanie najratšej prípadne najlacnejšej cesty medzi dvoma bodmi v grafe. Na tieto problémy sú vhodné algoritmy na prehľadávanie grafu. Tieto metódy je možné aj využiť v distance search pri určovaní reálnej cestnej vzdialenosti objektov. Popis riešenia Návrh riešenia vychádza z použitia ontológie ontológie geografických údajov slovenska v OWL [1]. Táto ontológia obsahuje aj záznam o zemepisnej šírke a dĺžke, ktoré sa dajú využiť pri vyhľádávani distance search. Problémom je že ontológia neobsahuje žiadne dáta o spoločnostiach, takže túto ontológiu je potrebné rozšíriť aj o spoločnosti, ktoré sa vyextrahujú z portálu zoznam.sk Extrakcia dát a tvorba ontológie spoločností slovenska Postup pri extrakcii dát z portálu zoznam.sk: 1.) Vytvorenie úplného obrazu celého portálu pomocou nástroja wget trvanie približne 2 dni 2.) Z vytvorenej mirror databázovej štruktúry sa vytvoril zoznam html súborov, ktoré popisovali jednu spoločnosť 29175 html súborov 3.) Vytvorenie regulárnych výrazov na výber názvu spoločnosti, kategórií do ktorých je zaradená spoločnost, emailov, faxov a web stránok spoločnosti, adresa, obrat, počet zamestnancov a pod. Niektoré dáta sa aj upravovali na jednotný formát. V prípade, že sa z html súboru nepodarilo vybrať niektoré dáta nutné na vytvorenie

spoločnosti bola celá extrakcia dát z daného súboru zrušená. Vyextrahované dáta sa ukladali do relačnej databázy. Počet vyextrahovaných spoločností 29109. 4.) Práca s nástrojom Protege - rozšírenie ontológie o triedu Company, ktorá má reláciu HasRegion, ktorá určuje sídlo spoločnosti, pričom je to vlastne referencia na už existujúcu inštanciu v ontológii geografických údajov slovenska. Názov spoločnosti sa ukladá do novej dátovej vlastnosti triedy Company title. 5.) Vytvorenie 3 testovacích inštancií triedy Company a export ontológie do formátu OWL. Následné štúdium formátu uložených inštancií umožnilo vytvoriť php skript, ktorý zapisoval existujúce spoločnosti v relačnej databáze do OWL (XML) formátu. Tento skript sa taktiež pokúšal nájsť inštanciu sídla spoločosti v existujúcej ontológii. Problém, ktorý nastal bola skutočnosť, že názvy obcí v ontológii Slovenska boli bez diakritiky, takže skript sa pokúšal hľadať aj názvy obcí bez diakritiky. Nie vždy však bolo hľadanie úspešné, nakolľko napríklad sídlo Košice nebolo v ontológii Slovenka, avšak mestké časti Košíc ontológia obsahovala. Z tohto dôvodu sa nie vždy podarilo vytvoriť OWL inštanciu. Počet úspešne vyexportovaných inštancií spoločnosti bol 20568. 6.) Aby sa bolo možné dotazovať nad ontológiou je potrebné novovytvorenú ontológiou uložit. Ako úložisko bol zvolený ontologický repozitár Sesame nad ktorým pracujú a cez ktorý sa dotazujú samotne vyvíjané aplikácie pre distance search. Opis programu Pôvodný návrh aplikácie počítal s hľadaním v určitom okruhu od 1 referenčného bodu. Tento pôvodný návrh však musel byť pozmenený na vyhľadávanie v obdĺžniku určenom 2 geografickými bodmi. Problém vzniká totiž v použitej technológii Sesame. Dotazovací jazyk SPARQL v Sesame, ktorým sa dotazuje nad ontológiami, totiž nemá funkcie, ktoré by umožnovali vo vyhľadavacích kriteriách definovať alebo vypočítavať geografickú vzdialenosť dvoch bodov [2]. Štandard SPARQL umožňuje definovať si vlastné funkcie, avšak ontologický nástroj Sesame neobsahuje túto funkcionalitu. V prípade, žeby umožnoval, napríklad ako nástroj ARQ je možné definovať funkciu, ktorá umožňuje vyhladávať aj podľa sférickej vzdialenosti 2 bodov [3]. Vytvorený program je vlastne klient, ktorý sa dopytuje prostredníctvom jazyka SPARQL nad Sesamom. Vstupom sú súradnice dvoch bodov, podľa ktorých sa dotaz vymedzí. Z dôvodu rýchlosti reakcie celého systému dotaz obsahuje aj limit na 1000 výsledkov.

Výsledný dotaz: SELECT?name?title?longitude?latitude WHERE {?x location:name?name.?x location:hasregion?b.?b location:title?title.?b location:latitude?latitude.?b location:longitude?longitude. FILTER (?latitude >= LA1). FILTER (?latitude <= LA2). FILTER (?longitude >= LO1). FILTER (?longitude <= LO2). } ORDER BY ASC(?name) LIMIT 1000 Použitie softvéru Web GUI rozhranie je implementované nad maps.google.com a jeho API rozhraním, pomocou ktorého sa získavajú súradnice na mape. Takto získané súradnice sa pomocou AJAXu pošlú na vykonný php skript, ktorý zavolá skompilovaného java klienta a ten mu vráti naformátované výsledky. Cesty v samotnej aplikácii sú prednastavené na adresu http://localhost/vinf, takže prípadné pri inom umiestnení je potrebné nastavanie systému (napr. licenčný klúč na maps.google.com) upraviť. Vyhodnotenie Subjektívne Sesame ako úložisko ontológií nie je moc vhodný v súčasnom stave na prácu s geografickými dátami. Vytvorený softvér prehľadával iba reláciu HasRegion, avšak v reálnom nasadení by sa ešte prehľadávali napríklad aj relácie príslušnosti ku zadanej kategórii prípadne podobnosť názvu spoločnosti so zadaným textom. Predpokladám, že rýchlosť reakcie Sesame by v tomto smere ešte klesla pod hranicu, ktorú by používateľ vnímal ako kritickú. Na strane druhej semantický web a ontológie sa považujú za budúcnosť internetu, takže je očakávané zrýchlenie aplikácií na prácu s ontológiami

Sesame, na takú úroveň, aby mohli konkurovať relačným databázam. Objektívne Objektívne vyhodnotenie (Recall, Precision) nebolo možné realizovať v akceptovateľnej podobe, nakoľko priame vyhľadávanie spoločností neumožňuje aplikácia maps.google.com. Približné porovanie bolo zrealizované cez funkciu "Search near by", pričom klúčové slovo pizza bolo zadané v strede obce Ružomberok. Maps.google.com vrátil vo výsledku 4 pizzérie v tomto meste. Implementovaná aplikácia po vyznačení oblasti vrátila približne 900 výsledkov spoločností sídliacich vo vyznačenej oblasti Ružomberka. Medzi nájdenými spoločnosťami však bola iba jedna pizzeria. Vyhodnotenie je teda silne závislé na počte POI v maps.google.com a od počtu registrácií na zoznam.sk, čo sú silne nezávislé entity. Použitá literatúra [1] Ontológia geografických údajov slovenska v OWL http://laclavik.net/projects/kwfgrid/location_data_slovakia.owl [2] http://en.wikipedia.org/wiki/great-circle_distance [3] Gregory Todd Williams: Extensible SPARQL Functions With Embedded Javascript [4] http://www.scribd.com/doc/2569355/geo-distance-search-with-mysql