User:tomas.melicher

Podobné dokumenty
Používateľská príručka Obsah Používateľská príručka... 1 Administrácia servera... 2 FTP... 2 Remote Desktop... 3 Administrácia databáze:... 3 Spusteni

User:Peter.Michalec

Matej Kendera - PDF, word, lucene, java

Microsoft Word - 11_Distribuované spracovanie dát nad MapReduce architektúrou _Hadoop a Hive_

Snímka 1

Parsovanie MusicXML súborov Bc. Ondrej Grman Študijný program: Informačné systémy Predmet: Vyhľadávanie informácií Ak. rok: 2013/2014

Centrum vedecko-technických informácií, Odbor pre hodnotenie vedy, Oddelenie pre hodnotenie publikačnej činnosti Vyhľadávanie a práca so záznamami - C

iot business hub whitepaper isdd_em_New.pdf

Dobývanie znalostí

Aktion.NEXT Novinky vo verzii 1.9

gis5 prifuk

PowerPoint Presentation

SLOVENSKÁ TECHNICKÁ UNIVERZITA V BRATISLAVE FAKULTA INFORMATIKY A INFORMAČNÝCH TECHNOLÓGIÍ Metodika archivácie verzií HW Tímový projekt Stratos FIIT M

Manuál aplikácie eoev

IT NEWS

Tomáš Jelínek - včely vyhľadávanie

Digitálne technológie v každodennom živote 3. ročník akademický rok 2019/2020 Harmonogram prednášok

Distance search Ján Garaj Fakulta informatiky a informačných technológií Slovenská technická univerzita Školský rok: 2008/09 Popis problému a motiváci

Používateľská príručka POUŽÍVATEĽSKÁ PRÍRUČKA Generátor XML dávok pre Informačný systém kontrolných známok z MS Excel šablóny Dátum: Verzia

Dell OptiPlex 9010 Informácie o nastavení a funkciách

C-Monitor WIN klient pre verziu 2.8

Snímka 1

Slovenská Technická Univerzita v Bratislave Fakulta Informatiky a Informačných Technológií Ilkovičova 3, Bratislava Monitorovanie a vyhodnocova

Navigácia po úvodnej stránke elektronickej schránky Dátum zverejnenia: Verzia: 10 Dátum aktualizácie: Navigácia po úvodnej st

Balíčkovanie FreeSWITCH-u pre Debian Autor: Zdenko Holeša, InžProjekt 1, KIS FRI ŽU Predkompilované balíčky Predkompilované balíčky existujú pre Debia

sprievodca_exp.pdf

Objektovo orientované programovanie

Microsoft PowerPoint - SLIDES_02DTD.ppt

Prezentácia programu PowerPoint

Počítačové siete DOCSIS

bakalarska prezentacia.key

Chemical Business NewsBase

Vyhľadávanie v CREPČ 2 (aktualizované dňa ) Centrum vedecko-technických informácií SR Odbor pre hodnotenie vedy Oddelenie pre hodnotenie pub

Obsah:

Názov zákazky č

Predmet: Počítačové systémy a siete Charakteristika predmetu Žiak sa oboznámi sa so základným princípom fungovania počítača, rozvinie koncept Von Neum

2

SAEAUT SNMP OPC Server

SK_mTransfer_Okamzita_notifikacia_ indd

(Microsoft Word - pr\355loha smernice \ \232pecifik\341cia)

Súhrnné špecifikácie

User:viliam.kubis

eKasa

1

vyzva_PCzostava

Prevodník USB/20mA

Prezentácia programu PowerPoint

NARIADENIE KOMISIE (EÚ) 2016/ z 31. mája 2016, - ktorým sa menia prílohy VII a VIII k nariadeniu Európskeho parlamentu a Rady

Ponuka Štart

Detail správy a súvisiace prvky Dátum zverejnenia: Verzia: 5 Dátum aktualizácie: Detail správy a súvisiace prvky UPOZORNENIE

Výzva na predkladanie ponúk zadávanie zákazky podľa 9 ods. 9 zákona č. 25/2006 Z. z. o verejnom obstarávaní a o zmene a doplnení niektorých zákonov v

Microsoft Word - Manažment_tagov_tim24_tema12_2017.docx

SK_mTransfer_Technicka_dokumentacia_ indd

Microsoft Word - Novinky_2012_2.doc

Microsoft Word - 06b976f06a0Matice - Uzivatelska Dokumentacia

Snímka 1

Jednotkový koreň (unit root), diferencovanie časového radu, unit root testy Beáta Stehlíková Časové rady, FMFI UK, 2011/2012 Jednotkový koreň(unit roo

Snímka 1

ŤAHÁK PRAKTICKÁ ČASŤ Prerekvizity: LINUX: WINDOWS: Inštalácia Oracle VirtualBoxu a vytvorenie virtuálneho stroja /návod nižšie/ Operačný system Window

PowerPoint Presentation

Prezentácia programu PowerPoint

Využitie moderných meracích technológií na hodnotenie kvality tlače

Príloha č. 1 k USM_UGKK SR_6/2019

IPAC – Vyhľadávanie pomocou režimu INDEX

sprievodca-priestor.pdf

Microsoft Word - prirucka_katedry_nova

Microsoft Word Nextra_ADSLink.doc

Webové portály pre Hlavné mesto SR a Dopravný podnik Bratislava Ako sme Hlavnému mestu a Dopravnému podniku Bratislava zabezpečili väčší používateľský

Snímka 1

Style Sample for C&N Word Style Sheet

SK01-KA O1 Analýza potrieb Zhrnutie BCIME tím Vyhlásenie: "Podpora Európskej komisie pre výrobu tejto publikácie nepredstavuje súhlas

Microsoft Word - Aktual_eur_kniznice

SLOVENSKÁ TECHNICKÁ UNIVERZITA V BRATISLAVE Fakulta informatiky a informačných technológií STU Ústav počítačových systémov a sietí ZADANIE SEMESTRÁLNE

NÁZOV VYSOKEJ ŠKOLY

Príloha č. 4 Údaje tranzitného vyhlásenia spolu s údajmi PCV o vstupe / výstupe V prípade, ak bude spolu s elektronickým tranzitným vyhlásením predlož

SLOVENSKÁ INOVAČNÁ A ENERGETICKÁ AGENTÚRA Svetelno-technická štúdia (Odporúčaná štruktúra častí príloh, ktoré sú súčasťou projektov modernizácie verej

Document

CitiManager - Migration Quick Reference Guide for Cardholders_Slovak_fin

Detektor kovu, napätia a dreva 3 v 1 DM-902 Každé kopírovanie, reprodukovanie a rozširovanie tohto návodu vyžaduje písomný súhlas firmy Transfer Multi

Úvod do mobilného operačného systému ANDROID

Projekty bilaterálnej spolupráce PRÍLOHA 5 MANUÁL K ELEKTRONICKÉMU SYSTÉMU PREDKLADANIA ŽIADOSTÍ NA RIEŠENIE PROJEKTOV Obsah 1 ÚVOD Konvencie


Quick Guide for Installing Nokia Connectivity Cable Drivers

Digidown PDF

Čiastková kúpna zmluva č. Z uzavretá na základe Rámcovej dohody č. Z v zmysle ustanovení 409 a následne zákona č. 513/19

Snímka 1

03_ControlFlow.dvi

Riesenie_zasielkovna

Microsoft Word - VI xfilcakt.docx

KONTRAKT uzatvorený medzi Ministerstvom školstva, vedy, výskumu a športu Slovenskej republiky a Národným ústavom certifikovaných meraní vzdelávania na

Si Touch User Manual

Katalóg služieb OTPdirekt-retail

Pravidlá ochrany osobných údajov a cookies Tieto pravidlá ochrany osobných údajov upravujú spôsob používania osobných údajov zákazníkov spoločnosti LT

Krátky popis k Solárnemu ohrievaciemu systému Solar Fox Air Collector Všeobecný popis: Solar Fox Air ohrievací systém je systém ktorý sa vyrába pod zn

Microsoft PowerPoint - 1_eSO1

Schenker Deutschland AG The Integrated Logistics Provider

Resolution

Prepis:

User:tomas.melicher 1 Úvod do problematiky Databáza internetovej encyklopédie freebase má v komprimovanom tvare zhruba 30 GB a v nekomprimovanom zhruba 300 GB. Vyhľadávať v takejto rozsiahlej databáze je hardvérovo a časovo náročne. Našou úlohou bolo pomocou nástrojov Apache Hadoop a Apache Pig prehľadávať databázu, pričom dopyty boli obmedzené iba na entitu kniha. Bolo potrebné spracovávať atribúty title, alternatívne názvy a ďalšie. 2 Analýza Databáza encyklopédie freebase je štruktúrovaná do usporiadaných RDF N- tripletov, ktoré sú v tvare: <subject> <predicate> <object>. Nakoľko dekomprimovaný dump databázy ma hruba 300 GB, efektívnejšie je prehľadávať dump v komprimovanom tvare. Samozrejme, že sa efektivitou vyhľadávania ani len nepriblížime k časom, ktoré dosahuje freebase, ten totiž funguje na stovkách samotných klastrov. Našou úlohou bude dokázať vyhľadávať na jedinom klastri v rozumnom čase. 3 Návrh riešenia V našom projekte budeme uvažovať tieto atribúty entity kniha: title_and_alts.png Prvým vyznačeným údajom je názov nájdenej knihy. V dumpe databázy freebase je označovaný ako title. V našom projekte sa budeme zaoberať iba názvami kníh v anglickom jazyku, nakoľko pre knihy v tomto jazyku je databáza najrozsiahlejšia. Následne budeme spracovávať alternatívne názvy pre danú knihu, čo je vlastne druhý vyznačený údaj. V dumpe databázy sa označuje ako alias. Tie sú častokrát aj v iných

jazykoch, vo výsledku preto treba brať na to ohľad. Následne budeme vyhľadávať postavy vyskytujúce sa v danom diele characters.png a autorov daného diela authors.png 4 Implementácia V rámci implementácie bolo azda najťažším krokom inštalácia a následná konfigurácia technológie hadoop. I keď na stránke vývojárov tejto technológie sa uvádza, že by mala byť plne funkčná i na platforme Windows prostredníctvom nástroja cygwin, nám sa to pri konfigurácii Intel i3-4000m 64b, Windows 8.1, 4GB RAM v kombinácii s Hadoop 2.5.1 a Pig 0.13.0 nepodarilo. Napokon sme technológie hadoop a pig zinštalovali na virtuálny operačný systém Ubuntu 14.04, kde obe technológie fungovali bez chýb až na obmedzenia vyplývajúce z beta verzie technológie Pig. Cieľom bolo vytvoriť skript, ktorý nieje nutné editovať pri vyhľadávaní dopytu, čo sa nám aj nakoniec podarilo. Skript totiž počíta so súborom freebase_names_of_books.txt umiestneným v rovnakom adresári ako samotný skript. V danom súbore sa nachádzajú názvy vyhľadávaných kních. Vytvorený skript má teda na vstupe testovaciu vzorku prípadne samotnú databázu freebase a ako výstup je priečinok s názvom freebase_books_output, ktorý pbsahuje súbor indikujúci úspech prípadne neúspech vyhľadávania a samotné výsledky vyhľadávania. 4.1 Vytvorenie testovacej vzorky Testovacia vzorka bola vytvorená pomocou samostatného skriptu, ktorý mal za úlohu prejsť celú databázu freebase a vrátiť iba výsledky súvisiace s jednou konkrétnou knihou zadanou pomocou jej názvu. Skript najprv zistí mid priradené ku knihe daného názvu a následne hľadá všetky triplety v databáze, ktorých predmetom je nájdené mid. 4.2 Formát výstupného súboru: Výstupný súbor z programu Pig je formátovaný ako JSON. Pig nevytvára dodatočné medzery a tabulátory, boli tam doplnené pomocou externého programu pre prehľadnosť. Ukážka formátu výstupného súboru:

"mid": "m.0j64xyy", "title": "Fifty Shades of Grey", "alts": [ "lang": "en", "alt": "50 Shades of Grey", "lang": "bg", "alt": "50 нюанса сиво", ], "characters": [ "character": "Ray Steele", "character": "Bob Adams" ], "authors": [ "author": "E. L. James" ] 5 Overenie Pre účely overenia funkcionality nášho skriptu bolo náhodne vybraných 10 kníh, pričom výstup z vyhľadávania možno nájsť v súbore freebase_books_output.txt. Neboli zistené odlišnosti medzi výstupom nášho skriptu a výstupom encyklopédie freebase, na základe toho možno povedať, že náš skript funguje správne. Nasledujúca tabuľka zobrazuje vyhľadávané knihy, ich mid, počet alternatívnych názvov, počet postáv a počet autorov danej knihy. Kniha mid Počet alternatívnych názvov Počet postáv Počet autorov

Fifty Shades of Grey m.0j64xyy 18 10 1 The Lord of the Rings m.07bz5 12 41 1 Harry Potter and the Philosopher's Stone m.0c_vk 3 96 1 The Silmarillion m.07c4l 3 34 1 The Shining m.07cvr 4 7 1 A Clash of Kings m.0351my 5 16 1 The Hunchback of Notre- Dame m.0dw9b 13 16 1 Frankenstein m.02zlm 17 5 2 The Adventures of Pinocchio m.0jb2_ 15 9 1 Dracula m.026l0 11 9 1 Nasledujúca tabuľka obsahuje priemerné hodnoty počtu alternatívnych názvov, počtu postáv a počtu autorov na našej vzorke 10 kníh. Priemerný počet alternatívnych názvov 10,1

Priemerný počet postáv 24,3 Priemerný počet autorov 1,1 Nasledujúca tabuľka zobrazuje časy potrebné pre vrátenie dopytu nami vytvoreným skriptom a encyklopédiou freebase. Pri všetkých testovaniach bol použitý rovnaký dopyt. náš skript freebase 3:48 hod 3:28 s 2:59 hod 4:46 s 3:17 hod 3:49 s Výsledky majú veľkú odchýlku nakoľko vyťaženosť servera freebase bola rôzna a pri našom skripte bol výsledok ovplyvnený hlavne vyťaženosťou disku. Odkaz na github repo https://github.com/aspintm/freebase