User:Andrej Sedlacek

Podobné dokumenty
Matej Kendera - PDF, word, lucene, java

Centrum vedecko-technických informácií, Odbor pre hodnotenie vedy, Oddelenie pre hodnotenie publikačnej činnosti Vyhľadávanie a práca so záznamami - C

enum

User:viliam.kubis

SAEAUT SNMP OPC Server

História

PowerPoint Presentation

Vyhľadávanie v CREPČ 2 (aktualizované dňa ) Centrum vedecko-technických informácií SR Odbor pre hodnotenie vedy Oddelenie pre hodnotenie pub

Funkcionálne programovanie Cvičenie 9 Funkcionálne programovanie v Jave Sergej Chodarev 22. november 2017 Technická Univerzita v Košiciach

Detail správy a súvisiace prvky Dátum zverejnenia: Verzia: 5 Dátum aktualizácie: Detail správy a súvisiace prvky UPOZORNENIE

Microsoft Word - VI xfilcakt.docx

User:tomas.melicher

Identity Lifecycle Management

Úroveň strojového kódu procesor Intel Pentium Pamäťový operand Adresovanie pamäte Priama nepriama a indexovaná adresa Práca s jednorozmerným poľom Pra

Algoritmizácia a programovanie - Príkazy

iot business hub whitepaper isdd_em_New.pdf

Identity Lifecycle Management

Konkurentné programovanie

PowerPoint Presentation

Navigácia po úvodnej stránke elektronickej schránky Dátum zverejnenia: Verzia: 10 Dátum aktualizácie: Navigácia po úvodnej st

Identity Lifecycle Management

(Microsoft Word - Registr\341cia \372\350tu Hik-Connect.docx)

Január 2012 (verzie ) Popis zmien v systéme PROLUC

midterm2014_1

Architektúra a návrh Zdôvodnenie navrhnutej architektúry Systém si architektonicky môžeme rozdeliť na viacero vrstiev. Najpodstatnejšie je oddelenie z

DediĊnosť

Manuál aplikácie eoev

GEODETICKÝ A KARTOGRAFICKÝ ÚSTAV BRATISLAVA Chlumeckého 4, Bratislava II Obsah 1. Export údajov ZBGIS do CAD formá

Prístup a Nastavenie pre KOMPAKT HOSTING

Tomáš Jelínek - včely vyhľadávanie

Microsoft PowerPoint - CONNECT_R&A_76_sk

sprievodca_exp.pdf

IT NEWS

Používateľská príručka pre webovú aplikáciu ON!Track Príručka pre webovú aplikáciu, verzia 1.1

Microsoft Word - Manažment_tagov_tim24_tema12_2017.docx

IPAC – Vyhľadávanie pomocou režimu INDEX

Zaverecna sprava

Snímka 1

SK_mTransfer_Okamzita_notifikacia_ indd

CitiManager - Migration Quick Reference Guide for Cardholders_Slovak_fin

Chemical Business NewsBase

Výnimky

Objektovo orientované programovanie

Návod na vytvorenie kvalifikovaného elektronického podpisu prostredníctvom občianskeho preukazu s čipom Dátum zverejnenia: Verzia: 1 Dátu

Microsoft Word - Novinky_2012_2.doc

Identity Lifecycle Management

Prezentácia programu PowerPoint

0022-vub-mobilne-tokeny-200x200-v03.indd

Používateľská príručka Obsah Používateľská príručka... 1 Administrácia servera... 2 FTP... 2 Remote Desktop... 3 Administrácia databáze:... 3 Spusteni

Služobný úrad Odbor verejného obstarávania Podľa rozdeľovníka Váš list číslo/ zo dňa: Naše číslo: Vybavuje/Klapka V Bratislave 29172/2018 Görögová/298

Parsovanie MusicXML súborov Bc. Ondrej Grman Študijný program: Informačné systémy Predmet: Vyhľadávanie informácií Ak. rok: 2013/2014

Úlohy: Inteligentné modelovanie a riadenie model MR mobilný robot s diferenciálnym kolesovým podvozkom 1. Vytvorte simulačnú schému pre snímanie tréno

Novinky v OpcDbGateway 5.0

Microsoft PowerPoint - OOP_prednaska_10.pptx

portál scientia.sk

Tue Oct 3 22:05:51 CEST Začiatky s jazykom C 2.1 Štruktúra programu Štruktúra programu by sa dala jednoducho popísať nasledovnými časťami, kto

Dve dekády vývoja sociológie na Slovensku – základné trendy a výzvy

Pozvanka na laboralim 2012

Princípy tvorby softvéru Programovacie paradigmy

Microsoft Word - o09_Používateľská príručka ku kontrole kupónov na webe_v4.doc

TA

Finančné riaditeľstvo Slovenskej republiky Testovacie scenáre

Registrácia používateľa Portálu finančnej správy -1/18-

Untitled

SLOVENSKÁ TECHNICKÁ UNIVERZITA V BRATISLAVE Fakulta informatiky a informačných technológií STU Ústav počítačových systémov a sietí ZADANIE SEMESTRÁLNE

Distance search Ján Garaj Fakulta informatiky a informačných technológií Slovenská technická univerzita Školský rok: 2008/09 Popis problému a motiváci

NÁVRH UČEBNÝCH OSNOV PRE 1

Používateľská príručka elektronických služieb pre žiadateľov o štatistické informácie október 2016

Prevádzka

sprievodca-priestor.pdf

Privátna zóna pre prevádzku Obsah Privátna zóna pre prevádzku 1 Obsah 1 Webová stránka 2 Úvodná stránka 2 Registrácia prevádzka/penzión

Slovenská technická univerzita v Bratislave FAKULTA INFORMATIKY A INFORMAČNÝCH TECHNOLÓGIÍ Ilkovičova 3, Bratislava Tímový projekt Ponuka Grafi

Microsoft Word - prirucka_katedry_nova

Úrad Slovenskej akadémie vied Dodatok č. 6 K ORGANIZAČNÉMU PORIADKU Úradu Slovenskej akadémie vied 2014 štefánikova 49, Bratislava, Slovenská r

Návod na obsluhu CompactIO 1

PowerPoint Presentation

Príloha č. 3 Zmluvy o poskytnutí NFP Prijímateľ: Úrad pre normalizáciu, metrológiu a skúšobníctvo SR Názov projektu: Zavádzanie a podpora manažérstva

Úrad pre dohľad nad zdravotnou starostlivosťou Žellova 2, Bratislava Dátové rozhranie pre externý subjekt FR SR Strana 1 z 11 Dátové rozhranie

Microsoft Word - 06b976f06a0Matice - Uzivatelska Dokumentacia

Intellectual Property, Psychology and Sociology

Cieľové požiadavky na vedomosti a zručnosti pri maturitnej skúške skupiny odborov 25 Informačné a komunikačné technológie Všeobecné - cieľové požiadav

Pozvanka na Laboralim 2009

Snímka 1

Manuál pre nastavenie tlače z VRP Bluetooth, USB tlačiarne Bluetooth, USB tlačiarne Manuál pre nastavenie tlače -1-

User:Peter.Michalec

Komunikácia deklarantských SW s IS CEP Bratislava OPIS je spolufinancovaný z ERDF

Dodatok č. 2 K ORGANIZAČNÉMU PORIADKU, Uradu Slovenskej akadémie vied 2014 /

PM

OCELIARSKY PRIEMYSEL V SR V ROKU 2015 A 2016 Do oceliarskeho sektoru v SR patrí výroba surového železa a ocele a ferozliatin (SK NACE 241), výroba rúr

Kategória školenia Kurzy Project, Outlook obsahuje kurzy: Outlook základy Účastníci kurzu Outlook základy sa naučia využívať tento program na ov

Použitie počítačov (1)

PRIJÍMACIE KONANIE pre školský rok 2007/2008

PowerPoint Presentation

Start of the Week Call

Microsoft Word - Zaver.pisomka_januar2010.doc

Metrické konštrukcie elipsy Soňa Kudličková, Alžbeta Mackovová Elipsu, ako regulárnu kužeľosečku, môžeme študovať synteticky (konštrukcie bodov elipsy

OPIdS - finančné riadenie

PowerPoint Presentation

PowerPoint Presentation

Prepis:

User:Andrej Sedlacek Zadanie Zadaním pre tento projekt je vytvoriť nástroj pre fazetové vyhľadávanie v rámci media monitoring SAV, ktoré bude obsahovať fazety podľa výskytov daných ľudí v e-mailoch a podľa ústavov, v ktorých títo ľudia pracujú. Projekt nadväzuje na súbežný projekt spracovania media monitoringu SAV. Vstupné dáta Media monitoring SAV po spracovaní: e-maily sú rozdelené do samostatných súborov ľudia ústavy a referencie sú priradené v samostatnom súbore Emaily obsahujú: nadpis zdroj autora dátum telo správy Napríklad:

-NAZOV- Akademici podporili akčné plány -ZDROJ- Hospodárske noviny; s. 6 -DATUM- 20050429 -AUTOR- Vechter Juraj -TEXT- Predstavitelia akademickej obce včera akceptovali, hoci s niektorými výhradami, dva akčné plány - Vzdelávanie a zamestnanosť a Veda, výskum a inovácie. Plány nadväzujú na nedávno schválenú Stratégiu konkurencieschopnosti. -END- Štatistické priradenie sa skladá zo vzájomného priradenia ľudí, ústavov a referencií na jednotlivé e-maily. JOZEF BADO Fyzikálny ústav SAV 15 254 6952 3 HELENA BALKOVA Ústav krajinnej ekológie SAV 23654 45668 2 ERIKA BOROVA Sociologický ústav SAV 213 564 12220 32001 4 Výstup Fazetové vyhľadávanie v media monitoringu SAV pomocou Apache Solr, ktoré môže byť prínosom pre zamestnancov pretože maximálne zefektívňuje vyhľadávanie v media monitoringu.

Návrh Základným stavebným kameňom tohto softvéru je komplexná dátová štruktúra, ktorá je nutným predpokladom na indexovanie dokumentov pomocou Solr servera. Dátová štruktúra má dva hlavné vstupy: súbory s jednotlivými e-mail správami CSV súbor so štatistickým namapovaním osôb, inštitútov a ich referencií na e-maily Aby sme tieto dve štruktúry spojili, potrebujeme vytvoriť grafovú dátovú štruktúru, ktorá bude obahovať všetky dáta namapované podľa ich vzájomných vzťahov.prvým krokom je vytvorenie prvotnej štruktúry z CSV súboru. Pre tento účel budeme potrebovať: 1. ArrayList, ktorý bude obsahovať všetky kombinácie mien a inštitútov 2. HashMap, ktorá bude obsahovať mapovanie indexov e-mailov na indexy pracovníkov SAV v ArrayList štruktúre Druhým krokom je prechádzanie množinou e-mailov a pomocou HashMap dátovej štruktúry jej priraďovať príslušné referencie na ľudí a ústavy. E-maily je samozrejme nutné rozparsovať a extrahovať z nich požadované dáta. Po vyparsovaní e-mailu sa overí, či sa jeho index nenachádza v HashMap a ak áno do objektu Mail sa doplnia údaje o človeku (a jeho domovského ústavu), ktorý sa v e-maile vyskytuje. Po ukončení parsovania a párovania e-mailov s pracovníkmi SAV budeme mať ku každému e-mailu tieto dáta: Nadpis Zdroj Autor Dátum Text Vyskytnutá osoba (nie vždy) Inštitút (nie vždy)

Keď máme dáta skonsolidované, nasleduje vytvorenie kódu, ktorý nahrá tieto dáta na Solr server aby ich zindexoval. Následne je nutné upraviť kód samotného solr zobrazovača Velocity aby spĺňal požiadavky na fazetovanie indexovaných údajov. Implementácia Na implementáciu tohto projektu bol použitý programovací jazyk JAVA v prostredí Eclipse. Server Solr je nasadený vo verzii 4.0. Najskôr boli vytvorené a naplnené dátové štruktúry pre uchovanie mapovacích údajov o ľuďoch a ústavoch. public class Data { private Map<Integer, Index> indexmap; private List<Index> indexlist; public Map<Integer, Index> getindexmap() { if (indexmap == null) { indexmap = new HashMap<Integer, Index>(); return indexmap; public List<Index> getindexlist() { if (indexlist == null) { indexlist = new ArrayList<Index>(); return indexlist;

Následne bolo nutné rozbehať Solr server a doplniť schému o požadované polia.

<field name="id" type="string" indexed="true" stored="true" required="true" multivalued="false"/> <field name="title" type="text_general" indexed="true" stored="true" multivalued="false"/> <field name="source" type="text_general" indexed="true" stored="true" multivalued="false"/> <field name="author" type="text_general" indexed="true" stored="true" multivalued="true"/> <field name="date" type="date" datetimeformat="yyyy-mm-dd't'hh:mm:sss'z'" indexed="true" stored="true"/> <field name="text" type="text_general" indexed="true" stored="true" multivalued="false"/> <field name="name" type="string" indexed="true" stored="true" multivalued="true"/> <field name="institute" type="string" indexed="true" stored="true" multivalued="true"/> Potom prišiel rad na parsovanie jednotlivých emailov, priraďovanie referencií na ľudí a ústavy SAV a napokon odoslanie dokumentu na Solr server.

public static void processsavmail(string inputfolderpath) { try { MailParser mailparser = new MailParser(inputFolderPath); for (int i = 51200; i < mailparser.getfilecount(); i++) { Mail mail = new Mail(i); mailparser.parsefile(mail); if (savdata.getindexmap().containskey(mail.getindex())) { Index mailindex = savdata.getindexmap().get(mail.getindex()); List<Employee> employeelist = mailindex.getemployeelist(); for (Employee employee : employeelist) { mail.getemployeelist().add(employee); Server.getInstance().IndexDocument(mail); catch (Exception e) { e.printstacktrace();

Po zindexovaní všetkých e-mailov bolo nutné spojazdniť a nastaviť konfiguračné súbory Solru a Velocity zobrazovača aby sa dáta vykreslili v správnom poradí a formáte. Dôležité tiež bolo správne nastaviť fazety pre fazetové vyhľadávanie na základe polí name a institute. <str name="wt">velocity</str> <str name="v.template">browse</str> <str name="v.layout">layout</str> <str name="title">sav_mediamonitoring</str> <!-- Faceting defaults --> <str name="facet">on</str> <str name="facet.field">institute</str> <str name="facet.field">name</str> <str name="facet.mincount">1</str> <str name="facet.limit">-1</str> Čo sa týka vyskytnutých problémov pri vývoji, najviac z nich bolo spôsobených samotným Solr serverom a to najmä kvôli väčšej nábehovej krivke pri práci s týmto nástrojom. Testovanie Testovanie vytvoreného softvéru a webového rozhrania Solr-u prebiehalo priamo na celej množine vstupných dát. Najskôr iba na jej malej referenčnej časti, na základe ktorej bolo testované parsovanie mailov počas vývoja programu. Trochu väčšia množina dát bola použitá pri testovaní správneho nasadenia a konfigurácie Solr servera. Výsledná funkcionalita bola otestovaná na plnom súbore dokumentov.

Záver V rámci tohto projektu z predmetu Vyhľadávanie informácii bol v rámci servera Solr vytvorený fazetový vyhľadávač nad media monitoringom SAV. Program v jazyku JAVA najskôr vyparsuje a popáruje všetky potrebné dáta, ktoré následne odošle na Solr server. Ten si ich zaindexuje a pri každom hľadaní výrazu následne vytvára fazety podľa ľudí a ústavov SAV. Myslím si, že projekt dopadol výborne, pretože vyhľadávanie nad media monitoringom SAV naozaj funguje a v spojení s fazetovým prehľadávaním sa z toho stal naozaj účinný vyhľadávací nástroj, ktorý znamená oproti e-mailom v jednom veľkom súbore naozaj výrazné uľahčenie vyhľadávania.