OPTICKÉ ROZPOZNÁVANIE ZNAKOV V KONTEXTE DIGITALIZÁCIE KOREŠPONDENCIE SLOVENSKÝCH VZDELANCOV V OBDOBÍ Veronika Murgašová Abstrakt Optické r

Podobné dokumenty
Titulná strana Arial 30 bodov

Chemical Business NewsBase

SADZOBNÍK PRODUKTOV A SLUŽIEB ÚNMS SR PLATNÝ OD Bratislava, máj

NSK Karta PDF

Príl. č. 1 Podrobný popis predmetu obstarávania ČASŤ I. Dodávka počítačového vybavenia kancelárie Objednávateľa v Nowom Targu (Poľsko) I.1. Notebook s

TA

rk_dp1_struktura_2019

Intellectual Property, Psychology and Sociology

Digitálne technológie v každodennom živote 3. ročník akademický rok 2019/2020 Harmonogram prednášok

Otvorená verejná výzva na predkladanie žiadostí o dofinancovanie projektov 7. rámcového programu Európskeho spoločenstva (ES) pre výskum, technologick

č VaV- Publikačná činnosť

Pokyny_Doctorandorum dies

Úvod

seminarna_rocnikova_a_bakalárska práca

Slovensko-maďarská spolupráca v oblasti vedy a techniky

Detekcia akustických udalostí v bezpečnostných aplikáciách

SK-CZ 2013 ÚPLNÉ ZNENIE VEREJNEJ VÝZVY 1. Právny rámec Na základe Dohody medzi vládou Slovenskej republiky a vládou Českej republiky o vedeckotechnick

portál scientia.sk

NSK Karta PDF

Rollei DF-S 310 SE Užívateľský manuál

Čo sú pojmové mapy 1 Charakterizácia pojmových máp pojmové mapy sú diagramy, ktoré vyjadrujú podstatné vzťahy medzi pojmami vo forme tvrdení. Tvrdenia

SLOVENSKÁ TECHNICKÁ UNIVERZITA V BRATISLAVE FAKULTA INFORMATIKY A INFORMAČNÝCH TECHNOLÓGIÍ Metodika archivácie verzií HW Tímový projekt Stratos FIIT M

vizualna_identita_au_manual_final.indd

SVET PRÁCE PRIMÁRNE VZDELÁVANIE ISCED 2 VYUČOVACÍ JAZYK SLOVENSKÝ JAZYK VZDELÁVACIA OBLASŤ ČLOVEK A SVET PRÁCE PREDMET SVET PRÁCE SKRATKA PREDMETU SVP

fadsgasga

Microsoft Word - Priloha_1.docx

Prioritne Doporučene

iTENDER - výpis tendra id:

ARBORÉTUM BOROVÁ HORA TECHNICKEJ UNIVERZITY VO ZVOLENE KATEDRA PESTOVANIA LESA LESNÍCKEJ FAKULTY TECHNICKEJ UNIVERZITY VO ZVOLENE LESY SLOVENSKEJ REPU

NSK Karta PDF

Tabuľky_teoria

Datova_struktura_evidencie_zaznamov_o_konverzii_v1-2

eKasa

Iné domáce projekty riešené na FPEDAS v roku 2017

Združenie obcí - regionálne vzdelávacie centrum samosprávy v Nitre Fraňa Mojtu 18, Nitra IČO: DIČ: IBAN: SK

Centrum excelentnosti pre využitie informačných biomakromolekúl v prevencii ochorení a pre zlepšenie kvality života, ITMS:

Študijný program (Študijný odbor) Školiteľ Forma štúdia Téma Elektronické zbraňové systémy (8.4.3 Výzbroj a technika ozbrojených síl) doc. Ing. Martin

trafo

Užívateľský manuál

Formulár žiadosti o grant Ekonomickej univerzity v Bratislave pre mladých učiteľov, vedeckých pracovníkov a doktorandov v dennej forme štúdia Názov na

ZBIERKA ZÁKONOV SLOVENSKEJ REPUBLIKY Ročník 2009 Vyhlásené: Časová verzia predpisu účinná od: do: Obsah tohto dokument

Šablona dokumentu

SK01-KA O1 Analýza potrieb Zhrnutie BCIME tím Vyhlásenie: "Podpora Európskej komisie pre výrobu tejto publikácie nepredstavuje súhlas

Foto S, T. Vansovej 17, Prievidza 97101, CENNÍK apríl 2019 Vyvolanie filmu proces C-41 35mm film - kinofilm 2,99 1

Základná škola Sačurov, Školská 389, Sačurov Tématický výchovno vzdelávací plán zo slovenského jazyka pre 1. ročník variant A Vypracované podľa

Výzva na predkladanie ponúk zadávanie zákazky podľa 9 ods. 9 zákona č. 25/2006 Z. z. o verejnom obstarávaní a o zmene a doplnení niektorých zákonov v

Vnútorný predpis Číslo: 2/ Výzva na predkladanie žiadostí o Inštitucionálne projekty MTF STU Vypracovala: doc. Ing. Kristína Gerulová

Dobývanie znalostí

Microsoft Word - prirucka_katedry_nova

bakalarska prezentacia.key

SMART_GOVERNANCE_Ftacnik

NSK Karta PDF

Národné centrum popularizácie vedy a techniky v spoločnosti

Platný od: OPIS ŠTUDIJNÉHO ODBORU ANTROPOLÓGIA

POZVÁNKA na 6. vedeckú konferenciu s medzinárodnou účasťou HODNOTENIE GENETICKÝCH ZDROJOV RASTLÍN PRE VÝŽIVU A POĽNOHOSPODÁRSTVO máj 2010 Hote

EN

design-manual-umb-2015 copy

eKasa

Zámery výskumnovývojových národných projektov MŠVVaŠ SR

ŽILNSKÁ ŽILINSKÁ UNIVERZITA V ŽILINE Univerzitný vedecký park Univerzitný vedecký park Žilinskej univerzity v Žiline ITMS Podporujeme výsk

Sestava 1

PM C-03 Prostredie riadenia ¾udských zdrojov

Kreatívny priestor a jeho úloha v akademických knižniciach (s príkladom zo Slovenska)

S M E R N I C A č. 180 GRANTOVÝ SYSTÉM Žilinskej univerzity v Žiline Spracovateľ: oddelenie pre vedu a výskum oddelenie pre vzdelávanie Žilina, január

Zahraničné projekty riešené na FPEDAS v roku 2017

WP summary

Open Days 2008 Presentation on JASPERS

INFORMAČNÝ LIST ÚSPEŠNE ZREALIZOVANÉHO PROJEKTU

UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY Informačný systém pre materské školy Bakalárska práca 2019 Monika Vlčková

Prihlásenie sa do systému AIS2 Pomôcka pre študentov Odoslanie záverečnej práce cez AiS2 Spustite si internetový prehliadač a do riadku s adresou napí

AM_Ple_LegReport

The Scopus Spring Release

Sestava 1

EIZ V SAV V ROKU 2018

Aktualizácia č. 1 Usmernenia č. 3/2013 operačný program Vzdelávanie Názov: Usmernenie pre Prijímateľov vo veci periodicity predkladania plánov a harmo

Prehľad oprávnených realizátorov Národný projekt: Podpora rozvoja kreatívneho priemyslu na Slovensku (NPPRKP) Kód projektu v ITMS 2014+: J874 Dá

Nápad pre folklór Grantový program Nadácie Poštovej banky

News Flash 25. augusta, 2015 Zabezpečenie stravovania pre zamestnancov

Prezentácia programu PowerPoint

Kategória školenia Kurzy Project, Outlook obsahuje kurzy: Outlook základy Účastníci kurzu Outlook základy sa naučia využívať tento program na ov

Snímka 1

EN

EAC EN-TRA-00 (FR)

Rozdeľovanie IT zákaziek UX Peter Kulich

Názov projektu: „Inovatívne vyučovanie vo zvolenských základných školách“ ITMS: Moderné vzdelávanie pre vedomostnú spoločnosť/Projekt je

Digitálne mesto kam smerujú elektronické služby a moderné technológie pre samosprávu Ing. Ľuboš Petrík

Resolution

Snímek 1

Prehľad oprávnených realizátorov Národný projekt: Podpora rozvoja kreatívneho priemyslu na Slovensku (NPPRKP) Kód projektu v ITMS 2014+: J874 Dá

Akreditácia vzdelávacích programov – projekt MVP

bod_13_2_odpredaj_pozemku

Centrum vedecko-technických informácií, Odbor pre hodnotenie vedy, Oddelenie pre hodnotenie publikačnej činnosti Vyhľadávanie a práca so záznamami - C

Príručka používateľa elektronickej služby

Prezentácia programu PowerPoint

Názov vzdelávacej oblasti Názov predmetu Ročník Časový rozsah týždeň/rok Etická výchova Človek a hodnoty šiesty 1 hod týždenne / 33 hod ročne 1.Charak

bsah

Prepis:

OPTICKÉ ROZPOZNÁVANIE ZNAKOV V KONTEXTE DIGITALIZÁCIE KOREŠPONDENCIE SLOVENSKÝCH VZDELANCOV V OBDOBÍ 1500-1800 1 Veronika Murgašová Abstrakt Optické rozpoznávanie znakov (OCR) je dôležitou súčasťou digitalizačného procesu. Výrazne ovplyvňuje prácu s finálnym produktom digitalizácie. Článok bližšie špecifikuje systém rozpoznávania znakov a osobitosti pri digitalizácii rukopisných materiálov, a to konkrétne korešpondencie slovenských intelektuálov v období rokov 1500 1800. Problematika súvisí s riešeným projektom APVV-15-0554 Intelektuálne dedičstvo a vedecká komunikácia 1500-1800 so slovenskými vzťahmi ako súčasť európskej histórie a identity. Kľúčové slová: digitalizácia, optické rozpoznávanie znakov, vedecká komunikácia Abstract Optical character recognition (OCR) is an important part of digitiasation process. It significantly affects work with the final product of digitisation. The article specifies the system of character recognition and specialty in the digitisation of handwritten materials, namely the correspondence of Slovak intellectuals in the period 1500-1800. The theme of article related to the solved project Intellectual heritage and scientific communication in 1500-1800 with Slovak relations as part of European history and identity. Key words: digitisation, optical character recognition, scientific communication V rámci projektu APVV-15-0554 s názvom Intelektuálne dedičstvo a vedecká komunikácia 1500-1800 so slovenskými vzťahmi ako súčasť európskej histórie a identity, sa v druhej etape riešiteľský kolektív zaoberá aj digitalizáciou a laboratórnou analýzou nosičov korešpondencie slovenských vzdelancov. Jedným z cieľov projektu sú experimenty zamerané na zvýšenie kvality digitalizácie a rozpoznávania znakov rukopisných dokumentov. 1 Príspevok je výstupom a súčasťou výskumu podporeného Agentúrou pre vedu a výskum (APVV) v rámci projektu 1800 so s identity (APVV-15-0554).

Digitalizácia rukopisov, teda aj predmetnej korešpondencie je stále veľkou výzvou pre všetky pamäťové inštitúcie, a to najmä v oblasti automatického rozpoznávania znakov. Historické materiály, ktoré vstupujú do procesu digitalizácie sú rôznorodé. Listy ako zdroj informácií majú po formálnej stránke svoje špecifiká, na ktoré je potrebné v jednotlivých procesoch digitalizácie prihliadať. Prvým krokom digitalizácie je skenovanie. Pri korešpondencii z rokov 1500-1800 ide o manuálne skenovanie, ktoré je časovo náročnejšie. Automatické skenovanie je buď nemožné alebo neefektívne. Akákoľvek snaha o automatizáciu môže byť bez predchádzajúcich konzervátorských a reštaurátorských zásahov veľkou hrozbou pre samotný dokument alebo pre skenovacie zariadenie, ktoré sa zanáša čiastočkami uvoľňujúcimi sa z nosiča. Kvalitný sken dokumentu ovplyvňuje výraznou mierou následný postprocesing a rozpoznávanie znakov. Odporúčané rozlíšenie pre skenovanie rukopisov je minimálne 400 dpi. Skenované súbory sú ukladané vo formáte tiff, ktorý vďaka svojej bezstratovej kompresii zabezpečuje vyššiu kvalitu obrázkov. Následné kroky v úprave obrazu sa vo veľkej miere zhodujú s akýmkoľvek iným typom dokumentov. V tejto časti procesu je najdôležitejšia snaha odstrániť všetky nedostatky skenov (zakrivenie, presvitanie, kontrast a pod.). Rozpoznávanie znakov /OCR, ICR, HTR/ 2 Najvýraznejšie rozdiely pri digitalizácii korešpondencie slovenských vzdelancov vidíme pri rozpoznávaní znakov. Pre tlačené publikácie je na trhu množstvo kvalitných nástrojov, ktoré sa neustále vyvíjajú a ponúkajú kvalitné výstupy. Pri rukopisných dokumentoch však ide o oveľa komplikovanejší proces. Optické rozpoznávanie znakov (optical character recognition, resp. optical character reader) je veľmi zjednodušene prevod obrazu na text. Je to technológia, ktorá umožňuje konvertovať rôzne typy dokumentov, napr. naskenované papierové dokumenty, súbory PDF alebo snímky vytvorené digitálnym fotoaparátom, do upravovateľných a prehľadávateľných údajov. V prípade skenov papierových dokumentov skener nedokáže previesť obraz tak, aby bolo možné ho upravovať napríklad vo Worde. Dokáže len vytvoriť obrazovú kópiu dokumentu, 2 OCR optical character recognition, ICr Intelligent charakter recognition, HTR Handwritten document recognition

ktorá je len súbor čiernych a bielych bodov alebo farebných bodov, ktoré sú zobrazené do mriežky (rastrový, resp. bitmapový obraz). Aby bolo možné vydolovať a použiť údaje z naskenovaných dokumentov, digitálnych fotografií alebo obrázkových súborov PDF, je potrebný práve určitý druh softvéru OCR, ktorý vyextrahuje písmená z obrázka, znak po znaku a prevedie ich na slová, slová na vety, čo následne umožňuje úpravu obsahu originálneho dokumentu. 3 Systém práce programu je členení do viacerých etáp. V prvej analyzuje štruktúru snímky dokumentu. Program rozdelí skenovanú stranu do prvkov, ako sú bloky textu, tabuliek, obrázkov a pod. Čiary sú rozdelené do slov a následne do znakov. V druhej etape takýmto spôsobom vyčlenené znaky porovná so súborom vzorových snímok. Výsledkom porovnania je návrh určitého počtu hypotéz o tom, čo znak vlastne predstavuje. V poslednej fáze na základe týchto hypotéz program analyzuje rôzne varianty rozdelenia čiar do slov a slov do znakov. Po spracovaní veľkého počtu predbežných hypotéz program nakoniec rozhodne, ako má vyzerať rozpoznaný text. 4 Úlohou operátora digitalizácie je skontrolovať či sa program rozhodol správne. Žiadny program neposkytuje 100 percentné automatické rozpoznávanie znakov, a preto je potrebná následná kontrola a prípadne úpravy, respektíve zásahy v prípade, že program nedokáže niektorý znak rozoznať. Pri rozpoznávaní znakov sa využívajú tzv. neurónové siete. Ide o siete, ktoré napodobňujú fungovanie ľudského mozgu. Využívajú sa najmä v oblastiach, kde je potrebné, aby sa systém aktívne učil a tým poskytoval relevantné výsledky. Neurónové siete sa využívajú najmä pri rozpoznávaní rukopisov. Systém sa postupne učí rozpoznávať rukou písané znaky a na základe naučených prepojení dokáže určiť o aký znak ide. Možnosti rozpoznávania znakov pre rukopisné dokumenty Pracovný postup optického rozpoznávania znakov pre historické zbierky je založený na nástrojoch s otvoreným zdrojovým kódom. Open source nástroje umožňujú lepšie 3 ABBY. Čo je OCR? [online]. 2018[cit.20.10.2018].Dostupné na: https://www.abbyy.com/sksk/finereader/what-is-ocr/ 4 ABBY. Čo je OCR? [online]. 2018[cit.20.10.2018].Dostupné na: https://www.abbyy.com/sksk/finereader/what-is-ocr/

prispôsobenie požiadaviek, najmä pokiaľ ide o výcvik modelových znakov a modelovanie jazyka na jednotlivé projekty. 5 Pri rukopisných dokumentoch narážajú programy na viaceré problémy, ktoré je možné rozdeliť do troch väčších skupín. Problémy s obrazom - Jedným z hlavných problémov je kvalita pôvodného rukopisu a kvality skenovania. Zahŕňa to problémy, ktoré nastávajú pri manipulácii s originálnym dokumentom, ako sú skrútené stránky, rozmazané písma alebo dodatočne manuálne upravované stránky (napríklad pečiatky alebo ďalšie ručne vpísané poznámky mimo líniu textu). Typ písma a rozloženie - Ľudské rukopisy nie je možné spracovať štandardným softvérom OCR. Písma alebo znaky sa líšia pri zmene osoby, okrem písmen sú často nekonzistentné aj medzery medzi. Historické dokumenty často používajú rozdielne a nekonzistentné štruktúry usporiadania textu. Rukopis jednej osoby sa tiež vekom mení, a preto aj učenie programov býva náročné. Chýbajúca vedomostná báza - tradičný softvér OCR používa znalostné bázy založené na súčasných slovníkoch a gramatické štruktúry na zlepšenie postupu OCR. Takéto softvéry neposkytujú bázy pre rukopisné dokumenty. Historické rukopisy často nesledujú konkrétne pravopisné štruktúry a pravidlá, teda môžu byť napísané slová v tom istom texte inak. 6 Nástroj Transcribus Transkribus je nástroj, ktorý je spravovaný pracovnou skupinou D g g (DEA) na univerzite v Innsbrucku. Je financovaný Európskou komisiou ako súčasť projektu READ H2020 riešeného v rokoch 2016 2019. Transkribus je komplexná platforma pre automatické rozpoznávanie, prepisovanie a vyhľadávanie v historických dokumentoch. Skladá sa z: expertného nástroja (Transkribus Obr.1) webinterface (http://transkribus.eu/) niekoľko cloudových služieb. 5 BLANKE, Tobias a BRYANT, Michael a Mark HEDGES. Ocropodium: Open source OCR for small-scale historical archives. In: Journal of Information Science. roč. 38, č. 1, 2012, s.76-86. ISSN 0165-5515. 6 SUKANYA, Roy, TRIDIB, Dawn a Deb SUBRATA. A study on handwriting analysis by OCR. In: International Journal of Scientific and Research Publications. Vol. 8, Is. 1, 2018, s. 449-450. ISSN 2250-3153

Hlavným cieľom spoločnosti Transkribus je podporovať používateľov, ktorí sa zapájajú do prepisu vytlačených alebo ručne písaných dokumentov, konkrétne vedeckých a výskumných pracovníkov, archívy, ale aj dobrovoľníkov z verejnosti. 7 Obr. 1 Pracovné prostredie programu Transcribus Transkribus je stále vo vývoji a väčšina častí softvéru je open source. Vzhľadom na to, že ide o open source ponúka pre inštitúcie veľkú výhodu v podobe minimálnej finančnej záťaže. Takéto typy nástrojov ponúkajú viacero výhod. Okrem toho, že sú voľne dostupné na používanie, sú niekedy flexibilnejšie a majú nižšie administratívne náklady v porovnaní s porovnateľnými komerčnými produktmi. Pokiaľ ide o schopnosti čistého rozpoznávania textu, výkonnostná medzera medzi komerčnými nástrojmi a najlepšími dostupnými zdrojmi open source stále existuje, je však stále menšia a menšia. Nástroj Transkribus je v súčasnosti testovaný v prostredí digitalizačného centra Žilinskej univerzity v Žiline a výstupy s experimentov budú publikované v samostatnej štúdii. Záver Cieľom akéhokoľvek rozpoznávania textu v naskenovanom obraze je extrahovať z neho text, ktorý používateľ môže následne ďalej editovať. Rozpoznávanie znakov je preto jedným zo základných predpokladov pre prácu s digitalizovanými materiálmi. Flexibilita našich digitalizačných nástrojov musí byť priamo úmerná variabilite zdrojových dokumentov. Pracovné postupy, ktoré lepšie zodpovedajú rozličným potrebám vstupných materiálov, umožnia zamestnancom lepšie rozmiestniť svoje zručnosti a vedomosti pri prispievaní k nášmu digitálnemu kultúrnemu a vedeckému dedičstvu. 7 DIGITISATION AND DIGITAL PRESERVATION GROUP. Transkribus [online]. TRANSKRIBUS Team at University of Innsbruck, 2018[cit.23.11.2018]. Dostupné na: https://transkribus.eu/transkribus/

Zoznam použitej literatúry ABBY. Č OCR? [online]. 2018[cit.20.10.2018].Dostupné na: https://www.abbyy.com/sksk/finereader/what-is-ocr/ BLANKE, Tobias a BRYANT, Michael a Mark HEDGES. Ocropodium: Open source OCR for small-scale historical archives. In: Journal of Information Science. roč. 38, č. 1, 2012, s.76-86. ISSN 0165-5515 SUKANYA, Roy, TRIDIB, Dawn a Deb SUBRATA. A study on handwriting analysis by OCR. In: International Journal of Scientific and Research Publications. roč. 8, č. 1, 2018, s. 449-450. ISSN 2250-3153 DIGITISATION AND DIGITAL PRESERVATION GROUP. Transkribus [online]. TRANSKRIBUS Team at University of Innsbruck, 2018[cit.23.11.2018]. Dostupné na: https://transkribus.eu/transkribus/