Francúzsko-slovenský paralelný korpus Dorota Vasilišinová, Radovan Garabík Jazykovedný ústav Ľ. Štúra SAV Bratislava, Slovakia

Podobné dokumenty
Microsoft Word - prirucka_katedry_nova

Centrum vedecko-technických informácií, Odbor pre hodnotenie vedy, Oddelenie pre hodnotenie publikačnej činnosti Vyhľadávanie a práca so záznamami - C

Prekladateľská činnosť Radev, M.: Na ulici. Bratislava: Mladé letá [1] s. Čašule, K.: Hra na manželstvo. Veselohra zo súčasného života v troc

Microsoft Word - A AM MSWORD

Microsoft Word - Priloha_1.docx

Uvod do slovenskeho jazyka

Tabuľky_teoria

Sprievodný list SofComs.r.o., Priemyselná 1, Liptovský Mikuláš Program basic.sk Verzia ( ) Dátum Autor Ing. J. Malíček

seminarna_rocnikova_a_bakalárska práca

Microsoft Word - pe453195_sk.doc

UNIVERZITA PAVLA JOZEFA ŠAFÁRIKA, PRÍRODOVEDECKÁ FAKULTA Stromová reprezentácia slovenskej vety Autor: Jana Hiľovská Vedúci práce: RNDr. Ondrej Krídlo

SK-FR 2013 ÚPLNÉ ZNENIE VEREJNEJ VÝZVY 1. Právny rámec Na základe Dohody medzi vládou Slovenskej republiky a vládou Francúzskej republiky o vedecko-te

PROGRAM VÝMEN MEDZI MINISTERSTVOM ŠKOLSTVA, VEDY, VÝSKUMU A ŠPORTU SLOVENSKEJ REPUBLIKY A MINISTERSTVOM EURÓPY A ZAHRANIČNÝCH VECÍ FRANCÚZSKEJ REPUBLI

Jazykom riadená vizuálna pozornosť - konekcionistický model Igor Farkaš Katedra aplikovanej informatiky / Centrum pre kognitívnu vedu Fakulta matemati

Snímka 1

NSK Karta PDF

Úrad pre dohľad nad zdravotnou starostlivosťou Žellova 2, Bratislava Dátové rozhranie pre externý subjekt MV SR Strana 1 z 10 Dátové rozhranie

aitec offline k Vlastivede pre štvrtákov Inštalačné DVD, časová licencia: školský rok 2019/2020 Obsahuje listovanie titulmi Vlastiveda pre štvrtákov,

Sprievodný list SofCom s.r.o., Priemyselná 1, Liptovský Mikuláš Program basic.sk Verzia ( ) Dátum Autor Ing. J. Malíče

Postupy na uplatnenie práv dotknutých osôb

Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁRSKÁ PRÁCA Peter Beňa Filmové titulky jako zdroj paralelních textů Ústav formální a apl

Úvod do lineárnej algebry Monika Molnárová Prednášky 2006

SLOVENSKÝ JAZYK A LITERATÚRA NIŽŠIE STREDNÉ VZDELÁVANIE ISCED 2 VYUČOVACÍ JAZYK SLOVENSKÝ JAZYK VZDELÁVACIA OBLASŤ JAZYK A KOMUNIKÁCIA PREDMET SLOVENS

Republika Srbsko MINISTERSTVO OSVETY, VEDY A TECHNOLOGICKÉHO ROZVOJA ÚSTAV PRE HODNOTENIE KVALITY VZDELÁVANIA A VÝCHOVY VOJVODINSKÝ PEDAGOGICKÝ ÚSTAV

GEODETICKÝ A KARTOGRAFICKÝ ÚSTAV BRATISLAVA Chlumeckého 4, Bratislava II Obsah 1. Export údajov ZBGIS do CAD formá

Paralelné algoritmy, cast c. 2

Tomáš Jelínek - včely vyhľadávanie

Rada Európskej únie V Bruseli 12. januára 2017 (OR. en) Medziinštitucionálny spis: 2017/0006 (NLE) 5208/17 FISC 7 NÁVRH Od: Dátum doručenia: 10. januá

eAccessibility_2005_priloha_F

Úrad pre dohľad nad zdravotnou starostlivosťou Žellova 2, Bratislava Dátové rozhranie pre spracovanie lekárskych poukazov - očná optika Strana

Úvod

Úrad pre dohľad nad zdravotnou starostlivosťou Žellova 2, Bratislava Dátové rozhranie pre externý subjekt MV SR Strana 1 z 10 Dátové rozhranie

sprievodca_exp.pdf

PowerPoint Presentation

Informačný systém pre externú časť a písomnú formu internej časti maturitnej skúšky Informačný systém pre EČ a PFIČ maturitnej skúšky Užívateľská prír

(Microsoft Word - Pokyny na hodnotenie PFI\310 MS a GS z vyu\350ovac\355ch jazykov.doc)

vizualna_identita_au_manual_final.indd

2009

Dobývanie znalostí

Snímka 1

Pracovný postup pre vypĺňanie údajov elektronického formulára IŠIS pre spravodajskú jednotku 1

Úvod

ZBIERKA ZÁKONOV SLOVENSKEJ REPUBLIKY Ročník 2011 Vyhlásené: Časová verzia predpisu účinná od: do: Obsah tohto dokument

Novinky programu MSklad

Zasady ochrany osobnych udajov - HAGARA - JULINEK

Zaverecna sprava

C(2014)5449/F1 - SK

DELEGOVANÉ NARIADENIE KOMISIE (EÚ) 2015/ z 9. júla o doplnení nariadenia Európskeho parlamentu a Rady (EÚ) č. 1304/ 20

Škola (názov, adresa)

Inovovaný školský vzdelávací program pre primárne vzdelávanie - ISCED1 na ZŠ Lehnice Učebné osnovy Názov predmetu Časový rozsah výučby podľa i-švp+i-š

Popis textového formátu a xsd schémy na zasielanie údajov podľa 27 ods. 2 písm. f) zákona (formu na zaslanie údajov si zvolí odosielateľ údajov) Texto

IT NEWS

(Microsoft PowerPoint - TESCO - v\341\232 partner pre praktick\351 vyu\350ovanie.ppt)

Vzorové riešenia úlohy 4.1 Bodovanie Úvod do TI 2010 Dôvod prečo veľa z Vás malo málo bodov bolo to, že ste sa nepokúsili svoje tvrdenia dokázať, prič

Nariadenie vlády 71/2011 Z

Správa o činnosti pedagogického klubu 1. Prioritná os Vzdelávanie 2. Špecifický cieľ Zvýšiť inkluzívnosť a rovnaký prístup ku kvalitnému vzdeláv

8 Cvičenie 1.1 Dokážte, že pre ľubovoľné body X, Y, Z platí X + Y Z = Z + Y X. 1.2 Dokážte, že pre ľubovoľné body A, B, D, E, F, G afinného priestoru

Úvod

STRUČNÝ NÁVOD KU IP-COACHU

Metódy dokazovanie v matematike 1 Základné pojmy Matematika exaktná veda vybudovaná DEDUKTÍVNE ZÁKLADNÉ POJMY základy každej matematickej teórie sú in

Žiadosť o licenčnú zmluvu na podujatie Na adrese v sekcii hlavného menu kliknete na položku Používatelia. Zobrazí sa blokové menu,

Pokyny_Doctorandorum dies

Vnútorná reprezentácia údajových typov

Matematický model činnosti sekvenčného obvodu 7 MATEMATICKÝ MODEL ČINNOSTI SEKVENČNÉHO OBVODU Konečný automat predstavuje matematický model sekvenčnéh

Združenie obcí - regionálne vzdelávacie centrum samosprávy v Nitre Fraňa Mojtu 18, Nitra IČO: DIČ: IBAN: SK

Microsoft Word - 01_Katarína Bačová.doc

Detekcia akustických udalostí v bezpečnostných aplikáciách

Úrad pre dohľad nad zdravotnou starostlivosťou Žellova 2, Bratislava Dátové rozhranie pre externý subjekt FR SR Strana 1 z 11 Dátové rozhranie

design-manual-umb-2015 copy

Učebné osnovy

User:tomas.melicher

SMERNICE

Používateľská príručka pre webovú aplikáciu ON!Track Príručka pre webovú aplikáciu, verzia 1.1

Metódy násobenie v stredoveku

Prevádzka

Aktion.NEXT Novinky vo verzii 1.9

Detail správy a súvisiace prvky Dátum zverejnenia: Verzia: 5 Dátum aktualizácie: Detail správy a súvisiace prvky UPOZORNENIE

slovko.sxw

ITMS kód Projektu: DODATOK Č. 2 K ZMLUVE O POSKYTNUTÍ NENÁVRATNÉHO FINANČNÉHO PRÍSPEVKU uzatvorený v zmysle 269 ods. 2 zákona č. 513/1991

Školský vzdelávací program: 2010/2011

Microsoft Word - pk07033_03.rtf

Správa o èinnosti organizácie SAV

Vyhľadávanie v CREPČ 2 (aktualizované dňa ) Centrum vedecko-technických informácií SR Odbor pre hodnotenie vedy Oddelenie pre hodnotenie pub

Microsoft Word - Zmeny v dlhodobom majetku.docx

Používateľská príručka elektronických služieb pre žiadateľov o štatistické informácie október 2016

Vzdelávací štandard pre učebné odbory, ktorých absolvovaním žiak získa stredné odborné vzdelanie MAĎARSKÝ JAZYK A LITERATÚRA CHARAKTERISTIKA PREDMETU

Vzhľadom k tomu, že Žiadosť o platbu č

Import absencí z ASC

PowerPoint Presentation

9. kapitola Maticová algebra II systém lineárnych rovníc, Frobeniova veta, Gaussova eliminačná metóda, determinanty 1. Systém lineárnych rovníc Systém

FINANČNÉ RIADITEĽSTVO SLOVENSKEJ REPUBLIKY

Intellectual Property, Psychology and Sociology

Microsoft Word - VP ochrany OÚ_e-shop skolský batoh

Prepis:

Francúzsko-slovenský paralelný korpus Dorota Vasilišinová, Radovan Garabík Jazykovedný ústav Ľ. Štúra SAV 813 64 Bratislava, Slovakia korpus@korpus.juls.savba.sk, http://korpus.juls.savba.sk Abstrait. Le corpus parallèle FRASK est un corpus composé de textes littéraires français accompagnés de leur traduction en slovaque. Les textes parallèles ont été alignés et annotés aux niveaux structurel (paragraphes) et linguistique (étiquetage de la partie du discours et lemmatisation). Cet article présente le procès de la formation du corpus parallèle françaisslovaque et les problèmes qui ont survenus au cours de ce travail. Úvod Paralelné korpusy sú špeciálnou oblasťou korpusovej lingvistiky (Rosen, 2005). Paralelný korpus tvorí zväčša originálny text v cudzom jazyku a jeho preklad do iného jazyka alebo jazykov (v našom prípade do slovenčiny) v elektronickej podobe. Počítačovo spracované jazykové dáta je možné ďalej využiť napr. na: porovnanie lexikálnej, morfologickej a syntaktickej štruktúry jazykov skúmanie problémov pri preklade textov vytvorenie dvoj- a viacjazyčných slovníkov výučbu cudzích jazykov trénovanie systémov automatického prekladu aplikáciu štatistických metód a pod. S projektom budovania paralelných korpusov sa v oddelení Slovenského národného korpusu (SNK) Jazykovedného ústavu Ľ. Štúra SAV začalo v roku 2005. V súčasnosti je k dispozícii rusko-slovenský a francúzsko-slovenský paralelný korpus, plánuje sa vytvorenie československého paralelného korpusu. Formát a spracovanie textov Texty vchádzajúce do korpusu sú spracovávané v niekoľkých fázach, pričom sa vždy aplikuje jeden konkrétny spôsob konverzie a spracovania predchádzajúcej úrovne. Takýto modulárny prístup umožňuje ľahko zmeniť spracovanie textov v tej-ktorej fáze, napríklad pri náhrade jedného nástroja iným, lepším. Najprv sa texty skonvertujú z pôvodného vstupného formátu (ktorým môže byť napríklad HTML, MS Word alebo iný formát bežne používaný v DTP) na spoločný textový formát v UTF-8 kódovaní. Odseky sú označené prázdnym riadkom, inak sa v

texte nenachádzajú žiadne iné formátovacie alebo štruktúrne značky, čo umožňuje jednoduché ručné porovnanie dvoch paralelných textov a ich úpravu je potrebné ručne zarovnať začiatok a koniec textu, pretože práve tu sa najviac vyskytujú prípadné rozdiely (napríklad doslov prekladateľa, predhovor, iná štruktúra úvodného nadpisu a pod.). V ďalšej fáze sa text prevedie na formát TEI XML, ktorý používajú ako svoj vstupný formát nástroje na segmentáciu, morfologickú analýzu a značkovanie. Po morfologickej analýze je vytvorený ďalší špeciálny formát, v ktorom je každá veta na samostatnom riadku (namiesto slov sú vo vetách už iba lemy) a odseky sú oddelené špeciálnym znakom, čo umožňuje jednoduché ďalšie spracovanie vo fáze automatického zarovnávania. Po zarovnaní sú výsledky zarovnania doplnené do TEI XML súborov ako odkazy na protistojaci súbor v tvare napr. <s link= 31+32+33 >, čo znamená, že tejto vete zodpovedajú vety s poradovým číslom 31, 32, 33 v druhom súbore. Text je potom skonvertovaný do tvaru vhodného pre korpusový manažér. FRASK francúzsko-slovenský paralelný korpus Francúzsko-slovenský paralelný korpus FRASK (http://korpus.juls.savba.sk/frask/) je vytvorený z prozaických textov francúzskych autorov a ich prekladov do slovenčiny, ale postupne predpokladáme jeho doplnenie aj inými typmi textov (odbornými, publicistickými). Paralelný korpus FRASK má v súčasnosti vo francúzskej časti 315 599 tokenov, 13 004 viet a v slovenskej časti 194 478 tokenov, 12 286 viet. Tento nepomer medzi počtom tokenov a viet vo francúzskych a slovenských textoch je spôsobený pravdepodobne rozdielnou syntaktickou a morfologickou stavbou oboch jazykov (napr. vo francúzštine používanie členov pri substantívach, konjugácia slovies atď.). Lingvistická analýza textu Text je segmentovaný na vety použitím jednoduchého heuristického algoritmu podľa prítomnosti interpunkčných znamienok na konci vety. Text je ďalej lematizovaný a morfologicky analyzovaný; v slovenskej časti používame morfologický analyzátor popísaný v Levenshtein Edit Operations as a Base for a Morphology Analyzer (Garabík, 2005) v kombinácii s TNT dezambiguátorom (Brants). Systém gramatických značiek je popísaný v manuáli pre morfologickú anotáciu SNK (Garabík Gianitsová Horák Šimková, 2004). V čase písania tohto článku nie je ešte aplikovaná lematizácia vo francúzskej časti textov, predpokladáme však použitie francúzskeho nástroja Flemm v3.1 (Analyseur Flexionnel du français pour des corpus étiquetés), ktorý vypracovalo laboratórium ATILF (Analyse et Traitement Informatique de la Langue Française) v Nancy vo Francúzsku. Každému textu je priradená aj štýlovo-žánrová a bibliografická anotácia, ktorá obsahuje

informácie o type textu, žánri a doméne, teda odbornej oblasti, ktorej sa daný text týka, ďalej bibliografické údaje a iné relevantné vlastnosti textu. Zarovnávanie Na zarovnávanie textov bol použitý program hunalign (zdroj http://mokk.bme.hu/resources/hunalign). Zarovnávanie prebieha na úrovni viet pomocou paragrafov, dĺžky viet, vstupného slovníka a automatizovaného slovníka. Pri procese zarovnávania si program vytvorí vlastný slovník na základe paralelných textov. Tento slovník sa na zefektívnenie procesu zarovnávania ručne skontroloval a upravil, pri slovesných tvaroch sa vo francúzštine použil infinitív, vlastné mená a ich ekvivalenty (ako Maniflore Ejkvietková, Cornemuse Gajdík) sa odstránili, hoci sú pre prekladateľa zaujímavé, ale pri ďalšej expanzii paralelného korpusu by mohli spôsobovať problémy zanášaním šumu do slovníka. Problematickými sa ukázali aj slová elidované, ako je napr. aujord'hui, keď sa vo vstupnom slovníku dané slovo vyskytlo v podobe dnes aujourd a dnes hui (apostrofy sa v texte automaticky vydelili medzerami pri tokenizácii). Slovník sa z tohto dôvodu musel očistiť aj od slov, v ktorých je apostrof. Úspešnosť zarovnania Na zistenie úspešnosti zarovnania sme štatisticky porovnali výskyt slovenského slova ALEBO a jeho paralelné francúzske ekvivalenty v korpuse pri použití dvoch typov slovníka. Po zarovnaní textu za pomoci automatizovaného slovníka bolo pri 144 výskytoch hľadaného slova: 86 úplne totožných viet (60 %) 29 viet (20 %) významovo správne preložených, pri ktorých sa však nezhodovala dĺžka vety (skrátené, pospájané), jednej slovenskej vete boli priradené aj 2 3 francúzske alebo naopak 29 nezhodných viet (20 %). Následne bol automatizovaný slovník ručne opravený a texty v paralelnom korpuse sa znova zarovnali. Výsledky sú nasledujúce: 91 úplne totožných viet (63 %) 30 nie úplne zhodných viet (21 %) 23 nezhodných viet (16 %). Ručnou opravou slovníka sa podarilo odstrániť 20 % chýb, teda úspešnosť zarovnania sa zlepšila. Po pridaní ďalších textov do paralelného korpusu a vygenerovaní nového slovníka ho však bude potrebné znova ručne opraviť.

Problematické momenty pri spracovaní a používaní korpusu Najproblematickejším bodom pri zarovnávaní viet v paralelnom korpuse sa ukázali nepresnosti alebo chyby prekladateľa textu. Veľmi často sa stáva, že prekladateľ buď zo štylistických, alebo iných dôvodov skráti alebo predĺži dĺžku viet, vynechá niektoré slová alebo časti textu. Ako príklad uvedieme nasledujúce vety z románu od Julesa Verna Nový gróf Monte Christo: Ako naznačujú čísla viet a šípky, v tomto odseku došlo vzhľadom na zásahy prekladateľa k niektorým posunom v slovenskej časti textu. Prvá francúzska veta bola v slovenskom preklade doplnená menami, ktoré figurovali až v tretej vete. Druhá francúzska veta bola v preklade vynechaná úplne. Slovenský preklad v druhej vete pokračuje v poradí už štvrtou francúzskou vetou, v ktorej však boli niektoré slová vynechané a piata veta francúzskeho textu sa v slovenskom preklade nachádza na treťom mieste, pričom je doplnená o časť slovenského textu, ktorý však v origináli nenájdeme. Výsledkom tejto štylizácie je päť francúzskych viet ekvivalentných trom slovenským, pričom rozdiel nie je len v dĺžke a počte viet, ale aj v neekvivalentných častiach textu. V takomto prípade je priam nemožné dosiahnuť správne zarovnanie textu. Ďalšou prekážkou sa ukázali niektoré znaky a interpunkcia. Francúzska graféma œ sa vo francúzsky písaných textoch vyskytuje v oboch grafických podobách, teda ako oe aj œ, v

tomto paralelnom korpuse je napr. v diele Anatola Franca zapísaná ako oe, v texte od Julesa Verna ako œ. Z toho dôvodu sme sa rozhodli ponechať v textoch oba používané znaky a používateľov korpusu upozorniť na to, že pri vyhľadávaní by mali rátať s oboma alternatívami. Nekoherentný je tiež spôsob zápisu úvodzoviek, ktoré sa líšia v textoch francúzskych a slovenských, na zjednotenie bolo potrebné niektoré znaky buď úplne odstrániť, alebo aspoň prepísať do inej formy tak, aby boli zhodné. Vyhľadávanie v korpuse Na vyhľadávanie v korpuse sa využíva korpusový manažér Manatee, vyhľadáva sa pomocou vlastného frontendu cez WWW rozhranie napísané v systéme Karrigell. Toto www rozhranie je prístupné v slovenčine, angličtine, francúzštine a krymskotatárčine. Vyhľadávať v korpuse je možné pomocou slova, lemy, regulárnych výrazov a gramatických značiek. Pre francúzske dokumenty je vyhľadávanie momentálne obmedzené na slovo a regulárny výraz. Záver Popísaný paralelný korpus môže slúžiť ako cenná pomôcka pre prekladateľov, pri výučbe jazyka (francúzštiny alebo slovenčiny), ako zdroj trénovacích dát pre systémy automatického prekladu, prípadne ako pomôcka pri tvorbe dvojjazyčného slovníka. Po rozšírení korpusu o odborné, publicistické a iné texty predpokladáme jeho využitie aj v širšej oblasti francúzskoslovenských jazykových vzťahov. Literatúra BRANTS, T.: TNT Statistical Part-of-Speech Tagging. http://www.coli.uni-saarland.de/~thorsten/tnt/ GARABÍK, Radovan: Levenshtein Edit Operations as a Base for a Morphology Analyzer. In: Computer Treatment of Slavic and East European Languages. Ed. R. Garabík. Bratislava: Veda 2005, s. 50-58. GARABÍK, Radovan GIANITSOVÁ, Lucia HORÁK, Alexander ŠIMKOVÁ, Mária (2004): Tokenizácia, lematizácia a morfologická anotácia Slovenského národného korpusu. Interný materiál. http://korpus.juls.savba.sk/publications ROSEN, Alexandr: In Search of the Best Method for Sentence Alignment in Parallel Texts. In: Computer Treatment of Slavic and East European Languages. Ed. R. Garabík. Bratislava: Veda 2005, s. 174-185.