stanislav ondáš Spetrálne charateristiy signálu Eulidovsá vzdialenosť Podľa J. Uhlíř a ol.: Technologie hlasových omuniací
Obsah Spetrálna analýza na báze DFT LPC spetrálna analýza Dlhodobá spetrálna analýza Kepstrálna analýza Koherenčné charateristiy viacanálových signálov Momentové charateristiy
Rozdelenie Metódy spetrálnej analýzy pre spracovanie reči sa zvyčajne delia podľa dvoch hľadís: Podľa metódy spracovania Klasicé metódy používajúce DFT Parametricé metódy Pre reč: lineárna predičná analýza - LP Podľa dĺžy spracovávaného signálu Krátodobá analýza Dlhodobá analýza
Spetrálna analýza na báze DFT definované Fourierovou transformáciou Spetrum disrétneho signálu je spojité a periodicé s periódou evivalentnou F vz. DFT spetrum spočítané z N vzorie signálu potom obsahuje N vzorie jednej periódy spojitého disrétneho signálu (a neurčíme ináč). Pri analýze reči je významné hlavne amplitúdové spetrum X[]. Dôležitá charateristia výonová spetrálna hustota.
Spetrálna analýza na báze LPC je štandardným nástrojom analýzy rečového signálu. Predpoladajme, že reč je modelovaná autoregresným (AR) modelom, de budúcu vzoru je možné prediovať lineárnou ombináciou p minulých vzorie (teda lineárnym preditorom p-tého rádu). Cieľom analýzy je určiť oeficienty tejto lineárnej ombinácie ta, aby energia chyby predicie bola minimálna: (1) e[ n] x[ n] ~ x [ n] x[ n] p 1 a x[ n ] Parametricý popis analyzovaného signálu potom predstavujú oeficienty a nazývané autoregresné oeficienty signálu. Je možné uázať, že minimalizácia chyby predicie vedie deorelovanosti vzorie chybového signálu, torý má potom charater bieleho šumu. Rovnica 1 je diferenčnou rovnicou FIR filtra s prenosovou funciou A(z).
LPC spetrálna analýza A má chybový signál charater bieleho šumu, znamená to, že spetrálne vlastnosti signálu x[n] sú určené frevenčnou charateristiou filtra syntetizujúci filter AR modelu Jeho prenosová funcia je inverzná prenosovej funcii A(z). Spetrum analyzovaného signálu x[n] je modelované frev. charateristiou prenosovej funcie: LPC spetrum (=vyhladený odhad spetrálnej výonovej hustoty) je definované: p a z G z A G z H 1. 1 ) ( ) ( 2 2 2 ) ( ) ( ) ( j j j x e A G e H e S Disrétne LPC spetrum S x [] s N vzorami dostaneme dosadaním za N f s /.
LPC spetrálna analýza Jadro analýzy na báze LP spočíva vo výpočte parametrov AR modelu a a zisu G pomocou autoorelačnej matice signálu => Levinson-Durbin. Rád modelu sa volí podľa počtu formantov, toré chceme pozorovať. Typicé hodnoty sú p=12 (maximálne 6 formantov, pri f vz = 8Hz). LPC spetrum predstavuje vyhladený odhad spetra analyzovaného signálu. Oproti DFT spetru je LPC spetrum vždy hladé, lebo: Nie je v ňom obsiahnutá informácia o periodicite! Táto informácia je v chybovom signáli, torého tvar charaterizuje typ budenia.
Prílad: odhad spetr. hustoty výonu pomocou DFT a LPC na znelom a neznelom rámci
Dlhodobá spetrálna analýza Dlhodobá analýza analýza taého úseu signálu, de sa už prejavuje nestacionarita reči Periodogram alebo spetrálna hustota výonu (zísaný Welchovou metódou) Dlhodobá analýza je nevhodná pre analýzu spetrálnych charateristí reči! Ale je možné ju použiť pre zísanie valitatívnej informácie o rozdiele spetra reči a šumového pozadia. Pre sledovanie vývoja reči sa používa prevažne rátodobé amplitúdové spetrum usporiadané do spetrogramu.
Kepstrálna analýza Čo to je, ao sa vypočíta, prečo to robíme?
Problém oddelenia budenia a vplyvu arti. tratu pre oddelenie budenia a vplyvu artiulačného tratu (modifiácie) v ódovaní sa s nimi pracuje lepšie oddelene, pri rozpoznávaní reči, budenie zahadzujeme úplne (budenie je príliš závislé na rečníovi, nálade a pod.) 1. možnosť: odfiltrujeme frevencie pod 400Hz (max. hlasivova frev. je cca 400Hz) a zbavime sa záladného tónu nebude to fungovať, lebo: násoby záladného tónu sú rozsiate po celom spetre. mohli by sme prísť o prvý formant telefónne pásmo začína na hodnote 300Hz. odstránenie informácie o výše hlasu hovoriaceho potrebujeme lepší spôsob CEPSTRUM Problém! Budenie g(t) je onvoluované s impulznou odozvou filtra: teda vo frev. oblasti súčin: Ani v jednej oblasti nejde tieto dve zložy dobre oddeliť. Riešenie: nelinearita, torá prevedie súčin na súčet
Kepstrálna analýza Inverzná Fourierová transformácia logaritmu omplexného spetra. A nepotrebujeme fázovú informáciu stačí nám amplitúdové spetrum. Koeficienty c n nazývame (reálnym) epstrom signálu Použitie logaritmu umožňuje vyonať deonvolúciu vstupného signálu, a je jedna z jeho zložie periodicá postupnosť impulzov => možnosť použiť na meranie periodicity Kepstrálna transformácia prevádza pôvodné vzory (periodicé a neperiodicé) signálu x[n] na ich súčet. c n IDFT N ln X[ ] A je neperiodicá zloža (sústredená oolo nulových vefrencií) silno utlmená, je možné ju od periodicej zložy oddeliť jednoduchým výberom (liftráciou) oeficentov c n. Výber oeficientov ovplyvňuje tvar spetra signálu. Pri výbere malého počtu (napr. 10) prvých epstrálnych oeficientov zísame aproximáciu spetra signálu (vyhladené spetrum). 1 0 ln X[ ] e 2 jn N
Kepstrálna analýza Je možné ju použiť aj pre výpočet eulidovsej vzdialenosti. Spojenie epstrálneho popisu signálu a nelineárnej frevenčnej osi (výsledom môžu byť MFCC oeficienty) umožňuje aproximáciu fyziológie počutia a je odolnejšie voči šumom ao AR oeficienty. Reálne epstrum je možné zísať aj pomocou AR oeficientov, a rozvinieme prirodzený logaritmus zo vzťahu pre výpočet epstra do Taylorovho radu a vyonáme deriváciu rádu aj logaritmu podľa premennej z zísame reurentný vzťah pre oeficienty a n a c n : c 0 ln G c n a n 1 1 n n 1 n a c n A vypočítame epstrum z AR oeficientov, dostaneme vyhladené LPC epstrum.
Definícia epstra G(f) je spetrum budenia Hodnoty c(n) sú epstrálne oeficienty. Naoľo je G(f) párna funcia, sú c(n) reálne a platí: c(n) = c(-n) Suma v rovnici je definíciou DFT, preto môžeme c(n) vypočítať ao: Terminológia: spetrum cepstrum frevency quefrency filtring liftring
Mel-frequency cepstrum - MFCC DFT má všade rovnomerné frevenčné rozlíšenie ľudsé ucho má na nízych frevenciách väčšie rozlíšenie než na vysoých - nelinearita Napr. Pre účely rozpoznávania reči chceme priblížiť epstrum austicým vlastnostiam ucha. Ao na to? na frevenčnú os rozmiestnime nelineárne filtre, meriame energiu na ich výstupe a použijeme ju namiesto DFT pri výpočte epstra. frevenčnú os môžeme nelineárne upraviť a na upravenú os potom filtre rozmiestniť rovnomerne
Používaná nelineárna úprava využíva prevod Hz Mely:
Lineárne rozmiestnenie filtrov na Mel-ovej osi má za následo nelineárne rozmiestnenie na štandardnej frevenčnej osi v Hz. Výpočet energie: 1. Sonštruujeme banu filtrov, vstupný signál filtrujeme v časovej oblasti a počítame energiu: n s i2 (n)... je to veľmi ompliované! 2. Vyonáme DFT, umocníme, vynásobíme trojuholníovým onom a spočítame. Spätnú FT môžeme realizovať pomocou disrétnej osínusovej transformácie (DCT): Mel-frevenčné cepstrálne oeficienty (MFCC)
Koherenčné charateristiy viacanálových signálov Koherenčná funcia pre dvojicu signálov rozširuje informácie o vzájomnej orelovanosti medzi analyzovanými signálmi. Na rozdiel od orelácie je oherencia medzi dvoma signálmi definovaná vo frevenčnej oblasti a vyjadruje mieru orelovanosti medzi jednotlivými signálmi pre jednotlivé frevenčné zložy. Často používanou charateristiou je vadrát modulu oherenčnej funcie označovaný ao MSC (Magnitude Squared Coherence): 2 xy [ ] S x S xy [ ] [ ] S y 2 [ ] Kde S x [] a S y [] sú odhady spetrálnej výonovej hustoty signálov x[n] a y[n] a S xy [] je odhad vzájomnej spetrálnej výonovej hustoty: S xy [ ] 1 M M 1 i0 1 N X * i [ ] Y [ ] i Nutné vychádzať z vyhladených odhadov spetra!!!
Koherenčné charateristiy viacanálových signálov Výhody: Koherenčná funcia nie je veľmi citlivá na posun signálov, a je menší ao dĺža analyzovaného segmentu Koherencia posytuje informáciu o orelovanosti jednotlivých fr. zložie. A rečový signál vychádza z jedného zdroja (úst, reprodutora) a je snímaný vo viacerých análoch je silne orelovaný v celom frev. rozsahu a hodnota MSC sa blíži 1. Naproti tomu, a šum pozadia nevychádza z jedného zdroja (odrazy reči, hlu v miestnosti, zvuy automobilu) oherencia je podstatne nižšia. => vhodnosť oherenčnej charateristiy pre deteciu reči v šumovom pozadí.
Momentové charateristiy Prvý spetrálny moment je váhovaným priemerom spetrálnych čiar: Predstavuje ťažiso rozloženia amplitúd jednotlivých spetrálnych zložie. Druhý spetrálny moment je evivalentný staticému rozptylu a je indiátorom rozprestretia spetra: Vyššie hodnoty majú tie hlásy, torých energia je viac rozprestretá cez celé spetrum. 2 / 1 2 / 1 1 ] [ ] [ N N X X mom 2 1 2 / 1 2 / 1 2 2 ) ( ] [ ] [ mom X X mom N N
Eulidovsá vzdialenosť
Eulidovsá vzdialenosť Pre lasifiáciu reči (hláso) do foneticých tried sa používajú rôzne druhy parametrov, toré vytvárajú parametricé vetory s rôznou dĺžou (LPCC, MFCC). A máme foneticé triedy popísané množinou M parametrov, potom najjednoduchším rozhodnutím o zaradení pozorovaných dát do týchto tried je využitie eulidovsej vzdialenosti: d M r[ m] o[ m] m1 2 Kde r[m] je M parametrov (vetor) referenčného vzoru A o[m] je M parametrov (vetor) pozorovaného úseu signálu