Štandardy na kódovanie rečových a audio signálov Ján Staš 01.05.2019
Klasifikácia metód na kódovanie reči metódy na kódovanie reči kódovanie v časovej oblasti kódovanie vo frekvenčnej oblasti analyticko-syntetické kódovanie 1/25
Analyticko-syntetické kódovanie reči 1/4 analyticko-syntetické kódovanie reči prirodzenú reč možno chápať ako odozvu vokálneho traktu na akustické budenie vplyv zmeny tvarov a rozmerov jednotlivých častí vokálneho traktu na charakter akustickej vlny možno na prijímacej strane modelovať lineárnym číslicovým filtrom s časovo premennými parametrami digitalizovaný rečový signál sa najprv segmentuje na úseky dĺžky 10 30 ms pre každý segment sa vypočíta súbor koeficientov určujúcich singularity prenosovej funkcie číslicového filtra na vyjadrenie hodnôt koeficientov určujúcich singularity prenosovej funkcie sa najčastejšie využíva metóda lineárnej predikcie (LPC linear prediction coding) v LPC sa určujú parametre, ktoré minimalizujú strednú kvadratickú odchýlku medzi skutočnými a predikovanými vzorkami rečového signálu 2/25
Analyticko-syntetické kódovanie reči 2/4 model generovania reči budenie vokálneho traktu impulzný generátor a generátor šumu, ktorých výstupy sú vynásobené veličinou G (ziskom) filter vokálneho traktu lineárny FIR filter s prenosovou funkciou HH zz x vypočítané parametre sú v časovom multiplexe prenášané na prijímaciu stranu, kde sa realizuje syntéza rečového signálu 3/25
Analyticko-syntetické kódovanie reči 3/4 znelý vs. neznelý segment reči 4/25
Analyticko-syntetické kódovanie reči 4/4 optimálne kódovanie rečových signálov kombinácia metódy LPC a vektorového kvantovania metóda CELP (code-excitation linear prediction) na vysielacej a prijímacej strane je vytvorené identická kódová kniha budiacich postupností (prenosová rýchlosť 4-8 kb/s) metóda LD-CELP (low delay CELP) so spätnoväzobným riadením adaptácie je vylepšením CELP a znižuje oneskorenie z 35 ms až na 2 ms pri prenosovej rýchlosti 16 kb/s 5/25
Štandardy na kódovanie reči 1/6 základné parametre prenosová rýchlosť 8-64 kb/s pre G.7XX, resp. 3,45-13 kb/s pre mobilné siete oneskorenie troj- až štvornásobok oneskorenia kódovacieho algoritmu, typicky až 60-80 ms, pre niektoré odporúčania iba 1,5-2 ms zložitosť rečového kodéra odvodená od typu použitého kódovacieho algoritmu kvalita rekonštruovanej reči v jednotkách QDU (quantization distortion unit) 6/25
Štandardy na kódovanie reči 2/6 štandardy na kódovanie reči v časovej a transformovanej oblasti G.711 PCM; 8 bit/vzorku, ff vvvv = 8 khz; šírka pásma 3 khz; prenosová rýchlosť 64 kb/s G.722 2 bitový kvantizátor; kódovanie ADPCM; 24 QMF filtrov; 8 bit/vzorku, ff vvvv = 16 khz; šírka pásma 7 khz; prenosová rýchlosť 48, 56 a 64 kb/s; oneskorenie 1,5 ms G.726 2, 3, 4 a 5 bitový kvantizátor; kódovanie ADPCM; prenosová rýchlosť 16, 24, 32 a 40 kb/s G.727 ADPCM s vloženou kvantizáciou; používa sa v paketovom prenose reči Štandardizačná inštitúcia Štandard Rok prijatia Typ kódera Prenosová rýchlosť ITU-T G.711 1972 PCM 64 kb/s ITU-T G.722 1988 SBC/ADPCM 48, 56, 64 kb/s ITU-T G.726 1990 ADPCM 16-40 kb/s ITU-T G.727 1990 ADPCM 16-40 kb/s 7/25
Štandardy na kódovanie reči 3/6 štandardy na báze analyticko-syntetických metód s využitím LPC G.728 LD-CELP; kódová kniha s 128 vektormi; ff vvvv = 8 khz, prenosová rýchlosť 16 kb/s; oneskorenie do 2 ms; pre aplikácie VoIP a videokonferenčné systémy G.729 CS-ACELP; veľkosť rámca 10 ms; ff vvvv = 8 khz; prenosová rýchlosť 8 kb/s; pre aplikácie vo videotelefónii; veľmi zložitá implementácia algoritmu G.731.1 dva rečové kodeky MPC-MLQ a ACELP; veľkosť rámca 30 ms; prenosová rýchlosť 5,3 a 6,4 kb/s; oneskorenie až 67,5 ms; pre multimediálne aplikácie G.722.2 ACELP; veľkosť rámca 20 ms a 16 LPC; ff vvvv = 16 khz; širka pásma 50-70 Hz; prenos. rýchlosť od 6,6-23,85 kb/s; v moderných telekomunikačných sieťach na báze GSM, EDGE, 3G, UTMS a VoIP Štandardizačná inštitúcia Štandard Rok prijatia Typ kódera Prenosová rýchlosť ITU-T G.728 1994 LD-CELP 16 kb/s ITU-T G.729 1995 CS-ACELP 8 kb/s ITU-T G.731.1 1995 MPC-MLQ a ACELP 6,3 a 5,3 kb/s ITU-T G.722.2 2003 ACELP (AMR WB) 6,6 23,85 kb/s 8/25
Štandardy na kódovanie reči 4/6 štandardy ITU-T pre mobilné siete GSM RPE-LTP RPE v LPC kódovaní s dlhodobou predikciou; prenos. rýchlosť 13 kb/s ETSI GSM 06.10 ff vvvv = 8 khz; prenos. rýchlosť 13 kb/s; len na prenos telefónnej reči; v GSM ETSI GSM 06.20 VSELP; ff vvvv = 8 khz; prenos. rýchlosť 5,6 kb/s; len na prenos tel. reči; v GSM ETSI GSM 06.60 CS-ACELP; ff vvvv = 8 khz; prenos. rýchlosť 13 kb/s; len na prenos tel. reči; v GSM ETSI GSM 06.90 ACELP; ff vvvv = 8 khz; prenos. rýchlosť 4,75-12,2 kb/s; v GSM, UMTS a VoIP ETSI 36PP 26.290 ACELP-TCX; ff vvvv = 12,8-38,4 khz; prenos. rýchl. 6,6-23,85 kb/s; v GSM, EDGE a UMTS 9/25
Štandardy na kódovanie reči 5/6 štandardy pre mobilné siete v USA a Japonsku TIA IS54 VSELP + 2 kódové knihy; prenos. rýchlosť 8 kb/s; pre mobilné siete na báze TDMA (USA) TIA IS96 QCELP + CMSA; prenos. rýchlosť 1, 2, 4 a 8 kb/s; pre mobilné siete na báze CDMA (USA) PDC v SELP VSELP + 1 kódová kniha; prenos. rýchl. 6,7 kb/s; pre mobil. siete na báze TDMA (Jap.) PDC PSI CELP PSI-CELP; prenos. rýchlosť 3,45 kb/s; pre mobilné siete na báze TDMA (Jap.) 10/25
Štandardy na kódovanie reči 6/6 porovnanie parametrov štandardov na kódovanie reči pre mobilné siete Štandardizačná Rok Prenosová Štandard Typ kódera inštitúcia prijatia rýchlosť CEPT GSM 1987 RPE LPT (full rate) 13 kb/s ETSI GSM 06.10 1990 RP (full rate) 13 kb/s ETSI GSM 06.20 1994 VSELP (1/2 rate) 5,6 kb/s ETSI GSM 06.60 1996 CS ACELP 13 kb/s ETSI GSM 06.90 1998 AMR NB 4,75 12,2 kb/s ETSI 3GPP 26-90 2005 AMR WB+ 12,8 38,4 kb/s TIA IS-54 1989 VSELP 7,95 kb/s TIA IS-96 1993 QCELP 0,8 8,5 kb/s RCR PDC 1990 VSELP 6,7 kb/s RCR PDC 1993 PSI CELP (1/2 rate) 3,45 kb/s 11/25
Klasifikácia metód na kódovanie audia metódy na kódovanie audia kódovanie audia v časovej oblasti kódovanie audia vo frekvenčnej oblasti perceptívne kódovanie audio signálov 12/25
Kódovanie audia vo frekvenčnej oblasti 1/2 základné metódy subpásmové kódovanie (subband coding) vstupný signál prechádza hybridnou bankou filtrov (M filtrov) decimované vzorky sú kvantované a kódované pri dekódovaní sa realizuje proces interpolácie určitým počtom nulových vzoriek spätným prechodom cez banku filtrov sa získa rekonštruovaný signál transformačné kódovanie (transform coding) vzorky vstupného signálu sú lineárne transformované pomocou DOT na súbor dekorelovaných transformačných koeficientov transformačné koeficienty sa kvantujú a prenášajú v dekodéri sa realizuje inverzná transformácia, ktorou sa získajú rekonštruované časové vzorky ak neuvažujeme kvantizačné skreslenie, proces rekonštrukcie je bezstratový na odstránenie blokového efektu sa využíva modifikovaná DCT s 50% prekrývaním okien a hybridná banka QMF filtrov na flexibilné frekvenčné delenie vstupného signálu 13/25
Kódovanie audia vo frekvenčnej oblasti 2/2 prečo vôbec hybridná banka filtrov? prepínanie veľkosti transformačného okna (window switching) pre-echo prechod medzi periódou ticha a nárazovým zvukom = veľká kvantizačná chyba na jeho odstránenie za používa zmenšenie transform. okna, jeho prepínaním (z 1024 na 64/128) dynamická alokácia bitov (dynamic bit allocation) zmena počtu bitov v závislosti na okamžitých spektrálnych vlastnostiach kódovaného bloku označovaná ako ATC (adaptive transform coding) 14/25
Štandardy na kódovanie audia medzinárodné štandardy ISO/MPEG-1 Audio 2 kanály; 32-384 kb/s; kvalita zhodná s audio CD kvalitou ISO/MPEG-2 Audio mono/stereo/multikanálový režim; 32-320 kb/s ISO/MPEG-4 Audio audiovizuálne multikanálové kódovanie ISO/MPEG-D Audio audiovizuálne multikanálové kódovanie založené na perceptívnom kódovaní firemné produkty audio štandardy firmy Dolby AC-3 (Dolby Digital), Enhanced AC-3 (Dolby Digital Plus) audio štandardy firmy Sony ATRAC 2, ATRAC 3, ATRAC 3+, ATRAC Advanced Lossless 15/25
ISO/MPEG-1 Audio 1/3 základná charakteristika audio štandard definuje 3 vrstvy, ktoré sa líšia zložitosťou, oneskorením kódovania a kvalitou rekonštruovanej informácie MPEG-1 Audio Prenosová rýchlosť pre stereo audio Činiteľ kompresie vrstva I (layer I) 384 kb/s 4 vrstva II (layer II) 192 kb/s 8 vrstva III (layer III) 128 kb/s 12 štandard podporuje vzorkovacie frekvencie 32, 44,1 a 48 khz a prenosové rýchlosti 32-192 kb/s pre mono a 64-384 kb/s pre stereo kanálové módy single mód monofonický kanál dual mód dva nezávislé monofonické kanály stereo mód pravý a ľavý kanál snímaný nezávisle joint stereo mód prenáša koreláciu medzi pravým a ľavým stereo kanálom 16/25
ISO/MPEG-1 Audio 2/3 kóder pre vrstvu I banka filtrov používa 32 subpásmových filtrov rádu 512 s polyfázovou konštrukciou 512 bodová FFT globálny mask. prah = súčet individuálnych mask. prahov a absolútneho mask. prahu počet kvant. úrovní stanovuje psychoakustický model činiteľ normovania používa 12 vzoriek prenosová rýchlosť 384 kb/s kóder pre vrstvu II banka filtrov používa 32 subpásmových filtrov rádu 512 s polyfázovou konštrukciou 1024 bodová FFT globálny mask. prah využíva vlastnosti sluchového vnímania počet kvantizačných úrovní stanovuje psychoakustický model činiteľ normovania používa 36 vzoriek prenosová rýchlosť 192 kb/s kóder MPEG-1 audio pre vrstvy I a II 17/25
ISO/MPEG-1 Audio 3/3 kóder pre vrstvu III nové postupy v kódovaní audio signálov prepínateľná hybridná banka filtrov (6 alebo 18 bodová MDCT s 50%-ným prekrytím) analyticko-syntetická metóda pri výpočte globálneho maskovacieho prahu (udržanie kvantizačného šumu vo všetkých kritických pásmach) nerovnomerná kvantizácia s entropickým Huffmanovým kódovaním (max. 32 bit. kód slovo) prenosová rýchlosť 128 kb/s kóder MPEG-1 audio pre vrstvu III 18/25
ISO/MPEG-2 Audio rozšírenie MPEG-1 audio o multikanálové kódovanie audio signálov (L, R, C, LS, RS) množinu vzorkovacích frekvencií a kanálov kompatibilita zhora (kompatibilita MPEG-2 s MPEG-1) zdola (MPEG-1 je schopný prehrávať MPEG-2) rozlišujeme kódovanie kompatibilné s MPEG-1 bez kompatibility s MPEG-1 (MPEG-2/AAC) Systém Konfigurácia Popis M 1/0 M (mono) M/MS 1/1 M/MS (mono + 2 mono bočné) L/R 2/0 L/R (stereo) L/R/MS 2/1 L/R/MS (stereo + 1 mono bočný) L/R/LS/RS 2/2 L/R/LS/RS (stereo + 2 bočné) L/C/R 3/0 L/C/R (3 stereo) L/C/R/MS 3/1 L/C/R/MS (3 stereo + 1 mono bočný) L/C/R/LS/RS 3/2 L/C/R/LS/RS (3 stereo + 2 bočné) audiosystém 5.1 3/2 + LFE L/C/R/LS/RS + LFE 19/25
ISO/MPEG-2 AAC definované 3 profily hlavný profil vysoká kvalita využíva adaptívnu predikciu pri výpočte MDCT profil s malou zložitosťou kompromis medzi účinnosťou kompresie a zložitosťou algoritmu škálovateľný profil používa nízke vzorkovacie frekvencie v rozsahu 6, 12, 18 a 24 khz základné bloky prepínateľné banky filtrov dlhé vs. krátke okno, 1024 bit. MDCT, 50% prekrývanie blokov bloky Temporal Noise Sharping modifikuje banku filtrov v závislosti na vstupnom signále perceptívny model estimuje maskovací prah s využitím krátkodobého spektra vstup. signálu blok kódovania kanálu kód. mono/stereo, dvojice kanálov a korelácie medzi kanálmi kvantizácia a kódovanie kvantovanie spektrálnych komponentov + Huffmannovo kódovanie multiplexor združuje kódovaný audio signál v jednotlivých kanáloch prenosová rýchlosť 320 kb/s pre všetkých 5 kanálov (L, R, C, LS, RS) 20/25
ISO/MPEG-4 Audio základná charakteristika paramerické kódovanie s nízkymi prenosovými rýchlosťami (2-4 kb/s) analyticko-syntetické kódovanie so strednými prenos. rýchlosťami (6-16 kb/s) subpásmové kódovanie s technológiou SBR pre vyššie prenos. rýchlosti (32-48 kb/s) subpásmové, resp. transformačné kódovanie pre vyššie prenos. rýchlosti (64-128 kb/s) bezstratové kódovanie pre perfektnú rekonštrukiu signálu (750 kb/s) základné typy štandard MPEG-4 AAC oproti MPEG-2 AAC obsahuje modul PNS (perceptual noise substitution), ktorý identifikuje spektrálne koeficienty s charakterom šumu a kóduje ich ako náhodný šum s jeho priemerným výkonom štandard MPEG-4 HE-AAC po dekompozícii vstupného signálu do 64 subpásiem bankami QMF filtrov sa spektrálne zložky po MDCT rozdelia na nízko- a vysokofrekvenčnú časť a SBR kóder hľadá najlepšiu zhodu medzi signálmi v nižších a vyšších pásmach 21/25
ISO/MPEG-D Audio základné typy MPEG-D Part I SAC priestorové kódovanie viackanálového audia MPEG-D Part II SAOC umožňuje používateľovi dekódovať individuálne audio objekty, napr. individuálne hudobné nástroje, vokály, ľudské hlasy a pod. MPEG-D Part III USAC integrácia prostriedkov na parametrické kódovanie reči a audia 22/25
Produkty firmy Dolby základná charakteristika určené pre aplikácie v oblasti DVD, HDTV a Blu-ray základné typy AC-3 Audio Dolby Digital prenosová rýchlosť od 32 do 640 kb/s podporuje multikanálové audiosystému 5.1 a stereo s dvoma kanálmi Enhanced AC-3 Audio Dolby Digital Plus flexibilný výber a širší rozsah prenosových rychlostí flexibilná štruktúra rámca optimalizácia syntaxe bitového toku rozšírenie počtu audiokanálov na viac ako 5.1 rozšírenie počtu vykonávaných programov zmiešanie bitových tokov 23/25
Produkty firmy Sony základná charakteristika kompresia audia so vzorkovaním 44,1 khz a 16 bit/vz., prenos. rýchlosť 146 705,6 kb/s jednoduchá hardvérová implementácia vhodná pre prenosné prehrávače MiniDisc základné typy ATRAC 2 3 subpásma; vzorkovacia frekv. 44,1 khz; 16 bit/vz.; prenos. rýchlosť 64 kb/s ATRAC 3 4 subpásma; aplikácia MDCT na jednotlivé subpásma ATRAC 3 Plus 2x účinnejší oproti ATRAC 3; 16 subpásiem; multikanálové kódovanie ATRAC Advanced Lossless bezstratové kódovanie; redukcia objemu originálnych dát o 30-80% 24/25
Ďalšie typy audio formátov bezstratové kodeky Free Loseless Audio Codec (.flac) určený na streamovanie hudby cez Internet; kompresný pomer 2:1 4:1 Monkeys Audio (.ape) používa Huffmanovo entropické kódovanie a komprimáciu formátu WAV až o 55% stratové kodeky Musepack (.mpc) subpásmový kodek; ideálny pre archiváciu hudby; od 160 kb/s efektívnejší než formát MP3 alebo AAC Ogg Vorbis (.ogg) open source projekt; pri 64 kb/s konkuruje formátu MP3; pri 96 kb/s konkuruje formátu AAC Windows Media Audio (.wma) rýchly kodek; 2x efektívnejší než formát MP3; obsahuje ochranu autorských práv (DRM digital right management) 25/25
Ďakujem za pozornosť