Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE Ján Eliaš Problémy spojené s výpočtem největšího společného dělitele Katedra

Univerzita Karlova v Praze Matematicko-fyzikální fakulta BKLÁŘSKÁ PRÁCE Ján Eliaš Problémy spojené s výpočtem největšího společného dělitele Katedra numerické matematiky Vedoucí bakalářské práce: doc. RNDr. Jan Zítko, CSc. Studijní program: Matematika 009

Univerzita Karlova Bakalárska práca Pod akovanie Vel mi rád by som pod akoval všetkým, ktorí prispeli k vypracovaniu tejto bakalárskej práce. Predovšetkým sa chcem pod akovat doc. RNDr. Janovi Zítkovi, CSc. za vedenie bakalárskej práce a Dr. Joabovi Winklerovi, PhD. Prehlásenie Prehlasujem, že som túto bakalársku prácu vypracoval samostatne s použitím citovanej literatúry a uvedených zdrojov. Súhlasím s požičiavaním práce a jej prípadným použitím pre pedagogické, vedecké a prezentačné účely. V Prahe dňa 0.08.009 Ján Eliaš...

Obsah 1 Úvod 5 1.1 Použité skratky a značky.......................... 6 Riešenie LSE problému 7.1 Niekol ko poznámok k LS problému.................... 7. LSE problém................................ 8..1 Metóda projekcie na jadro matice................. 9.. Metóda priamej eliminácie..................... 11.3 Riešenie LSE problému metódou váh................... 15.3.1 nalýza metódy váh........................ 18.3. Numerické porovnanie metód riešiacich LSE problém...... 5.3.3 Iteračné spresnenie metódy váh.................. 8.3.4 Porovnanie metódy váh a iteračného spresnenia......... 30 3 Výpočet GCD 34 3.1 Sylvestrova matica a jej použitie pri výpočte GCD............ 34 3. Výpočet GCD, súvislost medzi transformáciou Sylvestrovej matice a Euklidovým algoritmom............................ 36 3..1 Transformácia Sylvestrovej matice elementárnymi trojuholníkovými maticami..................... 37 3.. c-s transformácia Sylvestrovej matice............... 40 3..3 Numerický výpočet GCD transformáciami Sylvestrovej matice. 4 4 STLN 44 4.1 Metóda STLN................................ 44 4. Programová realizácia metódy STLN................... 49 4..1 Porušovanie polynómov....................... 50 4.. Normovanie polynómov geometrickým priemerom........ 50 4..3 Numerické výsledky......................... 51 Záver 55 Literatúra 56 3

Univerzita Karlova Bakalárska práca Názov práce: Problémy spojené s výpočtom najväčšieho spoločného delitel a utor: Ján Eliaš Katedra: Katedra numerickej matematiky Vedúci bakalárskej práce: doc. RNDr. Jan Zítko, CSc. e-mail vedúceho bakalárskej práce: zitko@karlin.mff.cuni.cz notácia V mnohých praktických aplikáciach zohráva úlohu výpočet najväčšieho spoločného delitel a dvoch polynómov (GCD). k dva polynómy majú nekonštantný GCD, tak od nich odvodené nepresné polynómy f(x), g(x) sú s pravdepodobnost ou jeden nesúdelitel né. však každá malá perturbácia koeficientov týchto polynómov môže mat za následok to, že GCD polynómov f(x) + δf(x), g(x) + δg(x) je opät netriviálny. Takýto GCD sa nazýva aproximovaný najväčší spoločný delitel dvoch nepresných polynómov (GCD). Existuje niekol ko metód zaoberajúcich sa výpočtom GCD. V tejto práci je použitá metóda structured total least norm (STNL) aplikovaná na Sylvestrovu rezultantovú maticu. Kl účové slová: GCD, STLN, Sylvestrova matica Title: Problems connected with the calculation of the GCD uthor: Ján Eliaš Department: Department of Numerical Mathematics Supervisor: doc. RNDr. Jan Zítko, CSc. Supervisor s e-mail address: zitko@karlin.mff.cuni.cz nnotation The determination of the greatest common divisor (GCD) is available in many aplications. If the polynomials f(x), g(x) have a non-constant GCD, their inexact forms f(x)+ δf(x), g(x) + δg(x) will be coprime. Therefore, it is useful to determine the smallest perturbation, such that the inexact polynomials have a non-constant GCD, so-called an approximate greatest common divisor of two given inexact polynomials. There are some methods dealing with this problems, the method of structured total least norm (STLN) for a Sylvester matrix is used in this work. Keywords: GCD, STLN, Sylvester matrix 4

Kapitola 1 Úvod Výpočet GCD patrí medzi základné problémy výpočtovej matematiky a má význam ako teoretický tak i praktický v teórií riadenia, spracovania signálu a robotiky, teórií sietí, počítačovom dizajne, spracovaní obrazu, šifrovaní a kódovaní informácií a i. V mnohých aplikáciach sa ale pracuje s približnými datami danými s určitou toleranciou (napr. nepresné data získané fyzikálnym meraním, či vplyvom kumulovania zaokrúhl ovacích chýb). To ale môže vyústit do nepríjemných numerických t ažkostí pri výpočte GCD. Navyše výpočet GCD dvoch polynómov je dobrým príkladom tzv. ill-posed problems. Bud napríklad f(x) = x + 4x + 4 a g(x) = x +. Pri symbolickom výpočte GCD nenastávajú žiadne problémy, určite je GCD(f(x), g(x)) = g(x) = x+, avšak pre f(x) = x + 3.999x + 4 už platí GCD(f(x), g(x)) = 1, pričom malá zmena koeficientov (pridaním 0.001 k druhému koeficientu polynómu f(x)) stačí k tomu, aby polynómy boli opät súdelitel né. teda naopak, mierne porušenie koeficientov môže znížit stupeň GCD až tak, že GCD bude triviálny. Problém, ktorým sa budeme zaoberat, je nájst polynómy f(x) a g(x) blízke k nepresne zadaným (porušeným) polynómom f(x), resp. g(x) tak, aby mali netriviálny GCD. Pretože GCD opravených polynómov sa vo väčšine prípadov nezhoduje s GCD teoreticky presných polynómov, dokonca nemusí mat ani rovnaký stupeň, budeme takýto GCD nazývat aproximovaný GCD (GCD). V mnohých matematických prácach sú popísané rôzne metódy na nájdenie polynómov f(x) a g(x), resp. GCD nepresných polynómov. Táto práca vychádza z článkov [9, 10]. však narozdiel od [9, 10], nezameriame sa len na určenie f(x), g(x) a stupňa GCD metódou STLN, ale na základe [13] ukážeme i možné spôsoby výpočtu samotného GCD. Ciel om práce je zhrnút jeden možný spôsob prístupu k problému výpočtu GCD. Podáme komplexný súhrn nástrojov, ktorými budeme schopní riešit daný problém. To znamená, že skôr než pristúpime k metóde STLN, zosumarizujeme niektoré spôsoby riešenia problému najmenších štvorcov s obmedzujúcou podmienkov (tzv. LSE problému). Ukážeme a porovnáme niekol ko metód. Ďalej si zavedieme pojem Sylvestrovej matice a jeho rezultantu, ktorý nám poskytne pevnú datovú štruktúru pre výpočet GCD, pričom vlastný výpočet GCD spočíva v jej vhodných tranformáciách. Podáme dva možné spôsoby, ktoré si numericky otestujeme. Nakoniec pristúpime k metóde STLN, vysvetlíme si princíp metódy a udvedieme niekol ko príkladov. Všetky programy týkajúce sa práce sú naprogramované v prostredí Matlab R008a. 5

Z dôvodu vel kého rozsahu problematiky v práci nie sú, až na výnimky v časti.3.3, explicitne uvedené schémy algoritmov, podl a ktorých sme realizovali programy. Tie možno nájst v dokumentácií k programom na priloženom CD, ktoré je súčast ou bakalárskej práce. CD d alej obsahuje programy a krátky textový dokument, ktorý ul ahčí prácu s CD. 1.1 Použité skratky a značky k nebude explicitne povedané inak, budeme v d alšom texte používat nasledujúce skratky a označenia: rank()... hodnost matice 1... inverzná matica k matici diag(a 1, a,..., a n )... štvorcová diagonálna matica s číslami a 1,..., a n na hlavnej diagonále I n... diagonálna n n matica s jednotkami na diagonále GCD... najväčší spoločný delitel dvoch polynómov GCD... aproximovaný GCD dvoch polynómov N ()... jadro matice, N () = {x R n : x = 0} Range()... obor hodnôt matice, Range() = {z = x : x R n } = [ 1, ]... značí rozdelenie stĺpcov matice na 1 (ktorých je m n m) a (ktorých je n) [ ] B1 m B = B n... značí rozdelenie riadkov matice B na B 1 (ktorých je m) a B (ktorých je n) = [a 1,..., a n ]... označenie stĺpcov matice, tj. a 1,..., a n sú stĺpcové vektory matice z = ±m e ±t... zápis čísla v pohyblivej radovej čiarke, m je mantisa, e základ (u nás e = 10), t exponent, napríklad eps =, e 16, zvykneme tiež písat eps =, e 16 =, 10 16 ) eps... strojová presnost počítača definovaná ako vzdialenost čísla 1 od najbližšieho vyšieho čísla v pohyblivej radovej čiarke, (eps =, e 16) Pre vektor x R n budeme používat klasické definície noriem: n x 1 = x i, x = n x i, x = max x i. i=1,...,n i=1 i=1 6

Kapitola Riešenie LSE problému V tejto kapitole sa budeme venovat riešeniu LSE problému. Celkom sa budeme zaoberat niekol kými postupmi, pričom podl a [3] spomenieme dva možné prístupy. Bez dôrazu na presnost formulácie uved me, že prvý prístup využíva projektovanie riešenia na nulový priestor istej matice a jeho ortogonálny doplnok. V značnej miere sa využíva technika QR rozkladu matíc. Rozsiahly rozbor algoritmov tohto prístupu možno nájst napríklad v [3, 8]. Druhý možný spôsob je metóda založená na priamej eliminácií. ko príklad priamej eliminácie použijeme algoritmus vyskytujúci sa v práci [3], iné algoritmy sú napríklad v [1, 4]. Iný postoj k riešeniu LSE problému ponúka metóda váh, ktorej sa budeme venovat v prevažnej časti tejto kapitoly. Túto metódu neskôr použijeme v 4. kapitole. Pretože čast rozoberaných algoritmov je inšpirovaná jedným spôsobom riešenia problému najmenších štvorcov (LS problému), tak obsahom prvej sekcie je pár poznámok týkajúcich sa práve problému najmenších štvorcov..1 Niekol ko poznámok k LS problému Existuje niekol ko odlišných spôsobov riešenia problému najmenších štvorcov (značíme LS problém z anglického výrazu least squares problems ), ktoré možno nájst napr. v [3, 5]. Jeden možný postup ako nájst taký vektor x R n, ktorý bude minimalizovat x b, (.1) je použit metódu výberu založenú na QR rozklade. O obdĺžnikovej matici Rm n budeme predpokladat, že má plnú hodnost (m n, rank() = n), teda že jej stĺpce sú lineárne nezávislé (1), b R m. Predpokladajme d alej, že máme spočítanú ortogonálnu maticu Q R m m. Vynásobit data ortogonálnou maticou nezmení geometrický význam úlohy. V tomto prípade hovoríme o ortogonálne invariantnom probléme. Preto platí, že ak vektor x minimalizuje (.1), tak minimalizuje aj Q T x Q T b. (.) 1) V prípade, že je rank() < n, riešenie nemusí existovat a ak existuje, všeobecne nie je určené jednoznačne. Preto je potrebné nasledujúci postup modifikovat, pozri napríklad [5]. však v našich úvahách sa tento prípad nevyskytuje. 7

Za danú ortogonálnu maticu sa prirodzene snažíme volit takú maticu, aby sa problém (.) čo najviac zjednodušil. To sa s úspechom podarí pri vol be ortogonálnej matice z QR rozkladu matice. Bud teda = QR = Q [ ] R1 n 0 m n QR rozklad matice, kde [ R ] 1 R n n je horná trojuholníková a Q R m m ortogonálna r n matica. Položme Q T b =. Potom je s m n x b = Q T x Q T b = [ R1 0 ] x [ ] r = R s 1 x r + s. Pretože sme predpokladali, že rank() = n, je i rank(r 1 ) = n a teda R 1 je regulárna s nenulovými prvkami na diagonále. V dôsledku toho nutne existuje práve jedno riešenie x sústavy rovníc R 1 x = r (). Našim ciel om je ale vyriešit špeciálnejšiu úlohu, a totiž od riešenia problému (.1) budeme požadovat, aby naviac spĺňalo podmienku Bx = d pre všeobecne obdĺžnikovú maticu B a vektor d. To je obsahom dalšej sekcie.. LSE problém Úlohou je nájst vektor x R n, ktorý rieši problém min x b. (.3) Bx=d Úlohu nazývame problémom najmenších štvorcov s obmedzením Bx = d, v angličtine sa užíva termín Linear Least Squares problem with Equality Constraints, resp. Constrained Linear Least Squares problem, skrátene LSE problém. Sformulujme najprv všetky predpoklady. Nech R m n (m n), b R m, B R p n (n p) a d R p. Predpokladajme, že rank(b) = p a že prienik nulových priestorov matíc a B je triviálny. Navyše pre druhú z podmienok platí ekvivalencia [ ] B N() N(B) = {0} rank = n. [ ] B Pre dôkaz implikácie sprava dol ava stačí predpokladat, že rank < n. Potom [ ] B existuje x 0 tak, že x = 0, z čoho iste plynie platnost Bx = 0 x = 0 a teda dostávame spor. Obrátenou úvahou dostaneme platnost opačnej implikácie. ) Všimnime si, že pre takto spočítané riešenie x sa vel kost rezidua x b rovná s. 8

Podl a [3] predpoklady rank(b) = p a rank [ ] B = n (.4) zaručujú existenciu a jednoznačnost riešenia (.3), ktoré si označíme x LSE. Dokonca predstavujú nutnú a postačujúcu podmienku preto, aby riešenie x LSE bolo jednoznačné. Keby totiž platilo N() N(B) {0}, tak iste existuje 0 z N() N(B) také, že z = Bz = 0. le ak x rieši (.3), tak aj x + z rieši (.3), čím dostávame dve rôzne riešenia. Postačitel nost predpokladov dokážeme konštrukciou algoritmu v sekcií..1, kde predvedieme istý spôsob ako získat riešenie x problému (.3) a ukážeme, že platnost predpokladov stačí pre jednoznačnost tohto x. Prirodzene, požiadavky vyššie zaručia jednoznačnost riešenia aj pri ostatných preberaných metódach. V nasledujúcich sekciách predvedieme príklady možných riešení (.3). V sekcií..1 spôsob založený na projektovaní riešenia na jadro matice B a jeho ortogonálny doplnok. V sekcií.. ukážeme postup priamej eliminácie a na záver bližšie rozoberieme metódu váh a iteračné spresnenie tejto metódy. Všetky spomenuté metódy boli implementované v prostredí Matlab, ich porovnania sú v sekcií.3., resp..3.4, kde porovnávame výsledky získané metódou váh s jej iteračným spresnením...1 Metóda projekcie na jadro matice ko už bolo spomenuté v úvode, existujú dva možné spôsoby riešenia (.3). Jedným z nich sú metódy založené na projekcií riešenia na jadro matice B, ktoré využívajú QR rozklad matice B T za účelom získania bázy nulového priestoru matice B. Samozrejme, existuje niekol ko rôznych algoritmov, ktoré sa líšia v závislosti na d alšom postupe. Uvedieme algoritmus, ktorý možno nájst v [3], resp. v [8]. Namiesto LSE problému (.3) uvažme LS problém [ ] [ min B d x R x, (.5) n b] pričom máme na pamäti, že x má spĺňat rovnost Bx = d (3). Teda, budeme hl adat riešenie LS problému s dôrazom na podmienku Bx = d, pričom prejdeme od (.5) k ortogonálne invariantnému problému s vhodnou ortogonálnou maticou. Zaved me U R m m a Q R n n ortogonálne matice, ktoré určíme neskôr a položme [ ] Ip, 0 Ũ = 0, U T R (p+m) (p+m). L ahko overíme, že Ũ je štvorcová ortogonálna matica. Stĺpce matice Q rozdel me na dve časti, totiž označme prvých p stĺpcov matice Q ako Q 1 a zvyšných n p stĺpcov ako [ ] 3) Na tomto mieste uved me, že až na výnimky v časti.3.1 v práci budeme pracovat so systémom B. Je to z dôvodu zjednotenia textu a z dôvodu, že systém B nad dáva pri riešení LSE problému metódou váh lepšie numerické výsledky, pozri [8]. 9

Q, tj. Q = [ ] Q 1, Q. Konečne, zaved me substitúciu y = Q T x. Potom je y = p n p [ ] Q T 1 x p Q T x n p a naopak x = Q y = [ ] [ ] y Q 1, Q 1 = Q y 1 y 1 + Q y =: x 1 + x. Vd aka práve zavedeným označeniam môžeme písat [ ] B x [ ] d = b [ ] B Ũ [ ] B Ix [ ] d = b [ ] B Q Q T x [ ] d = b ] [ ] y1 [ ] B Q y [ ] d [ Q y Ũ = B Q1, B Q b U T Q 1, U T Q y B Q 1 y 1 + B Q y d + U T Q 1 y 1 + U T Q y U T b, [ ] d U T = b [ y1 y [ ] d b ] = kde v rovnosti označenej sme prešli k ortogonálne invariantnému problému s maticou Ũ. by sme výrazy v normách čo najviac zjednodušili, použijeme QR rozklady matíc B T a Q : Pretože je B Q 1 y 1 + B Q y = B Q y, tak za Q vol me ortogonálnu maticu z QR rozkladu B T. Platí B Q = [ R T B, 0], kde Q R n n a R B R p p je horná trojuholníková matica, ktorá je naviac regulárna, pretože rank(b) = p. Všimnime si, že kvôli predpokladu na hodnost matice B patrí posledných n p stĺpcových vektorov Q, ktoré sú lineárne nezávislé a navzájom na seba kolmé, do jadra N (B). Potom ale je N (B) = Range(Q ), čo znamená, že stĺpcové vektory Q tvoria bázu N (B). Prvý sčítanec môžeme teraz upravit na tvar B Q 1 y 1 + B Q y d = B Q y d = [ R T B, 0 ] [ ] y 1 d y = R T B y 1 d. však pretože R B je regulárna, existuje práve jedno riešenie y 1 R p sústavy R T B y 1 = d. teda aj práve jedno x 1 = Q 1 y 1. Zostáva spočítat y, pričom podl a uvedeného je x = Q y N (B). Tým riešenie x skutočne projektujeme na jadro N (B) a jeho ortogonálny doplnok. = = Pretože (p + m) n matica [ ] [ ] B [Q1 ] R T, Q = B, 0 Q 1, Q p n p p m 10

má podl a predpokladov (.4) hodnost n, tak použitím vzt ahu rank(r T B ) = p z predchádzajúceho bodu musí byt rank(q ) = n p. Vol bou ortogonálnej matice U z QR rozkladu Q R m (n p) môžeme pokračovat v úprave druhého sčítanca takto (4) : U T Q 1 y 1 + U T Q y U T b = U T Q y U T (b x 1 ) = [ R 0 ] y [ ] U T 1 U T (b x 1 ) = R y U T 1 (b x 1 ) + U T (b x 1 ), kde U = [U 1, U ]. Pretože U1 T (b x 1 ) R n p a R je regulárna matica, n p m n+p vieme spočítat jednoznačne určené riešenie systému (n p) (n p) rovníc R y = U1 T (b x 1 ), čím dostávame vektor y a x = Q y. Riešením LSE problému je vektor x LSE = Qy = [ ] [ ] y Q 1, Q 1 y = Q 1 y 1 + Q y = x 1 + x. Uvedomme si, že x LSE spĺňa podmienku Bx = d. Totiž platí [ ] Bx = BQQ T y1 x = BQ = [ [ ] RB y T 0] y 1 = RB T y y 1 = d. Týmto postupom sme ukázali postačitel nost podmienok (.4), existenciu a jednoznačnost riešenia x LSE, ktoré minimalizuje (.5): Vektory y 1 a y dávajú minimálne reziduá príslušných systémov rovníc. V prvom bode z predpokladu rank(b) = p vyplynula jednoznačnost x 1, v druhom bode z oboch podmienok v (.4) zase jednoznačnost x... Metóda priamej eliminácie Druhý možný prístup k riešeniu (.3) ponúkajú eliminačné metódy. Rovnako ako v predchádzajúcej časti existuje niekol ko metód, na ktoré možno nazerat ako na Gaussovu elimináciu. Ukážeme si spôsob popísaný v [1, 3]. Naviac v [1] možno nájst algoritmus, ktorý používa elimináciu aplikovanú na penalizovaný problém (.9), s ktorým sa stretneme v časti.3. Iný algoritmus je v [4]. Nasledujúca metóda priamej eliminácie využíva na riešenie problému (.3) QR rozklad matice BΠ, kde Π je n n permutačná matica dôležitá z hl adiska stability celého procesu. To znamená, že pri rozklade matice B je potrebná stĺpcová pivotácia. Zostrojením matice Π sa zaoberáme na konci tejto časti. [ ] 4) R QR rozklad matice Q = U, kde U R 0 m m a R R (n p) (n p) je regulárna horná trojuholníková matica. Regularita R plynie zo vzt ahu rank(q ) = n p. 11

Pripomeňme, že predpokladáme plnú hodnost matice B, tj. rank(b) = p, B R p n, p n. Podl a teórie QR rozkladom BΠ BΠ = Q p [ ] R1, R p p n p získame ortogonálnu maticu Q R p p, regulárnu [ ] hornú trojuholníkovú maticu R 1 R p p a maticu R R p (n p). Položme Π T x1 p x =. Teraz si môžeme podmienku x n p Bx = d upravit, totiž platí: Bx = d B Π Π T x = d Q [ ] [ ] x R 1, R 1 = d R x 1 x 1 = Q T d R x. (.6) Pretože je R 1 regulárna, tak z poslednej rovnosti vieme spočítat x 1, ( ) x 1 = R1 1 Q T d R x. by sme určili x, vynásobme aj maticu permutačnou maticou Π. Nech teda je Potom ale Π = [ Ã 1, ] Ã m p n p x b = Π Π T 1 1 x b = (Ã Ã1R1 R )x (b Ã1R1 Q T d) = Āx b, kde sme použili Π T x = [x 1, x ] T, spočítané x 1 a kde sme zaviedli označenie Ā = Ã 1 Ã1R1 R R m (n p), b = b Ã 1 R1 1 Q T d R m. (.7) Ukážme, že z predpokladov (.4) plynie rank(ā) = n p. Predpokladajme pre spor, že rank(ā) < n p. Potom existuje v 0 tak, že Āv = 0. však z (.7) dostávame vzt ah 1 Ã v Ã1R1 R v = 0, v ktorom ak položíme u := R 1 1 R v, získame rovnice R 1 u + R v = 0, Ã 1 u + Ãv = 0. [ ] u le obe rovnice dávajú pre vektor w = Π rovnosti w = 0 a Bw = 0, čo znamená, v že w 0 leží v N () N (B) a to je spor. Celkom sme problém (.3) previedli na riešenie LS problému bez obmedzenia min x R n p Āx b 1

s maticou Ā Rm (n p), ktorá má podl a predchádzajúcej úvahy plnú hodnost. Tento problém vieme podl a sekcie.1 vyriešit použitím QR rozkladu matice Ā, [ ] R3 Ā = Q Ā, 0 pričom získavame ortogonálnu maticu Q Ā R m (n p) a regulárnu hornú trojuholníkovu maticu R 3 R (n p) (n p). Podl a sekcie.1 teda zostáva vyriešit sústavu R 3 x = Q T b. Ā [ ] x1 Konečne, riešenie LSE problému je x = Π. Všimnime si, že (.7) môžeme interpretovat ako p krokov Gaussovej eliminácie. Podl a [4] uvedený proces symbolicky zapisujeme v tvare [ ] B Π, QR rozklad [ ] R1, R Ã 1, Ã [ ] R1, R 0, Ā x Gauss. eliminácia QR rozklad [ ] R1, R 1 = 0, Ã Ã1R1 R R 1, R 0, R 3. 0, 0 Zastavme sa ešte pri vol be permutačnej matice Π. Jedným z dôvodov prečo sa matica B pred QR rozkladom upravuje je, že podl a predpokladou má B viac stĺpcov než riadkov a pretože je rank(b) = p, tak n p jej stĺpcových vektorov je lineárne závislých. Ch. Van Loan v [8] uvádza jednoduchý príklad na LSE problém s maticou [ ] 1 1 1 B =, 1 1 1 kde pri riešení úlohy bez použitia stĺpcovej pivotácie dostáva neadekvátne riešenia. Preto sa v [8] navrhuje vol ba takej matice Π, pri ktorej v súčine BΠ sú prvé p stĺpce lineárne nezávislé. Inú možnost nachádzame v [1]. totiž maticu Π vytvárame súbežne s QR rozkladom B. Pretože z numerického hl adiska je výhodne pri QR rozklade použit Givensové rotácie, či Housholderové zrkadlenia, tak v každom kroku pri spracovávaní daného stĺpca matice B sa za tento stĺpec odporúča brat stĺpec s maximálnou normou, resp. stĺpec, ktorého norma je po vynásobení daným parametrom α 1 väčšia ako maximum noriem ostatných stĺpcov. V takom prípade stĺpec nemusí byt určený jednoznačne, a tak volíme l ubovol ný z tých stĺpcov, ktoré dané kritérium spĺňajú. Viac informácií možno nájst v [1], kde je presne popísaný algoritmus, ktorým sa vykonáva QR rozklad matice B a súčasne formuje permutačná matica Π. Pokúsime sa ho priblížit. Snažíme sa previest QR rozklad matice B Givensovými rotáciami s pivotáciou. Pretože ale pre riešenie x LSE problému musí platit Bx = d, tak matice Givensových rotácií budeme rovno aplikovat aj na vektor d. Kvôli jednotnému značeniu položme B (0) = B a d (0) = d. 13

Pre k = 1,..., p opakuj: pre j = k,..., n definujme vektory b k 1 j = [ b k 1 k, j, bk 1 k+1, j,..., ] T bk 1 p, j R p k+1 a položme N k 1 j = b k 1 j. Pracujeme s n k + 1 p k + 1, čo si môžeme interprétovat formou matice stĺpcovými vektormi dĺžky B (k 1) = [b k 1 k, b k 1 k+1,..., bk 1 n ] R (p k+1) (n k+1). Vyberme index p k tak, aby pre dané α 1 platilo αn k 1 p k max k j n N k 1 j. (.8) Index p k nie je všeobecne určený jednoznačne. V prípade, že kritériu vyhovuje viac vektorov, vyberieme jeden z nich. Označme P k T = P k T (1, p k k + 1) R (n k+1) (n k+1) permutačnú maticu, ktorá prehodí prvý a (p k k + 1) vý stĺpec v B (k 1) a položme P T k = diag(i k 1, P T k ) R n n. Matica P T k = P T k (k, p k) prehodí k-tý a p k -tý stĺpec v B(k 1). Nech d alej je Ḡk ortogonálna matica zloženej Givensovej rotácie, ktorou vynulujeme až na prvú zložku vektor b k 1 p k, tzn. Ḡ k prevedie b k 1 p k na vektor Np k 1 k e 1, kde e 1 = (1, 0,..., 0) T R p k+1. Je Ḡk R (p k+1) (p k+1), preto definujme G k = diag(i k 1, Ḡk) R p p. Položme B (k) = G k B (k 1) P T k Rp n, d (k) = G k d (k 1). Graficky pre k = 1: B = B (0) = B (0) = b (0) 1,p k b (0). b (0) p,p k b (0) b (0) p k b (0) b (0) 1,1 b (0). b (0) p,1 b (0) b (0) 1 b (0) 1, b (0) 1,1 b (0) 1,n... p, b (0) p,1 b (0) p,n b (0) 1 b (0) n 1, b (0) 1,p k b (0) 1,n... p, b (0) p,p k b (0) p,n b (0) p k G 1 BP T 1 (1, p k ) b (0) n N pk 0. 0 BP T 1 (1, p k ) B (1) 14

= B (1). Pre k = p + 1,..., n 1 vyberieme maticu P k R n n rovnakým spôsobom ako doteraz, čím si preskúpime aj ostatné n p stĺpce. To znamená, že v kroku k [p + 1, n 1] uvážime stĺpce matice B(k) počínajúc k tým stĺpcom a na ne užijeme kritérium (.8). Získame stĺpec s indexom p k a po definovaní permutačnej matice Pk T, ktorá prehodí k tý a p k tý stĺpec matice B(k), položíme B (k+1) = B (k) Pk+1 T. Celkom je Π = P n 1... P 1, R = B (p) P T p+1... P T n 1 = [ R 1, R ], Q = G T 1... G T p, čím získavame permutačnú maticu Π a QR rozklad matice BΠ = QR = Q [R 1, R ]..3 Riešenie LSE problému metódou váh Metóda váh je založená na myšlienke, ktorá už bola prezentovaná a totiž ak nás zaujíma riešenie LS, poprípade LSE problému, tak toto riešenie minimalizuje i úlohu ortogonálne invariantnú, tzn. úlohu s datami prenásobenými ortogonálnou maticou. U tejto metódy sa študuje podobný LS problém ako v sekcií..1, ale narozdiel od sekcie..1 tu sa zavádza kladný dostatočne vel ký prirodzený parameter, tzv. váha a to z toho dôvodu, aby sa zdôraznila rovnost Bx = d. O problematike výberu vhodných váh sa zmienime neskôr, podrobnejšie úvahy možno nájst v [3, 8]. Hl adajme x R n, ktoré rieši penalizovanú úlohu [ min µb x R n Stále predpokladáme platnost (.4), tj. ] x [ µd b rank(b) = p a rank ] (.9) [ ] µb = n, (.10) požiadavky na ostatné data zostávajú rovnaké. Vidíme, že dostávame klasický LS problém, ktorý vieme vyriešit použitím sekcie.1. [ ] µb Vol me preto ortogonálnu maticu Q µ z QR rozkladu [ ] [ ] [ ] p µb Rµ n = Q µ m 0 p + m n, n p + m n kde Q µ R (p+m) (p+m) je ortogonálna a R µ R n n [ horná ] trojuholníková matica, ktorá µb je naviac regulárna, pretože predpokladáme rank = n. k si maticu Q µ rozdelíme spôsobom Q µ = [ ] Q 1, µ, Q, µ n p + m n, (.11) 15

Q 1, µ R (p+m) n, Q, µ R (p+m) p+m n, tak upravovaním ortogonálne invariantného [ ] µd problému k (.9) s maticou Q µ zist ujeme, že stačí vyriešit sústavu R µ x = Q T 1,µ. b Získané riešenie (.9) si označme ako x(µ). V d alšej časti sa pokúsime ukázat konvergenciu riešenia x(µ) k x LSE, pričom precíznu analýzu metódy váh podáme v časti.3.1. Najprv ale zopakujme, že v predchádzajúcich sekciách. a..1 (resp...) sme za platnosti predpokladu (.4) dokázali existenciu a jednoznačnost riešenia x LSE pôvodného problému (.3). však na x LSE môžeme nazerat aj ako na minimizér funkcionálu ϕ(x) = 1 x b vzhl adom k väzbe Bx = d, kde funkcionál ϕ(x) je diferencovatel ná funkcia. Definujme Lagrangeovu funkciu L(x, λ) = 1 (x b) T (x b) λ T (Bx d). Z jednoznačnosti x LSE potom existuje jednoznačne určené λ LSE R p, pre ktoré platí L (x x LSE, λ LSE ) = 0 a L(x λ LSE, λ LSE ) = 0, pričom priamo z definície derivácie máme L λ (x, λ) = (Bx d)t, L x (x, λ) = (T (x b) B T λ) T (5). k v týchto vzt ahoch pre x LSE a λ LSE položíme r LSE = b x LSE, dostávame rovnice Bx LSE = d, r LSE + x LSE = b, B T λ LSE + T r LSE = 0, ktoré odpovedajú sústave 0 0 B λ LSE d 0 I m r LSE = b. (.1) B T T 0 x LSE 0 Z predpokladu (.4) je matica v (.1) regulárna. Pretože x(µ) rieši (.9), musí nutne vyhovovat aj normálnej rovnici odvodenej od (.9), tj. musí spĺňat [ µb ] T [ ] µb x(µ) = Úpravou tejto rovnosti postupne dostaneme: [ µb T, T ] [ µb [ µb ] T [ ] µd. b ] x(µ) = [ µb T, T ] [ µd b 5) Pre tento účel stačí položit y = x b a definovat funkcionál F (y) = 1 yyt, ktorého derivácia podl a y sa rovná y T. Ďalej stačí použit vetu o derivácií zloženého zobrazenia. Jednoznačnost λ LSE plynie z rovnice L x (x, λ) = 0 pre x = x LSE, z jednoznačnosti x LSE a zo vzt ahu rank(b) = p. 16 ],

(µ B T B + T )x(µ) = µ B T d + T b, B T µ (d Bx(µ)) + T (b x(µ)) = 0. Položme λ(µ) = µ (d Bx(µ)) a r(µ) = b x(µ), λ(µ) R p, kde r(µ) R m, čím získame rovnice µ λ(µ) + Bx(µ) = d, r(µ) + x(µ) = b, B T λ(µ) + T r(µ) = 0, ktoré v maticovom zápise odpovedajú rovnosti µ I p 0 B λ(µ) d 0 I m r(µ) = b. (.13) B T T 0 x(µ) 0 Porovnaním oboch systémov (.1) a (.13) dostávame chcený výsledok lim x(µ) = x LSE. (.14) µ Presné odvôvodnenie posledného výroku sa opiera o vetu zo [7]. Naznačme stručne postup: Označme si 0 0 B µ I p 0 B X = 0 I m, Y µ = 0 I m. B T T 0 B T T 0 Potom pre µ konverguje Y µ k X a pretože sme vyššie odvodili, že X je regulárna, tak existuje X 1 a µ 0 > 0 také, že pre každé µ > µ 0 existuje matica Yµ 1. Podl a známej vety z funkcionálnej analýzy, pozri [6], je norma tejto matice rovnomerne ohraničená pre každé µ [µ 0, ). teda dostávame odhad λ LSE λ(µ) r LSE r(µ) x LSE x(µ) C X 1 Y µ X Yµ 1 0, µ z ktorého hned plynie (.14), C je vhodná konštanta. by sme boli schopní zúžitkovat [ ] túto informáciu, potrebujeme pre každé µ opakovane riešit sústavu R µ x = Q T a to znamená, že potrebujeme pre každé µ previest µd [ ] b µb QR rozklad matice. V praktickom počítaní sa tomu vyhýbame. Ukazuje sa, že vol bou dostatočne vel kého µ je riešenie x(µ) dostatočne blízko k x LSE. však pri vel mi vel kom µ sa môžu [ ] vyskytnút nepríjemné numerické problémy, napríklad pri QR rozklade matice. Totiž zavedením parametra µ rastie úmerne s vel kost ou µ aj číslo µb 17

[ ] µb podmienenosti matice a teda aj náchylnost na väčšie zaokrúhl ovacie chyby. Naopak, pre µ malé môže byt riešenie opät nepresné, nakol ko nemusí platit rovnost Bx = d. Príklad, na ktorom je vidiet závislost riešenia na parametru µ je uvedený v časti.3. v tabul ke.. Preto sa pokúsime zostrojit iteračný algoritmus, ktorý spresní riešenie x(µ) získané vol bou stredne vel kého µ (6). Pretože LSE problém zohraje dôležitú úlohu v poslednej kapitole a v matlabovských programoch z poslednej kapitoly je na riešenie LSE problému použitá práve metóda váh, v d alšej časti ešte raz podáme analýzu metódy váh..3.1 nalýza metódy váh V tejto časti podáme analýzu riešenia získaného metódov váh. Ciel om je vyjadrit riešenia x LSE a x(µ) presnými analytickými formulkami, z ktorých bude opätovne vidiet, že x(µ) konverguje k x LSE pre µ idúce do nekonečna. Najprv si uvedieme nasledujúcu vetu, ktorú môžeme nájst napríkad v [3, 5, 8]. Pretože v literatúre sa pri dôkaze vyskytujú nejasnosti, tak si túto vetu dokážeme podrobne znova (7). Dôkaz založíme na myšlienke CS rozkladu matíc. [ ] B Veta.3.1. Nech R m n, B R p n (m n p), rank (B) = p a rank = n, potom existujú ortogonálne matice U R m m, V R p p a regulárna matica X R n n tak, že α [ ] 1 U T diag(α1,..., α X = D = n )... = R m n, (.15) 0 α n 0 V T BX = D B = [ diag(β 1,..., β p ), 0 ] β 1 =... 0 R p n. (.16) β p [ ] B k naviac σ 1 σ... σ n sú singulárne čísla matice, potom platí pre nejaké q [0, p). X = 1, (.17) X 1 = σ 1 /σ n, (.18) 0 = α 1 = = α q < α q+1 α p α p+1 = = α n = σ n, (.19) β 1 β p 0, (.0) α i + β i = σ n, i = 1,..., p. (.1) 6) Pojmy vel ké, stredne vel ké a malé µ sú matematicky nepresné. Približný obsah týchto pojmov je objasnený v sekcií.3.. 7) Napr. v [5] sa rozoberá prípad s rozmermi matíc m n a p n. To v našom prípade nenastáva, a preto nie je možné písat niektoré tvrdenia, ktoré sa d alej v práci objavia, ako dôsledky viet z [5]. 18

Důkaz. Pretože vždy vieme nájst permutačnú maticu Π, pre ktorú platí [ ] budeme d alej pracovat so systémom. B Napíšme si singulárny rozklad matice [ B ] : [ ] B = Π [ ], B kde Q = [ Q1 Q m p B n = m Q 1 p Q n ] R (m+p) n, Z R n n sú ortogonálne matice a matica Σ n Z T n n, (i) Σ = diag(σ 1,..., σ n ) R n n obsahuje singulárne čísla σ i (i = 1,,..., n) matice ktoré si môžeme označit tak, aby [ ], B σ 1 σ σ n 0. [ ] B Pretože rank = n, existuje n kladných singulárnych čísel, ktoré sa prirodzene môžu opakovat, avšak nutne je σ n > 0 (8). Z predpokladu rank(b) = p a z (i) dostávame rank(q ) = p (9). tak preved ením singulárneho rozkladu matice Q T, tj. n Q T = Y Σ B 0 V T p p, (ii) p n p dostávame p singulárnych čísel s 1, s,..., s p, ktoré si znova môžeme označit tak, aby s 1 s s p a teda opät platí s p > 0. Singulárnym rozkladom získavame ortogonálne matice Y R n n, V R p p a maticu Σ B = diag(s 1, s,..., s p ) R p p. Pretože je I n = Q T Q = Q T 1 Q 1 + Q T Q, tak pre l ubovol ný vektor z jednotkovej sféry S n platí 1 = v T v = v T Q T 1 Q 1 v + v T Q T Q v, 8) Samozrejme je [ ] [ ] B = Π = Π Q Σ Z T = B Q Σ Z T, kde matica Q = ΠQ je taktiež ortogonálna. teda vidíme, že oba systémy nad B, resp. B nad majú rovnaké singulárne čísla. 9) Z (i) plynie vzt ah B = Q Σ Z T. 19

max v S n v T Q T Q v = s 1. pretože v T Q T 1 Q 1 v 0, v T Q T Q v 0, tak z týchto vzt ahov nutne máme s 1 1 a teda aj s i 1, pre každé i = 1,..., p. Z uvedeného teda plynie, že vieme nájst q p tak, aby platilo 1 = s 1 = = s q > s q+1 s p > 0, (iii) čím si Σ B môžeme upravit na tvar [ ] Iq 0 Σ B = diag(s 1, s,..., s p ) =, 0 Σ B kde Σ B = diag(s q+1, s q+,..., s p ) R (p q) (p q) (10). Obdĺžnikovú m n maticu Q 1Y rozdel me na tri časti, a to tak, že prvých q stĺpcov súčinu Q 1 Y označme ako W 1, d alších p q ako W a zvyšné W 3, tj. Potom platí Q 1 Y = [W 1 W W 3 ] q p q n p m I m 0 Q 1 Y n = n p 0 V T Q } m p {{ n } K W 1 W W 3 m I q 0 0 q 0 Σ B 0 p q q } p q n p {{ } L (iv) Vynásobme teraz obe strany rovnosti (iv) transponovanou maticou zapísanou zvlášt v tvare odpovedajúcom matici K a zvlášt matici L. L ahko sa ukáže, že K T K = I n, pretože matice Q, Y a V sú ortogonálne. Vynásobme L T L: W1 T I q 0 W 1 W W 3 W W T 0 Σ T B 1 T W 1 + I q 0 0 I q 0 0 = 0 W W3 T T W + Σ B 0. 0 0 0 Σ B 0 0 0 W3 T W 3 pretože musí byt K T K = L T L, dostávame rovnost I q 0 0 W1 T W 1 + I q 0 0 I n = 0 I p q 0 = 0 W T W + Σ B 0. 0 0 I n p 0 0 W3 T W 3 Z toho nám plynie niekol ko pozorovaní: 10) Prirodzene, môže sa stat, že q = 0, avšak na správnost postupu to nemá žiaden vplyv. 0

W T 1 W 1 = 0 W 1 = 0, W T i W j = 0 pre i j, W 3 je ortogonálna matica, W musí spĺňat rovnost W T W = I p q Σ B = diag(1 s q+1,..., 1 s p). Položme c q+1 = 1 s q+1,..., c p = 1 s p, ( 1 U = W diag,..., 1 ), c q+1 c p U 3 = W 3, pričom sa l ahko presvedčíme, že U a U 3 sú ortogonálne matice. K vektorom v maticiach U a U 3 dopĺňme vektory kolmé na Range {U, U 3 }, tak aby sme dostali ortogonálnu bázu priestoru R m. U 1 nech pozostáva z q vektorov, U 4 z m n vektorov Definujme si teraz ortogonálnu maticu predpisom U = [U 1 U U 3 U 4 ] R m m q p q n p m n. Z vol by s i, i = 1,..., p je c 1 = = c q = 0. Dodefinujme ešte c p+1 = = c n = 1. Ukážme, že nasledujúci maticový súčin, ktorý podporuje myšlienku CS rozkladu matíc, vedie k dokončeniu dôkazu. Pri násobení využijeme vlastnosti čísel c i a s i, ortogonalitu matice U a predchadzajúce pozorovania. Platí m p U T m V T p Q 1 Q n Y n n = m p q U T 1 p q U T n p U3 T 0 m n U1 T p 0 V T W 1 W W 3 m Q Y p q p q n p = 1

c q p q n p 0 q+1... n I q s q+1 c p 1.... 1 0 m n... 0 p Takže, k matici Q sme našli ortogonálne matice U, V a Y tak, že súčin [ ] [ ] [ ] U T Q1 Dc Y = dáva diagonálne matice V T s p Q D s D c = c 1... n c n 0 m n n a D s = s 1... 0 p p s p n p Pričom vidíme, že dôkaz skutočne rozvýja myšlienku CS rozkladu matíc. Navyše z postupu získavame 0 = c 1 = = c q < c q+1 c p c p+1 = = c n = 1, 1 = s 1 = = s q > s q+1 s p > 0, c i + s i = 1, pre i = 1,..., p. K dokončeniu dôkazu zostáva dosadit [ Q1 Q ] = [ U 0 0 V [ ] [ ] [ ] U 0 Dc = Y B 0 V D T diag(σ 1,..., σ n ) Z T = s [ ] [ ] U 0 Dc 1 = σ 0 V n σ n Y T diag(σ 1,..., σ n ) Z T = D s ] [ ] Dc Y T do (i). Dostávame [ U 0 0 V D s ] [ D D B ] X 1, kde sme položili D = σ n D c, D B = σ n D s a definovali regulárnu maticu X spôsobom X 1 = Y T 1 σ diag(σ 1,..., σ n ) Z T = Y T n... σ n σ 1 Z T 1.

a teda σ n σ1 X = Z... Y. 1 Je zrejme, že X 1 = σ 1 σ n a X = 1. k ešte položíme α i = c i σ n, i = 1,..., n a β i = s i σ n, i = 1,..., p, tak tvrdenie je dokázané. Podl a [8] s práve dokázanou vetou ukážeme explicitné vyjadrenie x LSE, x(µ) a konvergenciu riešenia x(µ) k riešeniu x LSE. Vetu použijeme k zjednoduchšeniu úlohy (.3). Predne si uvedomme, že ak si pre i = 1,..., p označíme µ i = α i /β i dostaneme Zavedením nasledujúceho označenia 0 = µ 1 = = µ q < µ q+1 µ p. b = U T b = [ u T 1 b,..., u T mb ] T, d = V T d = [ v T 1 d,..., v T p d ] T, x = Xy, y R n si môžeme úlohu (.3) upravit, a totiž znova prejdeme k ortogonálne invariantnému problému. Najprv vynásobme sprava rovnicu Bx = d ortogonálnou maticou V T, je V T Bx = V T d V T BXy = V T d D B y = d. ked že riešenie (.3) minimalizuje aj U T x U T b, kde U T je ortogonálna matica, môžeme pokračovat v úprave U T x = U T Xy = D y. teda celkom sa problém (.3) transformuje na ekvivalentný problém min D y b, (.) D B y= d pričom riešenia oboch úloh sú vo vzt ahu daným maticou X, x = Xy. k si uvedomíme, že D a D B sú diagonálne matice definované v (.15) a (.16), rank(d B ) = p, α 1 = = α q = 0, q < p, a α p+1 = = α n = σ n, tak riešenie (.) musí byt tvaru y LSE = [ v T 1 d β 1,..., vt p d β p, [ v T 1 d β 1,..., vt p d β p, u T p+1 b α p+1,..., ut n b α n ] T = u T p+1 b σ n,..., ut n b σ n ] T. Totiž y LSE musí spĺňat rovnost D B y LSE = d. tak prvých p zložiek vektora y LSE je nutne definovaných práve touto rovnicou. Pretože ale predpokladáme q < p, zvyšné 3

zložky sa dopočítajú zo vzt ahu D y LSE = b. Iba v takomto tvare je y LSE riešením (.). Potom ale x LSE = Xy LSE = = [x 1,, x n ] v T 1 d β 1. v T p d β p u T p+1 b α p+1. u T n b α n = p i=1 vi T d x i + 1 β i σ n n (u T i b)x (11) i. i=p+1 Riešenie x(µ), ktoré získame užitím metódy váh, opät odvodíme úpravou normálnej rovnice príslušnej problému (.9), [ µb ] T [ ] µb x(µ) = Roznásobením matíc sa l ahko nahliadne vzt ah [ µb ] T [ ] µd. b ( T + µ B T B)x(µ) = T b + µ B T d. Vynásobením zl ava maticou X T a použitím substitúcií (.15), (.16) a x(µ) = Xy(µ) dostaneme (D T D + µ D T B D B )y(µ) = D T b + µ D T B d (1). Podobnou úvahou ako pri odvodzovaní tvaru riešenia y LSE je riešením tejto sústavy s diagonálnou maticou vektor y(µ) = [ α1 u T 1 b+µ β 1 v T 1 d α 1 +µ β 1,..., αput p b+µ β pvp T d, α p+µ βp α p+1 u T p+1 b α p+1 ] T,..., α nu T n b α, n pričom menovatel každej zložky je vždy nenulový. Podl a predpokladu je totiž µ kladný parameter, d alej platí (.19), (.0) a z dôkazu vety vyplynulo, že β p > 0. Konečne je x(µ) = Xy(µ) = p i=1 α i u T i b + µ β i vi T d αi + x µ βi i + 1 σ n n (u T i b)x i. i=p+1 teda pre chybu dostávame výraz e(µ) = x(µ) x LSE = (v prípade x 1 až x p je tým násobkom vt i d β i p i=q+1 ρ i µ i (µ i + µ )β i x i, (.3) 11) Poznamenajme, že x LSE je súčtom stĺpcových vektorov x i matice X násobených konštantami, v prípade x p+1 až x n je to ut i b σ n ). Podobne tomu bude i nad alej. 1) Zo substitúcií (.15), (.16) hned plynie D T = (U T X) T = X T T U a DB T = (V T X) T = X T T V. 4

kde zavádzame ρ i = u T i b µ i v T i d pre (i = 1,, p). Totiž počítajme: e(µ) = x(µ) x LSE = p i=1 α i u T i b + µ β i vi T d αi + x µ βi i p i=1 v T i d β i x i = = p i=1 = ( αi u T i b+µ β i v T i d = p i=q+1 α i +µ β i p i=q+1 vt i d β i ) x i = p i=q+1 ( αi u T i b+µ β i v T i d α i +µ β i α i β i u T i b + µ βi vi T d vi T d(αi + µ βi ) (αi + µ βi )β x i = i α i β i u T i b αi vi T d (αi + µ βi )β x i = i = p i=q+1 p i=q+1 ρ i µ i (µ i + µ )β i x i. vt i d β i ) x i = (u T i b µ i v T i d)µ i (µ i + µ )β i x i = Pričom je opät vidiet, že pre µ idúce do nekonečna, chyba konverguje k nule..3. Numerické porovnanie metód riešiacich LSE problém V predchádzajúcich častiach sme sa zaoberali teoretickým formulovaním riešení LSE problému. Ukázali sme si tri možné spôsoby riešenia: priamou elimináciou (d alej PE), projekciou na jadro matice (PJM) a metódov váh (MV). Tiež bolo dokázané, že [ ] B rank(b) = p a rank = n, resp. predpoklad (.10) je nutnou a postačujúcou podmiekou pre existenciu a jednoznačnost riešenia, R m n, B R p n, b R m a d R p. Teraz si všetky tri metódy ukážeme na príklade náhodne volených dat z intervalu [ 100, 100] s rozmermi m = 7, n = 5, p = 4, ktoré spĺňajú uvedené predpoklady (.4). Príklad 1. = B = 68 17 35 60 71 83 34 31 1 81 46 54 88 40 55 78 75 0 34 19 73 95 3 3 16 19 77 6 45 93 9 38 77 55 43 38 40 38 5 17 90 89 80 66 66 94 97 69 1 4 68 59 85 77 97, b =, d = 77 44 7 10 83 9 5 30 33 4,. 5

x(µ) x dir x null 0, 147494168150341 0, 14749416815034 0, 14749416815034 0, 6408108076150 0, 6408108076151 0, 6408108076151 0, 8340344397364 0, 8340344397364 0, 8340344397364 0, 875940776345 0, 875940776346 0, 875940776346 0, 417140443493639 0, 417140443493639 0, 417140443493639 Tabul ka.1: Riešenia LSE problému metódou váh x(µ), metódou priamej eliminácie x dir a metódou projekcie na jadro matice x null. Označme si riešenie MV ako x(µ), riešenie PE ako x dir a konečne riešenie PJM ako x null. Tabul ka.1 obsahuje pre dané data riešenia x(µ) pre vol bu váhy µ = 10 8 a x dir, x null. Vidíme, že hoci metódy MV, PJM a PE sú založené na odlišných ideách, riešenie x(µ) pre váhu µ = 10 8 a riešenia x dir, x null sú rovnaké až na strojovú presnost. Rozdiel riešenia x dir a x null je v norme x dir x null = 4, 90e 16. Normy rozdielov riešení x(µ) a x dir, resp. x(µ) a x null pre všetky uvažované hodnoty µ = 10, 10,..., 10 15 sú v tabul ke.. Všimnime si, že riešenia x(µ) a x dir, resp. x(µ) a x null sú k sebe najbližšie pri vol be váhy µ = 10 8 a váh väčších. j pri podobných testovaných príkladoch získavame porovnatel né výsledky ako v uvedenom príklade, ale napríklad už pri datach väčších rozmerov dochádza k zväčšovaniu noriem rozdielov riešení MV od riešení ostatných metód (PE, PJM) a to vol bou váhy µ < 10 5 a µ > 10 11. Obrázok.1 ukazuje ako sa chová x(µ) x null pre vol bu váh µ = 10, 10 8, 10 14 pri nara-stajúcich rozmeroch dat, ktoré sú dané pomerom m : n : p = 4k : 3k : k, k = 1,..., 00 (13). Hodnoty dat sú volené náhodne v intervale [ 100, 100], tak aby boli splnené predpoklady na hodnosti matíc. Obrázok ukazuje, že pri volení váhy µ = 10 8 aj s narastajúcimi rozmermi dat je riešenie x(µ) blízke k riešeniu x null až na malý násobok strojovej presnosti. Pri váhe µ = 10 14 je ešte situácia rovnaká s datami vel kosti m = 3, n = 4 a p = 16 (odpovedá koeficientu k = 8), ale pre rozmery dané k 9 sú riešnia x(µ) a x null rôzne. Normy x(µ) x null sú pri µ = 10 rádovo vel kosti 10 3. Podobný graf by sme dostali, keby sme porovnávali riešenia x(µ) a x dir. Ch. Van Loan v [8] odporúča pri výpočte LSE riešenia metódou váh používat vol bu µ = eps 1/ 10 8, kde eps značí strojovú presnost. Z vel kosti noriem rozdielov riešení môžeme usúdit, že vol bou ktorejkol vek z metód, pri MV použitím váhy µ = 10 8, získame riešenie LSE problému, ktoré bude až na strojovú presnost odpovedat skutočnému riešeniu (14). 13) To znamená, že pre k = 1 sú matice, B a vektory b a d príslušných rozmerov s m = 4, n = 3 a p =, pre k = 00 zase m = 800, n = 600 a p = 400. 14) Konečne objasníme nejasnosti okolo pojmov vel ké, malé µ. Na základe numerických výpočtov budeme malým µ rozumiet µ [ 1, 10 5], vel ké µ bude µ > 10 11, ostatným hodnotám µ hovoríme stredne vel ké µ. 6

µ x(µ) x dir x(µ) x null 10 0, 0438 0, 0438 10 0, 0005 0, 0005 10 3 4, 6065e 06 4, 6065e 06 10 4 4, 6065e 08 4, 6065e 08 10 5 4, 6065e 10 4, 6065e 10 10 6 4, 6066e 1 4, 6063e 1 10 7 4, 5781e 14 4, 5473e 14 10 8 1, 6441e 15 1, 5001e 15 10 9, 0009e 15 1, 916e 15 10 10 6, 15e 16 5, 6678e 16 10 11 5, 307e 16 7, 431e 16 10 1 6, 9611e 16 4, 3088e 16 10 13 9, 080e 16 7, 5809e 16 10 14 1, 3363e 15 1, 33e 15 10 15 0, 3903 0, 3903 Tabul ka.: Porovnanie noriem rozdielov riešení LSE problému x(µ) s x dir a x(µ) s x null pre hodnoty parametru µ = 10 k, k = 1,..., 15. Obrázok.1: Zobrazenie vel kostí noriem rozdielu riešení x(µ) a x null LSE problému pre náhodne volené data s rozmermi danými vzt ahom m : n : p = 4k : 3k : k, k = 1,..., 00. Graf porovnáva závislost x(µ) x null na zväčšujúcich sa rozmeroch dat pre vol bu váhy µ = 10 ( ), µ = 10 8 ( ) a µ = 10 14 ( ). 7

.3.3 Iteračné spresnenie metódy váh Nasledujúci algoritmus je iteračným spresnením metódy váh. V predchádzajúcej časti sme videli, že metóda váh závisí na vol be prirodzeného parametra µ, pričom pre príliš malé, resp. vel mi vel ké hodnoty µ bolo spočítané riešenie x(µ) nepresné. Ciel om bude vytvorit iteračný algoritmus, ktorým získame postupnost riešení x (k), k = 1,, 3,... takých, že x (k) x LSE pre k idúce do nekonečna. Pretože sa jedná o algoritmus, ktorý má vylepšit riešenie x(µ), tak prirodzene volíme x (1) = x(µ) pre dané nie príliš vel ké µ. Numerické výsledky ukazujú, že už pri prvej iterácií dochádza k podstatnému spresneniu riešenia. Viac sa o danom algoritme možno dočítat v [8]. lgoritmus.3.1. 1) Pre dané µ spočítaj metódov váh riešenie x(µ) problému (.9). Polož ) Pre k = 1,, 3,... δ (k) 1 δ (k) δ (k) 3 x (1) = x(µ), r (1) = b x(µ), λ (1) = µ (d Bx(µ)). a) Použitím (.1) spočítaj d = b 0 0 0 B 0 I m B T T 0 b) Vyrieš systém (.13): µ I p 0 B λ (k) 0 I m r (k) = B T T 0 x (k) c) Polož x (k+1) = x (k) + x (k), r (k+1) = r (k) + r (k), λ (k+1) = λ (k) + λ (k). λ (k) r (k) x (k) δ (k) 1 δ (k) δ (k) 3 Idea algoritmu je jasná. Pretože platí (.14), tak pre pevne zvolené µ < je x(µ) x LSE. však x(µ) vyhovuje sústave (.13), z ktorej vieme spočítat r (1) a λ (1). Tie sú dané vzt ahmi r (1) = b x(µ), λ (1) = µ (d Bx(µ))... 8

Pričom nás zaujíma chyba x LSE x(µ), ktorej sme sa dopustili vol bou daného µ. Samozrejme x LSE nepoznáme, avšak vieme, že musí byt riešením (.1) a teda do (.1) dosadíme za λ, r a x spočítané hodnoty λ (1), r (1) a x (1) = x(µ) a určíme rozdiel [ ] T δ (1) 1, δ (1), δ (1) 3. Pretože je x(µ) xlse, tak získaný rozdiel je nenulový, ale uvedieme si vetu, ktorá nám hovorí, že δ (1) = δ (1) 3 = 0. Tento rozdiel znova dosadíme do (.13) ako pravú stranu. Pripomeňme, že z regularity systému (.13) existuje práve jedno riešenie. Označme ho [ λ (1), r (1), x (1)] T. V poslednom kroku pričítame [ λ (1), r (1), x (1)] T k [ λ (1), r (1), x (1)] T, čím dosiahneme spresnenie riešenia x(µ). Spresnenie vyplynie z vety.3.3. však analýza konvergencie x (k) x LSE nie je jednoduchá, preto vetu.3.3 dokazovat nebudeme, ale odkážeme na [8]. V d alšom uvedený postup opakujeme a to dovtedy, kým nie je spĺnená nasledujúca podmienka d Bx (k) δ B x (k), (.4) kde δ je daná tolerancia. Táto podmienka je heuristikou odvodenou v [8]. Silu podmienky budeme dokumentovat na príklade v časti.3.4. Teraz sa vrát me k analýze predchádzajúceho textu. Veta.3.. V algoritme.3.1 pre každé k je δ (k) = 0 a δ (k) 3 = 0. Důkaz. Veta sa dokáže indukciou. Všimnime si ešte, že x (k) rieši [ min µb z ] z [ ] (k) µδ 1, (.5) 0 čo je opät penalizovaný LSE problém, riešenie ktorého získame aplikovaním metódy váh zo sekcie.3. Tvrdenie nahliadneme z príslušnej normálnej rovnice [ µb ] T [ ] µb x (k) = [ µb ] T [ ] (k) µδ 1. (.6) 0 Malou úpravou a položením λ (k) = µ (δ (k) 1 B x (k) ) a r (k) = x (k) dostávame rovnice odpovedajúce rovnosti µ I p 0 B 0 I m B T T 0 λ (k) r (k) x (k) = 1 0 0 δ(k) ktorá podl a kroku b algoritmu.3.1 a vety.3. pre x (k) platí. Pomocou vety.3. nám v algoritme.3.1 odpadnú zbytočné výpočty premenných λ (k) a r (k), čím sa prirodzene algoritmus zjednodušší. Navyše sa výpočet x (k) v kroku b tohto algoritmu modifikuje na riešenie (.5). Teda dostávame algoritmus:, 9

lgoritmus.3.. 1) Pre dané µ spočítaj metódov váh riešenie x(µ) problému (.9). Polož x (1) = x(µ). ) Pre k = 1,, 3,... a) Spočítaj δ (k) 1 = d Bx (k). [ ] [ ] b) Rieš min µb (k) µδ x (k) 1 0 c) Polož x (k+1) = x (k) + x (k). Nasledujúca veta, ktorá je dokázaná v [8], ukazuje, že x (k) získané algoritmom.3. konvergujú k x LSE. Veta.3.3. Pre vektory x (k) vystupujúce v algoritme.3. platí kde x (k) = x LSE + e(µ, k) e(µ, k) = p i=q+1. ρ ( ) k i µ i α µ xi. i i +µ Konštanty ρ i a µ i boli odvodené za vetou.3.1, q vo vete.3.1. Z tejto vety hned dostávame pretože platí µ i µ i +µ < 1. x LSE x (k) = e(µ, k) k 0,.3.4 Porovnanie metódy váh a iteračného spresnenia V predchádzajúcej časti sme si ukázali ako možno riešenie x(µ) získané metódov váh iteračne spresnit. V metóde váh počítame pomocou ortogonálnej [ ] matice Q a regulárnej µb hornej trojuholníkovej matice R µ z QR rozkladu matice [ ] [ ] µb Rµ = QR = [ Q 1,µ, Q,µ ], 0 zo vzt ahov [ µd R µ x(µ) = Q T 1,µ b [ (k) µδ 1 0 R µ x (k) = Q T 1,µ ], ]. 30

postupne pre k = 1,,... riešenia x (k) dané vzt ahmi v algoritme.3.. Z programovacieho hl adiska sa v snahe [ ] eliminovat [ zaokrúhl ovacie ] chyby vyhýbame µd (k) µδ explicitnému vyjadreniu súčinu Q T 1,µ, resp. Q1,µ b T 1. V praxi sa pri QR rozklade matice prostredníctvom Householderových zrkadlení, či Givensových rotácií trans- 0 formačné matice priamo aplikujú na pravú stranu sústavy. Tu sa nám ale pravá strana mení, preto by bolo potrebné mat jednotlivé transformácie uložené (v prípade, že QR rozklad prevedieme raz), resp. pre každé k opakovane počítat QR rozklad a transformačné matice aplikovat na pravú stranu. To ale[ môžeme ] obíst. µb Pretože x (k) spĺňa (.6), tak QR rozkladom získavame vzt ah Rµ T R µ x (k) = µ B T δ (k) 1. (.7) [ ] µd Vidíme teda, že pri QR rozklade stačí transformačné matice aplikovat na vektor, b čím získame riešenie x(µ), ale tieto transformácie nemusíme ukladat, nakol ko pre k = 1,,... riešenia x (k) vieme spočítat z (.7). Pretože R µ je podl a predpokladu (.10) regulárna, tak potom aj súčin Rµ T R µ je regulárna matica a teda systém (.7) má jednoznačne určené riešenie x (k). Podl a [] môžeme pri výpočte x (k) postupovat týmto spôsobom: Rµ T R µ z (k) = µ B T δ (k) 1, [ ] [ ] µd µb r (k) = z (k), b [ ] T µb Rµ T R µ w (k) = r (k), x (k) = z (k) + w (k). To znamená, že v algoritme.3. nahrádzame krok b uvedenými štyrmi operáciami, pričom posledné tri z nich sú d alším spresnením x (k). Nasleduje jednoduchý príklad, na ktorom si ukážeme, že iteračné spresnenie metódy váh skutočne vedie k lepším výsledkom. Riešenie metódy váh bez iteračného spresnenia budeme ako doteraz značit x(µ) a riešenie upravené algoritmom.3. splňujúce (.4) ako X iter. Príklad. Nech sú dané nasledujúce data: 1 1 1 1 1 3 1 1 = 1 1 3 1 1 1 1 3 1 6 3 1 1 1 1 1 1 1 1 1 1 B = 1 1 1 1, 3. 1 1 1 1 1 31

Presné riešenie LSE problému s týmito datami je x exact = [ 0, 5, 0, 5, 1, 5 0, 5 ] T. Riešenie x(µ) metódou váh bez iteračného spresnenia získame aplikovaním postupu z časti.3. Váhu µ volíme µ = 10 8. Použitím algoritmu.3. a predchádzajúcich poznámok k programovej realizácií získame riešenie metódou váh s iteračným spresnením x iter. Zopakujme, že iteračný algoritmus je kontrolovaný podmienkou (.4) d Bx (k) δ B x (k). V našom príklade je pre každú vol bu δ < 10 16 riešenie x(µ) = x iter, čo znamená, že už riešenie x(µ) vyhovuje kritériu (.4). V tomto prípade neprebehne iteračný cyklus a platí x exact x(µ) = x exact x iter = 4, 0030e 16. Pre δ = 10 16 prebehne jeden krok iteračného spresnenia (v algoritme.3. je x (1) = x(µ) a x () = x iter ). Platí Presne je x exact x(µ) > x exact x iter. x exact x(µ) = 4, 0030e 16 a x exact x iter = 1, 5700e 16. Teda, riešenie iteračne upravené je bližšie k skutočnému riešeniu. Uved me ešte príklad, na ktorom je možné vidiet výhodnost ukončovacieho kritéria (.4). Príklad 3. Uvažme data: 1 0 0 1 1 1 0 1 = 1 1 1 1 0 0 1 0, b = 0 0, 0 1 0 1 0 1 1 B = [ ] 1 1, d = 0 1 0 [ ] 0. 1 Vol bou µ = 10 3 zistujeme, že prvý iteračný cyklus výrazne vylepšuje riešenie získané metódou váh bez iteračného spresnenia, ktoré sa ako vieme z časti.3. môže pre malú hodnotu váhy µ podstatne líšit od presného riešenia. Riešenie bez iteračného spresnenia je označené indexom k = 1, x (1) = x(µ). Nasledujúca tabul ka ukazuje normalizovaný rozdiel počítaného a skutočného riešenia pre dve iterácie a súčasne efektivitu podmienky (.4). 3

k x (k) x exact x (k) d Bx (k) B x (k) 1 3, 50e 6 1, 09e 6 5, 47e 1 1, 74e 1 3 1, 1e 15, 79e 17 Tabul ka.3: Ukážka efektivity ukončovacieho kritéria (.4). Prvý stĺpec tabul ky obsahuje normalizovanú odchýlku od skutočného riešenia pre riešenie získané metódou váh (k = 1) a prvé a druhé iteračné spresnenie (k =, 3). Druhý stĺpec zachytáva správanie sa podmienky (.4) pre jednotlivé iterácie. Vidíme, že skutočne pre malú hodnotu váhy µ = 10 3 prvé iteračné spresnenie (k = ) znamená výrazné spresnenie riešenia x(µ). Druhým iteračným spresnením (k = 3) získavame riešenie, ktorého normalizovaný rozdiel od skutočného riešenia sa rovná malému násobku strojovej presnosti eps. Z druhého stĺpca tabul ky.3 plynie, že ak chceme dosiahnút presnost riešenia x iter na úrovni strojovej presnosti k skutočnému riešeniu, potrebujeme volit v ukončovacej podmienke (.4) δ 10 13. V takom prípade prebehnú obidva kroky iteračného algoritmu. 33