Mixed-effects model.

Podobné dokumenty
Jednotkový koreň (unit root), diferencovanie časového radu, unit root testy Beáta Stehlíková Časové rady, FMFI UK, 2011/2012 Jednotkový koreň(unit roo

PowerPoint Presentation

MO_pred1

Prezentácia programu PowerPoint

Lukacikova-Lukacik-Szomolanyi2006

SRPkapitola06_v1.docx

Viacnásobne použitelné oblasti spolahlivosti pre viacrozmernú kalibráciu

1. KOMPLEXNÉ ČÍSLA 1. Nájdite výsledok operácie v tvare x+yi, kde x, y R. a i (5 2i)(4 i) b. i(1 + i)(1 i)(1 + 2i)(1 2i) (1 7i) c. (2+3i) a+bi d

Microsoft PowerPoint - Zeman_Senaj.ppt

Teória pravdepodobnosti Zákony velkých císel

RELIK Reprodukce lidského kapitálu vzájemné vazby a souvislosti listopadu 2014 MODELING OF THE ECONOMIC RELATIONSHIP BETWEEN DEMOGRAPHI

Numerické riešenie všeobecnej (klasickej) DMPK rovnice.

Základné stochastické procesy vo financiách

Ekon Supply of labour by John Pencavel

STRUČNÝ NÁVOD KU IP-COACHU

Exaktné testy a konfidencné oblasti pre parametre normálneho lineárneho modelu s dvomi variancnými komponentami

STRUČNÝ NÁVOD KU IP-COACHU

Vybrané kapitoly zo štatistickej fyziky - domáce úlohy Michal Koval 19. mája 2015 Domáca úloha č. 1 (pochádza z: [3]) Systém pozos

NSK Karta PDF

Autoregresné (AR) procesy Beáta Stehlíková Časové rady, FMFI UK Autoregresné(AR) procesy p.1/22

Microsoft Word - 06b976f06a0Matice - Uzivatelska Dokumentacia

Pokrocilé programovanie XI - Diagonalizácia matíc

Úvod do lineárnej algebry Monika Molnárová Prednášky 2006

MERANIE U a I.doc

Operačná analýza 2

Microsoft Word - Zaver.pisomka_januar2010.doc

Analýza hlavných komponentov

MODELLING OF HOUSE PRICES BY USING DEMOGRAPHIC AND ECONOMIC DETERMINANTS Miroslav Panik Julius Golej Daniela Spirkova Abstract Slovak real estate mark

Tue Oct 3 22:05:51 CEST Začiatky s jazykom C 2.1 Štruktúra programu Štruktúra programu by sa dala jednoducho popísať nasledovnými časťami, kto

Pacakova.Viera

Microsoft Word - Fabik - esej2011_18-is-xfabik.doc

Modelovanie nového produktu na trhu: Bassov model Beáta Stehlíková Cvičenia z časových radov, FMFI UK Modelovanie nového produktu na trhu: Bassov mode

2.5. Dotyčnica krivky, dotykový kužeľ. Nech f je krivka a nech P V (f) (t.j. m P (f) 1). Ak m P (f) = r a l je taká priamka, že I P (f, l) > r, potom

VSDC Free Video Editor stručný návod na používanie Link na sťahovanie softvéru: K prog

4. Pravidlo ret azenia. Často sa stretávame so skupinami premenných, ktoré zložitým spôsobom závisia od iných skupín premenných. Pravidlo ret azenia p

Preco kocka stací? - o tom, ako sú rozdelené vlastné hodnoty laplasiánu v limite, ked sú velké

Paralelné algoritmy, cast c. 2

Výhľad Slovenska na najbližšie roky

Študijný program (Študijný odbor) Školiteľ Forma štúdia Téma Elektronické zbraňové systémy (8.4.3 Výzbroj a technika ozbrojených síl) doc. Ing. Martin

Prenosový kanál a jeho kapacita

8 Cvičenie 1.1 Dokážte, že pre ľubovoľné body X, Y, Z platí X + Y Z = Z + Y X. 1.2 Dokážte, že pre ľubovoľné body A, B, D, E, F, G afinného priestoru

Dopyt po vzdelaní

TÉZY K ŠTÁTNYM ZÁVEREČNÝM SKÚŠKAM Z PREDMETU MIKRO A MAKROEKONÓMIA Bc štúdium, študijný odbor: Ľudské zdroje a personálny manažment 1. Ekonómia ako sp

TESTOVANIE STABILITY PROCESU POKRAČOVANIA GRADIOMETRICKÝCH MERANÍ DRUŽICE GOCE NADOL

Zavedenie systému separácie a manažment odpadového hospodárstva obce Jaklovce

O možnosti riešenia deformácie zemského povrchu z pohladu metódy konecných prvkov konference pro studenty matematiky

Snímka 1

Experimentálna identifikácia nelineárneho dynamického systému pomocou

Identity Lifecycle Management

FAQ

Manažment v Tvorbe Softvéru 2018/2019

8

9. kapitola Maticová algebra II systém lineárnych rovníc, Frobeniova veta, Gaussova eliminačná metóda, determinanty 1. Systém lineárnych rovníc Systém

Slide 1

Prezentácia programu PowerPoint

Meno: Škola: Ekonomická olympiáda 2017/2018 Test krajského kola SÚŤAŽ REALIZUJE PARTNERI PROJEKTU

DOTAZNÍK PRE POISTENIE MONTÁŽNYCH PRÁC 1.Názov montážneho diela ( ak montážne dielo pozostáva z viacerých častí, uveďte tie, ktoré majú byť poistené)

16 Franck-Hertz.doc

ARMA modely čast 3: zmiešané modely (ARMA) Beáta Stehlíková Časové rady, FMFI UK ARMA modely časť 3: zmiešané modely(arma) p.1/30

Prezentácia programu PowerPoint

Študent 1. kapitola Maticová algebra I 1.1 Definícia matice V mnohých prípadoch dáta majú štruktúru dvojrozmernej tabuľky, ktorá má m riadkov a n stĺp

Microsoft Word - Transparencies03.doc

Úvodná prednáška z RaL

Optimal approximate designs for comparison with control in dose-escalation studies

Úloha č.2 Meranie odporu rezistorov Vladimír Domček Astrofyzika semester Skupina č Laboratórne podmienky: Teplota: 22,6 C Tlak:

Snímka 1

Pokrocilé programovanie II - Nelineárne iteracné schémy, chaos, fraktály

Vzorové riešenia úlohy 4.1 Bodovanie Úvod do TI 2010 Dôvod prečo veľa z Vás malo málo bodov bolo to, že ste sa nepokúsili svoje tvrdenia dokázať, prič

12Prednaska

INTERNET BANKING Ako zrealizovať hromadný prevod VŠETKO, ČO JE MOŽNÉ with.vub.sk, Bank of

Informačné technológie

Objektovo orientované programovanie

trafo

1

UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY KVANTILOVÁ REGRESIA V EKONOMETRII DIPLOMOVÁ PRÁCA 2014 Bc. Lucia KUBALOVÁ

Štruktúra Modelu Výsledky odhadu Záver Trh práce v krajinách strednej Európy: Small Search and Matching Model Martin Železník Národná Banka Slovenska

PYROMETER AX-6520 Návod na obsluhu

Prezentácia programu PowerPoint

NSK Karta PDF

Microsoft Word - Glova.docx

Blue Chalkboard

Cvičenie I. Úvodné informácie, Ekonómia, Vedecký prístup

V mesiaci december 2013 bola internetová populácia na Slovensku v počte užívateľov. Užívatelia uskutočnili celkovo zobra

Informačná a modelová podpora pre kvantifikáciu prvkov daňovej sústavy SR

Podpora metód operačného výskumu pri navrhovaní systému liniek doc. RNDr. Štefan PEŠKO, CSc. Katedra matematických metód, Fa

NSK Karta PDF

9.1 MOMENTY ZOTRVACNOSTI \(KVADRATICKÉ MOMENTY\) A DEVIACNÝ MOMENT PRIEREZU

Úroveň strojového kódu procesor Intel Pentium Pamäťový operand Adresovanie pamäte Priama nepriama a indexovaná adresa Práca s jednorozmerným poľom Pra

Microsoft Word - 30.doc

gis5 prifuk

Microsoft PowerPoint - Paschenov zakon [Read-Only] [Compatibility Mode]

VZTAH STUDENTŮ VŠ K DISCIPLÍNÁM TEORETICKÉ INFORMATIKY

Príloha č

1

Princípy tvorby softvéru Programovacie paradigmy

Prezentácia programu PowerPoint

A51

Prepis:

Mixed-effects model Zdroje: Tutorial Introduction to linear mixed models biológia/životné prostredie, DRACI, dosť podrobné od základov, dobre pochopiteľné, kódy v R https://ourcodingclub.github.io/tutorials/mixed-models/ Wikipedia - stručná https://en.wikipedia.org/wiki/mixed_model Introduction to linear mixed models -lekárske https://stats.idre.ucla.edu/other/mult-pkg/introduction-to-linear-mixed-models/ Chapter 17: Mixed Effects Modeling - pizza, mätúce, kódy v R https://ademos.people.uic.edu/chapter17.html

Mixed-effects model/zmiešaný model (lineárny) Obsahuje Fixné efekty / Fixed effects Náhodné efekty /Random effects longitudálne štúdie (biológia,lekárske vedy) opakované merania na jedincoch Napr. meranie nejakej charakteristiky s vekom jedinca (výška ) - bude charakteristické pre jedinca (náhodný efekt), ale predpokladajme že trend rastu s vekom bude podobný (fixný efekt)

Prečo a kedy používať zmiešaný model? Chceme si vychovať draka merania IQ drakov v rôznych údoliach Závisí ich IQ na veľkosti? Ak nie, menší drak toho menej zožerie IQ veľkosť

Prečo a kedy používať zmiešaný model? Závislé kde sme merali?

Prečo a kedy používať zmiešaný model? Závislé kde sme merali?

Prečo a kedy používať zmiešaný model? Chceme si vychovať draka merania IQ drakov v rôznych údoliach Závisí ich IQ na veľkosti? Ak nie, menší drak toho menej zožerie IQ veľkosť

Prečo a kedy používať zmiešaný model? Dáta v skupinách: Závislosti v dátach: j2 j1 j3 j4 j6 y meraná veličina j1 j2 j3 j4 j6 Hladiny špecifické pre jednotlivcov uvažujme merania v rôznych časoch pre jednotlivcov x závislá premenná pre každého jednotlivca

Prečo a kedy používať zmiešaný model? Pre každého jedina máme niekoľko meraní, ale ak budeme prekladať lineárnu závislosť pre každého zvlášť, z veľkej sady dát sa dostaneme na oveľa menšiu ak budeme prekladať na celú sadu dát bez uváženia vplyvu jednotlivcov, vnášame tam chybu Zmiešané modely sú cesta: nájdu variáciu jednotlivcov (random effect) nájdu spoločný trend pre všetkých jednotlivcov (fixed effect)

Prečo a kedy používať zmiešaný model? Používať vždy keď dáta nie sú nezávislé Hierarchické dáta (multilevel) Ak sa dáta dajú rozdeliť do skupín Výsledné štandardné odchýlky opravené o závislosti v dátach Môžnosť skúmať vlastnosti medzi skupinami a vo vnútri skupiny

Zmiešaný model teoreticky Klasická lineárna úloha y=x β+ϵ y=x β+z u+ϵ y meraná veličina X závislé veličiny pre fixné efekty (predictor/explanatory variables) β regresné koeficienty pre fixné efekty Z...závislé veličiny pre náhodné efekty u...koeficienty pre náhodné efekty ϵ...reziduá (nemodelované)

Predpoklady: E[y] = Xβ E[u]=0 E[ϵ]=0 cov(u,ϵ)=0 Zmiešaný model teoreticky Normálne rozdelenia Ako sa to rieši? Hľadá sa maximálna pravdepodobnosť iteratívne (Expectation-maximization algorithm) a niekto nám to už nakódil pozn.: X a Z môžu obsahovať rovnaké veličiny y=x β+z u+ϵ

Zmiešaný model, čo je čo? Lineárna regresia klasicky: y=a*x+b+ϵ y i namerané hodnoty v závislosti na x i, hľadáme koeficienty a a b, ostane nám reziduum ϵ i Lineárna regresia zmiešane: y=a*x+b+u+ϵ Namerané hodnoty y i (pre dané x i ) nie sú nezávislé ale môžeme ich rozdeliť do skupín, kde každá skupina bude mať vlastný posun y jk =a*x jk +b+u j +ϵ jk. Hľadáme koeficienty a,b, ale aj u Pozn.: Náhodné efekty nás zase až tak nezaujímajú (asi tak ako nás nezaujíma každé ϵ), ale potrebujeme ich vyhodnotiť aby sme správne určili fixné efekty. Výsledok pre náhodné efekty býva len ich variancia (podobne ako výsledok pre jednotlivé ϵ býva zadaný formou štandardnej odchýlky).

Zmiešaný model, čo je čo? Draci z údolí: 8 údolí, v každom sme namerali (IQ, veľkosť) pre nejaký počet drakov (okolo 50) y: 8*50 hodnôt IQ X: matica, 2 stĺpce, 8*50 riadkov [ 1 v 1 1 v 400] Z: matica, 8 stĺpcov, 8*50 riadkov, všade 0 okrem 1 kde drak patrí do údolia [10... 0 10... 0 0... 01]

Riešenie v pythone: statsmodels https://www.statsmodels.org statistical models, hypothesis tests, and data exploration Triedy a funkcie na určovanie mnohých rôznych štatistických modelov, štatistické testy a štatistické skúmanie datasetov Vie toho veľa: regresia a lineárne modely zobecnené lineárne inverzie, zmiešané modely, anova, time series analysis a ďalšie statsmodels podporuje zadávanie modelov pomocou formuly ako v R (veľa príkladov zmiešaných modelov v R) a pandas DataFrames (rozšírenie numpy array, veľmi elegantný kód)

Statsmodels Inštalácia Python 3.6, 3.7 a 3.8 Ďalšie závislosti: Numpy, Scipy, Pandas, Patsy Anaconda (otestované) conda install -c conda-forge statsmodels pip pip install statsmodels

Statsmodels - základ Importuj moduly: import statsmodels.api as sm import pandas Načítaj dáta (pandas.read_csv) Fituj v 3 krokoch (príklad na obyčajné najmenšie štvorce) 1. definuj model: mod=sm.ols(y, X) 2. fituj: res = mod.fit() 3. výsledok: print(res.summary())

Príklad zo seizmológie - GMPE GMPE jednoduchá rovnica medzi mierou pohybu pôdy Y a ďalšími parametrami (Mw,R,...) F E source/event term F P path term F S site term σ total standard deviation My máme syntetickú úlohu, bez site efektov, 1 mechanizmus, syntetické Y Budeme skúmať reziduá Rij =ln Y ij - ln Y ij pred Boore et al. 2014

Code import statsmodels.api as sm import statsmodels.formula.api as smf import pandas as pd fltf="flt2.0short.csv" df=pd.read_csv(fltf) Možnosť zadávať pomocou R formuliek Načítavanie dát do dataframov #kuk data, stlpce - #model, mw, ruptdist,residat,stressdrop, vrupt Dáta sú nevyhnutné #1. DEFINUJ MODEL, chceme len najst offset fixed effect, random effect (offset variacia) mod=smf.mixedlm("residat ~ 1", data=df, groups=df['#model']) #2. FITUJ modfit=mod.fit() #3. VYSLEDKY print(modfit.summary()) R formula Podľa čoho sú dáta zgrupované

Čo hľadať vo výsledku? Data info Mixed Linear Model Regression Results ======================================================== Model: MixedLM Dependent Variable: residat No. Observations: 2200 Method: REML No. Groups: 100 Scale: 0.1758 Min. group size: 22 Log-Likelihood: -1318.7462 Max. group size: 22 Converged: Yes Mean group size: 22.0 -------------------------------------------------------- Coef. Std.Err. z P> z [0.025 0.975] -------------------------------------------------------- Intercept -0.130 0.026-4.965 0.000-0.181-0.078 Group Var 0.060 0.024 ======================================================== Variancia ϵ (reziduí po odstránení náhodných efektov) Parametre fixných efektov parameters + ich štandardná odchýlka Variancia posunov pre jednotlivé grupy

Čo to znamená pre naše reziduá z GMPE? Mixed Linear Model Regression Results ======================================================== Model: MixedLM Dependent Variable: residat No. Observations: 2200 Method: REML No. Groups: 100 Scale: 0.1758 Min. group size: 22 Log-Likelihood: -1318.7462 Max. group size: 22 Converged: Yes Mean group size: 22.0 -------------------------------------------------------- Coef. Std.Err. z P> z [0.025 0.975] -------------------------------------------------------- Intercept -0.130 0.026-4.965 0.000-0.181-0.078 Group Var 0.060 0.024 ======================================================== Variancia na jednotlivých staniciach (within event) Offset celého datasetu od predikcie Variancia posunov pre javy, charakteristika zemetrasenia/zdroja (between-event)

Zložitejší model hľadáme závislé premenné Mixed Linear Model Regression Results mod=smf.mixedlm("residat ~ ruptdist + vrupt", data=df, groups=df['#model']) modfit=mod.fit() print(modfit.summary()) ======================================================= Model: MixedLM Dependent Variable: residat No. Observations: 2200 Method: REML No. Groups: 100 Scale: 0.1120 Min. group size: 22 Log-Likelihood: -854.4796 Max. group size: 22 Converged: Yes Mean group size: 22.0 ------------------------------------------------------- Coef. Std.Err. z P> z [0.025 0.975] ------------------------------------------------------- Intercept -0.770 0.175-4.407 0.000-1.113-0.428 ruptdist 0.040 0.001 34.241 0.000 0.038 0.043 vrupt 0.138 0.079 1.742 0.082-0.017 0.293 Group Var 0.067 0.032 =======================================================???Ako vybrať správny model? Ktoré parametre sú dôležité? Pozor na overfitting!

Pridanie náhodný efektu v smernici modr=smf.mixedlm("residat ~ vrupt", data=df, groups=df['#model'],re_formula='~ruptdist') modfitr=modr.fit() print(modfitr.summary()) modr2=smf.mixedlm("residat ~ vrupt+ruptdist", data=df, groups=df['#model'],re_formula='~ruptdist') modfitr2=modr2.fit() print(modfitr2.summary()) Mixed Linear Model Regression Results =============================================================== Model: MixedLM Dependent Variable: residat No. Observations: 2200 Method: REML No. Groups: 100 Scale: 0.1002 Min. group size: 22 Log-Likelihood: -862.7192 Max. group size: 22 Converged: Yes Mean group size: 22.0 --------------------------------------------------------------- Coef. Std.Err. z P> z [0.025 0.975] --------------------------------------------------------------- Intercept -0.253 0.051-4.987 0.000-0.352-0.153 Group Var 0.120 0.093 Group x ruptdist Cov -0.011 0.009 ruptdist Var 0.002 0.001 ===============================================================

Kde nájdeme ďalšie výsledky? modfit.fe_params koeficienty pre fixed effects modfit.random_effects posuny pre random efekty modfit.fittedvalues predikcie fixed+ random efekt modfit.resid rezidua (nenamodelovane, data=resid+fittedvalues)

Otázky? Je to rýchle? Áno, to teda je. Pre mňa bolo najväčším orieškom definovať si správne úlohu, čo sa snažím nájsť? Čo má byť náhodným efektom a čo nie? - náhodný efekt má mať nulovú strednú hodnotu, je to len variácia nie 1 dátového bodu ale skupiny dát - chceme ten efekt presne modelovať? V zmysle chceme presne vedieť jeho hodnotu? - náhodný efekt je v diskrétnych vstupoch Ďakujem za pozornosť.