Statistinis modeliavimas: metodai, aprašymas, taikymas

Turinys:

Statistinis modeliavimas: metodai, aprašymas, taikymas
Statistinis modeliavimas: metodai, aprašymas, taikymas
Anonim

Statistinio modeliavimo prielaidos apibūdina tikimybių skirstinių rinkinį, iš kurių, kaip manoma, adekvačiai apytikslis pasiskirstymas. Iš apibrėžimo pasirenkamas konkretus duomenų rinkinys. Tikimybių skirstiniai, būdingi statistiniam modeliavimui, išskiria statistinius modelius nuo kitų, ne statistinių, matematinių modelių.

Image
Image

Ryšys su matematika

Šis mokslinis metodas pirmiausia pagrįstas matematika. Statistinis sistemų modeliavimas dažniausiai pateikiamas matematinėmis lygtimis, kurios susieja vieną ar kelis atsitiktinius dydžius ir galbūt kitus neatsitiktinius kintamuosius. Taigi statistinis modelis yra „formalus teorijos vaizdavimas“(Hermannas Aderis, cituoja Kennethą Bolleną).

Visi statistinių hipotezių testai ir visi statistiniai įverčiai yra gauti iš statistinių modelių. Apskritai statistiniai modeliai yra statistinių išvadų pagrindo dalis.

Statistikos metodaimodeliavimas

Neformaliai statistinis modelis gali būti laikomas statistine prielaida (arba statistinių prielaidų rinkiniu), turinčia tam tikrą savybę: ši prielaida leidžia apskaičiuoti bet kokio įvykio tikimybę. Kaip pavyzdį apsvarstykite įprastų šešiakampių kauliukų porą. Išnagrinėsime dvi skirtingas statistines prielaidas apie kaulą.

Pirmoji statistinė prielaida sudaro statistinį modelį, nes tik su viena prielaida galime apskaičiuoti bet kurio įvykio tikimybę. Alternatyvi statistinė prielaida nesudaro statistinio modelio, nes tik su viena prielaida negalime apskaičiuoti kiekvieno įvykio tikimybės.

Tipiškas statistinis modelis
Tipiškas statistinis modelis

Aukščiau pateiktame pavyzdyje su pirmąja prielaida lengva apskaičiuoti įvykio tikimybę. Tačiau kai kuriuose kituose pavyzdžiuose skaičiavimas gali būti sudėtingas ar net nepraktiškas (pavyzdžiui, gali prireikti milijonų metų skaičiavimo). Prielaidai, kuri sudaro statistinį modelį, šis sunkumas yra priimtinas: skaičiavimo atlikimas neturi būti praktiškai įmanomas, tik teoriškai įmanomas.

Modelių pavyzdžiai

Tarkime, kad turime moksleivių, kurių vaikai yra tolygiai pasiskirstę. Vaiko ūgis bus stochastiškai susijęs su amžiumi: pavyzdžiui, kai žinome, kad vaikui yra 7 metai, tai turi įtakos tikimybei, kad vaikas bus 5 pėdų (apie 152 cm) ūgio. Šį ryšį galėtume formalizuoti tiesinės regresijos modeliu, pavyzdžiui: augimas=b0 + b1agei+ εi, kur b0 – sankirta, b1 – parametras, iš kurio amžius dauginamas, kai gaunama augimo prognozė, εi – paklaidos narys. Tai reiškia, kad ūgis nuspėjamas pagal amžių su tam tikra klaida.

Tinkamas modelis turi atitikti visus duomenų taškus. Taigi tiesi linija (heighti=b0 + b1agei) negali būti duomenų modelio lygtis – nebent ji tiksliai atitinka visus duomenų taškus, t. y. visi duomenų taškai puikiai guli tiesėje. Klaidos terminas εi turi būti įtrauktas į lygtį, kad modelis atitiktų visus duomenų taškus.

lyčių statistika
lyčių statistika

Norėdami padaryti statistinę išvadą, pirmiausia turime daryti prielaidą, kad εi tikimybių skirstiniai. Pavyzdžiui, galime daryti prielaidą, kad εi skirstiniai yra Gauso, o vidurkis nulinis. Šiuo atveju modelis turės 3 parametrus: b0, b1 ir Gauso skirstinio dispersiją.

Bendras aprašymas

Statistinis modelis yra speciali matematinio modelio klasė. Statistinį modelį iš kitų matematinių modelių išskiria tai, kad jis nėra deterministinis. Jis naudojamas statistiniams duomenims modeliuoti. Taigi statistiniame modelyje, apibrėžtame matematinėmis lygtimis, kai kurie kintamieji neturi konkrečių reikšmių, bet turi tikimybių skirstinius; tai yra, kai kurie kintamieji yra stochastiniai. Aukščiau pateiktame pavyzdyje ε yra stochastinis kintamasis; be šio kintamojo modelis buvobūtų deterministinis.

Statistikos modeliai dažnai naudojami atliekant statistinę analizę ir modeliavimą, net jei modeliuojamas fizinis procesas yra deterministinis. Pavyzdžiui, monetų mėtymas iš esmės yra deterministinis procesas; tačiau paprastai jis modeliuojamas kaip stochastinis (per Bernulio procesą).

atšilimo statistika
atšilimo statistika

Parametriniai modeliai

Parametriniai modeliai yra dažniausiai naudojami statistiniai modeliai. Kalbėdamas apie pusiau parametrinius ir neparametrinius modelius, seras Davidas Coxas sakė: „Juose paprastai pateikiama mažiau prielaidų apie paskirstymo struktūrą ir formą, tačiau paprastai yra tvirtų nepriklausomumo prielaidų“. Kaip ir visi kiti paminėti modeliai, jie taip pat dažnai naudojami statistiniame matematinio modeliavimo metode.

Kelių lygių modeliai

Daugiapakopiai modeliai (taip pat žinomi kaip hierarchiniai tiesiniai modeliai, įdėtųjų duomenų modeliai, mišrūs modeliai, atsitiktinių koeficientų, atsitiktinių efektų modeliai, atsitiktinių parametrų modeliai arba skaidyti modeliai) yra statistinių parametrų modeliai, kurie skiriasi daugiau nei vienu lygiu. Pavyzdys yra mokinių pasiekimų modelis, kuriame yra atskirų mokinių ir klasių, kuriose mokiniai sugrupuoti, metrikos. Šie modeliai gali būti laikomi tiesinių modelių (ypač tiesinės regresijos) apibendrinimais, nors juos taip pat galima išplėsti į nelinijinius modelius. Šie modeliai tapodaug populiaresnis, kai tik atsirado pakankamai skaičiavimo galios ir programinės įrangos.

Segmentų statistika
Segmentų statistika

Daugiapakopiai modeliai ypač tinka mokslinių tyrimų projektams, kuriuose dalyvių duomenys organizuojami daugiau nei vienu lygiu (ty įdėtieji duomenys). Analizės vienetai paprastai yra asmenys (žemesniame lygyje), kurie yra įterpti į konteksto / suvestinius vienetus (aukštesniame lygyje). Nors žemiausias kelių lygių modelių duomenų lygis paprastai yra individualus, galima apsvarstyti ir pakartotinius asmenų matavimus. Taigi daugiapakopiai modeliai suteikia alternatyvų vienos ar daugiamatės kartotinių matavimų analizės tipą. Galima atsižvelgti į individualius augimo kreivių skirtumus. Be to, kelių lygių modeliai gali būti naudojami kaip alternatyva ANCOVA, kai priklausomi kintamieji balai koreguojami pagal kovariates (pvz., individualius skirtumus) prieš atliekant gydymo skirtumų testą. Daugiapakopiai modeliai gali analizuoti šiuos eksperimentus nedarant vienodų regresijos šlaitų, kurių reikalauja ANCOVA.

Kelių lygių modelius galima naudoti duomenims su daugybe lygių, nors dažniausiai naudojami dviejų lygių modeliai, o likusioje šio straipsnio dalyje dėmesys sutelkiamas į juos. Priklausomas kintamasis turėtų būti nagrinėjamas žemiausiu analizės lygiu.

Atmosferos slėgio grafikas
Atmosferos slėgio grafikas

Modelio pasirinkimas

Modelio pasirinkimasyra užduotis atrinkti iš kandidatų modelių rinkinio, atsižvelgiant į duomenis, atliekama statistinio modeliavimo rėmuose. Paprasčiausiais atvejais atsižvelgiama į jau esamą duomenų rinkinį. Tačiau užduotis taip pat gali apimti eksperimentų sukūrimą, kad surinkti duomenys būtų gerai pritaikyti modelio pasirinkimo užduočiai. Atsižvelgiant į siūlomus modelius, turinčius panašią nuspėjamąją ar aiškinamąją galią, paprasčiausias modelis greičiausiai bus geriausias pasirinkimas (Occam skustuvas).

Konishi & Kitagawa sako: „Dauguma statistinių išvadų problemų gali būti laikomos problemomis, susijusiomis su statistiniu modeliavimu. Panašiai Coxas sakė: „Tai, kaip tiriamas dalykas paverčiamas statistiniu modeliu, dažnai yra pati svarbiausia analizės dalis“.

Modelių pasirinkimas taip pat gali būti susijęs su keleto reprezentatyvių modelių atrinkimo iš didelio skaičiavimo modelių rinkinio, kad būtų priimtas sprendimas ar optimizavimas, esant neapibrėžčiai, problema.

Grafiniai raštai

Grafinis modelis arba tikimybinis grafinis modelis (PGM) arba struktūrinis tikimybinis modelis yra tikimybinis modelis, kurio grafikas išreiškia sąlyginio ryšio tarp atsitiktinių dydžių struktūrą. Jie dažniausiai naudojami tikimybių teorijoje, statistikoje (ypač Bajeso statistikoje) ir mašininiame mokyme.

Statistinis modelis su grafiku
Statistinis modelis su grafiku

Ekonometriniai modeliai

Ekonometriniai modeliai yra statistiniai modeliai, naudojamiekonometrija. Ekonometrinis modelis apibrėžia statistinius ryšius, kurie, kaip manoma, egzistuoja tarp įvairių ekonominių dydžių, susijusių su konkrečiu ekonominiu reiškiniu. Ekonometrinis modelis gali būti išvestas iš deterministinio ekonominio modelio, kuriame atsižvelgiama į neapibrėžtumą, arba iš ekonominio modelio, kuris pats yra stochastinis. Tačiau taip pat galima naudoti ekonometrinius modelius, kurie nėra susieti su jokia konkrečia ekonomikos teorija.

Rekomenduojamas: