Statistinis modelis yra matematinė projekcija, apimanti įvairių prielaidų, susijusių su kai kurių imties duomenų generavimu, rinkinį. Terminas dažnai pateikiamas labai idealizuota forma.
Statistikos modelyje išreikštos prielaidos rodo tikimybių skirstinių rinkinį. Daugelis iš jų yra skirti teisingai aproksimuoti paskirstymą, iš kurio gaunamas tam tikras informacijos rinkinys. Tikimybių skirstiniai, būdingi statistiniams modeliams, išskiria projekciją nuo kitų matematinių modifikacijų.
Bendra projekcija
Matematinis modelis – tai sistemos aprašymas naudojant tam tikras sąvokas ir kalbą. Jie taikomi gamtos mokslams (tokioms kaip fizika, biologija, žemės mokslas, chemija) ir inžinerijos disciplinoms (tokioms kaip informatika, elektrotechnika), taip pat socialiniams mokslams (tokioms kaip ekonomika, psichologija, sociologija, politikos mokslai).
Modelis gali padėti paaiškinti sistemą irištirti įvairių komponentų įtaką ir prognozuoti elgesį.
Matematiniai modeliai gali būti įvairių formų, įskaitant dinamines sistemas, statistines projekcijas, diferencialines lygtis arba žaidimo teorinius parametrus. Šie ir kiti tipai gali sutapti, o šis modelis apima daug abstrakčių struktūrų. Apskritai, matematinės projekcijos gali apimti ir loginius komponentus. Daugeliu atvejų mokslo srities kokybė priklauso nuo to, kaip teoriškai sukurti matematiniai modeliai dera su kartotinių eksperimentų rezultatais. Sutapimo tarp teorinių procesų ir eksperimentinių matavimų trūkumas dažnai lemia svarbią pažangą, nes kuriamos geresnės teorijos.
Fizikiniuose moksluose tradicinį matematinį modelį sudaro daug šių elementų:
- Valdymo lygtys.
- Papildomi submodeliai.
- Apibrėžkite lygtis.
- Sudedamųjų lygčių.
- Prielaidos ir apribojimai.
- Pradinės ir ribinės sąlygos.
- Klasikiniai apribojimai ir kinematinės lygtys.
Formulė
Statistinis modelis, kaip taisyklė, nustatomas matematinėmis lygtimis, kurios sujungia vieną ar daugiau atsitiktinių dydžių ir, galbūt, kitų natūraliai pasitaikančių kintamųjų. Panašiai projekcija laikoma „formaliąja sąvokos samprata“.
Visi statistinių hipotezių tikrinimai ir statistiniai vertinimai gaunami iš matematinių modelių.
Įvadas
Neformaliai statistinis modelis gali būti vertinamas kaip prielaida (arba prielaidų rinkinys) su konkrečia savybe: jis leidžia apskaičiuoti bet kokio įvykio tikimybę. Kaip pavyzdį apsvarstykite įprastų šešiakampių kauliukų porą. Reikia ištirti dvi skirtingas statistines prielaidas apie kaulą.
Pirmoji prielaida yra:
Kiekvieno kauliuko tikimybė gauti vieną iš skaičių (1, 2, 3, 4, 5 ir 6) yra: 1/6.
Remiantis šia prielaida, galime apskaičiuoti abiejų kauliukų tikimybę: 1:1/6×1/6=1/36.
Apskritai, galite apskaičiuoti bet kokio įvykio tikimybę. Tačiau reikia suprasti, kad neįmanoma apskaičiuoti jokio kito nereikšmingo įvykio tikimybės.
Tik pirmoji nuomonė renka statistinį matematinį modelį: dėl to, kad tik su viena prielaida galima nustatyti kiekvieno veiksmo tikimybę.
Aukščiau pateiktame pavyzdyje, gavus pradinį leidimą, lengva nustatyti įvykio galimybę. Su kai kuriais kitais pavyzdžiais skaičiavimas gali būti sudėtingas arba net nerealus (pavyzdžiui, gali prireikti daugelio metų skaičiavimų). Asmeniui, kuriančiam statistinės analizės modelį, toks sudėtingumas laikomas nepriimtinu: skaičiavimų įgyvendinimas neturėtų būti praktiškai neįmanomas ir teoriškai neįmanomas.
Oficialus apibrėžimas
Matematine prasme statistinis sistemos modelis paprastai laikomas pora (S, P), kur S yragalimų stebėjimų rinkinys, t. y. imties erdvė, o P yra tikimybių skirstinių rinkinys S.
Šio apibrėžimo intuicija yra tokia. Daroma prielaida, kad yra „tikrasis“tikimybių pasiskirstymas, kurį sukelia procesas, generuojantis tam tikrus duomenis.
Nustatyti
Jis nustato modelio parametrus. Norint nustatyti skirtingus parametrus, paprastai reikia skirtingų reikšmių, t. y.
turi turėti (kitaip tariant, turi būti injekcinis). Teigiama, kad reikalavimą atitinkanti parametrizacija yra identifikuojama.
Pavyzdys
Tarkime, kad yra tam tikras skaičius skirtingo amžiaus mokinių. Vaiko ūgis bus stochastiškai susijęs su gimimo metais: pavyzdžiui, kai moksleiviui sukanka 7 metai, tai turi įtakos augimo tikimybei, tik tiek, kad žmogus bus aukštesnis nei 3 centimetrai.
Šį metodą galite formalizuoti į tiesios regresijos modelį, pavyzdžiui, taip: aukštis i=b 0 + b 1agei + εi, kur b 0 yra sankirta, b 1 yra parametras, pagal kurį amžius padauginamas, kai gaunamas aukščio stebėjimas. Tai klaidos terminas. Tai yra, daroma prielaida, kad ūgis nuspėjamas pagal amžių su tam tikra paklaida.
Galima forma turi atitikti visus informacijos taškus. Taigi, tiesi kryptis (lygis i=b 0 + b 1agei) negali būti lygtis duomenų modeliui – jei ji aiškiai neatsako absoliučiai į visus taškus. T.ybe išimties visa informacija yra nepriekaištinga. Klaidos riba εi turi būti įvesta į lygtį, kad forma atitiktų absoliučiai visus informacijos elementus.
Norėdami padaryti statistinę išvadą, pirmiausia turime daryti prielaidą, kad ε i tikimybių skirstiniai. Pavyzdžiui, galima daryti prielaidą, kad ε i skirstiniai turi Gauso formą su nuliniu vidurkiu. Šiuo atveju modelis turės 3 parametrus: b 0, b 1 ir Gauso skirstinio dispersiją.
Galite oficialiai nurodyti modelį kaip (S, P).
Šiame pavyzdyje modelis apibrėžiamas nurodant S, todėl galima daryti kai kurias prielaidas apie P. Yra dvi parinktys:
Šį augimą galima apytiksliai apskaičiuoti pagal tiesinę amžiaus funkciją;
Kad aproksimacijos klaidos būtų paskirstytos kaip Gauso viduje.
Bendrosios pastabos
Modelių statistiniai parametrai yra speciali matematinių projekcijų klasė. Kuo viena rūšis skiriasi nuo kitos? Taigi statistinis modelis yra nedeterministinis. Taigi joje, skirtingai nei matematinėse lygtyse, tam tikri kintamieji neturi tam tikrų reikšmių, o turi galimybių pasiskirstymą. Tai yra, atskiri kintamieji laikomi stochastiniais. Aukščiau pateiktame pavyzdyje ε yra stochastinis kintamasis. Be jo projekcija būtų deterministinė.
Dažnai naudojamas statistinio modelio kūrimas, net jei materialinis procesas laikomas deterministiniu. Pavyzdžiui, monetų mėtymas iš esmės yra iš anksto nulemtas veiksmas. Tačiau daugeliu atvejų tai vis tiek modeliuojama kaip stochastinė (per Bernulio procesą).
Pasak Konishi ir Kitagawa, statistiniam modeliui yra trys tikslai:
- Prognozės.
- Informacijos gavyba.
- Stochastinių struktūrų aprašymas.
Projekcijos dydis
Tarkime, kad yra statistinio prognozavimo modelis, Modelis vadinamas parametriniu, jei O turi baigtinį matmenį. Sprendime turite parašyti, kad
kur k yra teigiamas sveikasis skaičius (R reiškia bet kokius realius skaičius). Čia k vadinamas modelio matmeniu.
Pavyzdžiui, galime daryti prielaidą, kad visi duomenys gaunami iš vienmačio Gauso skirstinio:
Šiame pavyzdyje k matmuo yra 2.
Ir kaip kitas pavyzdys, galima daryti prielaidą, kad duomenis sudaro (x, y) taškai, kurie, kaip manoma, yra paskirstyti tiesia linija su Gauso likučiais (su nuliniu vidurkiu). Tada statistinio ekonominio modelio dimensija lygi 3: tiesės sankirta, jos nuolydis ir likučių skirstinio dispersija. Reikėtų pažymėti, kad geometrijoje tiesės matmuo yra 1.
Nors aukščiau pateikta reikšmė techniškai yra vienintelis parametras, turintis k dimensiją, kartais manoma, kad joje yra k skirtingų reikšmių. Pavyzdžiui, naudojant vienmatį Gauso skirstinį, O yra vienintelis parametras, kurio dydis yra 2, bet kartais manoma, kad jį sudaro duindividualus parametras – vidutinė vertė ir standartinis nuokrypis.
Statistinis proceso modelis yra neparametrinis, jei O reikšmių rinkinys yra begalinis. Jis taip pat yra pusiau parametrinis, jei turi ir baigtinių, ir begalinių matmenų parametrus. Formaliai, jei k yra O matmuo, o n yra imčių skaičius, pusiau parametriniai ir neparametriniai modeliai turi
tada modelis yra pusiau parametrinis. Kitu atveju projekcija yra neparametrinė.
Parametriniai modeliai yra dažniausiai naudojama statistika. Dėl pusiau parametrinių ir neparametrinių projekcijų seras Davidas Coxas pasakė:
"Paprastai jose pateikiama mažiausiai hipotezių apie tekstūrą ir pasiskirstymo formą, tačiau jose yra ir galingų savarankiškumo teorijų."
Įdėtieji modeliai
Nepainiokite jų su daugiapakopėmis projekcijomis.
Du statistiniai modeliai yra sudėti, jei pirmąjį galima konvertuoti į antrąjį nustatant apribojimus pirmojo parametrams. Pavyzdžiui, visų Gauso skirstinių rinkinys turi įdėtą nulinio vidurkio skirstinių rinkinį:
Tai yra, jūs turite apriboti visų Gauso skirstinių rinkinio vidurkį, kad gautumėte skirstinius su nuliniu vidurkiu. Kaip antras pavyzdys, kvadratinis modelis y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) turi įterptąjį tiesinį modelį y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) – t.y. parametras b2 yra lygus 0.
Abiejuose šiuose pavyzdžiuose pirmasis modelis turi didesnį matmenį nei antrasis modelis. Taip būna dažnai, bet ne visada. Kitas pavyzdys yra Gauso skirstinių su teigiamu vidurkiu rinkinys, kurio matmuo yra 2.
Modelių palyginimas
Manoma, kad yra „tikrasis“tikimybių pasiskirstymas, pagrįstas stebimais duomenimis, kuriuos sukelia juos sugeneravęs procesas.
Be to, modelius galima palyginti tarpusavyje, naudojant tiriamąją arba patvirtinamąją analizę. Tiriamojoje analizėje suformuluojami skirtingi modeliai ir įvertinama, kaip kiekvienas iš jų apibūdina duomenis. Atliekant patvirtinamąją analizę, anksčiau suformuluota hipotezė lyginama su pradine. Įprasti kriterijai yra P 2, Bajeso koeficientas ir santykinė tikimybė.
Konishi ir Kitagawa mintis
„Dauguma statistinio matematinio modelio problemų gali būti laikomos nuspėjamaisiais klausimais. Paprastai jie formuluojami kaip kelių veiksnių palyginimai.“
Be to, seras Davidas Coxas pasakė: „Kaip išvertus iš temos, statistinio modelio problema dažnai yra svarbiausia analizės dalis.“