Statistinė informacija: rinkimas, apdorojimas, analizė

Turinys:

Statistinė informacija: rinkimas, apdorojimas, analizė
Statistinė informacija: rinkimas, apdorojimas, analizė
Anonim

Per visą statistikos istoriją buvo įvairių bandymų sukurti matavimo lygių taksonomiją. Psichofizikas Stanley Smithas Stevensas apibrėžė vardinę, eilinę, intervalinę ir proporcinę skales.

Nominali matavimai neturi reikšmingos eilės tarp reikšmių ir leidžia atlikti bet kokią konversiją „vienas su vienu“.

Įprasti matmenys turi netikslių skirtumų tarp iš eilės einančių verčių, tačiau turi konkrečią tų reikšmių tvarką ir leidžia bet kokią tvarką išsaugančią transformaciją.

Intervaliniai matavimai turi reikšmingus atstumus tarp taškų, tačiau nulio reikšmė yra savavališka (kaip ir ilgumos ir temperatūros matavimų Celsijaus arba Farenheito laipsniais atveju) ir leidžia atlikti bet kokią tiesinę transformaciją.

Santykio matmenys turi reikšmingą nulinę reikšmę ir atstumus tarp skirtingų matmenų ir leidžia atlikti bet kokią mastelio transformaciją.

Image
Image

Kintamieji ir informacijos klasifikacija

Kadangi kintamiejiatitinkantys tik vardinius arba eilinius matavimus, negali būti pagrįstai išmatuojami skaitiniais būdais ir kartais sugrupuojami kaip kategoriniai kintamieji. Santykio ir intervalo matavimai yra sugrupuoti kaip kiekybiniai kintamieji, kurie dėl savo skaitmeninio pobūdžio gali būti atskiri arba tęstiniai. Tokie skirtumai dažnai yra silpnai susiję su kompiuterių mokslo duomenų tipu, nes dichotominiai kategoriniai kintamieji gali būti pavaizduoti loginėmis reikšmėmis, daugiafunkciniai kategoriniai kintamieji su savavališkais sveikaisiais skaičiais integraliame duomenų tipe ir tęstiniai kintamieji su realiais komponentais, kurie apima slankiojo kablelio skaičiavimą. Tačiau statistinės informacijos duomenų tipų rodymas priklauso nuo to, kuri klasifikacija taikoma.

Statistinė informacija apie darbuotojus
Statistinė informacija apie darbuotojus

Kitos klasifikacijos

Sukurtos ir kitos statistinių duomenų (informacijos) klasifikacijos. Pavyzdžiui, Mostelleris ir Tukey skyrė pažymius, rangus, suskaičiuotas dalis, skaičius, sumas ir likučius. Nelderis vienu metu apibūdino nuolatinius skaičiavimus, nuolatinius santykius, skaičių koreliaciją ir kategoriškus duomenų perdavimo būdus. Visi šie klasifikavimo metodai naudojami renkant statistinę informaciją.

Problemos

Klausimą, ar tikslinga taikyti skirtingus statistinius metodus duomenims, gautiems taikant skirtingas matavimo (rinkimo) procedūras, apsunkina problemos, susijusios su kintamųjų konvertavimu ir tiksliu klausimų aiškinimu.tyrimai. „Ryšys tarp duomenų ir to, ką jie apibūdina, tiesiog atspindi faktą, kad tam tikros rūšies statistiniai teiginiai gali turėti tiesos reikšmes, kurios nėra nekintamos atliekant tam tikras transformacijas. Ar transformaciją verta apsvarstyti, priklauso nuo klausimo, į kurį bandote atsakyti.

Statistinės informacijos pavyzdys
Statistinės informacijos pavyzdys

Kas yra duomenų tipas

Duomenų tipas yra pagrindinis kintamojo semantinio turinio komponentas ir valdo, kokie tikimybių skirstiniai gali būti logiškai naudojami kintamajam apibūdinti, su juo leidžiamas operacijas, regresinės analizės tipą, naudojamą jam nuspėti. ir tt. Duomenų tipo sąvoka yra panaši matavimo lygio sąvoka, bet konkretesnė – pavyzdžiui, duomenų skaičiai reikalauja kitokio skirstinio (Puasono arba dvinarės) nei neneigiamoms tikrosioms reikšmėms, tačiau abi priskiriamos tam pačiam matavimo lygis (koeficientų skalė).

Statistinė informacija apie teisėjus
Statistinė informacija apie teisėjus

Svarsčiai

Buvo atlikta įvairių bandymų sukurti matavimo lygių taksonomiją statistinei informacijai apdoroti. Psichofizikas Stanley Smithas Stevensas apibrėžė nominalias, eilės, intervalines ir proporcines skales. Vardiniai matavimai neturi reikšmingos eilės eilės tarp reikšmių ir leidžia atlikti bet kokį konvertavimą „vienas su vienu“. Įprasti matavimai turi netikslių skirtumų tarp nuoseklių verčių, tačiau skiriasi reikšminga tų verčių tvarka ir leidžiabet kokia tvarka išsauganti transformacija. Intervaliniai matavimai turi reikšmingus atstumus tarp matavimų, tačiau nulinė reikšmė yra savavališka (kaip ir ilgumos ir temperatūros matavimų Celsijaus arba Farenheito laipsniais atveju) ir leidžia atlikti bet kokią tiesinę transformaciją. Santykio matmenys turi reikšmingą nulinę reikšmę ir atstumus tarp skirtingų apibrėžtų matmenų ir leidžia atlikti bet kokią mastelio transformaciją.

Diagramos modelis
Diagramos modelis

Duomenys, kurių negalima apibūdinti vienu skaičiumi, dažnai įtraukiami į realių atsitiktinių dydžių atsitiktinius vektorius, nors populiarėja tendencija juos apdoroti patiems. Tokie pavyzdžiai bus aptarti toliau.

Atsitiktiniai vektoriai

Atskiri elementai gali būti koreliuojami arba ne. Koreliuojantiems atsitiktiniams vektoriams apibūdinti naudojamų skirstinių pavyzdžiai yra daugiamatis normalusis skirstinys ir daugiamatis t skirstinys. Paprastai tarp bet kokių elementų gali būti savavališkų koreliacijų, tačiau jos dažnai tampa nevaldomos viršijant tam tikrą dydį, todėl reikia papildomų koreliuojamų komponentų apribojimų.

statistinius požymius
statistinius požymius

Atsitiktinės matricos

Atsitiktinės matricos gali būti išdėstytos tiesiškai ir traktuojamos kaip atsitiktiniai vektoriai, tačiau tai gali būti neefektyvus būdas skirtingų elementų koreliacijai pavaizduoti. Kai kurie tikimybių skirstiniai yra specialiai sukurti atsitiktinėms matricoms, pavyzdžiui, normaliajai matricaiplatinimas ir Wishart platinimas.

Atsitiktinės sekos

Kartais jie laikomi tokiais pat kaip atsitiktiniai vektoriai, tačiau kitais atvejais terminas taikomas konkrečiai tais atvejais, kai kiekvienas atsitiktinis kintamasis koreliuoja tik su šalia esančiais kintamaisiais (kaip Markovo modelyje). Tai ypatingas Bayeso tinklo atvejis ir naudojamas labai ilgoms sekoms, tokioms kaip genų grandinės arba ilgi tekstiniai dokumentai. Nemažai modelių yra specialiai sukurti tokioms sekoms, pavyzdžiui, paslėptoms Markovo sekoms.

Tipiška diagrama
Tipiška diagrama

Atsitiktiniai procesai

Jie yra panašūs į atsitiktines sekas, bet tik tada, kai sekos ilgis yra neapibrėžtas arba begalinis, o sekos elementai apdorojami po vieną. Tai dažnai naudojama duomenims, kuriuos galima apibūdinti kaip laiko eilutes. Tai tiesa, kai kalbama, pavyzdžiui, apie akcijų kainą kitą dieną.

Išvada

Statistinės informacijos analizė visiškai priklauso nuo jos rinkimo kokybės. Pastaroji, savo ruožtu, yra stipriai susijusi su jo klasifikavimo galimybėmis. Žinoma, yra daugybė statistinės informacijos klasifikavimo tipų, kuriais skaitytojas galėjo įsitikinti skaitydamas šį straipsnį. Nepaisant to, veiksmingų įrankių buvimas ir geras matematikos mokėjimas, taip pat žinios sociologijos srityje atliks savo darbą, leisdamos atlikti bet kokią apklausą ar tyrimą be reikšmingų klaidų taisymų. Statistinės informacijos š altiniai formoježmonių, organizacijų ir kitų sociologijos dalykų, laimei, atstovaujama labai gausiai. Ir jokie sunkumai negali trukdyti tikram tyrinėtojui.

Rekomenduojamas: