Logistinė regresija: modelis ir metodai

Turinys:

Logistinė regresija: modelis ir metodai
Logistinė regresija: modelis ir metodai
Anonim

Logistinės regresijos ir diskriminacinės analizės metodai naudojami tada, kai reikia aiškiai atskirti respondentus pagal tikslines kategorijas. Šiuo atveju pačios grupės vaizduojamos vieno vieno varianto parametro lygiais. Pažvelkime atidžiau į logistinės regresijos modelį ir išsiaiškinkime, kodėl jis reikalingas.

logistinė regresija
logistinė regresija

Bendra informacija

Problemos, kurioje naudojama logistinė regresija, pavyzdys yra respondentų klasifikavimas į grupes, kurios perka ir neperka garstyčių. Diferencijavimas atliekamas pagal socialines-demografines charakteristikas. Tai visų pirma apima amžių, lytį, giminaičių skaičių, pajamas ir tt Operacijose yra diferencijavimo kriterijai ir kintamasis. Pastarasis užkoduoja tikslines kategorijas, į kurias iš tikrųjų turėtų būti suskirstyti respondentai.

Niuansai

Reikėtų pasakyti, kad logistinės regresijos taikymo atvejų diapazonas yra daug siauresnis nei diskriminacinės analizės atveju. Šiuo atžvilgiu svarstomas pastarojo kaip universalaus diferenciacijos metodo panaudojimaslabiau pageidaujama. Be to, ekspertai rekomenduoja pradėti klasifikavimo tyrimus nuo diskriminacinės analizės. Ir tik esant neaiškumui dėl rezultatų, galite naudoti logistinę regresiją. Tokį poreikį lemia keli veiksniai. Logistinė regresija naudojama tada, kai aiškiai suprantamas nepriklausomų ir priklausomų kintamųjų tipas. Atitinkamai pasirenkama viena iš 3 galimų procedūrų. Diskriminacinėje analizėje tyrėjas visada nagrinėja vieną statinę operaciją. Ji apima vieną priklausomą ir kelis nepriklausomus kategorinius kintamuosius su bet kokio tipo skale.

Peržiūros

Statistinės studijos, kurioje naudojama logistinė regresija, užduotis yra nustatyti tikimybę, kad konkretus respondentas bus priskirtas tam tikrai grupei. Diferencijavimas atliekamas pagal tam tikrus parametrus. Praktiškai pagal vieno ar kelių nepriklausomų veiksnių reikšmes galima suskirstyti respondentus į dvi grupes. Šiuo atveju vyksta dvejetainė logistinė regresija. Taip pat nurodyti parametrai gali būti naudojami skirstant į grupes iš daugiau nei dviejų. Tokioje situacijoje vyksta daugianarė logistinė regresija. Gautos grupės išreiškiamos vieno kintamojo lygiais.

logistinė regresija
logistinė regresija

Pavyzdys

Tarkime, yra respondentų atsakymai į klausimą, ar juos domina pasiūlymas įsigyti žemės sklypą Maskvos priemiestyje. Variantai yra "ne"ir taip. Būtina išsiaiškinti, kurie veiksniai turi vyraujančią įtaką potencialių pirkėjų apsisprendimui. Norėdami tai padaryti, respondentams užduodami klausimai apie teritorijos infrastruktūrą, atstumą iki sostinės, sklypo plotą, gyvenamojo namo buvimą / nebuvimą ir kt. Naudojant dvejetainę regresiją, galima paskirstyti respondentus į dvi grupes. Į pirmąjį bus įtraukti tie, kurie domisi įsigijimu – potencialūs pirkėjai, o į antrąjį – atitinkamai tie, kurių toks pasiūlymas nedomina. Be to, kiekvienam respondentui bus skaičiuojama tikimybė būti priskirtam vienai ar kitai kategorijai.

Lyginamosios charakteristikos

Skirtumas nuo dviejų pirmiau pateiktų parinkčių yra skirtingas grupių skaičius ir priklausomų bei nepriklausomų kintamųjų tipas. Pavyzdžiui, dvejetainėje regresijoje tiriama dichotominio veiksnio priklausomybė nuo vienos ar kelių nepriklausomų sąlygų. Be to, pastarasis gali turėti bet kokio tipo skalę. Daugianomė regresija laikoma šios klasifikacijos varianto variantu. Jame priklausomam kintamajam priklauso daugiau nei 2 grupės. Nepriklausomi veiksniai turi turėti eilinę arba vardinę skalę.

Logistinė regresija spss

11-12 statistikos pakete buvo pristatyta nauja analizės versija - eilinė. Šis metodas naudojamas, kai priklausomasis veiksnys priklauso to paties pavadinimo (eilės) skalei. Šiuo atveju nepriklausomi kintamieji pasirenkami vieno konkretaus tipo. Jie turi būti eiliniai arba vardiniai. Labiausiai svarstomas klasifikavimas į kelias kategorijasUniversalus. Šis metodas gali būti naudojamas visuose tyrimuose, kuriuose naudojama logistinė regresija. Tačiau vienintelis būdas pagerinti modelio kokybę yra naudoti visus tris metodus.

adekvatumo kokybės patikrinimas ir logistinė regresija
adekvatumo kokybės patikrinimas ir logistinė regresija

Įprasta klasifikacija

Reikėtų pasakyti, kad anksčiau statistikos pakete nebuvo tipinės galimybės atlikti specializuotą priklausomų veiksnių analizę su eilės skale. Visiems kintamiesiems, turintiems daugiau nei 2 grupes, buvo naudojamas daugiavardis variantas. Palyginti neseniai pristatyta eilinė analizė turi keletą savybių. Juose atsižvelgiama į skalės specifiką. Tuo tarpu mokymo priemonėse eilinė logistinė regresija dažnai nelaikoma atskira technika. Taip yra dėl šių priežasčių: eilės analizė neturi jokių reikšmingų pranašumų prieš daugianarį. Tyrėjas gali naudoti pastarąjį, kai yra ir eilinis, ir nominalus priklausomas kintamasis. Tuo pačiu metu patys klasifikavimo procesai beveik nesiskiria vienas nuo kito. Tai reiškia, kad eilės analizės atlikimas nesukels jokių sunkumų.

Analizės parinktis

Panagrinėkime paprastą atvejį – dvejetainę regresiją. Tarkime, marketingo tyrimo procese įvertinama tam tikro didmiesčio universiteto absolventų paklausa. Anketoje respondentams buvo užduodami klausimai, įskaitant:

  1. Ar jūs dirbate? (ql).
  2. Įveskite baigimo metus (q 21).
  3. Kas yra vidurkisbaigimo balas (vid.).
  4. Lytis (22 kv.).

Logistinė regresija įvertins nepriklausomų faktorių aver, q 21 ir q 22 įtaką kintamajam ql. Paprasčiau tariant, analizės tikslas bus nustatyti tikėtiną absolventų užimtumą remiantis informacija apie sritį, baigimo metus ir GPA.

logistinės sigmoidinės regresijos rodiklis
logistinės sigmoidinės regresijos rodiklis

Logistinė regresija

Norėdami nustatyti parametrus naudodami dvejetainę regresiją, naudokite meniu Analizė►Regresija►Dvejetainė logistika. Logistinės regresijos lange pasirinkite priklausomą veiksnį iš galimų kintamųjų sąrašo kairėje. Tai yra ql. Šis kintamasis turi būti įtrauktas į lauką Priklausomas. Po to į Kovariatorių grafiką reikia įvesti nepriklausomus veiksnius - q 21, q 22, vid. Tada turite pasirinkti, kaip įtraukti juos į analizę. Jei nepriklausomų veiksnių skaičius yra didesnis nei 2, tada naudojamas visų kintamųjų vienu metu įvedimo metodas, kuris nustatytas pagal nutylėjimą, bet žingsnis po žingsnio. Populiariausias būdas yra Backward:LR. Naudodami mygtuką Pasirinkti į tyrimą galite įtraukti ne visus respondentus, o tik konkrečią tikslinę kategoriją.

Apibrėžkite kategorinius kintamuosius

Kategorinis mygtukas turėtų būti naudojamas, kai vienas iš nepriklausomų kintamųjų yra vardinis ir turi daugiau nei 2 kategorijas. Šioje situacijoje lange Apibrėžti kategorinius kintamuosius kaip tik toks parametras dedamas į skyrių Kategoriniai kintamieji. Šiame pavyzdyje tokio kintamojo nėra. Po to išskleidžiamajame sąraše pateikiamas Kontrastaspasirinkite elementą Deviation ir paspauskite mygtuką Keisti. Dėl to iš kiekvieno vardinio koeficiento bus suformuoti keli priklausomi kintamieji. Jų skaičius atitinka pradinės sąlygos kategorijų skaičių.

Išsaugoti naujus kintamuosius

Paspaudus mygtuką Išsaugoti pagrindiniame tyrimo dialogo lange, nustatomas naujų parametrų kūrimas. Juose bus pateikti regresijos procese apskaičiuoti rodikliai. Visų pirma galite sukurti kintamuosius, kurie apibrėžia:

  1. Priklausymas konkrečiai klasifikacijos kategorijai (Grupės narystė).
  2. Respondento priskyrimo kiekvienai tyrimo grupei tikimybė (tikimybės).

Naudodamas mygtuką Parinktys, tyrėjas negauna jokių reikšmingų parinkčių. Atitinkamai, jį galima ignoruoti. Paspaudus mygtuką „Gerai“, analizės rezultatai bus rodomi pagrindiniame lange.

logistinės regresijos koeficientas
logistinės regresijos koeficientas

Kokybės patikrinimas dėl tinkamumo ir logistinės regresijos

Apsvarstykite „Omnibus“modelio koeficientų lentelę. Jame rodomi modelio aproksimacijos kokybės analizės rezultatai. Dėl to, kad buvo nustatyta žingsnis po žingsnio parinktis, turite pažvelgti į paskutinio etapo (2 veiksmas) rezultatus. Teigiamas rezultatas bus laikomas tuo atveju, jei bus nustatytas Chi kvadrato rodiklio padidėjimas pereinant į kitą etapą esant dideliam reikšmingumo laipsniui (Sig. < 0,05). Modelio kokybė vertinama Modelių eilutėje. Jei gaunama neigiama reikšmė, bet ji nelaikoma reikšminga esant bendram modelio reikšmingumui, paskutinėgali būti laikomas praktiškai tinkamu.

Stalos

Modelio santrauka leidžia įvertinti bendrą dispersijos indeksą, kurį apibūdina sudarytas modelis (R kvadrato indeksas). Rekomenduojama naudoti Nagelker reikšmę. Nagelkerke R Square parametras gali būti laikomas teigiamu rodikliu, jei jis yra didesnis nei 0,50. Po to vertinami klasifikacijos rezultatai, kuriuose faktiniai priklausymo vienai ar kitai tiriamai kategorijai rodikliai lyginami su prognozuojamais remiantis regresijos modeliu. Tam naudojama klasifikavimo lentelė. Tai taip pat leidžia daryti išvadas apie kiekvienos nagrinėjamos grupės diferencijavimo teisingumą.

logistinės regresijos modelis
logistinės regresijos modelis

Toliau pateikta lentelė suteikia galimybę sužinoti į analizę įtrauktų nepriklausomų veiksnių statistinį reikšmingumą, taip pat kiekvieną nestandartinį logistinės regresijos koeficientą. Remiantis šiais rodikliais, galima numatyti kiekvieno imties respondento priklausymą tam tikrai grupei. Naudodami mygtuką Išsaugoti galite įvesti naujus kintamuosius. Juose bus pateikta informacija apie priklausymą tam tikrai klasifikacijos kategorijai (Predictedcategory) ir tikimybę būti įtrauktam į šias grupes (numatyta tikimybių narystė). Paspaudus „Gerai“, skaičiavimo rezultatai bus rodomi pagrindiniame Multinomial Logistic Regression lange.

Pirmoji lentelė, kurioje pateikiami tyrėjui svarbūs rodikliai, yra modelio pritaikymo informacija. Aukštas statistinio reikšmingumo lygis rodytų aukštą kokybę irmodelio panaudojimo tinkamumas sprendžiant praktines problemas. Kitas reikšmingas stalas yra Pseudo R-Square. Tai leidžia įvertinti visos priklausomo veiksnio dispersijos dalį, kurią lemia analizei pasirinkti nepriklausomi kintamieji. Pagal Tikimybių santykio testų lentelę galime padaryti išvadas apie pastarųjų statistinį reikšmingumą. Parametrų įvertinimai atspindi nestandartinius koeficientus. Jie naudojami formuojant lygtį. Be to, kiekvienam kintamųjų deriniui buvo nustatytas statistinis jų įtakos priklausomam veiksniui reikšmingumas. Tuo tarpu marketingo tyrimuose dažnai atsiranda poreikis respondentus pagal kategorijas diferencijuoti ne individualiai, o kaip tikslinės grupės dalį. Tam naudojama Stebimų ir numatomų dažnių lentelė.

Praktinis pritaikymas

Nagrinėjamas analizės metodas plačiai taikomas prekybininkų darbe. 1991 metais buvo sukurtas logistinės sigmoidinės regresijos rodiklis. Tai paprasta naudoti ir efektyvi priemonė, leidžianti prognozuoti tikėtinas kainas, kol jos „perkaista“. Indikatorius diagramoje rodomas kaip kanalas, sudarytas iš dviejų lygiagrečių linijų. Jie yra vienodai nutolę nuo tendencijos. Koridoriaus plotis priklausys tik nuo laiko tarpo. Rodiklis naudojamas dirbant su beveik visu turtu – nuo valiutų porų iki tauriųjų metalų.

logistinė regresija spss
logistinė regresija spss

Praktiškai buvo sukurtos 2 pagrindinės priemonės naudojimo strategijos: išsiveržimo irposūkiui. Pastaruoju atveju prekiautojas sutelks dėmesį į kainų pokyčių dinamiką kanale. Kai vertė artėja prie palaikymo arba pasipriešinimo linijos, statomas statymas dėl tikimybės, kad judėjimas prasidės priešinga kryptimi. Jei kaina artėja prie viršutinės ribos, galite atsikratyti turto. Jei jis yra ties apatine riba, turėtumėte pagalvoti apie pirkimą. Breakout strategija apima užsakymų naudojimą. Jie įrengiami už ribų, palyginti nedideliu atstumu. Atsižvelgdami į tai, kad kaina kai kuriais atvejais trumpam jas pažeidžia, turėtumėte žaisti saugiai ir nustatyti nuostolius. Tuo pačiu, žinoma, nepaisant pasirinktos strategijos, prekybininkas turi kuo ramiau suvokti ir įvertinti susidariusią situaciją rinkoje.

Išvada

Taigi, logistinės regresijos naudojimas leidžia greitai ir paprastai suskirstyti respondentus į kategorijas pagal pateiktus parametrus. Analizuodami galite naudoti bet kurį konkretų metodą. Visų pirma daugianomė regresija yra universali. Tačiau ekspertai rekomenduoja naudoti visus aukščiau aprašytus metodus kartu. Taip yra dėl to, kad šiuo atveju modelio kokybė bus žymiai aukštesnė. Tai savo ruožtu išplės jo taikymo sritį.

Rekomenduojamas: