Prieš kelis dešimtmečius mokslininkai galėjo tik pasvajoti apie kalbinių tyrimų automatizavimą. Darbas buvo atliktas rankomis, į jį įsitraukė daug mokinių, buvo nemaža „nedėmesingumo“klaidos tikimybė, o svarbiausia – visa tai užtruko daug, daug laiko.
Tobulėjant kompiuterinėms technologijoms, tapo įmanoma daug greičiau atlikti tyrimus, o šiandien viena iš perspektyvių kalbos studijų sričių yra korpuso lingvistika. Pagrindinis jo bruožas yra naudoti didelius tekstinės informacijos kiekius, sujungtus į vieną duomenų bazę, pažymėtą ypatingu būdu ir vadinamą korpusu.
Šiandien yra daugybė įvairiems tikslams sukurtų korpusų, pagrįstų skirtingos kalbos medžiaga, apimančių nuo milijonų iki dešimčių milijardų leksinių vienetų. Ši kryptis pripažinta perspektyvia ir demonstruoja didelę pažangą siekiant taikomųjų ir mokslinių tyrimų tikslų. Profesionalai, vienaip ar kitaip elgiasinatūralia kalba, rekomenduojama bent jau pagrindiniu lygiu susipažinti su teksto korpusais.
Korpuso lingvistikos istorija
Šios krypties formavimasis susijęs su Browno korpuso sukūrimu JAV praėjusio amžiaus 60-ųjų pradžioje. Tekstų rinkinį sudarė tik 1 milijonas žodžių formų, o šiandien tokios apimties korpusas būtų visiškai nekonkurencingas. Tai daugiausia lemia kompiuterinių technologijų plėtros tempas, taip pat didėjanti naujų mokslinių tyrimų išteklių paklausa.
Dešimtajame dešimtmetyje korpuso lingvistika susiformavo į visavertę ir nepriklausomą discipliną, buvo kaupiami ir žymimi tekstų rinkiniai kelioms dešimčiai kalbų. Pavyzdžiui, per šį laikotarpį Britanijos nacionalinis korpusas buvo sukurtas 100 milijonų žodžių.
Tobulėjant šiai kalbotyros krypčiai, tekstų apimtis didėja (ir siekia milijardus žodyno vienetų), o žymėjimas tampa vis įvairesnis. Šiandien interneto erdvėje galite rasti rašytinės ir žodinės kalbos, daugiakalbių ir mokomųjų, orientuotų į grožinę ar akademinę literatūrą, taip pat daugybę kitų atmainų.
Kokie yra atvejai
Korpuso tipus korpuso lingvistikoje galima pavaizduoti keliais būdais. Intuityviai aišku, kad klasifikavimo pagrindas gali būti tekstų kalba (rusų, vokiečių), prieigos būdas (atviras kodas, uždaras š altinis, komercinis), š altinio žanras (grožinistika).literatūra, dokumentika, akademinė, žurnalistika).
Įdomiu būdu generuojama žodinę kalbą reprezentuojanti medžiaga. Kadangi sąmoningas tokios kalbos įrašymas sudarytų dirbtines sąlygas respondentams, o gautos medžiagos negalima pavadinti „spontaniška“, šiuolaikinė korpuslingvistika nuėjo priešingu keliu. Savanoris aprūpintas mikrofonu, o per dieną visi pokalbiai, kuriuose jis dalyvauja, yra įrašomi. Aplinkiniai, žinoma, negali žinoti, kad kasdieniame pokalbyje jie prisideda prie mokslo plėtros.
Vėliau gauti garso įrašai saugomi duomenų banke ir kartu su spausdintu tekstu kaip nuorašas. Tokiu būdu tampa įmanomas žymėjimas, reikalingas kasdienio šnekamosios kalbos korpusui sukurti.
Programa
Kur galima vartoti kalbą, galima naudoti ir teksto korpusus. Korpuso metodų naudojimo kalbotyroje tikslas gali būti:
- Kurti nuotaikų programas, kurios plačiai naudojamos politikoje ir versle, siekiant sekti atitinkamai teigiamus ir neigiamus rinkėjų ir klientų atsiliepimus.
- Informacinės sistemos prijungimas prie žodynų ir vertėjų, siekiant pagerinti jų našumą.
- Įvairios tiriamosios užduotys, padedančios suprasti kalbos sandarą, raidos istoriją ir artimiausios ateities kaitos prognozes.
- Informacijos išgavimo sistemų, pagrįstų morfologiniais,sintaksinės, semantinės ir kitos funkcijos.
- Įvairių kalbinių sistemų darbo optimizavimas ir kt.
Apvalkalų naudojimas
Išteklių sąsaja yra panaši į įprastą paieškos variklį ir ragina vartotoją įvesti žodį arba žodžių derinį, kad būtų galima ieškoti informacijos bazėje. Be tikslios užklausos formos, galite naudoti išplėstinę versiją, kuri leidžia rasti tekstinę informaciją pagal beveik bet kokius kalbinius kriterijus.
Paieškos pagrindas gali būti:
- priklauso tam tikrai kalbos dalių grupei;
- gramatinės ypatybės;
- semantika;
- stilistinis ir emocinis dažymas.
Be to, galite derinti žodžių sekos paieškos kriterijus: pavyzdžiui, raskite visus veiksmažodžio atvejus esamuoju laiku, pirmuoju asmeniu, vienaskaitos skaitmuo, po kurio eina linksnis „in“ir daiktavardis priežastimi. Išspręsti tokią paprastą užduotį vartotojas užtrunka kelias sekundes ir tereikia kelių pelės paspaudimų pateiktuose laukuose.
Kūrimo procesas
Pati paieška gali būti atliekama ir visuose subkorpusuose, ir viename, konkrečiai parinktame, atsižvelgiant į poreikius siekiant konkretaus tikslo:
- Pirmiausia nustatoma, kurie tekstai sudarys korpuso pagrindą. Praktiniais tikslais dažnai naudojama žurnalistinė, laikraščių medžiaga, interneto komentarai. Tyrimų projektuose daugiausiaįvairių tipų korpusai, tačiau tekstai turi būti atrenkami tam tikru bendru pagrindu.
- Gautas tekstų rinkinys iš anksto apdorojamas, klaidos, jei tokių yra, ištaisomos, parengiamas bibliografinis ir ekstralingvistinis teksto aprašymas.
- Visa netekstinė informacija išfiltruojama: ištrinami grafikai, paveikslėliai, lentelės.
- Žetonai, dažniausiai žodžiai, skiriami tolesniam apdorojimui.
- Galiausiai atliekamas gauto elementų rinkinio morfologinis, sintaksinis ir kitoks žymėjimas.
Visų atliktų operacijų rezultatas yra sintaksinė struktūra su joje paskirstytu elementų rinkiniu, kiekvienam iš kurių apibrėžiama kalbos dalis, gramatinės ir kai kuriais atvejais semantinės ypatybės.
Sunkumai kuriant bylas
Svarbu suprasti, kad norint gauti korpusą, neužtenka sudėti daug žodžių ar sakinių. Viena vertus, tekstų rinkinys turi būti subalansuotas, tai yra pateikti skirtingų tipų tekstus tam tikromis proporcijomis. Kita vertus, dėklo turinys turi būti pažymėtas specialiu būdu.
Pirmasis klausimas sprendžiamas susitarimu: pavyzdžiui, rinkinyje yra 60% grožinės literatūros tekstų, 20% dokumentinių filmų, tam tikra dalis skiriama žodinės kalbos pristatymui raštu, teisės aktų aktams, moksliniams darbams ir kt. Idealus subalansuoto korpuso receptas šiandien neegzistuoja.
Antrąjį klausimą dėl turinio žymėjimo išspręsti sunkiau. Automatiniam tekstų žymėjimui naudojamos specialios programos ir algoritmai, tačiau jie neduoda 100% rezultato, gali sukelti gedimus ir reikalauti rankinio tobulinimo. Šios problemos sprendimo galimybės ir problemos išsamiai aprašytos V. P. Zacharovo darbe apie korpuso lingvistiką.
Teksto žymėjimas atliekamas keliais lygiais, kuriuos išvardysime toliau.
Morfologinis žymėjimas
Iš mokyklos suolo prisimename, kad rusų kalboje yra skirtingos kalbos dalys ir kiekviena iš jų turi savo ypatybes. Pavyzdžiui, veiksmažodis turi nuotaikos ir laiko kategorijas, kurių daiktavardis neturi. Gimtakalbis nedvejodamas atsisako daiktavardžių ir jungia veiksmažodžius, tačiau rankų darbas netinka 100 milijonų žodžių junginiui pažymėti. Visas reikalingas operacijas galima atlikti kompiuteriu, tačiau tam reikia jo išmokyti.
Morfologinis žymėjimas yra būtinas, kad kompiuteris „suprastų“kiekvieną žodį kaip kokią nors kalbos dalį, kuri turi tam tikrų gramatinių ypatybių. Kadangi rusų kalba (kaip ir bet kuria kita) veikia daugybė įprastų taisyklių, galima sukurti automatinę morfologinės analizės procedūrą, įdėjus į mašiną daugybę algoritmų. Tačiau yra taisyklės išimčių, taip pat įvairių komplikuojančių veiksnių. Todėl gryna kompiuterinė analizė šiandien toli gražu nėra ideali, o net 4 % klaidų 100 milijonų vienetų korpuse suteikia 4 milijonų žodžių vertę, todėl ją reikia tobulinti rankiniu būdu.
Ši problema išsamiai aprašyta V. P. Zacharovo knygoje „Korpuso lingvistika“.
Sintaksinis žymėjimas
Sintaksinė analizė arba analizavimas yra procedūra, kuri nustato žodžių ryšį sakinyje. Algoritmų rinkinio pagalba tampa įmanoma tekste nustatyti temą, predikatą, papildymus, įvairius kalbos posūkius. Išsiaiškinę, kurie sekos žodžiai yra pagrindiniai, o kurie priklausomi, galime efektyviai išgauti informaciją iš teksto ir išmokyti mašiną pateikti tik mus dominančią informaciją atsakant į paieškos užklausą.
Beje, šiuolaikinės paieškos sistemos tai naudoja norėdami pateikti konkrečius skaičius, o ne ilgus tekstus, atsakydami į atitinkamas užklausas, tokias kaip: „kiek kalorijų yra obuolyje“arba „atstumas nuo Maskvos iki Sankt Peterburgo“. Tačiau norėdami suprasti net pačius aprašyto proceso pagrindus, turėsite susipažinti su „Įvadu į korpuso lingvistiką“arba kitu pagrindiniu vadovėliu.
Semantinis žymėjimas
Žodžio semantika paprastai yra jo reikšmė. Plačiai taikomas semantinės analizės metodas yra žymų priskyrimas žodžiui, atspindinčiam jo priklausymą semantinių kategorijų ir subkategorijų rinkiniui. Tokia informacija yra vertinga optimizuojant teksto sentimentų analizės algoritmus, atliekant automatines nuorodas ir atliekant kitas užduotis naudojant korpuso lingvistikos metodus.
Yra daugybė medžio „šaknų“, kurios yra abstraktūs žodžiai, turintyslabai plati semantika. Šiam medžiui šakojantis formuojasi mazgai, kuriuose yra vis daugiau specifinių leksinių elementų. Pavyzdžiui, žodis „padaras“gali būti siejamas su tokiomis sąvokomis kaip „žmogus“ir „gyvūnas“. Pirmasis žodis ir toliau skirsis į įvairias profesijas, giminystės terminus, tautybę, o antrasis – į gyvūnų klases ir rūšis.
Informacijos paieškos sistemų naudojimas
Korpuso lingvistikos naudojimo sritys apima labai įvairias veiklos sritis. Korpusai naudojami žodynams sudaryti ir taisyti, automatinėms vertimo sistemoms kurti, apibendrinti, faktams išgauti, nuotaikai nustatyti ir kitam teksto apdorojimui.
Be to, tokie ištekliai aktyviai naudojami tiriant pasaulio kalbas ir visos kalbos veikimo mechanizmus. Prieiga prie didelio kiekio iš anksto paruoštos informacijos prisideda prie greito ir visapusiško kalbų raidos tendencijų tyrimo, neologizmų formavimosi ir stabilių kalbos posūkių, leksinių vienetų reikšmių pokyčių ir kt.
Kadangi dirbant su tokiais dideliais duomenų kiekiais reikia automatizuoti, šiandien kompiuterinė ir korpuso lingvistika yra glaudžiai sąveikauja.
Nacionalinis rusų kalbos korpusas
Šiame korpuse (sutrumpintai kaip NKRC) yra keletas subkorpusų, kurie leidžia naudoti išteklius įvairioms užduotims spręsti.
Medžiagos NCRA duomenų bazėje skirstomos į:
- apie publikacijas 90-ųjų ir 2000-ųjų žiniasklaidojemetų, tiek vidaus, tiek užsienio;
- žodinės kalbos įrašai;
- akcentologiškai pažymėti tekstai (t. y. su kirčio ženklais);
- tarminė kalba;
- poetiniai kūriniai;
- medžiagos su sintaksiniu žymėjimu ir kt.
Informacinėje sistemoje taip pat yra subkorpusai su lygiagrečiais kūrinių vertimais iš rusų į anglų, vokiečių, prancūzų ir daugelį kitų kalbų (ir atvirkščiai).
Be to, duomenų bazėje yra istorinių tekstų skyrius, vaizduojantis rašytinę kalbą rusų kalba įvairiais jos raidos laikotarpiais. Taip pat yra mokymo korpusas, kuris gali būti naudingas užsienio piliečiams įsisavinant rusų kalbą.
Nacionalinis rusų kalbos korpusas apima 400 milijonų leksinių vienetų ir daugeliu atžvilgių lenkia didelę dalį Europos kalbų korpuso.
Perspektyvos
Faktas, leidžiantis pripažinti šią sritį perspektyvia, yra korpuso lingvistikos laboratorijų buvimas Rusijos ir užsienio universitetuose. Naudojant ir tiriant pagal aptariamus informacijos paieškos išteklius, kai kurių sričių plėtra aukštųjų technologijų, klausimų-atsakymų sistemų srityje yra susijusi, tačiau tai buvo aptarta aukščiau.
Numatoma tolesnė korpuso lingvistikos plėtra visais lygmenimis, pradedant techniniu, naujų algoritmų diegimu, optimizuojančių informacijos paieškos ir apdorojimo procesus, plečiant kompiuterių galimybes, didinant operacinį.atmintis ir baigiant buitiniais, nes vartotojai randa vis daugiau būdų, kaip naudoti tokio tipo išteklius kasdieniame gyvenime ir darbe.
Pabaigoje
Praėjusio amžiaus viduryje 2017-ieji atrodė kaip tolima ateitis, kai kosminiai aparatai naršo Visatos platybėse, o robotai atlieka visą darbą už žmones. Tačiau iš tikrųjų moksle gausu „tuščių dėmių“ir jis desperatiškai bando atsakyti į klausimus, kurie žmoniją kamavo šimtmečius. Kalbos veikimo klausimai čia užima didžiulę vietą, o į juos atsakyti gali padėti korpusas ir kompiuterinė lingvistika.
Apdorojant didelius duomenų kiekius galima aptikti šablonus, kurie anksčiau buvo nepasiekiami, numatyti tam tikrų kalbos ypatybių raidą, stebėti žodžių formavimąsi beveik realiu laiku.
Praktiniu pasauliniu lygmeniu korpusai gali būti laikomi, pavyzdžiui, potencialia visuomenės nuotaikų vertinimo priemone – internetas yra nuolat atnaujinama įvairių tekstų, sukurtų realių vartotojų, duomenų bazė: tai komentarai, apžvalgos, straipsniai., ir daugelis kitų kalbos formų.
Be to, darbas su korpusais prisideda prie tų pačių techninių priemonių, kurios yra susijusios su informacijos paieška, kūrimo, mums pažįstamų iš Google ar Yandex paslaugų, mašininio vertimo, elektroninių žodynų.
Galima drąsiai teigti, kad korpuso lingvistika žengia tik pirmuosius žingsnius ir artimiausiu metu sparčiai vystysis.