Dažnio teksto analizė: funkcijos ir pavyzdžiai

Turinys:

Dažnio teksto analizė: funkcijos ir pavyzdžiai
Dažnio teksto analizė: funkcijos ir pavyzdžiai
Anonim

Su šia sąvoka susidūrėte ne kartą gyvenime, jei teko dirbti su tekstais. Visų pirma galite kreiptis į internetinius skaičiuotuvus, kurie tiksliai atlieka teksto dažnio analizę. Šie patogūs įrankiai parodo, kiek kartų tam tikras simbolis ar raidė pasitaiko bet kurioje teksto ištraukoje. Dažnai rodomas ir procentas. Kam to reikia? Kaip teksto dažnio analizė prisideda prie paprastų šifrų „įtrūkimo“? Kokia jo esmė, kas jį išrado? Į šiuos ir kitus svarbius klausimus šia tema atsakysime straipsnio eigoje.

Apibrėžimas

Dažnių analizė yra viena iš kriptoanalizės atmainų. Jis pagrįstas mokslininkų prielaida, kad egzistuoja statistinis netrivialus atskirų simbolių ir jų reguliarių sekų pasiskirstymas tiek paprastame, tiek šifruotame tekste.

Manoma, kad toks paskirstymas iki atskirų simbolių pakeitimo taip pat bus išsaugotas šifravimo / iššifravimo procesuose.

sistemų dažnio analizė
sistemų dažnio analizė

Proceso charakteristika

Dabar pažvelkime į dažnių analizę paprastai. Tai reiškia, kad tos pačios abėcėlės raidžių atvejų skaičius pakankamai ilgio tekstuose yra vienodas skirtinguose ta pačia kalba parašytuose tekstuose.

O dabar kaip dėl monoabėcėlės šifravimo? Daroma prielaida, kad jei skiltyje su šifruotu tekstu yra simbolis su tokia panašia tikimybe, tai realu manyti, kad tai ta šifruota raidė.

Dažnio teksto analizės pasekėjai tą patį samprotavimą taiko digramoms (dviejų raidžių sekoms). Trigramai – tai jau daugiabėcėliniams šiframs.

Metodo istorija

Žodžių dažnio analizė nėra modernumo atradimas. Mokslo pasauliui ji žinoma nuo IX a. Jo sukūrimas siejamas su Al-Kindi vardu.

Tačiau žinomi dažnių analizės metodo taikymo atvejai priklauso daug vėlesniam laikotarpiui. Ryškiausias pavyzdys yra Egipto hieroglifų iššifravimas, kurį 1822 m. sukūrė J.-F. Champollion.

Jei pereitume prie grožinės literatūros, rastume daug įdomių nuorodų į šį iššifravimo metodą:

  • Conan Doyle – „Šokantys vyrai“.
  • Jules Verne – „Kapitono Granto vaikai“.
  • Edgar Poe – „Auksinė klaida“.

Tačiau nuo praėjusio amžiaus vidurio dauguma šifravimui naudojamų algoritmų buvo kuriami atsižvelgiant į jų atsparumą tokiai dažnių kriptoanalizei. Todėl taišiandien jie dažniausiai naudojami tik būsimiems kriptografams rengti.

teksto dažnio analizė
teksto dažnio analizė

Pagrindinis metodas

Dabar išsamiai pristatykime dažnio atsako analizę. Tokia analizė yra tiesiogiai pagrįsta tuo, kad testą sudaro žodžiai, o tie, savo ruožtu, iš raidžių. Raidžių, užpildančių nacionalinę abėcėlę, skaičius yra ribotas. Raidės gali būti tiesiog išvardytos čia.

Svarbiausios tokio teksto charakteristikos bus tiek raidžių, įvairių bigramų, trigramų ir n-gramų pasikartojimas, tiek įvairių raidžių suderinamumas tarpusavyje, priebalsių/balsių kaitaliojimas ir kt. šių simbolių atmainos.

Pagrindinė metodų idėja yra skaičiuoti galimų n-gramų (žymimų nm) pasireiškimus aiškiuosiuose tekstuose, kurių pakanka analizei (žymima T=t1t2…tl), sudarytame iš nacionalinės abėcėlės raidžių (žymimas {a1, a2, …, an}). Visa tai, kas išdėstyta pirmiau, sukelia keletą iš eilės teksto m-gramų:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Jei tai yra m-gramo ai1ai2…tikslas tam tikrame tekste T skaičius, o L yra bendras tyrėjo analizuotų m-gramų skaičius, tada galima empiriškai nustatyti, kad pakankamai didelis L, tokio m-gramo dažniai mažai skirsis vienas nuo kito.

dažnio analizė
dažnio analizė

Dažnai pasitaikančios rusų abėcėlės raidės

Tačiau laiko ir dažnio analizė, nepaisant panašaus pavadinimo, neturi nieko bendra su mūsų pokalbio tema. Tokia analizė atliekamasignalai iš mažai stebimų radarų stočių, naudojant specialią banglečių transformaciją.

Dabar grįžkime prie pagrindinės temos. Atlikdami dažnio analizę, galite sužinoti, kurios rusiškos abėcėlės raidės dažniausiai randamos gana dideliuose tekstuose (procentai nuo 0,062 iki 0,018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • I.

Įvesta net speciali mnemoninė taisyklė, padedanti išmokti dažniausiai pasitaikančias rusų abėcėlės raides. Norėdami tai padaryti, užtenka prisiminti tik vieną žodį – „šieninė“.

Bendraisiais atvejais raidžių vartojimo dažnis procentais nustatomas paprastai: specialistas suskaičiuoja, kiek kartų raidė pasitaiko tekste, tada gautą reikšmę padalija iš bendro teksto simbolių skaičiaus. Ir norint išreikšti šią reikšmę procentais, pakanka ją padauginti iš 100.

Svarbu atsižvelgti į tai, kad dažnumas priklausys ne tik nuo teksto apimties, bet ir nuo jo pobūdžio. Pavyzdžiui, techniniuose š altiniuose raidė „F“pasirodo daug dažniau nei grožinėje literatūroje. Todėl norint gauti objektyvių rezultatų specialistas tyrimams turi spausdinti įvairaus pobūdžio ir stiliaus tekstus.

teksto dažnio analizės programos
teksto dažnio analizės programos

Dviejų, trijų, keturių gramų

Prasminguose tekstuose galima rasti ir dažniausiai pasitaikančius (atitinkamaikartojami) dviejų ar daugiau raidžių deriniai. Specialistai taip pat sudarė keletą lentelių, kuriose nurodomi įvairių abėcėlių panašių digramų dažniai.

Kalbant apie rusų kalbą, didelės apimties prasmingų tekstų sistemų dažnio analizė leido nustatyti dažniausiai pasitaikančias bigramas ir trigramas:

  • EN.
  • ST.
  • BET.
  • NE.
  • ON.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • NAUJIENA
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Pageidaujami raidžių santykiai vienas su kitu

Ir tai dar ne visos galimybės, kurias dažnio analizė gali suteikti teksto tyrinėtojams. Susisteminus informaciją iš panašių bigramų ir trigramų lentelių, galima išgauti duomenis apie dažniausiai pasitaikančias raidžių kombinacijas. Arba, kitaip tariant, jų pageidaujami santykiai vienas su kitu.

Tokį išsamų tyrimą ekspertai jau atliko. Jo rezultatas buvo lentelė, kurioje kartu su kiekviena abėcėlės raide buvo nurodyti jos kaimynai. Be to, tie personažai, kurie dažnai sutinkami tiek prieš pat, tiek po jo. Lentelėje esančios raidės parašytos neatsitiktinai. Arčiau simbolio nurodomi dažniausiai pasitaikantys kaimynai, toliau – retesni.

Apsvarstykite pavyzdžius:

  • Raidė „A“. Čia išskiriami tokie pageidaujami ryšiai: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Iš čia matome, kad dažniausiai prieš „A“tekstuose yra „H“(„NA“). O po „A“dažniausiai tekstuose rusų kalba galime sutikti „L“(„AL“).
  • Raidė „M“. Ekspertai nustatė tokius pageidaujamus ryšius: „I-s-a-i-e-o-M-i-e-o-u-a-n-p-s“.
  • Raidė „b“. Pageidaujami ryšiai yra tokie: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Raidė "Sh". Pageidaujamos jungtys: "e-b-a-i-u-Sch-e-i-a".
  • Raidė "P". Pageidautini ryšiai su šiuo rusiškos abėcėlės simboliu: „v-s-u-a-i-e-o-P-o-r-e-a-u-i-l“.
laiko-dažnio analizė
laiko-dažnio analizė

Kas apibrėžia analizę?

Šiuolaikinės dažnio teksto analizės programos padeda studijuoti didelius įvairiausių straipsnių, esė, ištraukų ir pan. Standartiškai tyrėjui pateikiama ši informacija:

  • Bendras simbolių skaičius tekste.
  • Autorio naudojamų tarpų skaičius.
  • Skaitmenų skaičius.
  • Informacija apie naudojamus skyrybos ženklus – taškus, kablelius ir kt.
  • Raidžių skaičius kiekvienoje iš galimų abėcėlių – kirilicos, lotynų ir kt.
  • Informacija apie kiekvienos raidės ir simbolio naudojimo dažnumą tekste – paminėjimų skaičius ir procentas, palyginti su visu tekstu.

Kova su per dideliu optimizavimu ir pertekliumi

Kodėl atliekama teksto dažnio analizė? Ar tai tik smalsumo sumetimais – nustatyti, su kokiais rašto teksto veikėjais dažnai tenka susidurti? Ne, pagrindinis analizės pritaikymas yra praktiškas ir slypi kitur.

N gramai apima ne tik stabilius bigramus ir trigramus. Į tą patįkategorijos apima raktinius žodžius (žymas), kolokacijas. Tai yra stabilūs deriniai, susidedantys iš dviejų ar daugiau žodžių. Jie išsiskiria tuo, kad tokios kompozicijos tekste atsiranda kartu ir kartu turi tam tikrą semantinį krūvį.

Tai atsiduria nesąžiningų SEO specialistų rankose. Savo darbe jie kartais piktnaudžiauja žymų ir raktinių žodžių pasikartojimu tekste, siekdami dirbtinai padidinti konkretaus tinklalapio aktualumą. Sistemą jie bando apgauti tokiu „gudrumu“: natūralų derinį su įprastu, tradiciniu rusų kalbai („pirk audinės p altą“) žodžių junginiu paverčia nenuosekliu. Tai yra, gaunama perrikiavus žodžius tokia natūralia N-grama ("pirk audinės kailį").

Tačiau šiandien paieškos algoritmai išmoko aptikti perteklinį optimizavimą taip pat efektyviai, kaip ir per didelį šlamštą – teksto perpildymą raktiniais žodžiais, žymomis, kurios turi įtakos rezultatų reitingavimui paieškos puslapyje. Priešingai, per daug optimizuoti puslapiai pagal vartotojo užklausą reitinguojami žemiau. Ir patys žmonės nėra linkę skaityti beprasmiško, perpildyto žymų teksto, renkasi naudingą informaciją kitame š altinyje.

dažnių analizės metodas
dažnių analizės metodas

Pagalba privačiai analizei SEO specialistams

Taigi, šiuolaikiniai paieškos sistemų teksto filtrai šiandien teikia pirmenybę tiems interneto puslapiams, kuriuose informacija ne tik lengvai skaitoma, bet ir naudinga lankytojams. Norėdami optimizuoti savo darbą naujiems standartams, SEO specialistaiir kreiptis į teksto dažnio analizę. Šiandien ją teikia daugelis populiarių paslaugų.

Dažnių analizė padeda peržiūrėti ruošiamą publikuoti tekstą informatyvumo dėlei. Pašalinkite nereikalingą žymų ir pagrindinių frazių perteklių. Tai taip pat leidžia atkreipti autoriaus dėmesį į nenatūralius žodžių junginius, kurie kelia įtarimą paieškos sistemų teksto filtruose.

dažnio atsako analizė
dažnio atsako analizė

Teksto dažnumo analizė padeda nustatyti konkretaus simbolio paminėjimo š altinyje dažnumą. Šis metodas šiandien naudojamas vertinant teksto perteklių su žymomis, nenatūralias žodžių permutacijas.

Rekomenduojamas: