Duomenų gavyba yra Koncepcija, algoritmų analizė, paskirtis ir taikymas

Turinys:

Duomenų gavyba yra Koncepcija, algoritmų analizė, paskirtis ir taikymas
Duomenų gavyba yra Koncepcija, algoritmų analizė, paskirtis ir taikymas
Anonim

Informacinių technologijų plėtra duoda praktinių rezultatų. Tačiau tokios užduotys kaip informacijos paieška, analizė ir panaudojimas dar negavo veiksmingo kokybiško įrankio. Yra analizės ir kiekybiniai įrankiai, jie tikrai veikia. Tačiau kokybinė informacijos naudojimo revoliucija dar neįvyko.

Dar prieš kompiuterinių technologijų atsiradimą žmogui reikėjo apdoroti didelius informacijos kiekius ir su tuo susidorojo pagal savo patirtį ir turimas technines galimybes.

Žinių ir įgūdžių tobulinimas visada atitiko realius poreikius ir atitiko esamas užduotis. Duomenų gavyba – tai bendras pavadinimas, vartojamas apibūdinti metodų rinkinį, leidžiantį atrasti anksčiau nežinomas, nereikšmingas, praktiškai naudingas ir prieinamas žinias, reikalingas priimant sprendimus įvairiose žmogaus veiklos srityse.

Žmogus, intelektas, programavimas

Žmogus visada žino, kaip elgtis bet kokioje situacijoje. Nežinojimas ar nepažįstama situacija jam netrukdo apsispręsti. Galima abejoti bet kokio žmogaus sprendimo objektyvumu ir pagrįstumu, bet jis bus priimtas.

Intelektas remiasi: paveldimu „mechanizmu“, įgytomis, aktyviomis žiniomis. Žinios pritaikomos sprendžiant problemas, kurios kyla prieš žmogų.

  1. Intelektas yra unikalus žinių ir įgūdžių rinkinys: galimybės ir pagrindas žmogaus gyvenimui ir darbui.
  2. Intelektas nuolat tobulėja, o žmogaus veiksmai turi įtakos kitiems žmonėms.

Programavimas yra pirmasis bandymas formalizuoti duomenų atvaizdavimą ir algoritmų kūrimo procesą.

Žmogus, intelektas, programavimas
Žmogus, intelektas, programavimas

Dirbtinis intelektas (DI) yra laiko ir išteklių švaistymas, tačiau nesėkmingų praėjusio šimtmečio bandymų dirbtinio intelekto srityje rezultatai išliko atmintyje, buvo naudojami įvairiose ekspertinėse (protingose) sistemose ir transformavosi, visų pirma į algoritmus (taisykles) ir matematinę (loginę) duomenų analizę ir duomenų gavybą.

Informacija ir įprasta sprendimo paieška

Įprasta biblioteka yra žinių saugykla, o spausdintas žodis ir grafika dar nenusileido kompiuterinėms technologijoms. Fizikos, chemijos, teorinės mechanikos, dizaino, gamtos istorijos, filosofijos, gamtos mokslų, botanikos knygos, vadovėliai, monografijos, mokslininkų darbai, konferencijų medžiaga, pranešimai apie kūrimo darbus ir kt. visada yra aktualūs ir patikimi.

Bibliotekoje yra daug skirtingų š altinių, kurie skiriasimedžiagos pateikimo forma, kilmė, struktūra, turinys, pateikimo stilius ir kt.

Biblioteka: knygos, žurnalai ir kiti spaudiniai
Biblioteka: knygos, žurnalai ir kiti spaudiniai

Išoriškai viskas matoma (įskaitoma, pasiekiama), kad būtų galima suprasti ir naudoti. Galite išspręsti bet kokią problemą, teisingai nustatyti užduotį, pagrįsti sprendimą, rašyti esė ar kursinį darbą, pasirinkti medžiagą diplomui, analizuoti š altinius disertacijos ar mokslinio ir analitinio pranešimo tema.

Bet kokia informacijos problema gali būti išspręsta. Turint reikiamą atkaklumą ir įgūdžius, bus gautas tikslus ir patikimas rezultatas. Šiame kontekste duomenų gavyba yra visiškai kitoks požiūris.

Be rezultato, žmogus gauna „aktyvias nuorodas“į viską, kas buvo peržiūrėta tikslo siekimo procese. Galima remtis š altiniais, kuriais jis naudojosi spręsdamas problemą, ir niekas neginčijs š altinio egzistavimo fakto. Tai nėra autentiškumo garantija, bet tai yra tikras liudijimas, kam „nurašyta“atsakomybė už autentiškumą. Šiuo požiūriu duomenų gavyba reiškia dideles abejones dėl patikimumo ir jokių „aktyvių“nuorodų.

Spręsdamas kelias problemas žmogus pasiekia rezultatų ir išplečia savo intelektualinį potencialą iki daugelio „aktyvių grandžių“. Jei nauja užduotis „aktyvuos“jau esančią nuorodą, žmogus žinos, kaip ją išspręsti: nebereikės vėl nieko ieškoti.

„Aktyvi nuoroda“yra fiksuota asociacija: kaip ir ką daryti konkrečiu atveju. Žmogaus smegenys automatiškai prisimena viską, kas jai atrodo potencialiai įdomu, naudinga.arba gali prireikti ateityje. Daugeliu atžvilgių tai vyksta pasąmonės lygmenyje, tačiau vos tik atsiranda užduotis, kurią galima susieti su „aktyvia nuoroda“, ji akimirksniu iškyla galvoje ir sprendimas bus gautas be papildomos informacijos paieškos. Duomenų gavyba visada yra paieškos algoritmo kartojimas ir šis algoritmas nesikeičia.

Įprasta paieška: „meninės“problemos

Matematikos biblioteka ir informacijos paieška joje yra gana silpna užduotis. Rasti vieną ar kitą būdą, kaip išspręsti integralą, sudaryti matricą arba atlikti dviejų įsivaizduojamų skaičių sudėjimo operaciją, yra sunkus, bet paprastas. Turite surūšiuoti daugybę knygų, kurių daugelis parašytos tam tikra kalba, rasti tinkamą tekstą, jį išstudijuoti ir rasti reikiamą sprendimą.

Laikui bėgant, surašymas taps pažįstamas, o sukaupta patirtis leis naršyti bibliotekos informaciją ir kitas matematines problemas. Tai ribota klausimų ir atsakymų informacinė erdvė. Būdingas bruožas: tokia informacijos paieška kaupia žinias panašioms problemoms spręsti. Žmogaus informacijos ieškojimas jo atmintyje palieka pėdsakus („aktyvias nuorodas“) apie galimus kitų problemų sprendimus.

Grožinėje literatūroje raskite atsakymą į klausimą: „Kaip žmonės gyveno 1248 m. sausį? labai sunku. Dar sunkiau atsakyti į klausimą, kas buvo parduotuvių lentynose ir kaip buvo organizuojama prekyba maistu. Net jei koks nors rašytojas aiškiai ir tiesiai apie tai parašė savo romane, jei būtų galima rasti šio rašytojo vardą, tada kyla abejoniųgautų duomenų patikimumas išliks. Patikimumas yra esminė bet kokio informacijos kiekio savybė. Svarbus š altinis, autorius ir įrodymai, atmetantys rezultato klaidingumą.

Objektyvios konkrečios situacijos aplinkybės

Žmogus mato, girdi, jaučia. Kai kurie specialistai puikiai valdo nepakartojamą jausmą – intuiciją. Problemos išdėstymas reikalauja informacijos, problemos sprendimo procesą dažniausiai lydi problemos teiginio patikslinimas. Tai mažesnė bėda, kylanti perkeliant informaciją į kompiuterinės sistemos žarnas.

Informacija virtualioje erdvėje
Informacija virtualioje erdvėje

Biblioteka ir kolegos yra netiesioginiai sprendimų priėmimo proceso dalyviai. Knygos (š altinio) dizainas, grafika tekste, informacijos skaidymo į antraštes ypatybės, išnašos pagal frazes, temų rodyklė, pirminių š altinių sąrašas – viskas žmogui kelia asociacijas, kurios netiesiogiai veikia sprendimo procesą. problema.

Problemos sprendimo laikas ir vieta yra labai svarbūs. Žmogus yra taip sutvarkytas, kad spręsdamas problemą nevalingai atkreipia dėmesį į viską, kas jį supa. Tai gali blaškyti dėmesį arba gali paskatinti. Duomenų gavyba niekada „nesupras“.

Informacija virtualioje erdvėje

Žmogui visada buvo įdomi tik patikima informacija apie įvykį, reiškinį, objektą, problemos sprendimo algoritmas. Žmogus visada tiksliai įsivaizdavo, kaip gali pasiekti norimą tikslą.

Kompiuterių ir informacinių sistemų atsiradimas turėjo palengvinti žmogaus gyvenimą, bet viskas tik dar labiau komplikavosi. Informacija persikėlė į kompiuterinių sistemų žarnas ir dingo iš akių. Norėdami pasirinkti reikiamus duomenis, turite sukurti teisingą algoritmą arba suformuluoti duomenų bazės užklausą.

Duomenys informacinėje sistemoje
Duomenys informacinėje sistemoje

Klausimas turi būti teisingas. Tik tada galite gauti atsakymą. Tačiau abejonių dėl autentiškumo išlieka. Šia prasme duomenų gavyba iš tikrųjų yra „kasinėjimai“, tai „informacijos gavyba“. Taip madinga išversti šią frazę. Rusiška versija yra duomenų gavybos arba duomenų gavybos technologija.

Autoritetingų specialistų darbuose duomenų gavybos užduotys nurodomos taip:

  • klasifikacija;
  • grupavimas;
  • asociacija;
  • seka;
  • prognozavimas.

Žvelgiant iš praktikos, kuri vadovauja žmogui tvarkant informaciją rankiniu būdu, visos šios pozicijos yra diskutuotinos. Bet kokiu atveju žmogus informaciją apdoroja automatiškai ir negalvoja apie duomenų klasifikavimą, teminių objektų grupių sudarymą (grupavimą), laiko šablonų (sekos) paiešką ar rezultato numatymą.

Visas šias pozicijas žmogaus mintyse reprezentuoja aktyvios žinios, kurios apima daugiau pozicijų ir dinamiškai naudoja pradinių duomenų apdorojimo logiką. Žmogaus pasąmonė vaidina svarbų vaidmenį, ypač kai jis yra tam tikros žinių srities specialistas.

Pavyzdys: kompiuterinės įrangos didmeninė prekyba

Užduotis paprasta. Yra kelidešimtys kompiuterinės įrangos ir išorinių įrenginių tiekėjų. Kiekvienas turi xls formato kainoraštį (Excel failą), kurį galima atsisiųsti iš oficialios tiekėjo svetainės. Būtina sukurti žiniatinklio š altinį, kuris nuskaito Excel failus, konvertuoja juos į duomenų bazių lenteles ir leidžia klientams pasirinkti norimus produktus mažiausiomis kainomis.

Problemos iškyla iš karto. Kiekvienas tiekėjas siūlo savo xls failo struktūros ir turinio versiją. Failą galite gauti atsisiųsdami jį iš tiekėjo svetainės, užsisakę el. paštu arba gavę atsisiuntimo nuorodą per savo asmeninę paskyrą, ty oficialiai užsiregistravę pas tiekėją.

Virtuali kompiuterių parduotuvė
Virtuali kompiuterių parduotuvė

Problemos sprendimas (pačioje pradžioje) technologiškai paprastas. Įkeliant failus (pradinius duomenis), kiekvienam tiekėjui surašomas failų atpažinimo algoritmas ir duomenys talpinami į vieną didelę pradinių duomenų lentelę. Gavus visus duomenis, nustačius nuolatinio keitimosi naujais duomenimis (kasdien, kas savaitę ar pasikeitus) mechanizmą:

  • keisk asortimentą;
  • kainų pokyčiai;
  • sandėlyje esančio kiekio patikslinimas;
  • garantijos sąlygų, specifikacijų ir tt koregavimas

Čia prasideda tikrosios problemos. Reikalas tas, kad tiekėjas gali parašyti:

  • nešiojamasis kompiuteris Acer;
  • Nešiojamasis kompiuteris Asus;
  • Dell nešiojamas kompiuteris.

Kalbame apie tą patį produktą, bet skirtingų gamintojų. Kaip suderinti nešiojamąjį kompiuterį=nešiojamąjį kompiuterį arba kaip pašalinti „Acer“, „Asus“ir „Dell“iš produktų linijos?

Užžmogus nėra problema, bet kaip algoritmas "supras", kad Acer, Asus, Dell, Samsung, LG, HP, Sony yra prekių ženklai ar tiekėjai? Kaip suderinti „spausdintuvą“ir spausdintuvą, „skenerį“ir „MFP“, „kopijuoklį“ir „MFP“, „ausines“su „ausinėmis“, „priedus“su „priedais“?

Kategorijų medžio kūrimas remiantis š altinio duomenimis (š altinio failais) jau yra problema, kai reikia viską nustatyti į automatinį.

Duomenų atranka: „šviežiai išpilto“kasinėjimai

Kompiuterinės technikos tiekėjų duomenų bazės sukūrimo užduotis išspręsta. Sukurtas kategorijų medis, veikia bendra lentelė su visų tiekėjų pasiūlymais.

Įprastos duomenų gavybos užduotys šio pavyzdžio kontekste:

  • rasti prekę už mažiausią kainą;
  • pasirinkite prekę su mažiausia pristatymo kaina ir kaina;
  • produkto analizė: charakteristikos ir kainos pagal kriterijus.

Tikrame vadovo darbe, naudojant kelių dešimčių tiekėjų duomenis, bus daug šių užduočių variantų ir dar daugiau realių situacijų.

Pavyzdžiui, yra tiekėjas „A“, kuris parduoda ASUS VivoBook S15: išankstinis apmokėjimas, pristatymas per 5 dienas nuo faktinio pinigų gavimo. Yra tiekėjas „B“to paties modelio tos pačios prekės: apmokėjimas gavus, pristatymas po sutarties sudarymo per dieną, kaina pusantro karto didesnė.

Prasideda duomenų gavyba – „kasinėjimai“. Vaizdinės išraiškos: „kasinėjimai“arba „duomenų gavyba“yra sinonimai. Kalbama apie tai, kaip rasti priežastį priimti sprendimą.

Tiekėjai "A" ir "B" turi pristatymo istoriją. Įvertinimasišankstinis apmokėjimas pirmuoju atveju už apmokėjimą gavus antruoju atveju, atsižvelgiant į tai, kad pristatymo sutrikimas antruoju atveju yra 65% didesnis. Nuobaudų iš kliento rizika yra didesnė/mažesnė. Kaip ir ką nustatyti ir kokį sprendimą priimti?

Kita vertus: duomenų bazę sukūrė programuotojas ir vadybininkas. Jei pasikeitė programuotojas ir vadovas, kaip nustatyti esamą duomenų bazės būseną ir išmokti teisingai ja naudotis? Taip pat turėsite atlikti duomenų gavybą. Duomenų gavyba siūlo įvairius matematinius ir loginius metodus, kuriems nesvarbu, kokie duomenys yra tiriami. Tai suteikia teisingą sprendimą kai kuriais atvejais, bet ne visais.

Perėjimas į virtualumą ir prasmės radimas

Duomenų gavybos metodai tampa prasmingi, kai tik informacija įrašoma į duomenų bazę ir dingsta iš „matymo lauko“. Prekyba kompiuterine technika – įdomi užduotis, bet tai tik verslas. Tai, kaip gerai jis organizuotas įmonėje, priklauso nuo jos sėkmės.

Klimato pokyčiai planetoje ir orai konkrečiame mieste domina visus, ne tik profesionalius klimato ekspertus. Tūkstančiai jutiklių fiksuoja vėjo, drėgmės, slėgio rodmenis, duomenis iš dirbtinių Žemės palydovų, o duomenų istorija yra metų ir amžių amžius.

Orų duomenys yra ne tik apsisprendimas, ar į darbą atsinešti skėtį, ar ne. Duomenų gavybos technologijos – tai saugus lėktuvo skrydis, stabilus greitkelio veikimas ir patikimas naftos produktų tiekimas jūra.

„Neapdoroti“duomenys siunčiami į informacijąsistema. Duomenų gavybos uždaviniai yra paversti jas susisteminta lentelių sistema, sukurti nuorodas, išryškinti vienarūšių duomenų grupes ir aptikti šablonus.

Klimatas, orai ir neapdoroti duomenys
Klimatas, orai ir neapdoroti duomenys

Matematiniai ir loginiai metodai nuo kiekybinės analizės laikų OLAP (On-line Analytical Processing) parodė savo praktiškumą. Čia technologijos leidžia rasti prasmę ir jos neprarasti, kaip kompiuterinės įrangos pardavimo pavyzdyje.

Be to, atliekant visuotines užduotis:

  • tarptautinis verslas;
  • oro susisiekimo valdymas;
  • žemės gelmių arba socialinių problemų tyrimas (valstybiniu lygiu);
  • vaistų poveikio gyvam organizmui tyrimas;
  • pramonės įmonės statybos pasekmių numatymas ir pan.

Duomenų kasyklos technologijos ir „beprasmių“duomenų pavertimas tikrais duomenimis, leidžiančiais priimti objektyvius sprendimus, yra vienintelė galimybė.

Žmogaus galimybės baigiasi ten, kur yra daug neapdorotos informacijos. Duomenų gavybos sistemos praranda savo naudingumą ten, kur reikia matyti, suprasti ir jausti informaciją.

Racionalus funkcijų paskirstymas ir objektyvumas

Žmogus ir kompiuteris turi papildyti vienas kitą – tai aksioma. Disertacijos rašymas yra žmogaus prioritetas, o informacinė sistema – pagalba. Čia duomenys, kuriuos turi duomenų gavybos technologija, yra euristika, taisyklės, algoritmai.

Savaitės orų prognozės rengimas yra informacinės sistemos prioritetas. Žmogus tvarko duomenis, bet savo sprendimus grindžia sistemos skaičiavimų rezultatais. Jis apjungia duomenų gavybos metodus, specialistų duomenų klasifikavimą, algoritmų taikymo rankinį valdymą, automatinį praeities duomenų palyginimą, matematinį prognozavimą ir daugybę realių žmonių, susijusių su informacinės sistemos taikymu, žinių ir įgūdžių.

Žmogus ir kompiuteris
Žmogus ir kompiuteris

Tikimybių teorija ir matematinė statistika nėra pačios „mėgstamiausios“ir suprantamiausios žinių sritys. Daugelis specialistų yra labai toli nuo jų, tačiau šiose srityse sukurti metodai duoda beveik 100% teisingų rezultatų. Taikant sistemas, pagrįstas duomenų gavybos idėjomis, metodais ir algoritmais, sprendimus galima gauti objektyviai ir patikimai. Priešingu atveju tiesiog neįmanoma rasti sprendimo.

Faraonai ir praėjusių amžių paslaptys

Istorija buvo periodiškai perrašoma:

  • valstybės – savo strateginių interesų vardan;
  • autoritetingi mokslininkai – dėl savo subjektyvių įsitikinimų.

Sunku pasakyti, kas tiesa, o kas melas. Duomenų gavybos naudojimas leidžia išspręsti šią problemą. Pavyzdžiui, piramidžių statybos technologiją įvairiais šimtmečiais aprašė metraštininkai ir tyrinėjo mokslininkai. Ne visa medžiaga pateko į internetą, ne viskas čia unikalu, o daugelyje duomenų gali nebūti:

  • aprašytas laiko taškas;
  • aprašymo rašymo laikas;
  • datos, kuriomis grindžiamas aprašymas;
  • autoriai, į nuomones (nuorodas) atsižvelgta;
  • objektyvumo patvirtinimas.

Bbibliotekose, šventyklose ir „netikėtose vietose“galite rasti įvairių amžių rankraščių ir daiktinių praeities įrodymų.

Įdomus tikslas: viską sudėti ir išaiškinti „tiesą“. Problemos bruožas: informaciją galima gauti nuo pirmojo metraštininko aprašymo, per faraonų gyvenimą iki dabartinio amžiaus, kuriame daugelis mokslininkų šią problemą sprendžia šiuolaikiniais metodais.

Duomenų gavybos naudojimo priežastis: rankų darbas neįmanomas. Per daug kiekių:

  • informacijos š altiniai;
  • vaizdavimo kalbos;
  • tyrėjai skirtingai aprašo tą patį dalyką;
  • datos, įvykiai ir sąlygos;
  • terminų koreliacijos problemos;
  • statistikos analizė pagal duomenų grupes laikui bėgant gali skirtis ir pan.

Praėjusio amžiaus pabaigoje, kai ne tik pasauliečiui, bet ir įmantriam specialistui tapo akivaizdus dar vienas dirbtinio intelekto idėjos fiasko, kilo mintis: „atkurti asmenybę“.

Pavyzdžiui, pagal Puškino, Gogolio, Čechovo darbus susiformuoja tam tikra taisyklių sistema, elgesio logika ir sukuriama informacinė sistema, galinti atsakyti į tam tikrus klausimus taip, kaip atsakytų žmogus: Puškino, Gogolio ar Čechovas. Teoriškai tokia užduotis įdomi, tačiau praktiškai ją itin sunku įgyvendinti.

Tačiau tokios užduoties idėja siūlo labai praktišką idėją: „kaip sukurti intelektualią informacijos paiešką“. Internete yra daug besivystančių išteklių, didžiulė duomenų bazė ir tai puiki galimybė pritaikyti duomenų gavybą kartu su žmogumilogika bendro vystymosi formatu.

Mašina ir žmogus kartu
Mašina ir žmogus kartu

Mašina ir žmogus suporuotas – tai puiki užduotis ir neabejotina sėkmė „informacinės archeologijos“srityje, kokybiški duomenų ir rezultatų kasinėjimai sukels abejonių, bet be jokios abejonės leis jums įgyti naujų žinių ir jos bus paklausios visuomenėje.

Rekomenduojamas: