Sodobni trendi razvoja informacijskih in računalniških tehnologij v izobraževanju. Zgodovina razvoja iskalnikov

V času, ko se je razvoj interneta šele začenjal, je bilo razpoložljivih informacij relativno malo, uporabnikov interneta pa malo. V začetnih fazah razvoja mreže so jo uporabljali zaposleni na univerzah in raziskovalnih laboratorijih za izmenjavo informacij med institucijami. Takrat iskanje informacij po internetu, za razliko od danes, ni bilo aktualno.

Prvi način organiziranja in sistematizacije dostopa do informacijskih virov je bilo ustvarjanje imenikov spletnih mest. Povezave so začeli združevati glede na določene teme.

Pionir na tem področju je bil Yahoo, ki se je pojavil aprila 1994. Sčasoma se je število spletnih mest povečalo in Yahoo je dodal možnost iskanja po imeniku. To ni bil iskalnik v pravem pomenu besede, ker je bil obseg iskanja omejen na vire imenikov.

Kasneje so se katalogi razširili in začeli uporabljati povsod, vendar internet ni obstal, ampak se je še naprej razvijal. Skupaj z njim so se razvile tudi metode iskanja. Imeniki so trenutno skoraj izgubili priljubljenost, kar je razloženo z dejstvom, da lahko sodoben imenik, tudi če vsebuje ogromno virov, omogoči dostop le do majhnega dela informacij v omrežju.

Danes je največji imenik na spletu Open Directory Project ali DMOZ, ki vsebuje podatke o 5 milijonih virov, a je to razmeroma malo v primerjavi z na primer Googlovim iskalnikom, ki vsebuje približno 8 milijard dokumentov.

Popoln iskalni sistem je bil izdan šele leta 1994, postal je iskalni sistem WebCrawler.

Leto kasneje, leta 1995, sta se pojavila projekta iskalnika AltaVista in Lycos. Ena od njih, AltaVista, je bila vrsto let vodilna na področju iskanja.

Dve leti pozneje, leta 1997, sta študenta univerze Stanford Sergey Brin in Larry Page razvila iskalnik Google, ki je danes vodilni v iskanju.

To leto je bilo tudi leto, ko je bila uradno objavljena ustanovitev ruskega iskalnika Yandex, ki je še vedno vodilni v ruskojezičnem segmentu omrežja.

Trenutno so samo 3 iskalniki dosegli mednarodno raven: MSN Search, Yahoo in Google. Ti sistemi imajo lastne baze podatkov in iskalne algoritme. Večina drugih iskalnikov uporablja njihove rezultate. Tako Mail.ru uporablja bazo podatkov Yandex, search.aol.com uporablja Google, Lycos, AltaVista in AllTheWeb pa Yahoo.

Vodja iskanja na ruskem internetu je trenutno Yandex, sledi mu Rambler, sledijo mu Google, Mail.ru, A port in KM.ru.

Iskalniki imajo različne algoritme delovanja in za dobro pozicijo med iskalnimi rezultati in privabljanje ciljnih obiskovalcev morate poznati značilnosti SEO optimizacije za različne iskalnike. Na primer

Izmenjava informacij v družbi poteka predvsem v besedilni obliki. Zato ni naključje, da zelo pomemben delež informacijskih virov sodobnih informacijskih sistemov sestavljajo besedilne informacije. Veliko pozornosti so začeli posvečati razvoju učinkovitih tehnologij za shranjevanje, obdelavo in pridobivanje besedilnih informacij že v zgodnjih fazah razvoja informacijskih sistemov. Aktivne raziskave in praktični razvoj na tem področju so se začele že v 50. letih prejšnjega stoletja, od takrat, ko je računalniška tehnologija omogočila vnos-izhod besedilnih informacij.

Med informacijskimi sistemi, ki obravnavajo besedilne informacije, so najpogostejši sistemi za iskanje besedil. Njihova naloga je najti dokumente, ki zanimajo uporabnika, v zbirki besedilnih dokumentov v naravnem jeziku, shranjenih na računalniku.

Razvoj sistemov za iskanje besedil so v veliki meri spodbudile potrebe po informacijski podpori znanstvenega raziskovanja in izobraževanja ter razvoj avtomatiziranih knjižničnih sistemov. Vendar pa se zadnja leta vse pogosteje uporabljajo v upravljanju podjetij in na številnih drugih področjih delovanja. Iskanje informacij z uporabo računalnikov ima skoraj polstoletno zgodovino. Prvi avtomatizirani informacijski sistemi so se začeli razvijati že v 50. letih prejšnjega stoletja, njihova glavna funkcija pa je bila prav iskanje informacij. Zato so jih poimenovali sistemi za iskanje informacij (IRS).

Glede na naravo podprtih informacijskih virov so bili ti sistemi običajno razdeljeni v dve kategoriji: dejanske in dokumentarne. Factual IPS je operiral z dejstvi, predstavljenimi v obliki entitet iz resničnega sveta in njihovih lastnosti ter omogočil iskanje entitet z uporabniško določenimi lastnostmi, kot tudi lastnosti določenih entitet. Ko se je v zgodnjih šestdesetih letih prejšnjega stoletja začela pojavljati tehnologija baz podatkov, je postalo jasno, da je ta kategorija informacijskega sistema poseben primer sistema baz podatkov. Posledično so to smer na področju iskanja informacij postopoma "vsrkale" tehnologije podatkovnih baz.

Dokumentarni informacijski sistemi so namenjeni shranjevanju in pridobivanju dokumentov, ki vsebujejo besedila v naravnih jezikih. Takšni IRS predstavljajo zgodnje sisteme za iskanje po besedilu.

Sistemi za iskanje po besedilu, razviti v tem obdobju, so se imenovali deskriptor IRS. V takih sistemih je vsebina vsakega besedilnega dokumenta in uporabniških iskalnih poizvedb opisana z nizi besed ali besednih zvez, imenovanih deskriptorji. V procesu iskanja sistem za iskanje informacij ne deluje s samimi besedilnimi dokumenti, temveč z njihovimi "nadomestki", ki jih v večini sistemov ročno ustvarijo avtorji dokumentov, strokovnjaki s področja dokumentov in drugi. osebe. Ujemanje nizov deskriptorjev, ki predstavljajo dokumente v sistemu, z nizom deskriptorjev, ki predstavljajo zahtevo uporabnika, omogoča iskanje dokumentov, ki jih uporabnik potrebuje. IPS deskriptorjev imajo razmeroma preproste iskalne mehanizme, vendar je kakovost iskanja razmeroma nizka.

Ena najpogostejših aplikacij deskriptorskih sistemov je bibliografsko iskanje. Takšni sistemi hranijo zbirke bibliografskih opisov dokumentov, sistem pa omogoča iskanje objav določenega avtorja, objav, ki jih je izdala določena založba in/ali so izšle v določenem letu ipd. Mnogi bibliografski deskriptorji IRS so še danes v uporabi.

V procesu razvoja računalniške tehnologije so računalniki pridobili zunanje pomnilnike z neposrednim dostopom dovolj velike kapacitete, zmogljivost procesorjev pa se je močno povečala. To je omogočilo ustvarjanje in praktično uporabo naprednejših tehnologij v sistemih za iskanje dokumentarnih informacij, imenovanih tehnologij iskanja po celotnem besedilu.

Zahvaljujoč zmožnosti shranjevanja in obdelave celotnih besedil dokumentov v takih sistemih je bilo mogoče v veliki meri avtomatizirati procese jezikovne analize in iskanja dokumentov. Razviti so bili pristopi za avtomatizacijo sestavljanja številnih slovarjev in tezavrov, ki se uporabljajo v tem procesu. V tehnologijah iskanja po celotnem besedilu zavzemajo pomembno mesto statistične metode analize dokumentov. Sprva so sistemi s polnim besedilom omogočali predvsem kontekstualno iskanje, tj. iskanje dokumentov, katerih besedila vsebujejo pojav konteksta, navedenega v zahtevi uporabnika. Kasneje je bilo uporabljeno logično iskanje. Razviti so bili tudi različni bolj subtilni modeli iskanja.

Skozi zgodovino sistemov za iskanje po besedilu so bile znanstvene raziskave na tem področju dejavne. Na razvoj sistemov za iskanje po besedilu so močno vplivali inovativni raziskovalni projekti in razvoj eksperimentalnih prototipov sistemov za iskanje po celotnem besedilu v 60. letih prejšnjega stoletja. Za to obdobje je značilen pomemben napredek v različnih vidikih organizacije sistemov za iskanje besedil in metod, ki se v njih uporabljajo. Trenutno se obetaven razvoj na tem področju osredotoča na avtoritativno mednarodno konferenco o iskanju besedil TRES (Text Retrieval Conference), ki jo je leta 1992 v ZDA ustanovil Ameriški nacionalni inštitut za standarde in tehnologijo (NIST).

Aktiven razvoj tehnologij za iskanje besedil in informacijske potrebe uporabnikov so spodbudili transformacijo informacijskih sistemov iz sistemov za iskanje besedil v sisteme splošnejšega razreda, ki se ukvarjajo ne samo z besedilnimi dokumenti, temveč tudi z dokumenti, ki vsebujejo informacije drugačne narave. V takšnih sistemih (imenujejo se multimedijski) je vsebina njihovih iskalnih objektov - dokumentov - kombinacija informacijskih virov, predstavljenih v različnih okoljih - besedilni elementi, statične slike, zvočni podatki (glasbena dela, govorjeno besedilo itd.) , risanke , video posnetki itd.

Verjetno za razlikovanje med sistemi za iskanje po besedilu in iskalnimi sistemi, ki upravljajo s temi drugimi vrstami informacijskih virov, se je v zadnjih letih poleg pojma sistem za iskanje informacij (Information Retrieval System) pojavil izraz sistem za iskanje po besedilu (Sistem za iskanje po besedilu ali Text Retrieval System) se je začela uporabljati.

Ker uporabniki postavljajo precej visoke zahteve do sistemov za iskanje besedil, so sodobne tehnologije za iskanje besedil postale zelo kompleksno sintetično področje raziskav in razvoja. To področje zajema široko paleto problemov - od teorije iskanja informacij do metod zadovoljevanja potreb uporabnikov po zbiranju, organiziranju, shranjevanju, iskanju in distribuciji informacij. Vključuje tudi probleme zagotavljanja vmesnikov med uporabniki in orodji za upravljanje virov za nestrukturirane ali polstrukturirane informacije, podprte v računalniškem okolju. V sistemih za iskanje po besedilu se uporabljata tako analitični kot empirični pristop.

Pomembno mesto v tehnologijah iskanja po besedilu zavzema obdelava naravnega jezika, tj. računalniško reševanje problemov, povezanih z razumevanjem, analizo, izvajanjem različnih operacij nad besedili v naravnem jeziku, kot tudi njihovo generiranje. Ta razred nalog spada v področje umetne inteligence.

Sodobne tehnologije iskanja po besedilu za analizo besedila ne uporabljajo le aparature lingvistike, ampak tudi statistične metode, matematično logiko in teorijo verjetnosti, analizo grozdov, metode umetne inteligence in tehnologije za upravljanje podatkov.

Delo na informacijski avtocesti, zlasti v zvezi z ustvarjanjem digitalnih knjižnic, ki se je sredi devetdesetih let prejšnjega stoletja začelo v številnih državah po svetu, je močno oživilo zanimanje za probleme iskanja besedil. Pojavila so se povsem nova področja, kot so odkrivanje informacij v globalnem računalniškem omrežju, iskanje po besedilu na spletu in večjezično iskanje.

V svoji polstoletni zgodovini je razvoj tehnologij za iskanje besedil naredil ogromen korak od najpreprostejših sistemov za iskanje deskriptorskih informacij do sofisticiranih sistemov za iskanje po celotnem besedilu, od iskalnikov do sistemov z bogatejšo funkcionalnostjo. Viri sodobnih računalniških sistemov omogočajo shranjevanje ogromnih količin informacijskih virov v sistemih za iskanje besedil, izvajanje ne le tehničnih, ampak tudi algoritemsko zapletenih postopkov za obdelavo shranjenih zbirk dokumentov - njihovo klasifikacijo, združevanje v skupine, poglobljeno analizo besedila. , prevajanje dokumentov iz enega jezika v drugega itd. .d.

Sistemi za iskanje po besedilu so pomembno vplivali na oblikovanje posebnega razreda informacijskih sistemov, imenovanih sistemi za upravljanje dokumentov, ki se danes pogosto uporabljajo v številnih velikih gospodarskih podjetjih in drugih organizacijah. V takšnih sistemih je pomembna vloga ne samo metodam obdelave naravnega jezika, ustvarjenim za delo z besedilnimi dokumenti, temveč tudi organizaciji skupinskega razvoja dokumentov, njihovemu shranjevanju, distribuciji in seveda tehnologijam iskanja po besedilu.

Razvoj tehnologij za iskanje po besedilu se je v zadnjih letih nadaljeval precej intenzivno, zahvaljujoč aktivnim raziskavam in razvoju, ki potekajo v številnih državah. Pojavila se je industrija komercialne programske opreme za sisteme za iskanje besedil. Takšni sistemi se v naši državi razvijajo in pogosto uporabljajo.

Kot že omenjeno, tehnologije iskanja po besedilu obravnavajo informacije, predstavljene v naravnih jezikih. Vsebinska raznolikost takšnih informacij je precej velika - lahko so članki, objavljeni v časopisih in revijah, različni tehnični priročniki, poročila, knjige, disertacije, pisma, zakonodajni akti itd.

Osnovna enota informacij v sistemih za iskanje besedil se imenuje dokument. Dokument ni pravna oseba, temveč vsebinsko popolna, enolično prepoznavna enota informacij, predstavljena v katerem koli naravnem jeziku. V zgodnjih IPS je bil dokument obravnavan kot atomska (nedeljiva) enota. Za sistem je deloval kot "črna skrinjica". V naprednejših sistemih za iskanje po besedilu je vsebina dokumenta na voljo sistemu za obdelavo in analizo.

Sistemi za iskanje po celotnem besedilu delujejo z elektronskimi dokumenti, tj. dokumenti, shranjeni v pomnilniku računalnika in na voljo za avtomatsko obdelavo. Računalniško jezikoslovna analiza in obdelava besedilnih dokumentov sta možni le, če so posamezni elementi besedilnega dokumenta dostopni programsko. Zato je popolnoma nezadostno skenirati tekstovni dokument na papir in nastali faksimile shraniti v pomnilnik računalnika kot grafično datoteko nekega formata. Dokument je treba imeti v digitalizirani obliki, tj. v takšni obliki, da je vsak znak besedila tega dokumenta programsko dostopen. Sistem tako lahko deluje na vsebinskih elementih digitaliziranega dokumenta. Digitalizirano predstavitev besedilnega dokumenta je mogoče ustvariti na primer z:

Skeniranje s papirja in uporaba programske opreme za optično prepoznavanje znakov (OCR);

Programsko generiranje besedila z uporabo prepoznavalnikov glasu ali na kak drug način.

Nabor dokumentov, shranjenih v sistemu, se v različnih sistemih imenuje različno (iskalni niz, arhiv itd.). V zadnjem času se v ta namen pogosto uporablja izraz »zbirka dokumentov«. Vsak iskalnik po besedilu lahko na splošno podpira več različnih zbirk dokumentov.

Dokumenti so shranjeni v sistemu za iskanje po besedilu, da bi zadovoljili informacijske potrebe uporabnikov. Predstavitev uporabnikovih informacijskih potreb v obliki, ki jo lahko razume programska oprema iskalnika besedil, se imenuje uporabniška poizvedba (ali preprosto poizvedba). Nujen sestavni del vsebine uporabniške zahteve je opis lastnosti, ki jih imajo dokumenti, ki zanimajo uporabnika. Naravno je, da ta opis imenujemo iskalni kriterij.

Poudariti je treba, da enota zrnatosti iskanja, tj. V večini sistemov za iskanje besedil je najmanjša enota informacije, ki jo je mogoče vrniti uporabniku kot rezultat obdelave poizvedbe, ki jo je določil, dokument in ne kateri koli njegov del. Praviloma sistem kot rezultat obdelave zahteve uporabnika izdela niz končnih dokumentov, ki ustrezajo kriteriju, določenemu v zahtevku.

Iskalni kriteriji v uporabniških poizvedbah imajo lahko različne oblike. To je lahko na primer nabor izrazov (besed ali besednih zvez), vsebovanih v zahtevanih dokumentih, ali izrazov, povezanih z logičnimi operatorskimi simboli. V slednjem primeru se logični operator razlaga kot pogoj hkratnega pojavljanja (operator »AND«) besed, ki jih povezuje v dokumentu, alternativnega pojavljanja (operator »OR«) ali odsotnosti pojavljanja (operator »NOT«) naslednjega termina. V zahtevnejših primerih je lahko iskalni kriterij stavek v naravnem jeziku ali celo primer dokumenta, ki zadovoljuje uporabnikove informacijske potrebe. Z analizo takega dokumenta bo sistem izpostavil izraze, da bi oblikoval nek "notranji" pogled na to uporabniško zahtevo.

Dokumenti, shranjeni v sistemu, ki ustrezajo uporabniški poizvedbi, se imenujejo relevantni.

Ni nujno, da je relevantnost dokumenta ocenjena z vidika binarne logike (»da-ne«). Nekateri razviti sistemi uporabljajo bolj subtilne ocene, ki se izračunajo kot vrednosti posebej izbrane numerične funkcije (funkcija ustreznosti), pri čemer vrednosti v intervalu. V takšnih primerih je primerno govoriti o stopnji ustreznosti dokumenta in jo razumeti kot vrednost te funkcije. Nekateri sistemi za iskanje po besedilu nudijo uporabniku nabor dokumentov, pridobljenih kot rezultat obdelave poizvedb, pri čemer so dokumenti razvrščeni v padajočem vrstnem redu glede na pomembnost. To razporeditev najdenih dokumentov imenujemo njihovo rangiranje. Uporabnik lahko učinkoviteje analizira razvrščen niz rezultatov poizvedbe. Z veliko verjetnostjo so zanj najbolj zanimivi izmed najdenih dokumentov na začetku prikazanega seznama dokumentov.

Zaradi različnih razlogov, povezanih predvsem s težavami avtomatizacije razumevanja naravnega jezika, pa tudi z netočnostjo prikaza informacijskih potreb uporabnika v zahtevku, kot posledica obdelave zahtevka uporabnika, dokumenti, ki ne ustrezajo uporabnikove potrebe po informacijah. Ta pojav imenujemo informacijski šum.

Pomembni značilnosti kakovosti iskanja v sistemih za iskanje po besedilu sta popolnost in natančnost iskanja. Popolnost iskanja določa razmerje med številom relevantnih dokumentov, vrnjenih kot rezultat obdelave uporabniških zahtev, in številom relevantnih dokumentov, ki so dejansko na voljo v sistemu. Delež ustreznih dokumentov v naboru nastalih dokumentov poizvedbe se lahko uporabi za kvantificiranje natančnosti iskanja.

2. Načela iskanja po besedilu

Oglejmo si zdaj osnovna načela gradnje sodobnih sistemov za iskanje besedila. Raznolikost uporabljenih tehnologij je posledica razlik v pristopih, ki se uporabljajo za predstavitev pomena dokumentov, shranjenih v sistemu, v naravnih jezikih in informacijskih potreb uporabnikov ter različnih kriterijev za relevantnost dokumentov za uporabniške poizvedbe.

Viri kompleksnosti v sodobnih sistemih za iskanje besedil. V nasprotju s tehnologijami zgodnjih sistemov za iskanje informacij razvite sodobne tehnologije iskanja po besedilu omogočajo iskanje dokumentov, ki so zanimivi za uporabnika, na podlagi njihove informacijske vsebine in ne le na podlagi nizov deskriptorjev ali vrednosti katerih koli atributov, povezanih s temi. dokumenti (leto izdaje, avtor, založnik itd.). Ti atributi, čeprav so lahko zlasti edinstveni identifikatorji dokumentov, v ničemer niso odvisni od njihove vsebine.

Glavne težave tehnologij iskanja po besedilu so povezane s kompleksnostjo nedvoumne samodejne interpretacije vsebine besedil dokumentov in oblikovanja informacijskih potreb uporabnika v naravnem jeziku. Izjave v naravnem jeziku pogosto vsebujejo dvoumnost in odvečnost. Upoštevati je treba sinonimijo in homonimijo izrazov, raznolikost slovničnih oblik jezikovnih elementov. Pomenske povezave med besedami v stavku so pogosto predstavljene v implicitni obliki. Besedišče naravnih jezikov je dinamično; novi koncepti in izrazi se pogosto pojavljajo na številnih predmetnih področjih.

Te značilnosti vodijo do odsotnosti kakršne koli redne strukture v besedilnih dokumentih v naravnem jeziku. Zato se podatki, ki predstavljajo informacijske vire te vrste, imenujejo nestrukturirani.

Semantična primerjava vsebine dokumentov, shranjenih v sistemu, in uporabniških poizvedb, izraženih v naravnem jeziku, je precej težka naloga. To pojasnjuje težave pri odločanju, ali zadevni dokument ustreza uporabnikovim potrebam po informacijah v sodobnih sistemih za iskanje po besedilu.

Za upravljanje podatkov te vrste je treba uporabiti drugačno tehniko upravljanja podatkov kot v sistemih podatkovnih baz, čeprav so nekateri elementi upravljanja podatkov, ki se uporabljajo v sistemih podatkovnih baz, uporabni tudi za sisteme za iskanje po besedilu.

Predložitev dokumentov. Zbirke dokumentov, shranjenih v sistemih za iskanje po besedilu, so lahko precej velike. Besedila v dokumentih so lahko tudi precej velika. Zato je nerealno pričakovati, da bo sistem za iskanje po besedilu v procesu obdelave uporabniških zahtev sposoben analizirati celotna besedila shranjenih dokumentov, tudi če ta sistem temelji na zelo zmogljivem računalniku. Zmogljivost takega sistema ne bi bila zelo visoka.

Izhod je, da ne delamo s samimi dokumenti, temveč z nekaterimi strukturiranimi predstavitvami njihove vsebine, ki se imenujejo pogledi dokumentov (v nekaterih publikacijah se imenujejo tudi predstavniki dokumentov). Uporaba pogleda dokumenta namesto samega dokumenta vam omogoča, da se izognete dolgotrajnemu procesu pregleda in analiziranja celotne vsebine dokumenta med fazo iskanja, hkrati pa izkoristite prednosti strukturirane predstavitve za izboljšanje učinkovitosti iskanja.

Sodobni sistemi za iskanje besedil uporabljajo različne pristope za konstruiranje predstavitev shranjenih dokumentov. Kakovost iskanja - njegova natančnost, popolnost, zmogljivost in druge značilnosti - je bistveno odvisna od narave uporabljenih predstavitev dokumentov. Ker tekstovni dokumenti, vneseni v sistem, ostanejo praviloma nespremenjeni ves čas njihovega obstoja v sistemu, se konstrukcija predstavitve vsakega dokumenta, ki je na voljo v sistemu, lahko izvede enkrat na stopnji njegovega vnosa v sistem. sistem.

Indeksiranje dokumentov. Predstavitev dokumenta je običajno zgrajena na podlagi niza lastnosti (atributov) tega dokumenta. V preprostih sistemih za iskanje po besedilu ti atributi, kot je bilo že omenjeno, niso nikakršni sestavni deli vsebine dokumenta. Takšni atributi so lahko katerekoli zunanje (glede na besedilo dokumenta) značilnosti dokumenta in sploh ni nujno, da ga enolično identificirajo. Uporabite lahko na primer registrsko številko dokumenta v arhivu, datum njegove registracije, ime organizacije, ki je prejemnik dokumenta, navedbo lokacije njegovega shranjevanja itd. kot take zunanje atribute dokumentov se lahko uporabljajo tudi klasifikatorji dokumentov ali metapodatkovni elementi Dublinskega jedra.

Dublinsko jedro (DC) je nabor elementov metapodatkov, katerih pomen je ustno opisan in zapisan v specifikaciji standarda, ki ga opredeljuje. Glede na pomene teh elementov je mogoče opisati vsebino različnih vrst besedilnih dokumentov in dokumentov, predstavljenih v drugih okoljih. Takšen opis bo jasno razumela celotna skupnost, ki uporablja DC za predstavitev dokumentov in zahtev uporabnikov.

Dublinsko jedro je v zadnjih letih vse bolj razširjeno. Privlačnost tega pristopa je povezana z njegovo preprostostjo, kar seveda posledično posledično omejuje njegove zmogljivosti.

Prvotna različica Dublinskega jedra, ki je vključevala 13 elementov, je bila predlagana na simpoziju v Dublinu (ZDA) leta 1995, ki sta ga organizirala On-line Computer Library Center (OCLC) in Nacionalni center za superračunalniške aplikacije (NCSA). opisati informacijske vire knjižničnih sistemov, zlasti spletne informacijske vire itd. Razvoj Dublinskega jedra podpira organizacija, ustanovljena posebej za ta namen – Dublin Core Metadata Initiative (DCMI).

Trenutna različica specifikacij Dublin Core, DC 1.1, je bila sprejeta kot standard DCMI leta 1999. Vključuje 15 metapodatkovnih elementov. Tej vključujejo:

Naslov (ime vira);

Ustvarjalec (oseba, organizacija ali služba, odgovorna za pripravo vsebine vira);

Predmet (tema, obravnavana v vsebini vira);

Opis (opis vsebine vira v prosti obliki);

Založnik (oseba, organizacija ali storitev, ki omogoča dostop do vira);

Sodelavec (drugi udeleženci pri pripravi vsebine vira, razen tistih, ki so navedeni v Ustvarjalcu)",

Datum (datum ustvarjanja ali zagotavljanja dostopa do vira);

Format (narava predstavitve vira);

Jezik (predstavitveni jezik vira);

Pokritost (območje prostora, časa itd., ki mu pripada vsebina vira);

Pravice (pravice intelektualne lastnine do vira itd.). Dosežen dogovor o sestavi elementov metapodatkov Dublinskega jedra določa sestavo elementov, ki mu pripadajo. Vendar je na verbalni ravni vsakemu od njih težko nedvoumno pripisati natančen pomen. Na primer, element Datum ima lahko v različnih primerih različne pomene - datum objave strani na spletu, datum zadnje posodobitve strani itd.

Iz tega razloga je bil leta 2000 za DMCI Dublin Core predlagan koncept kvalifikatorjev in objavljena je bila njihova začetna sestava.

Kvalifikatorji so pojasnjevalci semantike elementov metapodatkov Dublin Core in njihovih pomenov v različnih specifičnih primerih njihove uporabe. Na primer, za element Datum lahko določite, da mislite na čas, ko je bil vir ustvarjen, čas, ko je bil na voljo, ali čas, v katerem je njegova vsebina veljavna, itd. Vrednost elementa Relation lahko določite v obliki URL-ja.

Če je kvalifikator, naveden za element metapodatkov Dublin Core, spletni aplikaciji neznan, ga je treba prezreti.

Niz kvalifikatorjev, ki jih je leta 2000 sprejel DMCI, vključuje dve kategoriji kvalifikatorjev: kvalifikatorje, ki določajo semantiko elementov metapodatkov jedra, in kvalifikatorje, ki določajo način kodiranja pomenov elementov, tako da jih je mogoče ustrezno interpretirati.

Trenutno poteka delo za pojasnitev dane sestave nabora elementov metapodatkov in njihovih kvalifikatorjev. Na podlagi specifikacij DC 1.1 je bil leta 2001 sprejet nacionalni ameriški standard ANSI/NISO Z39.85-2001.

V sistemih za kontekstualno iskanje po celotnem besedilu so atributi predstavitve dokumenta izrazi, izvlečeni iz njegove vsebine - besede, fraze itd., ali vrednosti katere koli posebej izbrane funkcije, izračunane na podlagi teh izvlečenih izrazov.

V vsakem primeru se atributi, povezani z dokumentom, ki identificirajo dokument in/ali označujejo njegovo vsebino, imenujejo njegove lastnosti indeksiranja. Na podlagi lastnosti indeksiranja dokumentov v sistemu za iskanje po besedilu je zgrajena pomožna podatkovna struktura, ki omogoča, da na podlagi njihovih vrednosti ali vrednosti neke funkcije, ki jih uporablja kot argumente, učinkovito (brez popolnega ogleda vsebine dokumentov in brez njihovega popolnega naštevanja) zazna dokument ali dokument v sistemskih zbirkah dokumentov, ki jim ti atributi ustrezajo, in po potrebi hitro dostopa do teh dokumentov. Ta podporna podatkovna struktura se imenuje indeks, postopek dodeljevanja določenih atributov dokumentu pa se imenuje indeksiranje dokumenta.

Zgodnji sistemi za iskanje po besedilu so uporabljali preprosto predstavitev dokumenta, ki je bila zelo priljubljena zaradi svoje preprostosti, čeprav ni mogla zagotoviti visoke kakovosti iskanja. Takšna predstavitev je bila niz besed ali besednih zvez iz besedišča predmetnega področja sistema, ki označuje vsebino tega dokumenta. Te besede in besedne zveze imenujemo deskriptorji. Predstavitev dokumenta v deskriptorskih sistemih imenujemo iskalna slika dokumenta.

IPS, ki uporabljajo obravnavani pristop, se imenujejo deskriptorski sistemi. Takšni sistemi so v uporabi še danes. Indeksiranje dokumenta v njih se zmanjša na dodelitev niza deskriptorjev.

Dokumente je mogoče indeksirati v sistemih za iskanje besedila na podlagi njihovih naslovov, opomb ali celotnega besedila. To lahko storijo ročno avtorji dokumentov, poznavalci predmetnega področja sistema, ki pripravlja dokumente za vnos v sistem, ali avtomatsko s sistemskimi mehanizmi na podlagi analize dokumentov.

Metode za predstavitev in indeksiranje dokumentov v sodobnih razvitih sistemih za iskanje besedil uporabljajo precej delovno intenzivne računske postopke, zato jih je mogoče implementirati le samodejno.

Predstavitev zahtev uporabnikov. Oblikovanje strukturiranih predstavitev vsebine uporabniških poizvedb je še ena pomembna naloga sistemov za iskanje besedil. Tako kot pri procesu iskanja sistem namesto z dokumenti samimi operira s strukturiranimi predstavitvami dokumentov, namesto uporabniško podane poizvedbe uporabi strukturirano predstavitev, ki je sestavljena v procesu obdelave te poizvedbe. Predstavitev poizvedbe je zgrajena na enakih principih kot predstavitve dokumentov v tem sistemu, saj drugače ne bi bile primerljive.

Na primer, v sistemih za iskanje po deskriptorskem besedilu se niz deskriptorjev, ki označujejo vsebino poizvedbe, uporablja tudi kot predstavitev poizvedbe. V takih sistemih se predstavitev poizvedbe imenuje slika iskalne poizvedbe.

Merila ustreznosti dokumenta. V procesu obdelave zahteve uporabnika mora sistem oceniti ustreznost naslednjega obravnavanega dokumenta. Da bi rešili to težavo, je treba njegovo predstavitev primerjati v skladu z nekim kriterijem ustreznosti (merilo bližine) s predstavitvijo poizvedbe.

Vrsta merila bližine je odvisna od pristopa, uporabljenega v sistemu za ustvarjanje pogledov dokumentov in poizvedb. Deskriptorski sistemi običajno uporabljajo merila teorije množic. Dokument se na primer šteje za ustreznega, če je nabor deskriptorjev slik poizvedbe podnabor nabora deskriptorjev slik iskanja dokumenta. Druge različice kriterija - navedeni nizi deskriptorjev so enaki ali njihovo presečišče ni prazno. Napredni sistemi za iskanje besedila uporabljajo bolj zapletene kriterije bližine.

Splošna načela iskanja po besedilu. Sodobni sistemi za iskanje besedil uporabljajo precej širok nabor pristopov k predstavitvi in ​​indeksiranju shranjenih dokumentov, predstavitvi uporabniških poizvedb in ocenjevanju ustreznosti dokumentov. Vendar tako preprosti kot napredni sistemi uporabljajo nekatera splošna načela iskanja. Ta splošna načela so naslednja.

Ko je dokument vnesen v sistem, se dokument indeksira in zgradi njegova predstavitev, ki bo nato med delovanjem sistema pri obdelavi uporabniških zahtev delovala kot nadomestek tega dokumenta. Ker je predstavitev dokumenta dovolj formalizirana, odpade potreba po analizi njegovega celotnega besedila vsakič, ko se obdelajo zahteve. Predstavitev dokumenta ostane nespremenjena ves čas obstoja dokumenta v sistemu, saj se vsebina dokumenta ne spreminja.

Nadalje, na podlagi lastnosti indeksiranja specifičnih dokumentov, prejetih zunaj sistema ali identificiranih s strani sistema z analizo vsebine dokumentov, sistem ustvari in vzdržuje indeks za vsako zbirko dokumentov, shranjenih v njem. Zagotavlja tudi, da je indeks posodobljen, ko je zbirka dodana ali, kar se razmeroma redko zgodi, ko so dokumenti odstranjeni iz zbirke.

Ko uporabniška zahteva vstopi v sistem, se zanjo zgradi tudi ustrezna predstavitev. Metoda za izdelavo je podobna tisti, ki se uporablja za izdelavo pogledov dokumenta.

Končno je samo iskanje sestavljeno iz dejstva, da se na nek učinkovit način (ne z neposrednim naštevanjem, ampak običajno s pomočjo racionalno organiziranega indeksa dokumentov v zbirki) primerja reprezentacijo poizvedbe s predstavitvami dokumentov, shranjenih v sistem se izvede v skladu s kriterijem bližine, ki ga sprejme sistem. V nekaterih primerih je za ta vezja uvedena posebna metrika. Rezultati obdelave poizvedbe so predstavljeni v obliki nabora najdenih relevantnih dokumentov (nastali nabor dokumentov).

Čeprav se v praksi uporabljajo različne vrste predstavitev dokumentov in uporabniških poizvedb, se navedena splošna načela iskanja po besedilu uporabljajo v najrazličnejših sistemih.

3. Orodja za jezikovno podporo

Pri obdelavi dokumentov s celotnim besedilom v sistemih za iskanje po besedilu se morate ukvarjati z orodji za obdelavo naravnega jezika. Ta orodja predstavljajo precej zapleteno in pomembno funkcionalno komponento tovrstnih sistemov.

Orodja za obdelavo naravnega jezika v sistemih za iskanje po besedilu omogočajo izolacijo izrazov (besed, besednih zvez ali besednih zvez), ki nosijo svojo vsebino, iz analiziranih besedilnih dokumentov in uporabniških poizvedb, identificirajo odvisnosti med temi izrazi, upoštevajo njihove konceptualne povezave v kontekstu danem predmetnem področju, na tej podlagi nadgradite predstavitev dokumenta, preoblikujte uporabniške iskalne poizvedbe v obliko, ki je primerna za iskanje, in razširite poizvedbe, da povečate popolnost iskanja.

Za izvajanje teh funkcij večina sistemov obravnavanega razreda uporablja komplekse orodij za jezikovno podporo. Tak kompleks lahko vključuje različne slovarje, tezavruse, ontološke specifikacije predmetnega področja sistema.

Sistemski slovarji. Sistemi za iskanje po besedilu, ki se ukvarjajo z obdelavo naravnega jezika, lahko podpirajo slovarje splošnega jezikovnega besedišča in domensko specifičnega besedišča. Takšni slovarji služijo za morfološko analizo besedila, za zagotavljanje identifikacije besed v različnih slovničnih oblikah med postopkom iskanja, pa tudi za izdelavo določenih vrst predstavitev dokumentov in poizvedb.

Tezavri. Posebni slovarji, imenovani tezavri, imajo pomembno vlogo pri analizi in oblikovanju formalizirane predstavitve besedilnih dokumentov. Tezaver je slovar osnovnih pojmov nekega jezika, ki jih označujejo posamezne besede ali besedne zveze, z določenimi pomenskimi povezavami med njimi.

Tezaver je lahko splošni jezik (na primer tezaver ruskega jezika) ali osredotočen na določeno predmetno področje. Besednjak tezavra vključuje veliko besed in/ali besednih zvez. Vrste podprtih pomenskih povezav med njimi so lahko odvisne ali neodvisne od določenega predmetnega področja. Običajno takšne povezave določajo sinonime, homonime, antonime jezikovnih konceptov, podpirajo razmerja med njimi, kot so "celota - del", "rod - vrsta", "uporablja se za", "deluje v" itd.

Trenutno se uporabljata dva načina ustvarjanja tezavrov - ročni in avtomatski. Tezaver, ustvarjen ročno, je lahko univerzalen, neodvisen od določene zbirke dokumentov. Žal pa je ročno razvijanje tezavra zelo drago, mukotrpno in dolgotrajno opravilo, ki zahteva precej časa. Zato se v praksi pogosto uporablja avtomatsko ustvarjanje tezavrov. Metode za reševanje tega problema so se začele razvijati v zgodnjih 60. letih prejšnjega stoletja. Samodejno ustvarjanje tezavrov se običajno izvaja na podlagi danih zbirk besedilnih dokumentov, zato so takšni tezavri zasnovani za delo posebej s temi zbirkami.

V sistemih, ki uporabljajo tezaver, omogoča na primer pri iskanju po ključnih besedah ​​razširitev poizvedbe tako, da vključuje sinonime ključnih besed, ki jih je prvotno določil uporabnik, s čimer zagotavlja popolnejše iskanje. Sinonime v dokumentu in v poizvedbi je mogoče prepoznati. Tezavrusi se pogosto uporabljajo tudi v procesu ročnega ali samodejnega indeksiranja dokumentov.

Ontologije. Za ustrezno interpretacijo vsebine besedilnih dokumentov in iskalnih poizvedb, predstavljenih v naravnem jeziku, s strani uporabnika in/ali sistema mora imeti sistem kontekst, ki določa osnovne koncepte predmetnega področja in različne vrste pomenskih povezav med njimi. Ta opis je neodvisen od specifičnih dokumentov v sistemskih zbirkah in predstavlja specifikacijo konceptualizacije predmetnega področja sistema. Ta eksplicitna specifikacija se imenuje ontologija domene. Ontologije so se v zadnjih letih zelo razširile v različnih informacijskih sistemih, ki temeljijo na znanju, v inženiringu znanja, pri reševanju problemov semantične integracije informacijskih virov itd.

Ontologijo domene je mogoče podpreti v sistemu z različnimi stopnjami formalizacije. V najpreprostejšem primeru je predstavljen v obliki nekega besednega opisa. Nato je namenjen človeški uporabi na stopnji indeksiranja dokumentov in pri oblikovanju poizvedb. V bolj zapletenem primeru je ontologija predstavljena v formalizirani obliki v jezikih za predstavitev znanja, ki omogočajo logično sklepanje. Takšni sistemi se imenujejo inteligentni.

Že na zgodnji stopnji razvoja sistemov za iskanje po besedilu so začeli uporabljati ontološke predstavitve v obliki hierarhičnih klasifikatorjev. Takšni opisi na vsaki hierarhični ravni podpirajo ekvivalenčno razmerje na množici klasificiranih entitet, ki zagotavlja njeno razdelitev v parno ločene razrede. V tem primeru so entitete sosednjih ravni hierarhije običajno v razmerju "celota - del" ali "rod - vrsta".

Drug neformalen način opisovanja ontologije, ki se precej pogosto uporablja v sistemih za iskanje besedil, je, da jo predstavimo v obliki tezavra predmetnega področja sistema.

Za formalni opis ontologije v razvitih sistemih se uporabljajo logični jeziki prvega reda. Omogočajo možnost logičnega sklepanja. Jezik navedene kategorije KIF (Knowledge Interchange Format), razvit v začetku devetdesetih let prejšnjega stoletja v Laboratoriju za sisteme znanja (KSL) na univerzi Stanford, je postal precej razširjen za predstavljanje ontologije.

Eden najnovejših dosežkov, namenjenih ustvarjanju orodij za formalni opis ontologije, je standard ontološkega definicijskega jezika za spletne informacijske vire - Web Ontology Language. Delo na tem standardu izvaja ontološka delovna skupina za spletni konzorcij W3C. Ta jezik bo nedvomno našel uporabo v inteligentnih sistemih za iskanje informacijskih virov v drugem generacijskem spletnem okolju.

4. Iskanje modelov

Najbolj razvite tehnologije iskanja po besedilu trenutno zagotavljajo sistemi za celotno besedilo. Kot je bilo že prikazano, obstajajo različni pristopi k izgradnji takih sistemov. Te razlike niso povezane le z različnimi oblikami informacijskih potreb uporabnikov, temveč predvsem z razlikami v načinih podajanja polnobesedilnih dokumentov in uporabniških poizvedb v sistemu.

Koncept iskalnega modela. Ključni koncept, ki označuje iskalno tehnologijo v določenem sistemu, je iskalni model, ki ga razumemo kot kombinacijo: metode generiranja predstavitev dokumenta; način oblikovanja predstavitev iskalnih poizvedb; kriterij ustreznosti vrste dokumenta.

Raznolikost funkcionalnosti različnih sistemov za iskanje besedil je povezana prav z razliko v modelih iskanja, ki so v njih implementirani.

Najenostavnejši iskalni modeli. Mnogi sistemi uporabljajo preproste iskalne modele. Ti vključujejo na primer zgoraj obravnavane iskalne modele za deskriptor IPS in sisteme, ki uporabljajo dublinsko jedro.

Drug primer najpreprostejših iskalnih modelov so modeli, ki temeljijo na klasifikatorjih. V modelu, ki temelji na klasifikatorju, so dokumenti predstavljeni z identifikatorji razredov v hierarhični strukturi klasifikatorja, ki mu dokument pripada. Predstavitev zahteve je v najpreprostejšem primeru tudi identifikator razreda danega klasifikatorja, ki zanima uporabnika. Merilo za ustreznost dokumenta je pogoj, da se razred dokumenta ujema s katerim koli razredom v pogledu poizvedbe ali je njegov podrazred.

V bolj zapletenem primeru modeli iskanja, ki temeljijo na klasifikatorjih, omogočajo podajanje več razredov klasifikatorjev v poizvedbi. V tem primeru se štejejo dokumenti, ki pripadajo kateremu koli razredu, navedenem v zahtevku, ali njegovemu podrazredu. Ta iskalni model je blizu spodaj obravnavanemu logičnemu modelu.

Kontekstualni iskalni modeli. Modeli kontekstualnega iskanja so nekoliko bolj zapleteni. Uporaba teh modelov je postala mogoča, ko so računalniški procesorji dosegli dovolj visoko zmogljivost in se je povečal obseg njihovega zunanjega pomnilnika z neposrednim dostopom. Modeli kontekstualnega iskanja uporabljajo predstavitev dokumenta kot zbirko vseh možnih besed in besednih zvez, ki jih najdemo v njegovem besedilu, ne da bi upoštevali tako imenovane zaustavitvene besede. Stop besede so funkcijske besede (predlogi, vezniki itd.), ki jih najdemo v skoraj vseh dokumentih. Iskanje dokumentov, ki vsebujejo takšne besede, bi povzročilo popolno zbirko dokumentov, ki bi bila vrnjena kot odgovor na poizvedbo. Zato takih besed ni mogoče uporabiti kot lastnosti indeksiranja dokumentov.

V sistemih obravnavanega razreda je indeks zgrajen na vseh besedah ​​in besednih zvezah, najdenih v dokumentih, razen stop besed. Istočasno se za izgradnjo indeksa besede, izvlečene iz besedila dokumenta, najprej reducirajo v »kanonično obliko« z uporabo slovarjev in orodij za slovnično razčlenjevanje, ki jih podpira sistem. Zahteva uporabnika je podvržena tudi slovnični analizi, med katero se iz zahteve izločijo tudi besede in besedne zveze, ki jih najdemo v njenem besedilu. Dokument se šteje za ustreznega, če se katera koli beseda ali besedna zveza iz poizvedbe nahaja točno znotraj slovničnih oblik v besedilu dokumenta.

Včasih se uporablja strožje merilo ustreznosti - vključitev vseh besed in besednih zvez, navedenih v zahtevi, v besedilo dokumenta itd.

Logični iskalni modeli. Logični iskalni modeli se pogosto uporabljajo v sistemih za iskanje po besedilu. Uporabnik lahko oblikuje poizvedbo kot logični izraz z uporabo operatorjev AND, OR, NO. Izrazi logičnega izraza so lahko različni v različnih različicah logičnih modelov iskanja. To je lahko na primer pogoj za pojav določene besede ali fraze (do slovničnih oblik) v besedilu dokumenta v logični razširitvi kontekstualnega iskalnega modela. V logični razširitvi modela iskanja po klasifikatorju so lahko pogoji izraza pogoji za pripadnost dokumenta danemu razredu klasifikatorja. V logičnem iskalnem modelu, ki uporablja dublinsko jedro, je izraz lahko enakost, ki opisuje dejstvo, da ima nek element metapodatkov za zadevni dokument vrednost, podano v poizvedbi.

Merilo za relevantnost danega dokumenta za poizvedbo v logičnih modelih iskanja je resničnost logičnega izraza, podanega v poizvedbi.

Vektorski iskalni modeli. V razvitih sistemih za iskanje besedil se najpogosteje uporabljajo vektorski iskalni modeli. Uporaba takih modelov zahteva bistveno več računalniških virov v primerjavi z drugimi modeli, vendar zagotavljajo bistveno višjo kakovost iskanja.

Vektorski modeli predpostavljajo, da so dokumenti in poizvedbe predstavljeni z vektorji. V najenostavnejšem primeru vektorske koordinate ustrezajo besedilnim izrazom - besedam ali besednim zvezam, ki pripadajo sistemskemu slovarju, ki predstavlja besedišče splošnega jezika ali besedišče predmetnega področja. Vsak izraz iz takšnega slovarja je povezan s svojo dimenzijo v vektorskem prostoru. Dimenzija vektorjev, ki predstavljajo dokumente in uporabniške poizvedbe, je popolnoma enaka številu dimenzij v tem prostoru.

Koordinati vektorja je dodeljena ena sama vrednost v primeru, ko se ustrezen izraz pojavi v danem dokumentu ali v skladu s tem v uporabniški poizvedbi. V nasprotnem primeru je koordinati vektorja dodeljena vrednost nič. Ker je velikost slovarja lahko zelo velika, dokumenti ali besedila poizvedb pa vsebujejo bistveno manjše število izrazov, ki jih vsebuje, se takšni vektorji izkažejo za zelo redke. Zato morate uporabiti nekaj tehnik za njihovo stiskanje.

Za oceno stopnje pomembnosti dokumenta za poizvedbo (mera njihove bližine) modeli vektorskega iskanja uporabljajo poljubne vektorske funkcije, katerih argumenti so vektorji, ki jih predstavljajo. Kot takšno mero lahko na primer uporabite kosinus kota med vektorjem dokumenta in vektorjem poizvedbe. Pomembno je omeniti, da ker neničelne koordinate teh vektorjev ustrezajo le izrazom, ki so vključeni v besedilo dokumenta in besedilo poizvedbe, na vrednost funkcije – merilo v obeh primerih – vplivajo samo izrazi, ki so skupni dokument in poizvedbo.

Da bi bili modeli vektorskega iskanja bolj obvladljivi, so ti modeli pogosto bolj zapleteni. Predstavljene so teže izrazov, ki označujejo njihov pomen. Vrednosti teh uteži se uporabljajo kot koordinate vektorja dokumenta, če njegovo besedilo vključuje ustrezne izraze. Tako imajo pojavitve različnih izrazov v besedilu dokumenta različne učinke na vrednost funkcije bližine med dokumentom in poizvedbo. Obstajajo različni pristopi k izbiri teh lestvic. Najpogosteje se v ta namen uporablja zmnožek pogostosti pojavljanja izraza v določenem dokumentu in pogostosti njegovega pojavljanja v vseh dokumentih zbirke kot celote. Izrazi poizvedbe so lahko tudi ponderirani.

Razlike med specifičnimi modeli vektorskega iskanja se zmanjšajo na različne načine dodeljevanja uteži izrazov in izbire mer bližine. Vektorski modeli vam omogočajo rangiranje nastalega niza dokumentov poizvedbe.

5. Stanje razvoja sistemov za iskanje besedil

V zadnjih letih so se sistemi za iskanje besedil aktivno uporabljali na najrazličnejših področjih. Čeprav so bili prvotno razviti predvsem kot orodje za knjižničarstvo, so zdaj našli uporabo v različnih organizacijah za upravljanje svojih besedilnih informacijskih virov. Tehnologije iskanja po besedilu so se začele posebej intenzivno razvijati s pojavom globalnega informacijskega prostora spleta.

Obseg problemov na področju iskanja po besedilu. Trenutno je problem iskanja po besedilu postal precej obsežen. Zajema različna področja teorije in razvoja sistemov za iskanje besedil, kot so:

Razvoj specifičnih iskalnih modelov;

Metodologija za izvajanje poskusov, testiranje in vrednotenje sistemov;

Metode za izvajanje iskanja po besedilu;

Pristopi k integraciji tehnologij iskanja besedil in baz podatkov;

Iskanje v spletnem okolju;

Metode stiskanja podatkov;

Ocenjevanje učinkovitosti obdelave zahtevkov;

Obdelava naravnega jezika;

Metode za klasifikacijo in združevanje besedilnih dokumentov v skupine;

Aplikacije za iskanje informacij v digitalnih knjižnicah;

Poglobljena analiza besedila;

Tehnologije za indeksiranje in iskanje multimedijskih informacij;

Vmesniki človek-računalnik itd.

Razširitev funkcionalnosti besedilnih sistemov.

Razvijalci sistemov za iskanje po besedilu posvečajo veliko pozornosti ne le izboljšanju mehanizmov za izvajanje svojih osnovnih funkcij, temveč tudi razvoju številnih dodatnih zmogljivosti, ki lahko znatno povečajo učinkovitost iskanja, izboljšajo nadzor nad sistemom in uporabniku zagotovijo udobnejše delovne pogoje. Naštejmo nekaj teh možnosti.

Izboljšana natančnost iskanja. Pri oblikovanju uporabniške poizvedbe morda niso vsi izrazi enakovredni. Nekateri besedilni iskalniki omogočajo uporabniku, da izrazom, uporabljenim v poizvedbi, dodeli uteži, da označi njihovo pomembnost v poizvedbi. Te informacije se uporabljajo za izračun ustreznosti dokumentov glede na informacijske potrebe uporabnika, s čimer se bistveno poveča natančnost iskanja.

Razvrstitev nastalih dokumentov poizvedbe. Zaradi prej obravnavanih razlogov sistemi za iskanje po besedilu ne morejo zagotoviti doslednega zadovoljevanja informacijskih potreb uporabnika kot rezultat izvajanja iskalnih poizvedb. Število nastalih dokumentov je običajno veliko. Zato je zelo pomembno, da dokumente, ki jih sistem posreduje uporabniku, organiziramo tako, da so dokumenti, ki bodo uporabnika verjetno najbolj zanimivi, na začetku seznama. Ta vrsta operacije se imenuje rangiranje dokumentov. Razviti sistemi za iskanje besedil imajo mehanizme, ki omogočajo to možnost. Glede na model iskanja, ki ga izvajajo, poskrbijo za razvrščanje nabora dokumentov, ki nastanejo kot rezultat obdelave zahteve uporabnika, glede na nekatere ocene stopnje njihove relevantnosti za zahtevo ali verjetnosti zadovoljevanja informacijske potrebe uporabnika. .

Povratne informacije o ustreznosti so pomembna funkcija, ki vam omogoča izboljšanje učinkovitosti iskanja dokumentov, ki jih uporabnik potrebuje. Dejstvo je, da rezultati obdelave zahtevka morda ne bodo zadovoljili uporabnika. V takšnih primerih številni sistemi za iskanje po besedilu nudijo uporabniku možnost, da izboljša poizvedbo. Da bi to naredil, lahko oceni ustreznost prejetih dokumentov - navede, kateri od njih se mu zdijo ustrezni ali nepomembni.

Ker je število nastalih dokumentov lahko precej veliko, se od uporabnika zahteva, da oceni vsaj prvih nekaj dokumentov na rangirani listi, tj. tiste dokumente, ki jim je sistem dodelil najvišjo oceno relevantnosti. Sistem lahko uporabi pogoje teh dokumentov za oblikovanje nove, razširjene poizvedbe, ki bo verjetno natančneje izrazila uporabnikove informacijske potrebe.

Ta ponavljajoči se postopek obdelave poizvedbe in njenega spreminjanja z analizo podatkov, pridobljenih iz povratnih informacij uporabnika sistemu, se lahko ponavlja, dokler uporabnik ni zadovoljen z rezultati iskanja. Povratne informacije o ustreznosti se uporabljajo v sistemih, ki temeljijo na različnih iskalnih modelih.

Samodejna razširitev uporabniških poizvedb. To se nanaša na razširitev predstavitve poizvedbe, ki jo je sistemu prvotno predlagal uporabnik. Ta funkcija služi tudi za izboljšanje učinkovitosti iskanja.

Začetni pogled poizvedbe je mogoče obogatiti z:

Sinonimi izrazov, ki jih vsebuje poizvedba, če ima sistem tezaver, ki podpira razmerje sinonimov;

Izrazi, ki so v nekem drugem pomenskem razmerju s poizvedbenimi izrazi, definiranimi z domenskim tezavrom, na primer predstavljajo del koncepta, ki ustreza nekemu poizvedovalnemu izrazu itd.;

Pogoji nastalih dokumentov, ki jih je uporabnik ocenil kot ustrezne ali nepomembne, v sistemih, ki zagotavljajo povratne informacije o ustreznosti;

Pogoste črkovalne napake nekaterih izrazov poizvedbe itd.

Samodejno indeksiranje dokumentov. Študije, izvedene v zgodnjih fazah razvoja sistemov za iskanje besedil, so pokazale, da samodejno indeksiranje dokumentov po kakovosti ni slabše od ročnega indeksiranja. Zato sodobni razviti sistemi uporabljajo samodejno indeksiranje.

Večjezično iskanje. Nekateri besedilni iskalniki vam omogočajo iskanje po zbirkah, ki vsebujejo dokumente v več naravnih jezikih. Eden od težavnih problemov, ki se pojavi v tem primeru, je identifikacija jezika, v katerem je predstavljen obdelani dokument ali njegovi fragmenti.

Medjezikovno iskanje. Obstajajo sistemi za iskanje po besedilu, v katerih so možne situacije, ko so uporabnikove informacijske potrebe opredeljene v enem jeziku, dokumenti v zbirki, ki jih je treba iskati, pa so predstavljeni v drugem jeziku. Ta naloga je še vedno v veliki meri raziskovalna, čeprav jo v praksi že precej pogosto srečujemo, na primer v sistemih mednarodnih organizacij, transnacionalnih podjetij ali katere koli organizacije v državi, kjer je več uradnih jezikov.

Glavna težava medjezikovnega iskanja je ujemanje dokumenta in uporabniške poizvedbe, predstavljene v različnih jezikih. Za rešitev tega problema je potrebno uporabiti prevod dokumenta, prevod poizvedbe ali prevod obeh. V tem primeru se uporabljajo različni pristopi - prevajanje besed za besedo z uporabo dvojezičnega slovarja, "ročno" prevajanje z računalniško podporo, avtomatsko strojno prevajanje celotnega dokumenta ali dela dokumenta.

Iskanje besedila v sistemih podatkovnih baz. Integracija virov baz podatkov in zbirk besedilnih dokumentov ter uporaba sistemskih orodij baz podatkov za implementacijo sistemov za iskanje po besedilu so že dolgo povpraševanje v praksi razvoja informacijskih sistemov.

Besedilni dokumenti imajo lahko različne strukturirane značilnosti in v takšnih primerih bo morda potrebno iskati ne le tradicionalno po vsebini dokumentov, temveč tudi po vrednostih takih zunanjih atributov, povezanih z dokumenti. Podpiranje odnosov med atributi, povezanimi z dokumentom, in njihovimi ustreznimi dokumenti, kot tudi iskanje dokumentov na podlagi vrednosti njihovih povezanih atributov, se dobro ujema z običajnimi tehnologijami baz podatkov. Poleg tega se lahko mehanizmi shranjevalnega okolja DBMS uporabljajo za shranjevanje samih dokumentov.

Hkrati informacijski viri, ki jih sistemi podatkovnih baz upravljajo, pogosto vključujejo poleg strukturiranih podatkov tudi povezane besedilne dokumente. Zato se potreba po besedilnem iskanju pojavi tudi v okolju tradicionalnih podatkovnih sistemov. V povezavi s temi razlogi so tradicionalni DBMS začeli opremljati z mehanizmi za iskanje besedila po vsebini dokumenta.

Tehnologije iskanja po besedilu trenutno podpirajo številni relacijski in objektno-relacijski strežniki baz podatkov, kot so IBM-ov DB2, Oracle Corp. in SQL Server 7.0 in SQL Server 2000 Microsoft Corp. Vendar je treba opozoriti, da v večini teh DBMS-jev besedilni iskalniki ne izvajajo zgoraj obravnavanih modelov naprednega iskanja. Najpogosteje je zadeva omejena na podporo logičnemu modelu iskanja, včasih z razširitvijo poizvedbe, mehanizmi indeksiranja celotnega besedila in nekaterimi drugimi dodatnimi funkcijami.

Poiščite besedilne vire na spletu. Z naraščanjem obsega informacijskih virov na spletu postaja problem uporabe tehnologij za iskanje besedil v tem okolju vse bolj aktualen. Navigacijski dostop do informacijskih virov Internet ne omogoča dovolj hitrega dostopa do njih.

Pri izvajanju tehnologij iskanja besedila na spletu se upoštevajo posebnosti spleta kot iskalnega okolja, značilnosti informacijskih virov, ki so v njem podprti, pa tudi vedenje uporabnika pri interakciji s spletom.

Zgodnji spletni iskalniki, imenovani tudi spletni iskalniki, so omogočali osnovno kontekstualno iskanje. Kasneje so se začele pojavljati implementacije logičnih iskalnih modelov. V zadnjih letih se je zanimanje za probleme iskanja besedil na spletu močno povečalo. Različne ekipe izvajajo številne in raznolike raziskave na tem področju. Trenutno obstaja cela vrsta sistemov za iskanje besedila za splet. Med njimi so sistemi, ki so univerzalni in osredotočeni na določena predmetna področja, sistemi mednarodnega in nacionalnega obsega. Med njimi so največji večjezični iskalnik AltaVista, Yahoo!, Google, iskalnik ruskih spletnih strani Yandex in številni drugi. Razlikujejo se po obsegu – sestavi skeniranih spletnih strežnikov, organizaciji uporabniških vmesnikov in funkcionalnosti iskalnikov. Vsi podpirajo različne različice logičnega iskalnega modela. Nekateri sistemi zagotavljajo razvrščanje nastalega nabora dokumentov in podpirajo povratne informacije glede ustreznosti. Sistem AltaVista izvaja možnost postopnega zmanjševanja območja iskanja. Po opravljenem iskanju se uporabniku prikaže histogram, ki označuje statistiko najdenega niza dokumentov po razredih. Uporabnik lahko izbere razrede, ki ga zanimajo. Nato se iskanje ponovi znotraj podmnožice informacijskih virov, ki so na voljo tako identificiranemu sistemu.

Zelo resne nove dosežke v razvoju sistemov za iskanje besedil v spletnem okolju lahko pričakujemo v povezavi z intenzivnim razvojem platforme XML - platforme spletne tehnologije naslednje generacije. Pomembno je omeniti, da sistemi za iskanje po spletnem besedilu, ki temeljijo na standardih platforme XML, zagotavljajo zmanjšanje razdrobljenosti iskanja. Ni nujno, da so predmeti iskanja popolni dokumenti. Iskalnik lahko na podlagi zahtev uporabnikov vrne fragmente dokumentov, ki jih zanimajo. Poleg tega predstavitev besedilnih informacijskih virov na spletu z uporabo XML omogoča uporabo različnih sredstev za opisovanje njihove semantike in na tej podlagi znatno zmanjšanje ravni informacijskega šuma pri obdelavi uporabniških zahtev.

Nove zahteve za sisteme za iskanje po besedilu. Novi pogoji uporabe in naraščajoče potrebe uporabnikov postavljajo pred sisteme za iskanje besedil nove, višje zahteve. Navajamo glavne:

Zagotavljanje sposobnosti sistemov za iskanje besedila za učinkovito delo z zelo velikimi zbirkami dokumentov;

Razvoj metod za znatno izboljšanje predstavitve pomena dokumentov in uporabniških iskalnih poizvedb;

Zagotavljanje možnosti skupne obdelave besedilnih dokumentov z dokumenti drugačne narave - statične slike, zvok, video itd.;

Razvoj učinkovitih metod iskanja ne samo v statičnih zbirkah, temveč tudi v dokumentnih tokovih;

Izdelava metodologije za vrednotenje sistemov za iskanje besedil, izgradnja besedilnih zbirk, izvajanje eksperimentov.

Kontrolna vprašanja

2. Kateri sistemi so bili imenovani sistemi za iskanje dejanskih informacij?

3. Katere sisteme imenujemo sistemi za iskanje dokumentarnih informacij?

4. Na katerih principih temelji deskriptor IPS?

5. Kateri pogoji so bili potrebni za nastanek tehnologij iskanja po celotnem besedilu?

6. Katere nove zmožnosti ponujajo sistemi za iskanje po celotnem besedilu?

7. Kako se je pod vplivom razvoja sistemov za iskanje besedil in informacijskih potreb uporabnikov preoblikovala funkcionalnost dokumentarnih sistemov za iskanje informacij?

8. V zvezi s čim se je skupaj z izrazom "sistem za iskanje informacij" začel uporabljati izraz "sistem za iskanje besedila"?

9. Kateri problemi sodijo na področje obdelave naravnega jezika?

10. Katera orodja se uporabljajo v sodobnih sistemih za iskanje besedil?

Odgovore na vprašanja je treba poslati po elektronski pošti

DRŽAVNA TEHNOLOŠKA AKADEMIJA KOVROV

Informacijska in analitična referenca o računalništvu

na temo: "Sodobni iskalniki, razvojni trendi enega od vodilnih na trgu Yandex."

Izpolnila: študentka 1. letnika

3 akademske skupine

Makarov Ivan

Uvod. 3

Glavni del. 4

Zaključek. enajst

Uvod.

Yandex je rusko IT podjetje, ki ima v lasti istoimenski sistem za iskanje po internetu in internetni portal. Iskalnik Yandex je osmo največje iskalno mesto na svetu po številu obdelanih iskalnih poizvedb (1,290 milijarde, statistika za avgust 2009) in drugi največji neangleški iskalnik za kitajskim Baidu.

Spletna stran podjetja je bila odprta 23. septembra 1997. 2000 je leto ustanovitve podjetja Yandex. Ustanovitelj Yandexa je CompTek (podjetje, ki je razvilo iskalnik Yandex in zagotovilo njegovo podporo). Podjetje je leta 2002 doseglo samozadostnost, promet za leto 2006 je znašal 72,6 milijona dolarjev, čisti dobiček - 29,9 milijona, za leto 2005 - 35,6 milijona dolarjev, čisti dobiček - 13,6 milijona dolarjev.

Glavna in prednostna usmeritev podjetja je razvoj iskalnika, vendar je Yandex z leti postal multi-portal. Leta 2009 je Yandex vključeval več kot 30 storitev. Najbolj priljubljeni so: Yandex.News, Yandex.Photos, Yandex.Toys in drugi.

Glavna pisarna podjetja se nahaja v Moskvi. Podjetje ima pisarne v Sankt Peterburgu, Jekaterinburgu, Odesi, Simferopolu in Kijevu. Sredi junija 2008 je podjetje napovedalo odprtje Yandex Labs, pisarne v ZDA, Kalifornija.

Glavni del.

Zgodovina nastanka podjetja.

Iskalnik Yandex.Ru je bil uradno objavljen 23. septembra 1997 na razstavi Softool. Glavne značilnosti Yandex.Ru v tistem času so bile preverjanje edinstvenosti dokumentov (razen kopij v različnih kodiranjih), pa tudi ključne lastnosti iskalnika Yandex, in sicer: upoštevanje morfologije ruskega jezika (vključno z iskanje po natančni besedni obliki), iskanje ob upoštevanju razdalj (vključno z odstavkom, natančno besedno zvezo) in skrbno razvit algoritem za ocenjevanje ustreznosti (skladnosti z odgovorom na poizvedbo), ki ne upošteva le števila poizvedb besede, ki jih najdemo v besedilu, ampak tudi "kontrast" besede (njena relativna pogostost za določen dokument), razdalja med besedami in položaj besede v dokumentu.

Malo kasneje se je v razdelku »Pravljice« (opažanja o vsebini ruskega interneta) pojavila prva pravljica Runet - »Splet - humanizem ali černuha?« In v razdelku »Številke« je prva ocena obsega Runeta, 5 tisoč strežnikov in 4 GB besedil.

Dva meseca pozneje, novembra 1997, je bila implementirana poizvedba v naravnem jeziku. Od zdaj naprej lahko preprosto dostopate do Yandex.Ru »v ruščini«, postavljate dolga vprašanja, na primer: »kje kupiti računalnik«, »gensko spremenjene izdelke« ali »mednarodne telefonske kode« in prejmete natančne odgovore. Povprečna dolžina poizvedbe v Yandex.Ru je zdaj 2,7 besede. Leta 1997 je bilo 1,2 besede, takrat so bili uporabniki iskalnikov navajeni na telegrafski slog.

Leta 1998 je Yandex.Ru uvedel možnost »iskanje podobnega dokumenta«, seznam najdenih strežnikov, iskanje znotraj določenega časovnega obdobja in razvrščanje rezultatov iskanja po času zadnje spremembe. V tem letu se je "obseg" ruskega interneta podvojil, kar je povzročilo potrebo po optimizaciji iskalnikov. Tako takrat kot zdaj (s prostornino 200 GB) je hitrost iskanja na Yandex.Ru delček sekunde.

V letu 1999 je Runet zrasel za red velikosti, tako v obsegu besedil kot v številu uporabnikov. To je bilo leto hitrega razvoja Yandex.Ru. Novi iskalni robot je omogočil optimizacijo in pospešitev iskanja po spletnih mestih Runet. Danes je iskalna baza Yandex.Ru dvakrat večja od baze njegovih najbližjih konkurentov.

Novi robot je uporabnikom omogočil nove možnosti - iskanje po različnih delih besedila (naslovi, povezave, opombe, naslovi, podnapisi za slike), omejevanje iskanja na skupino spletnih mest, iskanje po povezavah in slikah ter tudi označevanje dokumentov v ruščini. Pojavilo se je iskanje po kataloških kategorijah in v Runetu je bil prvič uveden koncept "indeksa citiranja" - število virov, ki se sklicujejo na določenega.

Skozi vse leto se je nadaljevalo delo na kvantitativni in kvalitativni analizi Runeta. Odprt je bil indeks NINI (indeks neskladnosti interesov internetne populacije), ki prikazuje dinamiko sprememb interesov uporabnikov interneta. Odprt je iskalni forum in nova storitev - zahtevajte naročnino, to pomeni, da lahko pustite svojo zahtevo na Yandex.Ru in redno prejemate informacije po e-pošti o pojavu novih in / ali spremenjenih dokumentov, ki ustrezajo tej zahtevi. Do začetka šolskega leta je bil odprt »Družinski Yandex«, ki je rezultate iskanja filtriral od opolzkosti in pornografije.

Izvor besede "Yandex".

Danes je »Yandex« beseda iz vsakdanjega življenja uporabnika interneta. Na internetu pogosto vidite »Kaj, Yandex je že preklican?«, »Osamljenost je, ko ti Yandex prvi čestita za rojstni dan«, »Vsa vprašanja Yandexu«. Marsikdo že misli, da je tako že od nekdaj. Na nek način je to res - Yandex se je res pojavil sočasno z množičnim internetom, ko je dostop do omrežja prenehal biti del izbranih tehničnih strokovnjakov. Toda sama beseda "Yandex" je umetna, ima svoje avtorje in svojo zgodovino.

Leta 1993 sta Arkadij Volož, bodoči generalni direktor bodočega podjetja Yandex, in Ilya Segalovič, bodoči tehnološki direktor podjetja, razvila, kot se je kasneje izkazalo, glavno tehnologijo - iskanje nestrukturiranih informacij ob upoštevanju ruskega jezik.

Razvoj je bilo treba nekako poimenovati. Ilya se spominja, kako je v stolpec zapisal različne izpeljanke besed, ki so opisovale pomen tehnologije. Kar hitro je postalo jasno, da iskanje (»iskanje«) v ruščini zveni preveč disonantno in na njegovi podlagi ne morete narediti uspešne kombinacije. Primernejša je bila beseda kazalo. Tako se je na seznamu imen pojavil yandex - še en indekser (»drug indekser« ali jezikovni indeks). Oba Ilya in Arkady sta imeli radi možnost - enostavno izgovoriti, enostavno napisati. Poleg tega je Arkadij predlagal, da črko "I" v imenu - posebej rusko - zaradi jasnosti pustimo rusko. Tako je bila izumljena beseda "Yandex". In programska datoteka se je v skladu s tem imenovala yandex.exe.

Leta 1996, ko je bilo iskanje prvič ponujeno širši javnosti kot tehnologija in ne kot del vsebinskega produkta (pred tem sta obstajali Mednarodna klasifikacija izumov in Svetopisemski računalniški referenčni vir), se je linija programov imenovala Yandex in to ime je bilo razloženo kot Jezik iNDEX. Prva programa v vrsti sta bila Yandex.Site (iskanje enega od vaših spletnih mest - ta izdelek se zdaj imenuje Yandex.Server) in Yandex.Dict (morfološka predpona za AltaVista, edini iskalnik, ki je takrat lahko nekako deloval s cirilico).

Seveda je beseda "Yandex" postala razširjena od septembra 1997, po zagonu iskalnika www.yandex.ru. Od takrat nam uporabniki sistema ponujajo svoje interpretacije. Na primer, Tyoma Lebedev, ki se pripravlja na risanje prve različice glavne strani spletnega mesta Yandex, je rekel: "Oh, razumem, če se prvi "I" v besednem kazalu prevede v ruščino, bo to "I" , torej se bo izkazalo, da je "Yandex". Avtorji so iskreno priznali, da o tem niso razmišljali, vendar je to dobra interpretacija in je sprejeta. Nato je nekdo na internetu predlagal drugo možnost, saj je videl dve strani interneta, INDEX in YANDEX. Ta beseda je že dobila izpeljanke, na primer, zaposleni v Yandexu se pogosto imenujejo "Yandexoidi" in manj pogosto - "ljudje iz Yandexa".

Poiščite "Yandex".

Iskanje Yandex vam omogoča iskanje dokumentov v Runetu, UNetu in Kaznetu (od 14. oktobra 2009) v ruskem, ukrajinskem, beloruskem, romunskem, angleškem, nemškem in francoskem jeziku, ob upoštevanju morfologije ruskega in angleškega jezika. in bližino besed v stavku. Od začetka leta 2006 je na portalu Mail.ru nameščeno iskanje Yandex.

Poleg spletnih strani v formatu HTML Yandex indeksira dokumente v PDF (Adobe Acrobat), Rich Text Format (RTF), Microsoft Word binarnih formatih, Microsoft Excel, Microsoft PowerPoint, SWF (Macromedia Flash), RSS (blogi in forumi).

Posebnost Yandexa je možnost natančnega prilagajanja iskalne poizvedbe. To dosežemo s prilagodljivim poizvedovalnim jezikom. Tako lahko na primer za operacijo izključitve določite obseg: poizvedba A ~~ B bo našla dokumente (strani), v katerih je A prisoten, vendar B ni prisoten, poizvedba A ~ B pa bo našla dokumente, kjer je beseda B ni prisotna z besedo A v enem stavku. Podobno operator & išče kombinacije ključnih besed v stavku, medtem ko operator && išče celoten dokument.

Operater! vam omogoča, da onemogočite morfologijo za določeno besedo, eh!! vam omogoča, da določite normalno obliko, s čimer se izognete nekaterim težavam, povezanim s homonimijo. Na primer, poizvedba!!Ivanov bo našla Ivanov in Ivanov, ne pa tudi Ivana.

Yandex privzeto prikaže 10 povezav na vsaki strani z rezultati; v nastavitvah rezultatov iskanja lahko povečate velikost strani na 20, 30 ali 50 najdenih dokumentov. Včasih se lahko vrstni red spletnih mest na teh straneh razlikuje, ker se zbirke podatkov za te rezultate ne posodobijo hkrati.

Če poizvedba najde veliko povezav, stran z rezultati ponudi omejitev obsega iskanja - po regiji (to je po obsegu IP) ali po datumu. Če za besedo ali besede ni mogoče najti ničesar, se predlaga, da jo/jih zamenjate s podobnimi (ker so predlagane možnosti odvisne od pogostosti iskanja podobnih besed, včasih pride do smešnih situacij). Predlaga se tudi popravljanje besed, vnesenih v napačni razporeditvi tipkovnice.

Občasno se spremenijo algoritmi Yandexa, ki so odgovorni za ustreznost rezultatov iskanja, kar vodi do sprememb v rezultatih iskalnih poizvedb. Zadnje uradno objavljene spremembe so se zgodile marca 2004, aprila 2005 in januarja 2007; po neuradnih informacijah jih je precej več (na primer zadnja avgusta-septembra 2007).

Zlasti so te spremembe usmerjene proti neželeni vsebini pri iskanju, ki vodi do nepomembnih rezultatov za nekatere poizvedbe (redkeje za celotne družine poizvedb). Polsamodejno in ročno moderiranje rezultatov iskanja (z uporabo t. i. »optimizatorjev belih klobukov«) ter neposredna zavrnitev indeksiranja »zlonamernih« spletnih mest se uporabljajo proti iskalni neželeni pošti, ki ni samodejno izločena.

Lastniki, upravljanje in kazalniki uspešnosti.

Več kot 30% podjetja po lastnih podatkih pripada investicijskim skladom ru-Net Holdings in Baring Vostok Capital Partners, 15% skladu Tiger Technologies, približno 30% ustanoviteljem podjetja in 20% menedžerjem oz. drugi manjšinski delničarji.

Sredi septembra 2009 je postalo znano, da je matična družba Yandexa, nizozemska družba Yandex N.V., izdala prednostni delež, ki je bil prenesen na Sberbank za simboličen 1 evro. Edina pravica, ki jo daje delnica, je veto na prodajo več kot 25 % delnic družbe.

Vodstvo: Rkady Volozh - generalni direktor, Ilya Segalovich - tehnični direktor, Elena Kolmanovskaya - glavna urednica, Alexey Tretyakov - komercialni direktor, Svetlana Kondrashova - direktorica oglaševanja.

Vse storitve Yandex.

Pridobivanje informacij:

Iskanje in ya.ru

Imenik - imenik spletnih mest, razvrščenih po indeksu citiranja. Ročno ga dopolnjujejo uredniki katalogov, obstaja pa tudi možnost plačljive registracije.

Novice - Glavne novice dneva, pridobljene iz večjih medijskih hiš na internetu. Možno je iskanje po novicah, kot tudi naročanje na novice za določeno iskalno poizvedbo.

Yandex.XML - s to storitvijo lahko naredite samodejne iskalne poizvedbe v Yandex v formatu xml.

Iščite po blogih in forumih - iščite po virih, ki imajo predstavitev RSS, pa tudi ocene trenutnih poizvedb, priljubljenih kategorij in novic.

Trg - iskanje ponudb za prodajo blaga in storitev, izbor modelov.

»Meditativno« iskanje je edina iskalna storitev na svetu, ki ima gumb »Najdi«, nima pa iskalne vrstice.

Slovarji - enciklopedije, referenčne knjige, slovarji-prevajalniki.

Slike - iskanje slik.

Video - video iskanje.

Zemljevidi - zemljevidi Evrope in Rusije, zemljevidi večjih mest Ruske federacije (natančni do hiše), iskanje po zemljevidu, pa tudi možnost "potepanja" po ulicah nekaterih mest [vir?]

Naslovi - iskanje kontaktnih informacij po imenih podjetij in organizacij.

Plakat - informacije o razpoložljivih dogodkih: kino, gledališče, koncerti, šport, klubi itd.

Vreme - vremenska napoved.

TV program - programi centralnih, regionalnih in satelitskih TV kanalov.

Vozni redi - vozni redi vlakov in letal.

Prilagojeno:

Yandex.Video - video gostovanje in video iskanje.

Pošta - e-pošta.

Ya.ru je storitev za bloganje.

Yandex.Photos - gostovanje fotografij.

Zaščita pred neželeno pošto - filtriranje neželene pošte.

Ljudje - brezplačno gostovanje za osebne internetne strani, kot tudi storitev za shranjevanje datotek.

Yandex.Money je plačilni sistem, ki vam omogoča plačevanje blaga in storitev na internetu.

Zaznamki so sistem za shranjevanje zaznamkov, integriran z Yandex. Bar."

Naročnine - naročanje na novice.

Lenta - spletni bralnik RSS

Yandex.Direct je sistem za dajanje kontekstualnega oglaševanja s plačilom po kliku.

Pokal - redna tekmovanja v iskanju po internetu.

Mesta - internetni indeksi ruskih mest.

Tarifa - iskanje po tarifah internetnih ponudnikov.

Razglednice

Pomlad - samodejno ustvarjanje filozofskih esejev.

Internet - meri hitrost internetne povezave.

Ogledalo - Ogledalo glavnih distribucij OS Linux, pa tudi FreeBSD in drugih projektov.

Yandex. Lokalno omrežje - ponuja možnost uporabe vseh storitev Yandex ne po zvezni, ampak po lokalni tarifi.

Metrike - omogočajo merjenje prometa, analizo vedenja uporabnikov in ocenjevanje učinkovitosti oglaševalskih akcij.

Programski izdelki:

Filter neželene pošte Zaščita pred neželeno pošto za korporativno uporabo (plačljivo).

Program za iskanje datotek Yandex Desktop Search v računalniku.

Program za neposredno sporočanje Ya.Online, ki temelji na Jabberju. Omogoča tudi prejemanje obvestil o novih e-poštnih sporočilih Yandex. Pošta o novih dogodkih s strani Odnoklassniki.ru in VKontakte.

Program Punto Switcher je avtomatski preklopnik postavitve.

Pripomočki za operacijska sistema Mac OS X in Windows Vista ter za brskalnik Opera: iskanje, promet, ura, novice.

Yandex ICQ je posebna različica odjemalca ICQ s simboli in integracijo nekaterih storitev Yandexa.

Zanimiva dejstva.

1) Povprečna dolžina zahteve v Yandex.Ru je zdaj 2,7 besede. Leta 1997 je bilo 1,2 besede, takrat so bili uporabniki iskalnikov navajeni na telegrafski slog.

2) Yandex se je pojavil pred www.yandex.ru. Beseda Yandex je bila izumljena leta 1993, javno pa je bila izgovorjena leta 1996 in takrat ni pomenila podjetja ali iskalnika, temveč iskalno tehnologijo na lastnem strežniku in morfološko predpono iskalniku Altavista.com.

3) www.yandex.ru je bil predstavljen, da bi prikazal zmogljivosti tehnologije Yandex; nihče ni razmišljal o zaslužku z oglaševanjem.

4) Slogan »Vse je mogoče najti« je bil izumljen leta 2000. Istega leta je Yandex objavil prvi oglas za spletno stran na ruski televiziji.

5) Glede na sam Yandex je približno 80 odstotkov njegovega občinstva iz Rusije, približno 3 odstotke iz Evrope in nekaj več kot 1 odstotek iz ZDA.

6) Nekateri zaposleni v tehnični podpori Yandex delujejo pod skupnim psevdonimom "Platon Shchukin".

Zaključek.

Torej, zdaj imamo popolne informacije o Yandexu. Vemo, kdo ga vodi, kako deluje od znotraj, kakšna je zgodovina razvoja podjetja in še veliko več. Zdaj lahko zlahka razumemo, zakaj je Yandex vodilni na ruskem in svetovnem trgu. Menim, da je glavni razlog za uspeh Yandexa ta, da se iskalnik dobro spopada s kompleksnostjo ruskega jezika. Zato iskalniki, ki so bili razviti za angleški jezik, ne morejo indeksirati in rangirati tudi dokumentov v ruskem jeziku. Druga prednost, ki jo vidim, so kreativni, prijazni, veseli slogani, s katerimi Yandex privablja uporabnike k uporabi svojih storitev, ki jih Yandex postavlja blizu iskalne vrstice, so veliko bolj dostopne ruskemu uporabniku.

, trend Rast števila predlogov se bo nadaljevala. Danes prisotni trgu elektronsko plačevanje sistemi... več eno prelomni dogodek: Paycash je sklenila dogovor z največjo iskalnik sistem ...
  • Zvezno okrožje Volga: sodoben stanje in obeti razvoj(na primeru Republike Tatarstan)

    Predmet >> Ekonomija

    ... trendi naprej razvoj. ... vodja. ... razvoj eno od najpomembnejši... kompleks iskalnik in akrobatika... trgu. Razvoj ... sodoben tehnologije, visoko zmogljiva oprema, sodoben... supertoksikantov; - razvoj sistemi spremljanje zemlje...

  • Moderno sociološki problemi telesne kulture in športa

    Povzetek >> Sociologija

    Za popularizacijo političnega voditelji, stranke, ... agregat subjekt-objekt sistem socialnopedagoško... ustvarjalno iskalnik dejavnosti... trgu in država. trg ... Trendi razvoj sodoben Olimpijsko gibanje Rusija je eno od ...

  • Trendi razvoj naftna industrija v svetovnem gospodarstvu

    Povzetek >> Ekonomija

    svet trgu olje: trendi razvoj in ... že izvedeno Iskanje-raziskovalna dela, ... Predhodna ocena. Vodja v svetovni potrošnji... je eno od bistveni elementi sodoben svetovno gospodarsko ... svetovno gospodarsko sistem, med...

  • GNU (rekurzivna kratica za GNU's Not UNIX - "GNU ni Unix!") je projekt za ustvarjanje brezplačnega operacijskega sistema, podobnega UNIX-u, ki ga je leta 1983 odprl Richard Stallman.
  • I. Izjava-prijava za certificiranje sistema kakovosti II. Začetni podatki za predhodno oceno stanja proizvodnje
  • Iskanje, ki ga določijo Boolovi operatorji, je dobesedno - naprava išče besede ali besedne zveze točno tako, kot so bile vnesene. To lahko povzroči težave, če so vnesene besede dvoumne. Na primer, angleška beseda "Bed" lahko pomeni posteljo, cvetlično korito, kraj, kjer se drstijo ribe in še veliko več. Če uporabnika zanima samo eden od teh pomenov, ne potrebuje strani z besedo, ki ima druge pomene. Možno je sestaviti dobesedno iskalno poizvedbo, katere cilj je izločanje nezaželenih vrednosti, vendar bi bilo lepo, če bi lahko iskalnik sam zagotovil ustrezno pomoč.

    Ena od možnosti delovanja iskalnika je konceptualno iskanje. Del tega iskanja vključuje uporabo statistične analize strani, ki vsebujejo besede ali besedne zveze, ki jih je vnesel uporabnik, da bi našli druge strani, ki bi lahko zanimale tega uporabnika. Jasno je, da konceptualno iskanje zahteva shranjevanje več informacij o vsaki strani in vsaka iskalna poizvedba bo zahtevala več izračunov. Trenutno veliko razvojnih skupin dela na izboljšanju učinkovitosti in zmogljivosti teh vrst iskalnikov. Drugi raziskovalci so se osredotočili na drugo področje, imenovano poizvedbe v naravnem jeziku.

    Ideja za poizvedbami v naravnem jeziku je, da uporabnik oblikuje poizvedbo na enak način, kot bi vprašal osebo, ki sedi zraven njega – ne da bi mu bilo treba slediti logičnim operatorjem ali zapletenim strukturam poizvedbe. Najbolj priljubljeno sodobno spletno mesto za iskanje v naravnem jeziku je AskJeeves.com, ki analizira poizvedbo, da prepozna ključne besede, ki se nato uporabijo za iskanje v indeksu spletnega mesta, ki ga sestavi iskalnik. Omenjeno spletno mesto deluje le s preprostimi iskalnimi poizvedbami, razvijalci pa v zelo konkurenčnem okolju razvijajo iskalnik v naravnem jeziku, ki zmore zelo zapletene poizvedbe.


    30. Pomenski sistemi: definicija, namen, tehnično bistvo, klasifikacija, značilnosti, arhitektura, primeri in možnosti razvoja. Osnovni principi optimizacije semantičnega spleta



    Semantična mreža (sistem) – informacijski model predmetnega področja v obliki usmerjenega grafa, katerega oglišča ustrezajo objektom predmetnega področja, loki (robovi) pa določajo razmerja med njimi. Objekti so lahko koncepti, dogodki, lastnosti, procesi. Semantična mreža je torej eden od načinov predstavljanja znanja. Ime združuje izraze iz dveh ved: semantika v jezikoslovju preučuje pomen jezikovnih enot, mreža pa je v matematiki vrsta grafa – množica vozlišč, ki jih povezujejo loki (robovi). V semantičnem omrežju vlogo vozlišč igrajo koncepti baze znanja, loki (in usmerjeni) pa določajo razmerja med njimi. Tako semantična mreža odraža semantiko predmetnega področja v obliki konceptov in odnosov.

    Matematika nam omogoča, da večino pojavov v svetu okoli nas opišemo v obliki logičnih izjav. Semantična omrežja so nastala kot poskus vizualizacije matematičnih formul. Glavna predstavitev semantičnega spleta je graf. Ne smemo pa pozabiti, da se za grafično podobo zagotovo skriva strog matematični zapis in da obe obliki nista tekmovalni, temveč komplementarni.



    Glavna oblika predstavitve semantične mreže je graf. Koncepti semantične mreže so zapisani v ovale ali pravokotnike in so povezani s puščicami s podpisi - loki (glej sliko). To je najprimernejša oblika, ki jo ljudje zaznavajo. Njegove pomanjkljivosti se pokažejo, ko začnemo graditi kompleksnejša omrežja ali poskušamo upoštevati značilnosti naravnega jezika. Sheme semantičnih mrež, ki nakazujejo smeri navigacijskih odnosov, imenujemo karte znanja, njihovo zbirko, ki omogoča pokrivanje velikih območij semantične mreže, pa imenujemo atlas znanja.

    V matematiki je graf predstavljen z množico vozlišč V in množico relacij med njimi E. Z uporabo aparata matematične logike pridemo do zaključka, da vsako vozlišče ustreza elementu predmetne množice, lok pa ustreza na predikat.

    Primer semantične mreže (sistema)

    V jezikoslovju so razmerja zapisana v slovarjih in tezavrih. V slovarjih, v definicijah skozi rod in specifično razliko, zavzema določeno mesto vrstni pojem. V tezavrih lahko članek za vsak izraz navede vse njegove možne povezave z drugimi sorodnimi izrazi na temo. Tezavruse za iskanje informacij je treba razlikovati od takih tezavrov s seznami ključnih besed v člankih, ki so namenjeni delovanju deskriptorskih iskalnih sistemov.

    Razvrstitev semantičnih mrež

    Za vsa semantična omrežja velja delitev po arnosti in številu tipov odnosov.

    · Glede na število vrst odnosov so omrežja lahko homogena in heterogena.

    o Homogene mreže imajo le eno vrsto razmerja (puščica), na primer zgoraj omenjeno razvrstitev bioloških vrst (z enim samim razmerjem AKO).

    o V heterogenih omrežjih je število vrst odnosov večje od dveh. Klasične ilustracije tega modela reprezentacije znanja predstavljajo natanko takšne mreže. Heterogena omrežja so bolj zanimiva za praktične namene, vendar jih je tudi težje preučiti. Heterogene mreže lahko predstavljamo kot preplet drevesnih večplastnih struktur. Primer takega omrežja bi bil semantični splet Wikipedije.

    Po arnosti:

    o tipična omrežja so dvojiško relacije (povezovanje točno dveh pojmov). Binarna razmerja so zelo preprosta in so na grafu priročno prikazana kot puščica med dvema konceptoma. Poleg tega imajo v matematiki izjemno vlogo.

    o V praksi pa boste morda potrebovali relacije, ki povezujejo več kot dva objekta - N-arnega. V tem primeru se pojavi težava - kako prikazati takšno povezavo na grafu, da se ne zmede. Konceptualni grafi (glejte spodaj) ublažijo to težavo tako, da vsako razmerje predstavijo kot ločeno vozlišče.

    · Za velikost:

    o Za reševanje specifičnih problemov, na primer tistih, ki jih rešujejo sistemi umetne inteligence.

    o S.S. industrijskega obsega bi moral služiti kot osnova za ustvarjanje specifičnih sistemov, ne da bi zahteval univerzalni pomen.

    o Globalni semantični splet. Teoretično bi takšno omrežje moralo obstajati, saj je vse na svetu med seboj povezano. Morda bo nekega dne takšno omrežje postal svetovni splet.

    Uporaba semantičnih mrež

    Semantizacija- postopek spreminjanja besedil, v katerih so poudarjena pomenska razmerja, ne da bi se spremenila njihova vsebina. Wikipedia ima projekte semantizacije člankov in drevesa kategorij.

    § Semantizacija člankov je sestavljena predvsem iz uporabe predlog, nekatere kategorije pa se ustvarijo samodejno.

    § Semantizacija drevesa kategorij je možna po delih po njegovi analizi in identifikaciji področij z generičnimi kategorijami

    Semantični splet

    Koncept organizacije hiperbesedila spominja na homogeni binarni semantičnega omrežja, vendar obstaja pomembna razlika:

    1. Povezava, ki jo vzpostavi hiperpovezava, nima semantike, tj. ne opisuje pomena te povezave. Namen semantičnega spleta je opisovati odnosov predmetov, namesto dodatnih informacij o predmetnem področju. Oseba lahko ugotovi, zakaj je potrebna ta ali ona hiperpovezava, vendar računalnik te povezave ne razume.

    2. Strani, povezane s hiperpovezavami, so dokumenti, ki praviloma opisujejo problemsko situacijo kot celoto. V semantičnem omrežju predstavljajo vozlišča (katera razmerja povezujejo). koncepti oz predmeti iz resničnega sveta.

    Poskus ustvarjanja semantičnega omrežja na podlagi svetovnega spleta je bil imenovan semantični splet. Ta koncept uporablja RDF (označevalni jezik, ki temelji na XML) in je zasnovan tako, da daje povezavam pomen, ki ga računalniški sistemi razumejo. To bo internet spremenilo v porazdeljeno bazo znanja v svetovnem merilu.

    Za iskanje po indeksu mora uporabnik oblikovati poizvedbo in jo poslati iskalniku. Zahteva je lahko zelo preprosta, sestavljena naj bo vsaj iz ene besede. Če želite ustvariti bolj zapleteno poizvedbo, morate uporabiti logične operatorje, ki vam omogočajo izboljšanje in razširitev iskalnih izrazov.

    Najpogosteje uporabljeni logični operatorji so:

    • IN - na iskanih straneh ali dokumentih morajo biti prisotni vsi izrazi, povezani z operatorjem "IN". Nekateri iskalniki namesto besede IN uporabljajo operator »+«.
    • ALI - vsaj eden od izrazov, ki jih povezuje operator "ALI", mora biti prisoten na straneh ali dokumentih, ki jih iščete.
    • NE - izraz ali izrazi, ki sledijo operatorju "NE", se ne smejo pojaviti na iskanih straneh ali dokumentih. Nekateri iskalniki namesto besede NE uporabljajo operator "-".
    • FOLLOWED BY - eden od izrazov mora takoj slediti drugemu.
    • BLIZU - eden od izrazov mora biti oddaljen od drugega največ za določeno število besed.
    • Narekovaji - besede v narekovajih se obravnavajo kot besedna zveza, ki jo najdemo v dokumentu ali datoteki.

    Obeti za razvoj iskalnikov

    Iskanje, ki ga določijo Boolovi operatorji, je dobesedno - naprava išče besede ali besedne zveze točno tako, kot so bile vnesene. To lahko povzroči težave, če so vnesene besede dvoumne. Na primer, angleška beseda "Bed" lahko pomeni posteljo, cvetlično korito, kraj, kjer se drstijo ribe in še veliko več. Če uporabnika zanima samo eden od teh pomenov, ne potrebuje strani z besedo, ki ima druge pomene. Možno je sestaviti dobesedno iskalno poizvedbo, katere cilj je izločanje nezaželenih vrednosti, vendar bi bilo lepo, če bi lahko iskalnik sam zagotovil ustrezno pomoč.

    Ena od možnosti delovanja iskalnika je konceptualno iskanje. Del tega iskanja vključuje uporabo statistične analize strani, ki vsebujejo besede ali besedne zveze, ki jih je vnesel uporabnik, da bi našli druge strani, ki bi lahko zanimale tega uporabnika. Jasno je, da konceptualno iskanje zahteva shranjevanje več informacij o vsaki strani in vsaka iskalna poizvedba bo zahtevala več izračunov. Trenutno veliko razvojnih skupin dela na izboljšanju učinkovitosti in zmogljivosti teh vrst iskalnikov. Drugi raziskovalci so se osredotočili na drugo področje, imenovano poizvedbe v naravnem jeziku.

    Ideja za poizvedbami v naravnem jeziku je, da uporabnik oblikuje poizvedbo na enak način, kot bi vprašal osebo, ki sedi zraven njega – ne da bi mu bilo treba slediti logičnim operatorjem ali zapletenim strukturam poizvedbe. Najbolj priljubljeno sodobno spletno mesto za iskanje v naravnem jeziku je AskJeeves.com, ki analizira poizvedbo, da prepozna ključne besede, ki se nato uporabijo za iskanje v indeksu spletnega mesta, ki ga sestavi iskalnik. Omenjeno spletno mesto deluje le s preprostimi iskalnimi poizvedbami, razvijalci pa v zelo konkurenčnem okolju razvijajo iskalnik v naravnem jeziku, ki zmore zelo zapletene poizvedbe.