Creeaza.com - informatii profesionale despre


Cunostinta va deschide lumea intelepciunii - Referate profesionale unice
Acasa » referate » informatica » internet
Cautarea pe Internet si motoarele de cautare

Cautarea pe Internet si motoarele de cautare


Cautarea pe Internet

Problema pe care o discutam in acest capitol este modul in care gasim o anumita informatie printre miliardele de pagini care exista pe WWW si care sunt uneltele pe care le avem la dispozitie pentru a gasi informatia de care avem nevoie.

Cea mai simpla modalitate de a gasi o anumita informatie pe WWW este ca cineva sa ne dea adresa paginii web la care gasim informatia de care avem nevoie si noi sa o introducem in browser. Aceasta poate sa fie o solutie dar probabilitatea este destul de mica pentru ca atunci cand avem nevoie de o informatie sa fie totdeauna cineva langa noi si in plus acel cineva sa stie cu exactitate adresa paginii de care avem noi nevoie. De aceea, exista unele organizatii care se ocupa cu catalogarea informatiilor disponibile pe Internet. Pe langa aceste cataloage exista roboti informatici care navigheaza pe WWW si incearca sa "cartografieze" acest spatiu virtual.

Uneltele pe care le putem folosi pentru a gasi informatii pe Internet sunt: motoarele de cautare, cataloagele si meta-motoarele de cautare.

Problema principala este sa reusim sa filtram cantitatea uriasa de informatie pe care ne-o returneaza motoarele de cautare si cataloagele.

Prin dobandirea unor priceperi si deprinderi de cautare a informatiilor veti reusi sa gasiti informatia de care aveti nevoie mult mai repede si mult mai eficient. In continuare veti descoperi cum puteti sa realizati aceasta.

Exista numeroase motoare de cautare, directoare (sau cataloage) si alte servicii de cautare.



Motoare de cautare: www.google.com, https://search.yahoo.com, www.msn.com, www.ask.com, www.gigablast.com, www.wisenut.com, www.altavista.com, www.alltheweb.com, www.hotbot.com, www.iwon.com, www.aesop.com etc.

Cataloage: https://directory.yahoo.com, https://www.google.com/dirhp, www.about.com, https://directory.mozilla.org, https://www.academicinfo.net, https://looksmart.com etc.

Meta-motoare de cautare: https://www.search.com, https://searchonline.info, https://www.metacrawler.com etc.

 

 

Intrebare este care din aceste servicii de cautare sa le folosim atunci cand dorim sa cautam informatii pe Internet.

Ne vom concentra asupra cautarii informatiilor pe World Wide Web. Totusi este important de retinut ca Internet-ul nu reprezinta doar WWW. De exemplu, putem gasi foarte multa informatie in mesajele newsgroups (care sunt forumuri specializate de discutii). Daca doriti sa cautati informatii in mesajele newsgroups folositi motorul de cautare Google la adresa https://groups-beta.google.com. E-mail este de asemenea parte a Internet-ului dar nu putem cauta informatii in mesajele e-mail ale altora. Continutul mesajelor e-mail trebuie sa ramana confidential. Cu toate acestea putem cauta pe Internet adresele de e-mail ale celor cu care dorim sa corespondam folosind servicii de cautare specializate.

Putem folosi servicii de cautare pentru a gasi software, fisiere cu muzica MP3, imagini etc.

Web-ul contine miliarde de pagini. Google indexeaza la ora actula 8 miliarde de pagini web. E bine de stiut ca nici un motor de cautare nu acopera intregul web si de aceea e bine sa folosim mai multe servicii de cautare. Aici nu incercam sa facem un clasament al serviciilor de cautare. Cel mai bun serviciu de cautare este cel de la care obtineti rezultatele asteptate.

Rolul si modul de functionare al motoarelor de cautare

Motoarele de cautare functioneaza pe baza unor roboti care navigheaza pe web si cauta pagini web noi. Acesti roboti citesc paginile web si introduc textul paginilor (sau o parte din text) in baze de date folosite pentru cautare. Nici un motor de cautare nu acopera intreg-ul Internet, cu toate acestea unele din aceste motoare contin foarte multa informatie.

Cele mai importante motoare de cautare sunt Google, Yahoo! Search, Ask Jeeves.

Motoarele AltaVista si AllTheWeb s-au bucurat de o mare popularitate dar la ora actuala nu mai sunt motoare de cautare propriu-zise intrucat folosesc rezultate de la motorul de cautare Yahoo. Yahoo este de asemenea sursa de date pentru portalurile Lycos si MSN, in timp ce Google furnizeaza rezultate portalului AOL.

Ask Jeeves incearca sa extraga raspunsurile din propria baza de date, care este formata dintr‑un set de raspunsuri la intrebari obisnuite. De asemenea va prezenta rezultatele obtinute de motorul de cautare Teoma.

Atunci cand stim exact ce cautam trebuie sa apelam prima data la motoarele de cautare. Motoarele de cautare acopera o parte mult mai mare a Internet-ului decat directoarele.

Pentru ca un motor de cautare sa ne dea rezultatele de care avem nevoie va trebuie sa specificam mai multi termeni care sa defineasca cat mai exact ceea ce vrem sa gasim. Daca vom face operatii de cautare folosind termeni generali numarul rezultatelor va fi foarte mare. De exemplu daca incercam sa cautam cu Google paginile web care contin termenul "computer" numarul rezultatelor va fi aproximativ 236 de milioane de pagini. Bineinteles ca aceasta nu ne este de mare folos, asa ca va trebui sa rafinam cautarea. Motorul de cautare nu are de unde sa stie ce anume ne intereseaza pe noi si ne va returna toate paginile ce contin termenii specificati. Ordinea in care sunt afisate paginile se stabileste pe baza unor algoritmi sofisticati. Pe Google fiecare pagina primeste un grad (page rank) care depinde de numarul de pagini web care fac referire la pagina respectiva. Cu cat acest grad este mai mare cu atat pagina va fi mai aproape de inceputul listei. Pagina cu gradul cel mai mare va fi prima in lista.


Sintaxa interogarilor

Atunci cand specificam mai multe cuvinte separate prin spatiu motorul de cautare va afisa toate paginile care contin toate cuvintele specificate. Pentru a rafina cautarea fiecare motor de cautare pune la dispozitia utilizatorilor operatori logici.

Operatorii logici pe care ii avem la dispozitie sunt AND, OR, NEAR si NOT. La unele motoare de cautare operatorul AND nu trebuie folosit, el este inclus implicit atunci cand folosim mai multi termeni. Operatorul OR de regula se foloseste la toate motoarele de cautare atunci cand vrem sa obtinem toate paginile care contin cel putin unul din cuvintele specificate. Operatorul NEAR il folosim pentru a gasi pagini in care termenii asupra carora opereaza sunt apropiati unul de altul. Operatorul NOT il folosim atunci cand vrem ca paginile ce contin cuvantul care urmeaza dupa operatorul NOT sa fie excluse din lista rezultatelor. Unele motoare de cautare folosesc semnul + in loc de operatorul AND si semnul minus in loc de operatorul NOT (de exemplu Google).

Atunci cand specificam mai multi termeni de cautare numarul rezultatelor va fi mai mic si va include toate paginile care contin acei termeni indiferent de pozitia lor in cadrul textului. De multe dori dorim sa specificam mai multi termeni si termenii pe care ii specificam sa apara in textul paginii unul langa altul. Pentru aceasta trebuie sa includem termenii intre ghilimele.

Unele motoare de cautare vor face distinctie intre literele mari si mici folosite in termenii de cautare.

Cateva exemple care se pot folosi pe Google:

minister va cauta toate paginile care contin termenul "minister";

ministerul educatie: va cauta toate paginile care contin ambii termeni;

minister educatie OR justitie: va cauta toate paginile care contin termenul "minister" si cel putin unul din termenii "educatie" sau "justitie";

minister NEAR educatie: va cauta toate paginile in care cei doi termeni sunt apropiati unul de altul;

minister -reforma: va cauta toate paginile care contin termenul "minister" si nu contin termenul "reforma".

"ministerul educatiei": va afisa toate paginile in care cei doi termeni apar unul langa altul.

Sintaxa acestor interogari poate fi diferita cu alte motoare de cautare. De regula motoarele de cautare pun la dispozitie o pagina pentru cautare avansata unde utilizatorii pot defini cu exactitate, prin limbaj natural ce anume vor sa caute fara a fi nevoie sa cunoasca sintaxa exacta a interogarilor.

Unele motoare de cautare pun la dispozitie caracterul * ce poate fi folosit la fel ca si la fisiere pentru a inlocui un grup de litere. De exemplu minist* va cauta paginile care contin cuvinte care incep cu minist (minister, ministru, ministerul).

Caracterul ~ (tilda) folosit in fata unui termen de cautare va afisa paginile ce contin termenul respectiv dar si termeni sinonimi.

Figura : Google - cautare avansata

Atunci cand robotii de cautare extrag informatia din paginile web, aceasta informatie este sortata in diferite categorii sau campuri. Principalele campuri care pot fi accesate pentru cautare sunt:

Title: acesta este textul care apare pe bara de stare a ferestrei browser-ului. Titlul contine de regula cuvinte cheie esentiale care definesc continutul paginii. Daca restrictionam cautarea la titlurile paginilor vom primi mai putine rezultate dar mai la obiect. De exemplu putem folosi interogarea title:minister si vom primi ca rezultat toate paginile care au ca titlu cuvantul minister.

URL sau site: ne permit sa efectuam cautarea doar in domeniul sau site-ul specificat. De exemplu daca folosim pe Google sintaxa minister site:edu.ro vom primi ca rezultat toate paginile care contin cuvantul minister din domeniul edu.ro;

Cautari specifice unui limbi

Motoarele de cautare pun la dispozitia utilizatorilor posibilitatea de a cauta pagini scrise doar intr-o anumita limba sau pagini aflate intr-o anumita tara. In plus exista posibilitatea de a afisa paginile intr-o anumita limba prin traducerea lor automata din limba in care sunt scrise. Daca vrem sa cautam intotdeauna pagini doar intr-o anumita limba putem sa salvam aceasta preferinta si la orice cautarea ulterioara nu va mai trebui sa stabilim limba in care se face cautarea.

Lucrul cu directoare

Directoarele de cautare sunt baze de date ierarhice care contin referinte la sit-uri web. Sit-urile web ce sunt incluse in aceste directoare sunt selectate de persoane care se numesc editori web si sunt clasificate conform regulilor serviciului de cautare respectiv.

Cel mai cunoscut director de cautare este Yahoo!, acesta fiind si primul director de cautare important. Pentru a cauta informatii in acest director trebuie sa mergem la pagina https://dir.yahoo.com. Cautarea obisnuita nu va returna rezultate din acest director. Un alt director bine cunoscut poate fi gasit la adresa https://www.dmoz.org. Directorul DMOZ este creat de editori din toata lumea pe baza de voluntariat.

Directoarele sunt utile atunci cand avem doar notiuni generale despre ceea ce vrem sa cautam. Pe prima pagina apar categoriile cele mai generale (cum ar fi "Calculatoare si Internet" sau "Educatie"). Cand intram la una din categorii vom gasi subcategorii organizate logic si la capatul ierarhiei vor fi adresele web ale sit-urile din categoria sau subcategoria respectiva.

Daca vom efectua o operatie de cautare in director, folosind formularul de cautare, cautarea se va face in textul continut in titlul si descrierea sit-ului si nu in continutul paginilor web. Aceste descrieri sunt realizate de editorii directorului si de multe ori reprezinta informatiile furnizate de proprietarii sit-urilor. Majoritatea directoarelor vor cauta si printre cuvintele care formeaza numele si descrierea categoriei. Unele directoare de cautare vor adauga date furnizate de motoarele de cautare obisnuite daca nu gasesc informatii in legatura cu interogarea.

Figura : Directorul Yahoo!

Figura : Directorul DMOZ

Meta-motoare de cautare

Meta-motoarele de cautare cum sunt Search.com (https://www.search.com) sau Metacrawler (https://www.metacrawler.com) cauta informatii in mai multe motoare de cautare si directoare, incercand sa extraga cele mai relevante rezultate. Am putea incepe cautare cu unul din aceste motoare dar sintaxa este destul de problematica. Sintaxa poate diferi de la un motor de cautare la altul, ceea ce inseamna ca meta-motorul de cautare trebuie sa "traduca" interogarea intr-un limbaj care poate fi inteles de fiecare motor de cautare la care apeleaza. Pentru cautari mai complexe trebuie sa folosim efectiv un motor de cautare propriu. Meta-motoarele de cautare ne vor da doar o mica parte din rezultatele obtinute de fiecare motor de cautare.

Figura : Meta-motorul de cautare Metacrawler





Politica de confidentialitate


creeaza logo.com Copyright © 2024 - Toate drepturile rezervate.
Toate documentele au caracter informativ cu scop educational.