Creeaza.com - informatii profesionale despre


Evidentiem nevoile sociale din educatie - Referate profesionale unice
Acasa » referate » informatica » internet
Metode de cautare pe web

Metode de cautare pe web


Metode de cautare pe web

Aplicatii ale licitatiei englezesti in

sistemele multi-agent

Introducere



In acest proiect am incercat aplicarea mai multor tehnici de cautare pentru a gasi informatii utile despre Aplicatii ale licitatiei englzezesti in sistemele multi-agent. Exista mai multe motoare de cautare si anume :

Search Engine : un search engine (motor de cautare) este un server cu conexiune permanenta la reteaua Internet, care are instalata local o baza de date cu informatii despre site-uri diverse. Motoarele de cautare sunt principalul instrument prin care utilizatorii Internet obtin informatiile dorite. Pentru ca un motor sa "cunoasca" un site acesta trebuie mai intai adaugat in baza de date. Fiecare motor de cautare are o metoda proprie prin care accepta o inregistrare noua. Rezultatele unei cautari depind de felul in care cuvintele continute in cerere (querry) catre server sunt regasite in titlul paginii, descriera paginii, textul continut in pagina, cuvintele cheie (key-words) din pagina si informatiile declarate in momentul inregistrarii. Se pot distinge cateva tipuri de search engine-uri:

Motoare cu 'spider' gen altavista.com au cea mai simpla procedura de inregistrare, trebuie doar sa anuntam o noua adresa si motorul va indexa automat toate paginile din site cu legaturi directe. Termenul Spider defineste o clasa de aplicatii software de tip roboti care exploreaza mediul web prin recuperarea de documente si urmarirea tuturor trimiterilor. Un spider va face un rezumat al site-ului in functie de informatiile pe care le va gasi in titlu, descriere, continut, meta-tag etc urmand sa fie depusa in baza de date.

  • WebCrawler este primul dintre robotii de cautare. Dezvoltat in cadrul unui proiect de cercetare la Universitatea din Washington la inceputul anului 1994, acest robot a devenit un veritabil succes comercial. De la inceputul exploatarii sale, baza sa de date continea informatii de pe 6000 de servere web. La sfarsitul anului, serviciul primea mai mult de 15000 de cereri pe zi.Un robot este alcatuit din trei module distincte: un program explorator numit spider, un sistem de indexare si un program de cautare.
  • Modelul Google In Google parcurgerea web-ului este facuta de mai multe spidere. Paginile web gasite in urma cautarii sunt returnate serverului de stocare din serverul de URL, care le memoreaza. Serverul de stocare comprima paginile si le depune intr-o biblioteca (repository). Indexarea este realizata de indexer si de sorter. Indexer-ul citeste documentele din biblioteca, decomprima documentele si analizeaza continutul lor. Fiecare document este convertit intr-o serie de cuvinte numite hit-uri. Acestea inregistreaza cuvantul si pozitia sa in document, aproximeaza dimensiunea fontului si tipurile de litere folosite. Indexer-ul catalogeaza aceste hit-uri intr-o serie de domenii rezultand astfel un index partial. Deasemenea indexer-ul analizeaza toate link-urile din fiecare pagina web si stocheaza informatii importante despre acestea intr-un fisier de link-uri. Acest fisier contine informatii pentru a stabili unde ne directioneaza acel link precum si textul link-ului. Sorter-ul preia domeniile care sunt sortate dupa cheia documentului (docID) si le clasifica dupa identificatorul cuvintelor (wordID) pentru a forma un index complementar. DumpLexicon-ul preia aceasta lista impreuna cu lexiconul produs de indexer si formeaza un alt lexicon care poate fi folosit de searcher PageRank se bazeaza pe natura unica democratica a webului folosind vasta structura de legaturi ca indicator al valorii unei anumite pagini. In esenta, Google interpreteaza o legatura a paginii A catre pagina B ca un vot al paginii A pentru pagina B. Dar Google se uita la mai mult decat volumul de voturi sau legaturi pe care o pagina le primeste; de asemenea analizeaza pagina ce strange voturile. Voturie stranse de pagini ce sunt ele insele 'importante' au o mai mare greutate si ajuta alte pagini sa fie 'importante'. In concluzie este o modalitate foarte buna de stabilire a gradului de importanta a rezultatelor cautarilor bazate pe cuvinte cheie. De retinut, cele mai bune pagini primesc un PageRank mai mare, de care Google tine cont de fiecare data cand efectueaza o cautare. Bine inteles pentru tine paginile importante nu inseamna nimic daca nu se potrivesc cu cerintele tale. Asa, ca Google combina PageRank cu tehnici avansate de cauatare contextuala astfel incat Google sa ofere pagini importante si relevante pentru tine. Google nu face numai sa contorizeze de cate ori o pagina este vizitata el examineaza si continutul paginilor ( si continutul paginilor care au un link catre aceasta pagina ) pentru a determina daca este interesanta pentru dumneavostra. Textul link-ului. Link-urile ofera deseori descrieri mai precise ale paginilor web decat paginile respective. Link-urile pot face referire la documente care nu pot fi indexate de un motor bazat pe text avand drept consecinta returnarea paginilor web neparcurse. Hit-List-ul reprezinta o lista de aparitii ale unui cuvant intr-un document. Hit-list-ul cuprinde si alte informatii despre cuvant cum ar fi pozitia in document, fontul folosit si chiar tipul de litere folosite. Listele de hit-uri consuma cea mai mare parte a spatiului utilizat atat in indicele primar cat si cel complementar. Pentru codificarea si comprimarea informatiilor s-au luat in calcul mai multe alternative: codificarea simpla (un grup de trei numere integrale), codificarea compacta (o serie de biti optimizati manual) si codificarea Huffmann.

Tipuri de cautare in Google

      Licitatii engleze (am tastat pe siteul www.google.com) si am obtinut 19.100 rezultate in 25 de secunde:


      Licitatii AND(englezesti OR multi-agent) si am obtinut :

      "licitatii englezesti" prin folosirea ghilimelor se vor returna rezultate ce vor corespunde exact cu expresia cautata(se observa ca s-a gasit doar unsingur rezultat in 27 de secunde):

      * licitatii englezesti folosirea * impreuna cu un termen va oferi rezultate cu sintagme relevante ce contin acel termen (s-au obtinut acelasi numar de cautari ca la primul tip prezentat in 27 de secunde):

      licitatii englezesti] - Folosirea parantezelor patrate va returna rezultate in care se va tine cont de ordinea cuvintelor cautate(19.100 de rezultate in 6 secunde)

      Cautare intr-un anumit site dupa un termen dorit - site:wikipedia.org licitatii englezesti

      Cautare anumitor tipuri de fisiere - licitatii engleze filetype:pdf

      Modalitatile de cautare prezentate pana in acest moment pot fi combinate in asa fel incat cautarea sa fie si mai eficienta. In continuare vom combina 2 sau 3 tipuri de cautari(am inlocuit licitatii engleze cu english auction deoarece nu prea se gasesc materiale in limba romana):

      Cautare avansata putem efectua cautari dupa anumite cuvinte cheie (continand toate cuvintele), dupa o anumita expresie data, dupa cel putin unul dintre cuvinte sau excluzand anumite cuvinte .

Concluzii

Cel mai mare avantaj al acestor motoare de cautare automate este acela al unei inregistrari rapide. Acesta poate sa duca insa la un numar mare de inregistrari ingreunand cautarea. In raspunsul cautarii pot aparea foarte multe pagini nerelevante care vor altera rezultatul dorit.  

Metodele de cautare total automate ale lui Google fac interventia umana ineficienta, Cu toate ca pe pagina cu rezultate exista reclama explicita, Google nu vinde locuri printre rezultate ( de exemplu nimeni nu poate cumpara un PageRank mai mare ). O cautare cu Google este usoara, cinstita si o metoda obiectiva de a gasi pagini de inalta calitate cu informatie relevanta pentru cautarea efectuata de dumneavostra.

Motive pentru care am ales ca motor de cautare Google

Pentru ca Google ofera cele mai relevante rezultate -- cel dintai si cel mai rapid! Coplesitorul volum de informatii de pe web necesita un excelent serviciu de cautare pentru a face aceasta informatie accesibila si folositoare. Fara o unealta de cautare rapida si puternica, a gasi un anume website poate fi foarte dificil, daca nu imposibil.

Google e destinat sa impuna ordinea in haosul informatiei. Este ceea ce un serviciu de cautare trebuie sa fie; nu un repertoar, sau lista limitata, intretinuta manual a carei pozitii sa fie alocate o singura data de primul venit, ci o metoda inteligenta de a infatisa Internetul asa cum este el.

Indexul Google, care cuprinde mai mult de 1 miliard de URL-uri, este cel mai bun si detine cea mai bogata colectie a celor mai utile pagini de pe Internet.

Spre deosebire de multe alte motoare de cautare, Google afiseaza rezultatele care includ toti termenii cautarii, fie in textul paginii, fie in adresa paginii. Nu mai aveti parte de frustrarea data de pagini care nu au nimic in comun cu ceea ce cautati.

Nu numai ca rezultatele Google contin toti termenii cautarii, dar Google analizeaza si aranjarea acestora in pagina. Spre deosebire de multe alte motoare de cautare, Google acorda prioritate gruparii termenilor de cautare. Favorizam rezultatele in care termenii cautarii dvs. sunt mai grupati, deci pierdeti mai putin timp cautand prin rezultate irelevante.

In loc de un sumar care nu se schimba niciodata, Google extrage textul care corespunde cererii dvs. Asta va salveaza timp si evita frustrtari rezultate din incarcarea unor pagini nerelevante.

Google exceleaza in a da drept sigur primul rezultat in cautari obisnuite, ca nume de companii. Suntem asa de increzatori, incat am instalat un buton 'Sunt un norocos', care va duce direct la situl dat de primul rezultat. Butonul 'Sunt un norocos' este destinat sa va conduca rapid la informatia utila.

Google memoreaza multe pagini web in memoria sa pentru vi le putea pune la dispozitie in caz ca situl original nu este disponibil momentan. Utilizarea acestor pagini poate fi de multe ori mult mai rapida decat calea obisnuita, chiar daca informatia ar putea sa nu mai fie la zi.





Politica de confidentialitate


creeaza logo.com Copyright © 2024 - Toate drepturile rezervate.
Toate documentele au caracter informativ cu scop educational.