Cara Kerja Mesin Pencari Internet
Mesin pencari internet adalah situs khusus di Web yang dirancang untuk membantu orang menemukan informasi yang disimpan di situs lain. Ada perbedaan dalam cara berbagai mesin telusur berfungsi, tetapi mereka semua melakukan tiga tugas dasar:
- -Mereka mencari di Internet - atau memilih potongan-potongan Internet - berdasarkan kata-kata penting.
- -Mereka menyimpan indeks kata-kata yang mereka temukan, dan di mana mereka menemukannya.
- -Mereka memungkinkan pengguna untuk mencari kata-kata atau kombinasi kata-kata yang ditemukan dalam indeks itu.
Mesin pencari awal memegang indeks dari beberapa ratus ribu halaman dan dokumen, dan menerima mungkin satu atau dua ribu permintaan setiap hari. Hari ini, mesin pencari teratas akan mengindeks ratusan juta halaman, dan menanggapi puluhan juta pertanyaan per hari. Dalam artikel ini, kami akan memberi tahu Anda bagaimana tugas-tugas utama ini dilakukan, dan bagaimana mesin pencari Internet menyatukan potongan-potongan itu agar Anda dapat menemukan informasi yang Anda perlukan di Web.
Ketika kebanyakan orang berbicara tentang mesin pencari Internet, mereka benar-benar berarti mesin pencari World Wide Web. Sebelum Web menjadi bagian yang paling terlihat dari Internet, sudah ada mesin pencari di tempat untuk membantu orang menemukan informasi di Internet. Program dengan nama seperti "gopher" dan "Archie" menyimpan indeks file yang disimpan di server yang terhubung ke Internet , dan secara dramatis mengurangi jumlah waktu yang dibutuhkan untuk menemukan program dan dokumen. Pada akhir 1980-an, mendapatkan nilai serius dari Internet berarti mengetahui cara menggunakan gopher, Archie, Veronica dan yang lain.
Saat ini, sebagian besar pengguna Internet membatasi penelusuran mereka ke Web, jadi kami akan membatasi artikel ini ke mesin telusur yang fokus pada konten laman web
Sebelum mesin pencari dapat memberi tahu Anda di mana file atau dokumen itu, itu harus ditemukan. Untuk mencari informasi tentang ratusan juta halaman Web yang ada, mesin pencari menggunakan robot perangkat lunak khusus, yang disebut laba - laba , untuk membuat daftar kata-kata yang ditemukan di situs Web. Ketika laba-laba sedang membuat daftar, prosesnya disebut Perayapan web . (Ada beberapa kelemahan untuk memanggil bagian dari Internet World Wide Web - satu set besar nama arachnid-centric untuk alat adalah salah satunya.) Untuk membangun dan memelihara daftar kata yang berguna, laba-laba mesin telusur memiliki untuk melihat banyak halaman.
Bagaimana laba-laba memulai perjalanannya melalui Web? Titik awal yang biasa adalah daftar server yang sering digunakan dan halaman yang sangat populer. Laba-laba akan dimulai dengan situs populer, mengindeks kata-kata di halamannya dan mengikuti setiap tautan yang ditemukan di dalam situs. Dengan cara ini, sistem spidering dengan cepat mulai berjalan, menyebar di bagian Web yang paling banyak digunakan.
Google mulai sebagai mesin pencari akademis. Dalam makalah yang menjelaskan bagaimana sistem itu dibangun, Sergey Brin dan Lawrence Page memberikan contoh seberapa cepat laba-laba mereka dapat bekerja. Mereka membangun sistem awal mereka untuk menggunakan banyak laba-laba, biasanya tiga sekaligus. Setiap laba-laba dapat menyimpan sekitar 300 koneksi ke halaman Web yang terbuka dalam satu waktu. Pada kinerja puncaknya, menggunakan empat laba-laba, sistem mereka dapat merangkak lebih dari 100 halaman per detik, menghasilkan sekitar 600 kilobita data setiap detik.
Menjaga semuanya berjalan dengan cepat berarti membangun sistem untuk memberi makan informasi yang diperlukan ke spider. Sistem Google awal memiliki server yang didedikasikan untuk menyediakan URL ke spider. Daripada bergantung pada penyedia layanan Internet untuk server nama domain (DNS) yang menerjemahkan nama server menjadi alamat, Google memiliki DNS-nya sendiri, untuk meminimalkan penundaan.
Ketika laba-laba Google melihat halaman HTML , itu mencatat dua hal:
- -Kata-kata di dalam halaman
- -Di mana kata-kata itu ditemukan
Kata-kata yang terjadi dalam judul, sub judul, meta tag dan posisi lain yang relatif penting dicatat untuk pertimbangan khusus selama pencarian pengguna berikutnya. Laba-laba Google dibangun untuk mengindeks setiap kata penting pada halaman, meninggalkan artikel "a," "an" dan "the." Laba-laba lain mengambil pendekatan yang berbeda.
Berbagai pendekatan ini biasanya berusaha membuat laba-laba beroperasi lebih cepat, memungkinkan pengguna untuk mencari dengan lebih efisien, atau keduanya. Misalnya, beberapa spider akan melacak kata-kata dalam judul, sub-judul dan tautan, bersama dengan 100 kata yang paling sering digunakan pada halaman dan setiap kata dalam 20 baris teks pertama. Lycos dikatakan menggunakan pendekatan ini untuk spidering Web.
0 comments:
Post a Comment