Web Crawler: Pengertian, Cara Kerja, Jenis, dan Contohnya

Table of Contents
Pengertian Web Crawler
Web Crawler

Pengertian Web Crawler

Web crawler (Perayap) adalah sebuah bot milik search engine yang mengunduh dan mengindeks semua konten yang ada di internet. Bot crawler ini akan merayapi halaman website dan mempelajarinya agar saat pengguna mencari informasi tentang sesuatu dapat ditampilkan hasil yang relevan.

Baca Juga: Indexing: Pengertian, Fungsi, Cara Kerja, Penerapan, dan Tipsnya

Web crawler bekerja dengan mengumpulkan informasi seperti URL situs web, informasi tag meta, konten halaman web, tautan di halaman web dan tujuan yang mengarah dari tautan tersebut, judul halaman web, dan informasi relevan lainnya. Bot ini melacak URL yang telah diunduh untuk menghindari mengunduh halaman yang sama lagi.   

Cara Kerja Crawler

Internet  selalu berubah dan berkembang setiap waktunya. Karena tak memungkinkan untuk mengetahui jumlah pasti berapa banyak halaman yang ada di internet, web crawler ini memulai pekerjaannya berdasarkan daftar link halaman yang sudah ia kenal sebelumnya dari sitemap suatu website.

Dari daftar link sitemap tersebut, ia akan menemukan link-link lain yang tersebar di dalamnya. Setelah itu, ia akan melakukan crawling ke link-link yang baru saja ditemukan itu. Proses ini akan terulang lagi di link selanjutnya dan bisa terus berjalan tanpa henti.

Namun, web crawler ini tak sembarangan melakukan crawling. Ada beberapa aturan yang tetap harus mereka patuhi, sehingga mereka bisa lebih selektif dalam crawling. Biasanya dalam melakukan crawling, ia mempertimbangkan tiga hal di antaranya,
1. Seberapa Penting dan Relevan Suatu Halaman
Web crawler tak serta merta mengindeks semua yang ada di internet. Ia menentukan halaman mana yang perlu crawling, berdasarkan jumlah halaman lain yang menaruh link ke halaman tersebut dan jumlah pengunjung ke sana.

Jadi, apabila suatu halaman muncul di banyak halaman lain dan mendapatkan pengunjung yang tak sedikit, kemungkinan besar halaman itu memang penting.  Halaman penting ini biasanya berisi konten atau informasi yang dibutuhkan oleh banyak orang, sehingga mesin pencari pasti akan memasukkannya ke indeks agar orang-orang lebih mudah mengaksesnya.

2. Kunjungan Rutin
Konten-konten yang ada di internet itu selalu berganti setiap detiknya. Entah karena update, dihapus, atau dipindah ke tempat lain. Maka dari itu, web crawler perlu untuk mengunjungi berbagai halaman website secara rutin agar memastikan versi terakhir halaman tersebut yang ada di indeks.

Apalagi kalau halaman itu merupakan halaman yang penting dan banyak pengunjungnya, ia dipastikan akan sering melakukan kunjungan ulang yang rutin ke sana.

3. Menuruti Keinginan Robots.txt
Web crawler juga menentukan halaman mana yang perlu crawling berdasarkan keinginan robots.txt. Jadi sebelum crawling ke suatu website, ia akan mengecek robots.txt dari website itu terlebih dahulu. Robots.txt ini merupakan file di sebuah website yang berisi informasi mengenai halaman mana yang boleh diindeks dan halaman mana yang tak boleh.
 

Jenis Web Crawler

Terdapat beberapa jenis perayap web yang beberapa di antaranya didedikasikan untuk mengumpulkan dan mengindeks data yang ditemukan di seluruh Internet. Salah satunya adalah Googlebot dari Google yang memiliki spider subbot untuk mengumpulkan jenis informasi tertentu.

Selain perayap seluruh web yang relatif sedikit, ada banyak perayap yang lebih kecil dan kurang terkenal yang merayap begitu saja di segmen web tertentu. Sedangkan jenis atau tipe umum dari web crawler di antaranya,
1. Perayapan khusus konten
Beberapa perayap web hanya digunakan untuk mengumpulkan jenis konten tertentu, seperti email, video, atau gambar. Video Googlebot dan Perayap Media Sosial adalah contohnya. Beberapa perayap bekerja tidak hanya dengan mengumpulkan dan mengatur konten dari situs web atau aplikasi, tetapi dari seluruh dunia e-commerce tetapi juga dapat mengekstrak informasi produk tertentu yang dibutuhkan orang untuk menemukan produk yang tepat dan membuat keputusan pembelian.

2. Single site spider
Beberapa perayap situs web dirancang untuk digunakan dengan konten di situs web tertentu seperti,
1. Perayap Octoparse memungkinkan Anda mengekstrak data dari situs tanpa melakukan pengkodean apa pun
2. HTTrack Website Copier, utilitas gratis, dapat mengunduh seluruh situs ke direktori lokal di komputer Anda
3. Perayap Algolia yang dapat disesuaikan dan dikonfigurasi dapat memperkaya konten yang diekstraksi dengan data bisnis untuk meningkatkan relevansi pengalaman pengguna

Contoh Web Crawler

Banyak sekali mesin pencari yang menggunakan spider bots mereka sendiri di antaranya,
1. DuckDuck Bot
DuckDuckGo mungkin adalah salah satu mesin pencari paling populer yang tidak melacak riwayat penggunanya dan mengikuti mereka di situs apa pun yang dikunjungi. DuckDuck Bot web crawler membantu menemukan hasil yang paling relevan dan terbaik yang akan memenuhi kebutuhan pengguna.

2. Baiduspider
Crawler ini dioperasikan oleh mesin mencari Cina bernama Baidu. Seperti bot lainnya, Baiduspider merayap melalui berbagai halaman untuk mengindeks konten di mesin pencari.

3. Alexabot
Web crawler Amazon, Alexabot digunakan untuk identifikasi konten di website serta backlink. Jika Anda tidak ingin bot ini mengetahui beberapa informasi pribadi, Anda dapat mengecualikan Alexabot dari merayapi website Anda.
 
4. Exabot
Mesin pencari Prancis, Exalead, menggunakan Exabot untuk pengindeksan konten agar dapat dimasukkan ke dalam mesin pencari.

5. Yahoo! Slurp Bot
Crawler milik Yahoo, Yahoo! Slurp Bot, digunakan untuk mengindeks halaman web guna meningkatkan konten yang dibuat khusus bagi pengguna.

6. Yandex Bot
Yandex Bot dimiliki oleh mesin pencari terbesar asal Rusia. Anda pun juga dapat mengecualikan crawler ini dari pengindeksan konten jika Anda tidak berencana untuk memperbesar nama website Anda di negara tersebut.

Baca Juga: Yandex: Pengertian, Sejarah, Fungsi, Layanan, Kelebihan, Kekurangan, dan Perbandingannya dengan Google

7. Bingbot
Bingbot adalah salah satu web spiders paling populer yang didukung oleh Microsoft. Bingbot membantu mesin pencari, Bing, untuk membuat indeks yang paling relevan bagi penggunanya.

8. Facebook External Hit
Facebook juga memiliki perayap khusus. Sebagai contoh, ketika pengguna Facebook ingin berbagi link ke halaman konten eksternal dengan pengguna lainnya, crawler akan melakukan scraping pada kode HTML halaman dan memberikan kedua pengguna tersebut dengan judul, tag, hingga gambar pada konten.

Dari berbagai sumber

Download

Aletheia Rabbani
Aletheia Rabbani “Barang siapa yang tidak mampu menahan lelahnya belajar, maka ia harus mampu menahan perihnya kebodohan” _ Imam As-Syafi’i

Post a Comment