Pengantar Teknologi Informasi: Cara kerja Crawler

Crawler

Pengertian Crawler

Crawler adalah sebuah program/script otomatis yang memproses halaman web. Sering juga disebut dengan web spider atau web robot. Ide dasarnya sederhana dan mirip dengan saat anda menjelajahi halaman website secara manual dengan menggunakan browser. Bermula pada point awal berupa sebuah link alamat website dan dibuka pada browser, lalu browser melakukan request dan men-download data dari web server melalui protokol HTTP.

Setiap Hyperlink yang ditemui pada konten yang tampil akan dibuka lagi pada windows/tab browser yang baru, demikian proses terus berulang. Nah sebuah web crawler mengotomatisasikan pekerjaan itu.

Kesimpulannya, dua fungsi utama web crawler adalah:

1. Mengidentifikasikan Hyperlink.

Hyperlink yang ditemui pada konten akan ditambahkan pada daftar visit, disebut juga dengan istilah frontier.

2. Melakukan proses kunjungan/visit secara rekursif.

Dari setiap hyperlink, Web crawler akan menjelajahinya dan melakukan proses berulang, dengan ketentuan yang disesuaikan dengan keperluan aplikasi.

Cara kerja Crawler

Cara kerja Crawler , pertama robot mengumpulkan informasi pada halaman blog/web dan semua media internet yg bisa diindeks oleh search engine. Robot tersebut kemudian membawa informasi yg didapatnya ke data center. Di data center, data tersebut kemudian di oleh sedemikian rupa, apabila memenuhi persyaratan, maka dia akan dimasukkan ke dalam indeks. Nah, proses yg dilakukan oleh user search engine adalah memanggil indeks-indeks tersebut, apabila indeks2 memiliki kesesuaian dengan yg dicari user (dan bila memiliki peringkat yg baik), di akan ditampilkan di halaman utama search engine (berperingkat).

Cara agar website/blog masuk dalam Crawler itu ada dua,

Pertama : Membuat sitemap dan atau daftar isi

Sitemap (peta situs) blog berfungsi membantu search engine bot menjelajahi, menemukan dan mengindeks konten blog kita. Jika blog anda berplatform wordpress.org, cara paling mudah membuat sitemap adalah dengan memasang plugin bernama Google XML sitemaps. Sitemap sebenarnya hampir sama dengan halaman daftar isi yang sering kita buat di blog, hanya sitemap berisi kode-kode HTML yang dibaca oleh bot sedangkan daftar isi untuk dibaca oleh manusia. Jika anda ingin sitemap yang juga berfungsi sebagai daftar isi, gunakan plugin bernama Dagon Sitemap Generator. Beberapa themes seperti GoBlog Themes sudah menyediakan sitemap secara default seperti ini: Sitemap.

Kedua : Mendaftarkan sitemap di Google Webmaster Tools

Sitemap blog anda perlu didaftarkan di Google Webmaster Tools. Google webmaster sendiri penting diikuti oleh semua pemilik blog agar anda dapat menganalisa semua data yang berkenaan dengan blog anda. Melalui uji sitemap, kita bisa mengetahui konten mana di blog yang belum terindeks Google. Daftarkan dulu blog anda di Google Webmaster Tools.

Berikut ini adalah contoh-contoh dari Crawler:

1.Teleport Pro

Salah satu software web crawler untuk keperluan offline browsing. Software ini sudah cukup lama popular, terutama pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan beralamatkan di http://www.tenmax.com.

2.HTTrack

Ditulis dengan menggunakan C, seperti juga Teleport Pro, HTTrack merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk anda, agar dapat dilihat secara offline. Yang menarik software ini free dan dapat di download pada website resminya di http://www.httrack.com

3.Googlebot

Merupakan web crawler untuk membangun index pencarian yang digunakan oleh search engine Google. Kalau website anda ditemukan orang melalui Google, bisa jadi itu merupakan jasa dari Googlebot. Walau konsekuensinya, sebagian bandwidth anda akan tersita karena proses crawling ini.

4.Yahoo!Slurp

Kalau Googlebot adalah web crawler andalan Google, maka search engine Yahoo mengandalkan Yahoo!Slurp. Teknologinya dikembangkan oleh Inktomi Corporation yang diakuisisi oleh Yahoo!.

5.YaCy

Sedikit berbeda dengan web crawler lainnya di atas, YaCy dibangun atas prinsip jaringan P2P (peer-to-peer), di develop dengan menggunakan java, dan didistribusikan pada beberapa ratus mesin computer (disebut YaCy peers). Tiap-tiap peer di share dengan prinsip P2P untuk berbagi index, sehingga tidak memerlukan server central.

Contoh search engine yang menggunakan YaCy adalah Sciencenet (http://sciencenet.fzk.de) untuk pencarian dokumen di bidang sains.

Sumber : http://lintartamara.blogspot.co.id/2013/04/analisis-web-pengukuran-web-crawler.html

Pengantar Teknologi Informasi

Rabu, 01 Juni 2016

Cara kerja Crawler

Tidak ada komentar:

Posting Komentar

Mengenai Saya

Arsip Blog