Crawler bot lokal buatan anak bangsa, awas jatuh ketangan yang salah


Wah, tadi saya penasaran liat salah satu comment di shoutbox.

tulisannya:

JUDOTENSLAB “blog ini baru saja dilalui oleh uji coba web crawler judotenslab.”

setelah saya telusuri url pengirimnya, saya rada² tidak percaya membaca postingan di blog tersebut sbb:

Halo bloggers,

Selamat siang semuanya..

Sejak aktif kembali menulis blog beberapa hari ini, saya merasakan satu hal yang lumayan cape untuk dilakukan, yaitu : blogwalking. Blogwalking yang saya lakukan biasanya mungkin disebut nyampah oleh para blogger. Mengapa? Karena blogwalking yang dilakukan hanya sekedar ‘jalan-jalan’ ini bertujuan mengunjungi berbagai blog dan mencari kotak ShoutBox-nya dan kemudian meninggalkan jejak disana. Tidak seperti para blogger yang memang berniat membangun good relationship dengan mengomentari artikel dari blog yang bersangkutan.

Lalu apa hubungannya dengan sebuah Web Crawler?

Setelah merasa cape blogwalking seharian, saya terpikirkan untuk membuat sebuah bot yang berfungsi menggantikan pekerjaan saya, yaitu blogwalking dan meninggalkan jejak di ShoutBox para blogger. Hmm, PR yang menantang dan menarik untuk diimplementasikan bukan?

Awalnya kode ini saya mau buat dilingkungan PHP atau VB saja, namun karena adanya keterbatasan – dan kekurangan di tiap bahasa tersebut akhirnya saya lebih memilih PERL sebagai landasan programmingnya.

Dua jam berkutat dengan PERL dan dengan hanya bermodalkan google dan pengalaman minim di PERL, akhirnya script ini pun selesai dikerjakan. Yap, walaupun masih beta -tapi Web Crawler yang saya buat ini sudah memiliki fungsi utamanya, yaitu menjelajah blog – blog dan kotak ShoutBox.

Web Crawler / Web Spider ini saya coba running test ( web pertama yang dijelajahi adalah http://judotenslab.blogspot.com ) pada hari Minggu, 17 May 2009 Pukul. 21.55 WIB dan masih terus berjalan sampai sekarang. So far, pada hari ini (Senin, 18 May 2009 Pukul. 13:16 WIB) total web yang dicrawler sudah mencapai : 6408 website dan menemukan sekitar 2350 kotak ShoutBox milik para bloger dalam kurun waktu 15 Jam, 10 Menit.

Hasil yang cukup memuaskan bukan? Namun sedikit disayangkan Web Crawler judotenslab ini berjalan di server kosan yang menggunakan koneksi TELKOM SPEEDY dengan kecepatan standar. Bisa dibayangkan apabila saya mendapatkan donatur yang mau meminjamkan server berkecepatan tinggi-nya untuk melakukan test Web Crawler Performance ini, mungkin hasil yang didapat akan jauh berkali lipat.

Setelah melihat hasil yang cukup memuaskan, saya malah kepikiran untuk memanfaatkan Web Crawler saya ini sebagai modal utama membuat Search Engine sendiri. Yah, setidaknya Search Engine khusus blog lokal-lah. Tapi tentu tidak segampang itu merealisasikannya. Minimal saya harus memiliki server utama yang kuat, dari segi Bandwith dan Spesifikasinya. Dan satu lagi, faktor keberuntungan tampaknya juga berpengaruh. Hehehe. Maklum, tampaknya masi mimpi muluk untuk benar – benar merealisasikannya jika dilakukan sendiri dan tanpa bantuan rekan – rekan blogger yang lain.

Rencana lain yang sedang di persiapkan adalah membuat Web Crawler ini bisa running ramai – ramai di berbagai PC yang berbeda, namun tetap dengan hasil yang berbeda pula. Jadi dengan teknik seperti ini, Web Crawler / Web Spider buatan saya menjelajah jutaan website dengan lebih cepat dengan bantuan dari para blogger semuanya. Dan teman – teman pun bisa membantu menyumbangkan kinerja komputernya yang tidak terpakai untuk melakukan crawling ini setiap harinya.

Semoga saja proyek ini bisa direalisasikan dan didukung penuh oleh mereka yang berkompeten. Karena saya pikir, kita bisa memiliki dan merasakan manfaat yang lebih banyak dari Search Engine Lokal yang kita bangun. Sekaligus menunjukkan kepada dunia bahwa sumber daya IT di negeri kita pun banyak yang berkualitas, tidak didominasi oleh masyarakat Eropa/Amerika atau India saja.

Jika anda tertaruk untuk memberi donasi server, atau ikut melakukan penelitian Web Crawler / Web Spider ini, silahkan hubungi saya di judotens@gmail.com

Dan teruslah pantau hasil crawler Web Spider saya ini di :

http://mawarbiru.co.cc/shoutcrawl/

dan betul, blog saya dan belasan ribu blog lainnya kena crawl dari server tersebut. Skrip itu sekaligus melacak shoutbox dan memberikan comment otomatis pada setiap shoutbox yang ditemui (rada² spam)

Tapi betul gak yah, itu buatan orang indonesia sendiri?, dan kalaupun tuh script jatuh ketangan yang tidak bertanggung jawab (sebut saja: tukang sampah MLM dan referall), saya takut blog bukan lagi menjadi tempat yang nyaman karena berisi bot² yang otomatis mengirimkan sampah ke setiap soutbox atau comment box kita menggantikan tugas blogger untuk blogwalking.

Bagaimana pendapat kaskuser sekalian?