Web Crawling dengan Library PHP Simple HTML DOM Parser

Menurut Christopher D. Manning, web crawling adalah suatu proses mengumpulkan dan pengindex-an halaman dari berbagai website yang kemudian digunakan untuk mendukung suatu mesin pencari. Tujuan dari proses ini adalah melakukan pengumpulan informasi yang berguna secara efektif dan efisien serta menghubungkan struktur informasi antara satu dengan lainnya yang saling berkaitan. Web crawling dikenal juga dengan istilah robot atau spider. Selain untuk kebutuhan mesin pencari, web crawler juga digunakan untuk kebutuhan web archiving, web data mining dan web monitoring.

Berikut adalah script crawling sederhana menggunakan sebuah library PHP Simple HTML DOM Parser yang dapat didownload disini. Contoh ini terdiri dari 3 file yaitu:

  1.  simple_html_dom.php adalah file library yang menyimpan class untuk melakukan proses crawling.
  2. index.php adalah file yang digunakan sebagai file untuk menyimpan script formulir masukan dari pengguna sekaligus script untuk memanggil library PHP Simple HTML DOM Parser untuk melakukan crawling.
  3.  dataku.html adalah file yang digunakan sebagai file penulisan hasil url yang berhasil disubmit oleh pengguna.

Berikut merupakan penjelasan umum mengenai script yang ada pada file index.php

Pada bagian ini dibuat form input untuk memasukan URL yang akan dicrawling. Agar pengguna mengetahui contoh format URL maka akan dimasukan plasceholder default http://www.Mansyur.Net

Selanjutnya akan memanggil file library PHP Simple HTML DOM Parser dan membuat variable $crawled_urls=array(); dan $found_urls=array();. Pada file library sudah tersimpan class dan kumpulan fungsi untuk crawler yang dapat digunakan untuk melakukan operasi crawling.

Script selanjutnya merupakan fungsi yang digunakan untuk melakukan konversi jenis URL Relative menjadi URL Absolute. Proses ini dilakukan agar URL hasil crawling dapat diakses dengan benar atau lengkap.

Fungsi selanjutnya akan digunakan untuk merubah format URL yang ditemukan.  Aspek yang akan dicek adalah pada format penulisan URL yang digunakan. Misalnya pada 4 awal karakter diisi dengan nama protokol http kemudian titik dua dan dua karakter //.

Jika target sudah valid maka selanjutnya akan digunakan fungsi crawling yang akan meng-crawling URL dan menulisakan waktu  proses crawling sebagai berikut:

Bagian akhir script adalah digunakan untuk error handling jika pengguna tidak memasukan URL, jika URL berhasil dimasukan maka URL akan ditulis pada file dataku.html. Informasi yang ditulis pada file dataku.html adalah link dan waktu crawling.

Script index.php telah selesai dan untuk melihat URL target yang dicrawling dapat membuka file dataku.html. Demo dapat dicoba disini

Sumber Referensi:

  1. Manning, C. D. (2008). Introduction to Information Retrieval. Cambridge University Press.
  2.  http://subinsb.com/how-to-create-a-simple-web-crawler-in-php

 

If you enjoyed this post, please consider to leave a comment or subscribe to the feed and get future articles delivered to your feed reader.


Leave Comment