Kampus

Web Crawling dengan Library PHP Simple HTML DOM Parser

Menurut Christopher D. Manning, web crawling adalah suatu proses mengumpulkan dan pengindex-an halaman dari berbagai website yang kemudian digunakan untuk mendukung suatu mesin pencari. Tujuan dari proses ini adalah melakukan pengumpulan informasi yang berguna secara efektif dan efisien serta menghubungkan struktur informasi antara satu dengan lainnya yang saling berkaitan. Web crawling dikenal juga dengan istilah robot atau spider. Selain untuk kebutuhan mesin pencari, web crawler juga digunakan untuk kebutuhan web archiving, web data mining dan web monitoring.

Berikut adalah script crawling sederhana menggunakan sebuah library PHP Simple HTML DOM Parser yang dapat didownload disini. Contoh ini terdiri dari 3 file yaitu:

  1.  simple_html_dom.php adalah file library yang menyimpan class untuk melakukan proses crawling.
  2. index.php adalah file yang digunakan sebagai file untuk menyimpan script formulir masukan dari pengguna sekaligus script untuk memanggil library PHP Simple HTML DOM Parser untuk melakukan crawling.
  3.  dataku.html adalah file yang digunakan sebagai file penulisan hasil url yang berhasil disubmit oleh pengguna.


Read the rest of this entry »