Membedah robots.txt di Joomla

Posted: 2 Juni 2010 in Hacking & Security
Tag:, , , , , , , , ,

Kenal dengan Robot Gedhek. Atau Robot yang digunakan anak-anak bermain-main. Dengan robot asimo, kenal juga?. Tapi kalo Robots.txt tau gak? Bagi maniak CMS joomla, robot ini ada di package installer. Pasti ada gunanya. Kalau anda belum tahu fungsinya, ikuti pembahasan saya tentang ROBOTS.TXT

Sama seperti robot yang berfungsi membantu manusia, Robots txt ini juga membantu manusia dalam fungsi mengontrol web (web control). Tak ada yang tahu aktivitasnya. Dia bekerja di tempat yang sunyi dan menyendiri. Tak satupun orang yang menjenguknya saat dia bekerja. Robots.txt sama seperti mahlu web yang lain. Bekerja sendiri sambil bersembunyi dari keramaian hiruk pikuk dunia web.

Malik ama sodik beli kedongdong, Balik ke topik semula dong. Robots.txt file adalah file text only yang didesain untuk mengontrol web agar bisa bersinergi (berhubungan secara baik-baik untuk menghasil yang terbaik). Subyek dari robots.txt adalah mesin pencari Crawlers. Sementara obyek dari Crawlers adalah isi dari halaman, file, folder dan direktori web.

alik ke crawlers. Mahluk halus bernama Crawlers ini adalah robot juga yang bertugas meng-indeks, merangking, menyusun, menata halaman dalam bentuk struktural indeks agar bisa dicari dalam waktu yang sangat cepat. Sehingga fungsi crawlers ini adalah robot peng-indeks halaman website. Sebelum crawlers mengindeks sebuah situs dia akan berhadapan dengan robots.txt. Bisa semacam portal atau pos satpam.

Bila Sebuah website memiliki robots.txt maka crawlers akan berhadapan dengan satpam robots.txt. Di gardu depan robots.txt akan memandu mesin pencari untuk mengindeks website. Sehingga Crawlers akan tahu mana halaman/folder/file yang boleh diindeks atau tidak. Semakin lengkap sebuah panduan dalam robots.txt akan lebih baik. Sehingga robot Crawlers akan dengan cepat mengindeks isi website.

Robots.txt juga berfungsi sebagai satpam anti paparazzi. Jadi bisa membatasi bagian-bagian website mana yang boleh dipublish ke dunia umum (publik). Jadi ada privacy. Sehingga robots.txt bisa membatasi akses langsung. Bila website Joomla anda tidak ada robots.txt maka berhati-hatilah karena itu artinya membuka port untuk diserang orang lain.

Membedah robots.txt

Ada beberapa perintah dasar di robots.txt yang diberikan untuk panduan mesin crawlers. Untuk detailnya silakan lihat dibawah ini.

User-agent

Ini perintah untuk memerintahkan robots.txt untuk mengenali jenis robot apa yang boleh hinggap dan mengakses halaman website. biasanya perintah seperti ini

User-agent: *

Tanda * (bintang) artinya adalah semua jenis robot, browser, (all) berikutnya adalah disallow: /. Ini artinya tidak diijinkan memasuki folder dengan tanda “/” Jadi bila perintahnya seperti ini:

Semua mesin pencari dan robot pengindex tidak diizinkan memasuki folder ……

Di Joomla 1.5.xxx isian perintah dalam robots.txt adalah sebagai berikut:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

Ini artinya semua robot mesin pencari tidak dizinkan untuk memasuki, mengindeks, meng-crawls semua folder seperti fodler administrator, cache, component dan seterusnya. Pastikan robots.txt seperti di atas. COba cek apakah ada file robots.txt ada di situs anda. Karena ini berbahaya bila terbuka ke publik.

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s