Menangani Perayapan : Gunakan robot.txt Dengan Efektif

Bagaimanakah Cara Menggunakan robot.txt Dengan Efektif ?

kursus-seo-toko-online-abdurrachim-st-mmSelalu berhati-hatilah dalam pengelolaan informasi mana yang benar-benar ingin dirayapi dan mana yang tidak ingin dirayapi!

Batasi perayapan jika tidak diperlukan dengan robots.txt

File “robots.txt” menyampaikan kepada mesin pencari apakah bisa mengakses kemudian merayapi bagian situs Anda (1).

Contoh :

User-agent: *

Disallow: /gambar/

Disallow: /cari

Keterangan: (1) Semua  robot mesin pencari yang patuh  (ditandai dengan simbol pengganti*) sebaiknya tidak mengakses dan merayapi konten dengan /images/ atau URL apa pun yang awalnya dimulai dengan /search.

File ini, yang harus dinamai “robots.txt”, ditempatkan di direktori akar situs Anda (2).

(2) Alamat file robots.txt kita.
(2) Alamat file robots.txt kita.

Anda mungkin tidak ingin halaman tertentu dari situs Anda dirayapi karena  halaman tersebut kemungkinan akan tidak berguna  bagi pengguna jika ditemukan sebagai  bagian dari hasil mesin pencari.  Jika Anda ingin mencegah mesin pencari  merayapi halaman Anda, Alat Webmaster Google memiliki pembuat robots.txt untuk membantu Anda membuat file ini. Perhatikan  bahwa jika situs Anda memakai subdomain dan Anda ingin halaman tertentu tidak dirayapi di  subdomain tertentu,  Anda  harus  membuat  file robots.t xt secara terpisah untuk subdomain  tersebut. Untuk informasi keseluruhan tentang robots. txt, sebaiknya  Anda membaca panduan  Pusat  Bantuan  Webmaster tentang menggunakan file robots.txt ini.

namun terdapat beberapa cara yang lain untuk mencegah konten muncul di hasil penelusuran,  seperti akan menambah “NONINDEX” ke tag meta  robots Anda, menggunakan .htaccess pada direktori yang dilindungi kata sandi, dan menggunakan Alat Webmaster Google untuk menghapus konten yang telah dirayapi. Insinyur Google Matt Cutts menjelaskan satu  per satu  hal-hal yang perlu diperhatikan pada setiap metode pemblokiran URL  dalam sebuah video yang membantu.

Praktik Terbaik Cara Menggunakan robot.txt

Gunakan metode yang lebih aman untuk konten yang sensitif

Jangan selalu merasa aman saat memakai robots.txt untuk mencegah materi yang sensitif atau rahasia. Salah satu alasan adalah mesin pencari masih saja bisa memberi referensi URL yang Anda blokir (hanya menunjukkan URL, tidak terdapat judul atau snippet) jika ternyata  ada tautan  ke URL itu di Internet (seperti catatan perujuk). Tidak hanya itu, mesin pencari yang tidak patuh atau sembarangan yang tidak mengakui Robots Exclusion Standard dapat  mengabaikan instruksi dari robots.txt Anda. Terakhir, pemakai yang ingin tahu bisa memeriksa  direktori atau subdirektori pada robots.txt Anda dan menebak  URL dari konten  yang Anda tidak ingin perlihatkan. Mengenksipsi  konten  atau melindunginya dengan kata sandi dengan .htaccess merupakan alternatif yang lebih aman.

Hindari :
  • Hindari memungkinkan halaman mirip hasil penelusuran untuk dirayapi – pengguna tidak suka meninggalkan  satu  halaman hasil penelusuran dan membuka  halaman hasil penelusuran lain yang tidak menambahkan nilai yang signifikan bagi mereka.
  • Hindari membiarkan terciptanya URL sebagai hasil dari layanan proxy untuk dirayapi.
Daftar Istilah:
  • Standar Pengecualian Robot (Robots Exclusion Standard) : Sebuah  konvensi untuk mencegah perayap/spider web yang bekerja sama,  misalnya Googlebot, mengakses semua atau sebagian situs web yang dapat dilihat oleh publik.
  • Layanan proxy : Sebuah  komputer  yang dapat dijadikan sebagai pengganti sambungan jika ada jaringan internal dan jaringan eksternal yang tersambung, atau perangkat lunak yang memiliki fungsi untuk tujuan ini.
Tautan Terkait :