Bagaimana cara mengatur Robots.txt dengan benar?

Daftar Isi:

Bagaimana cara mengatur Robots.txt dengan benar?
Bagaimana cara mengatur Robots.txt dengan benar?
Anonim

Robot txt yang benar untuk situs html membuat maket tindakan untuk bot mesin telusur, memberi tahu mereka apa yang dapat mereka periksa. File ini sering disebut sebagai Protokol Pengecualian Robot. Hal pertama yang dicari bot sebelum merayapi situs web adalah robots.txt. Itu dapat menunjuk atau memberi tahu Peta Situs untuk tidak memeriksa subdomain tertentu. Bila Anda ingin mesin pencari mencari apa yang paling sering ditemukan, maka robots.txt tidak diperlukan. Sangat penting dalam proses ini bahwa file diformat dengan benar dan tidak mengindeks halaman pengguna dengan data pribadi pengguna.

Prinsip pemindaian robot

Prinsip pemindaian robot
Prinsip pemindaian robot

Ketika mesin pencari menemukan file dan melihat URL yang dilarang, itu tidak merayapinya, tetapi dapat mengindeksnya. Ini karena meskipun robot tidak diizinkan untuk melihat konten, mereka dapat mengingat tautan balik yang mengarah ke URL terlarang. Karena akses ke tautan diblokir, URL akan muncul di mesin pencari, tetapi tanpa fragmen. Jika sebuahuntuk strategi pemasaran yang masuk, Robots txt untuk bitrix (Bitrix) yang benar diperlukan, mereka menyediakan verifikasi situs atas permintaan pengguna oleh pemindai.

Di sisi lain, jika file tidak diformat dengan benar, ini dapat menyebabkan situs tidak muncul di hasil pencarian dan tidak ditemukan. Mesin pencari tidak dapat melewati file ini. Seorang programmer dapat melihat robots.txt dari situs manapun dengan masuk ke domainnya dan mengikutinya dengan robots.txt, misalnya, www.domain.com/robots.txt. Menggunakan alat seperti bagian pengoptimalan SEO Unamo, tempat Anda dapat memasukkan domain apa pun, dan layanan akan menampilkan informasi tentang keberadaan file.

Pembatasan pemindaian:

  1. Pengguna memiliki konten yang kedaluwarsa atau sensitif.
  2. Gambar di situs tidak akan disertakan dalam hasil pencarian gambar.
  3. Situs ini belum siap untuk demo untuk diindeks oleh robot.

Perlu diingat bahwa informasi yang ingin diterima pengguna dari mesin pencari tersedia bagi siapa saja yang memasukkan URL. Jangan gunakan file teks ini untuk menyembunyikan data sensitif. Jika domain memiliki kesalahan 404 (tidak ditemukan) atau 410 (lulus), mesin pencari akan memeriksa situs meskipun ada robots.txt, dalam hal ini dianggap bahwa file tersebut hilang. Error lain seperti 500 (Internal Server Error), 403 (Forbidden), timed out, atau "not available" mengikuti instruksi robots.txt, namun bypass dapat ditunda hingga file tersedia.

Membuat file pencarian

Membuat file pencarian
Membuat file pencarian

BanyakProgram CMS seperti WordPress sudah memiliki file robots.txt. Sebelum mengkonfigurasi Robots txt WordPress dengan benar, pengguna perlu membiasakan diri dengan kemampuannya untuk mengetahui cara mengaksesnya. Jika programmer membuat file sendiri, itu harus memenuhi ketentuan berikut:

  1. Harus dalam huruf kecil.
  2. Gunakan penyandian UTF-8.
  3. Simpan dalam editor teks sebagai file (.txt).

Saat pengguna tidak tahu harus meletakkannya di mana, mereka menghubungi vendor perangkat lunak server web untuk mengetahui cara mengakses akar domain atau membuka konsol Google dan mengunduhnya. Dengan fungsi ini, Google juga dapat memeriksa apakah bot berfungsi dengan benar dan daftar situs yang telah diblokir menggunakan file tersebut.

Format utama Robots txt yang benar untuk bitrix (Bitrix):

  1. Legend robots.txt.
  2. , menambahkan komentar yang digunakan sebagai catatan saja.
  3. Komentar ini akan diabaikan oleh pemindai bersama dengan kesalahan ketik pengguna.
  4. User-agent - menunjukkan mesin pencari mana instruksi untuk file tersebut terdaftar.
  5. Menambahkan tanda bintang () memberi tahu pemindai bahwa instruksi ini untuk semua orang.

Menunjukkan bot tertentu, misalnya, Googlebot, Baiduspider, Applebot. Disallow memberi tahu perayap bagian mana dari situs web yang tidak boleh dirayapi. Tampilannya seperti ini: User-agent:. Tanda bintang berarti "semua bot". Namun, Anda dapat menentukan halaman untuk spesifikbot. Untuk melakukan ini, Anda perlu mengetahui nama bot yang rekomendasinya ditetapkan.

Robot txt yang benar untuk Yandex mungkin terlihat seperti ini:

Robot txt yang benar untuk Yandex
Robot txt yang benar untuk Yandex

Jika bot tidak merayapi situs, Anda dapat menentukannya, dan untuk menemukan nama agen pengguna, disarankan untuk membiasakan diri dengan kemampuan online useragentstring.com.

Optimasi halaman

Pengoptimalan halaman
Pengoptimalan halaman

Dua baris berikut dianggap sebagai file robots.txt yang lengkap, dan satu file robots dapat berisi beberapa baris agen pengguna dan arahan yang menonaktifkan atau mengaktifkan perayapan. Format utama dari Robots txt yang benar:

  1. Agen pengguna: [nama pengguna agen].
  2. Disallow: [string URL yang tidak dirayapi].

Dalam file, setiap blok arahan ditampilkan sebagai diskrit, dipisahkan oleh garis. Dalam file di sebelah direktori pengguna agen, setiap aturan diterapkan ke kumpulan baris yang dipisahkan bagian tertentu. Jika file memiliki aturan multi-agen, robot hanya akan mempertimbangkan kelompok instruksi yang paling spesifik.

Sintaks teknis

Sintaks Teknis
Sintaks Teknis

Ini dapat dianggap sebagai "bahasa" file robots.txt. Ada lima istilah yang bisa ada dalam format ini, yang utama antara lain:

  1. User-agent - Perayap web dengan instruksi perayapan, biasanya mesin pencari.
  2. Disallow adalah perintah yang digunakan untuk memberitahu agen pengguna untuk melewati(penghilangan) dari URL tertentu. Hanya ada satu kondisi terlarang untuk masing-masing.
  3. Izinkan. Untuk Googlebot yang mendapatkan akses, halaman pengguna pun ditolak.
  4. Crawl-delay - menentukan berapa detik yang dibutuhkan crawler sebelum crawling. Saat bot tidak mengonfirmasi, kecepatan disetel di konsol Google.
  5. Peta Situs - Digunakan untuk menemukan peta XML apa pun yang terkait dengan URL.

Kecocokan Pola

Saat benar-benar memblokir URL atau mengizinkan Robots txt yang valid, operasinya bisa sangat rumit karena memungkinkan Anda menggunakan pencocokan pola untuk mencakup sejumlah parameter URL yang mungkin. Google dan Bing sama-sama menggunakan dua karakter yang mengidentifikasi halaman atau subfolder yang ingin dikecualikan oleh SEO. Kedua karakter tersebut adalah asterisk () dan tanda dolar ($), di mana:adalah wildcard yang mewakili urutan karakter apa pun. $ - cocok dengan akhir URL.

Google menawarkan daftar besar kemungkinan sintaks template yang menjelaskan kepada pengguna cara menyiapkan file txt Robots dengan benar. Beberapa kasus penggunaan umum meliputi:

  1. Mencegah konten duplikat muncul di hasil pencarian.
  2. Jaga semua bagian situs web tetap pribadi.
  3. Simpan halaman internal hasil pencarian berdasarkan pernyataan terbuka.
  4. Tunjukkan lokasi.
  5. Mencegah mesin pencari mengindeks tertentufile.
  6. Menentukan penundaan perayapan untuk menghentikan pemuatan ulang saat memindai beberapa area konten secara bersamaan.

Memeriksa keberadaan file robot

Jika tidak ada area di situs yang perlu dirayapi, maka robots.txt tidak diperlukan sama sekali. Jika pengguna tidak yakin bahwa file ini ada, dia perlu memasukkan domain root dan mengetiknya di akhir URL, seperti ini: moz.com/robots.txt. Sejumlah bot pencarian mengabaikan file-file ini. Namun, sebagai aturan, perayap ini bukan milik mesin telusur terkemuka. Mereka adalah jenis spammer, agregator surat, dan jenis bot otomatis lainnya yang banyak ditemukan di Internet.

Sangat penting untuk diingat bahwa menggunakan standar pengecualian robot bukanlah tindakan keamanan yang efektif. Faktanya, beberapa bot mungkin memulai dengan halaman di mana pengguna mengaturnya ke mode pemindaian. Ada beberapa bagian yang masuk ke file pengecualian standar. Sebelum Anda memberi tahu robot halaman mana yang seharusnya tidak berfungsi, Anda perlu menentukan robot mana yang akan diajak bicara. Dalam kebanyakan kasus, pengguna akan menggunakan deklarasi sederhana yang berarti "semua bot".

Optimasi SEO

optimasi SEO
optimasi SEO

Sebelum mengoptimalkan, pengguna harus memastikan bahwa dia tidak memblokir konten atau bagian situs apa pun yang perlu dilewati. Tautan ke halaman yang diblokir oleh Robots txt yang benar tidak akan dihormati. Artinya:

  1. Jika mereka tidak ditautkan ke halaman lain yang tersedia untuk mesin pencari yaitu. halaman,tidak diblokir oleh robots.txt atau robot meta, dan sumber daya terkait tidak akan dirayapi sehingga tidak dapat diindeks.
  2. Tidak ada tautan yang dapat diteruskan dari halaman yang diblokir ke tujuan tautan. Jika ada halaman seperti itu, lebih baik menggunakan mekanisme pemblokiran yang berbeda dari robots.txt.

Karena halaman lain mungkin langsung tertaut ke halaman yang berisi informasi pribadi dan Anda ingin memblokir halaman ini dari hasil pencarian, gunakan metode lain, seperti proteksi kata sandi atau meta data noindex. Beberapa mesin pencari memiliki beberapa agen pengguna. Misalnya, Google menggunakan Googlebot untuk penelusuran organik dan Googlebot-Image untuk penelusuran gambar.

Sebagian besar agen pengguna dari mesin telusur yang sama mengikuti aturan yang sama, jadi tidak perlu menentukan arahan untuk masing-masing dari beberapa perayap, tetapi dapat melakukannya dapat menyempurnakan perayapan konten situs. Mesin pencari menyimpan konten file, dan biasanya memperbarui konten cache setidaknya sekali sehari. Jika pengguna mengubah file dan ingin memperbaruinya lebih cepat dari biasanya, mereka dapat mengirimkan URL robots.txt ke Google.

Mesin pencari

Memeriksa keberadaan file robot
Memeriksa keberadaan file robot

Untuk memahami cara kerja Robots txt dengan benar, Anda perlu mengetahui tentang kemampuan mesin telusur. Singkatnya, kemampuan mereka terletak pada kenyataan bahwa mereka mengirim "pemindai", yaitu program yangmenjelajah internet untuk mendapatkan informasi. Mereka kemudian menyimpan beberapa informasi ini untuk kemudian diteruskan ke pengguna.

Bagi banyak orang, Google sudah menjadi Internet. Sebenarnya, mereka benar, karena ini mungkin penemuannya yang paling penting. Dan meskipun mesin pencari telah banyak berubah sejak awal, prinsip dasarnya masih sama. Crawler, juga dikenal sebagai "bot" atau "laba-laba", menemukan halaman dari miliaran situs web. Mesin pencari memberi mereka petunjuk ke mana harus pergi, sementara situs individu juga dapat berkomunikasi dengan bot dan memberi tahu mereka halaman spesifik mana yang harus mereka lihat.

Umumnya, pemilik situs tidak ingin muncul di mesin pencari: halaman admin, portal backend, kategori dan tag, dan halaman informasi lainnya. File robots.txt juga dapat digunakan untuk mencegah mesin pencari memeriksa halaman. Singkatnya, robots.txt memberi tahu perayap web apa yang harus dilakukan.

Larangan Halaman

Ini adalah bagian utama dari file pengecualian robot. Dengan deklarasi sederhana, pengguna memberi tahu bot atau grup bot untuk tidak merayapi halaman tertentu. Sintaksnya sederhana, misalnya, untuk menolak akses ke semua yang ada di direktori "admin" situs, tulis: Disallow: /admin. Baris ini akan mencegah bot merayapi situs Anda.com/admin, situsAnda.com/admin/login, situsAnda.com/admin/files/secret.html, dan apa pun di bawah direktori admin.

Untuk melarang satu halaman, cukup tentukan di baris larangan: Disallow: /public/exception.html. Sekarang halaman "pengecualian"tidak akan bermigrasi, tetapi semua yang ada di folder "publik".

Untuk menyertakan beberapa halaman, cukup daftarkan:

Direktori dan halaman
Direktori dan halaman

Empat baris Robots txt untuk simfoni yang benar ini akan berlaku untuk agen pengguna mana pun yang terdaftar di bagian atasrobots.txt untuk

Larang halaman
Larang halaman

Peta Situs:

Perintah lain:live - jangan izinkan web crawler mengindeks cpresources/ atau provider/.

Agen Pengguna:Larang: /cpresources/.

Deny: / vendor / Larang: /.env.

Menetapkan standar

Pengguna dapat menentukan halaman tertentu untuk bot yang berbeda dengan menggabungkan dua elemen sebelumnya, seperti inilah tampilannya. Contoh Robots txt yang benar untuk semua mesin pencari disajikan di bawah ini.

Menetapkan Standar
Menetapkan Standar

Bagian "admin" dan "pribadi" tidak akan terlihat oleh Google dan Bing, tetapi Google akan tetap melihat direktori "rahasia", sedangkan Bing tidak. Anda dapat menentukan aturan umum untuk semua bot menggunakan agen pengguna asterisk, dan kemudian memberikan instruksi khusus kepada bot di bagian berikut. Dengan pengetahuan di atas, pengguna dapat menulis contoh Robots txt yang benar untuk semua mesin pencari. Jalankan editor teks favorit Anda dan beri tahu bot bahwa mereka tidak diterima di bagian tertentu situs.

Tips untuk meningkatkan kinerja server

SublimeText adalaheditor teks serbaguna dan standar emas bagi banyak programmer. Kiat pemrogramannya didasarkan pada pengkodean yang efisien. pengguna menghargai kehadiran cara pintas dalam program. Jika pengguna ingin melihat contoh file robots.txt, mereka harus membuka situs mana pun dan menambahkan "/robots.txt" di bagian akhir. Berikut adalah bagian dari file robots.txt GiantBicycles.

Program ini menyediakan pembuatan halaman yang tidak ingin ditampilkan pengguna di mesin pencari. Dan juga memiliki beberapa hal eksklusif yang hanya sedikit orang yang tahu. Misalnya, sementara file robots.txt memberi tahu bot ke mana tidak boleh pergi, file peta situs melakukan sebaliknya dan membantu mereka menemukan apa yang mereka cari, dan meskipun mesin telusur mungkin sudah tahu di mana letak peta situs, itu tidak mendapatkan di jalan.

Ada dua jenis file: halaman HTML atau file XML. Halaman HTML adalah halaman yang menunjukkan kepada pengunjung semua halaman yang tersedia di situs web. Dalam robots.txt-nya sendiri, tampilannya seperti ini: Peta Situs://www.makeuseof.com/sitemap_index.xml. Jika situs tidak diindeks oleh mesin pencari, meskipun telah dirayapi beberapa kali oleh robot web, Anda perlu memastikan bahwa file tersebut ada dan izinnya diatur dengan benar.

Secara default, ini akan terjadi pada semua instalasi SeoToaster, tetapi jika perlu, Anda dapat meresetnya seperti ini: File robots.txt - 644. Tergantung pada server PHP, jika ini tidak berhasil untuk pengguna, ini disarankan untuk mencoba yang berikut ini: File robots.txt - 666.

Mengatur penundaan pemindaian

Direktif penundaan bypass menginformasikan secara pastimesin pencari seberapa sering mereka dapat mengindeks halaman di situs. Ini diukur dalam hitungan detik, meskipun beberapa mesin pencari menafsirkannya sedikit berbeda. Beberapa orang melihat penundaan perayapan 5 saat mereka disuruh menunggu lima detik setelah setiap pemindaian untuk memulai pemindaian berikutnya.

Yang lain menafsirkan ini sebagai instruksi untuk hanya memindai satu halaman setiap lima detik. Robot tidak dapat memindai lebih cepat untuk menghemat bandwidth server. Jika server perlu mencocokkan lalu lintas, itu dapat mengatur penundaan bypass. Secara umum, dalam banyak kasus, pengguna tidak perlu khawatir tentang hal ini. Beginilah cara crawl delay delapan detik diatur - Crawl-delay: 8.

Tetapi tidak semua mesin telusur akan mematuhi arahan ini, jadi saat melarang laman, Anda dapat mengatur penundaan perayapan yang berbeda untuk mesin telusur tertentu. Setelah semua instruksi dalam file diatur, Anda dapat mengunggahnya ke situs, pertama-tama pastikan itu adalah file teks sederhana dan memiliki nama robots.txt dan dapat ditemukan di situs Anda.com/robots.txt.

Bot WordPress Terbaik

Bot WordPress Terbaik
Bot WordPress Terbaik

Ada beberapa file dan direktori di situs WordPress yang perlu dikunci setiap saat. Direktori yang harus dilarang oleh pengguna adalah direktori cgi-bin dan direktori WP standar. Beberapa server tidak mengizinkan akses ke direktori cgi-bin, tetapi pengguna harus memasukkannya ke dalam disallow directive sebelum mengonfigurasi Robots txt WordPress dengan benar

Direktori WordPress standar,yang harus diblokir adalah wp-admin, wp-content, wp-includes. Direktori ini tidak berisi data yang pada awalnya berguna untuk mesin pencari, tetapi ada pengecualian, yaitu ada subdirektori bernama unggahan di direktori wp-content. Subdirektori ini harus diizinkan di file robot.txt karena mencakup semua yang dimuat menggunakan fitur unggah media WP. WordPress menggunakan tag atau kategori untuk menyusun konten.

Jika kategori digunakan, maka untuk membuat Robots txt yang benar untuk Wordpress, seperti yang ditentukan oleh pembuat program, perlu untuk memblokir arsip tag dari pencarian. Pertama, mereka memeriksa database dengan masuk ke panel "Administrasi"> "Pengaturan"> "Permalink".

Secara default, basis adalah tag, jika bidang kosong: Disallow: / tag /. Jika kategori digunakan, maka Anda harus menonaktifkan kategori di file robot.txt: Disallow: /category/. Secara default, basisnya adalah tag, jika bidangnya kosong: Disallow: / tag /. Jika kategori digunakan, maka Anda harus menonaktifkan kategori di file robot.txt: Disallow: / kategori /.

File yang digunakan terutama untuk menampilkan konten, mereka akan diblokir oleh file Robots txt yang benar untuk Wordpress:

Robot txt untuk wordpress
Robot txt untuk wordpress

Pengaturan dasar Joomla

Setelah pengguna menginstal Joomla, Anda perlu melihat pengaturan txt Joomla Robots yang benar dalam konfigurasi global, yang terletak di panel kontrol. Beberapa pengaturan di sini sangat penting untuk SEO. Pertama-tama temukan nama situsnya dan pastikan itunama pendek situs yang digunakan. Kemudian mereka menemukan sekelompok pengaturan di sebelah kanan layar yang sama, yang disebut pengaturan SEO. Yang pasti harus diubah adalah yang kedua: gunakan URL penulisan ulang.

Ini terdengar rumit, tetapi pada dasarnya membantu Joomla membuat URL yang lebih bersih. Paling terlihat jika Anda menghapus baris index.php dari URL. Jika Anda mengubahnya nanti, URL akan berubah dan Google tidak akan menyukainya. Namun, saat mengubah pengaturan ini, beberapa langkah harus dilakukan secara bersamaan untuk membuat robots txt yang benar untuk Joomla:

  1. Temukan file htaccess.txt di folder root Joomla.
  2. Tandai sebagai.htaccess (tanpa ekstensi).
  3. Sertakan nama situs di judul halaman.
  4. Temukan pengaturan metadata di bagian bawah layar konfigurasi global.

Robot di awan MODX

Robot di Awan MODX
Robot di Awan MODX

Sebelumnya, MODX Cloud memberi pengguna kemampuan untuk mengontrol perilaku mengizinkan file robots.txt untuk disajikan berdasarkan sakelar di dasbor. Meskipun ini berguna, dimungkinkan untuk secara tidak sengaja mengizinkan pengindeksan di situs pementasan/pengembangan dengan mengaktifkan opsi di Dasbor. Demikian pula, mudah untuk menonaktifkan pengindeksan di situs produksi.

Hari ini layanan mengasumsikan keberadaan file robots.txt di sistem file dengan pengecualian berikut: domain apa pun yang diakhiri dengan modxcloud.com akan berfungsi sebagai Disallow: /directive untuk semua agen pengguna, terlepas dari keberadaannya atau tidak adanya file. Situs produksi yang menerima lalu lintas pengunjung nyata perlu menggunakan domain mereka sendiri jika pengguna ingin mengindeks situs mereka.

Beberapa organisasi menggunakan Robots txt untuk modx yang benar untuk menjalankan beberapa situs web dari satu instalasi menggunakan Konteks. Kasus di mana hal ini dapat diterapkan adalah situs pemasaran publik yang digabungkan dengan situs mikro laman landas dan mungkin intranet non-publik.

Biasanya ini sulit dilakukan untuk instalasi multi-pengguna karena mereka berbagi root jaringan yang sama. Dengan MODX Cloud, ini mudah. Cukup unggah file tambahan ke situs web bernama robots-intranet.example.com.txt dengan konten berikut dan itu akan memblokir pengindeksan dengan robot yang berfungsi dengan baik dan semua nama host lainnya kembali ke file standar kecuali ada node nama spesifik lainnya.

Robots.txt adalah file penting yang membantu pengguna untuk menautkan ke situs di Google, mesin telusur utama, dan situs web lainnya. Terletak di akar server web, file tersebut menginstruksikan robot web untuk merayapi situs, mengatur folder mana yang harus atau tidak boleh diindeks, menggunakan serangkaian instruksi yang disebut Protokol Pengecualian Bot. Contoh Robots txt yang benar untuk semua mesin pencari obots.txt sangat mudah dilakukan dengan SeoToaster. Menu khusus telah dibuat untuk itu di panel kontrol, jadi bot tidak perlu bekerja terlalu keras untuk mendapatkan akses.

Direkomendasikan: