Cara memblokir situs agar tidak terindeks di robots.txt: petunjuk dan rekomendasi

Daftar Isi:

Cara memblokir situs agar tidak terindeks di robots.txt: petunjuk dan rekomendasi
Cara memblokir situs agar tidak terindeks di robots.txt: petunjuk dan rekomendasi
Anonim

Pekerjaan pengoptimal SEO sangat berskala besar. Pemula disarankan untuk menuliskan algoritma pengoptimalan agar tidak ketinggalan langkah apa pun. Jika tidak, promosi hampir tidak dapat dikatakan berhasil, karena situs akan terus-menerus mengalami kegagalan dan kesalahan yang harus diperbaiki untuk waktu yang lama.

Salah satu langkah pengoptimalan adalah bekerja dengan file robots.txt. Setiap sumber daya harus memiliki dokumen ini, karena tanpanya akan lebih sulit untuk mengatasi optimasi. Ia melakukan banyak fungsi yang harus Anda pahami.

Asisten Robot

File robots.txt adalah dokumen teks biasa yang dapat dilihat di Notepad standar sistem. Saat membuatnya, Anda harus mengatur pengkodean ke UTF-8 agar dapat dibaca dengan benar. File bekerja dengan protokol http, https dan FTP.

Dokumen ini adalah asisten untuk mencari robot. Jika Anda tidak tahu, setiap sistem menggunakan "laba-laba" yang dengan cepat merayapi World Wide Web untuk mengembalikan situs yang relevan untuk kueri.pengguna. Robot ini harus memiliki akses ke data sumber daya, robots.txt berfungsi untuk ini.

Agar laba-laba menemukan jalannya, Anda perlu mengirim dokumen robots.txt ke direktori root. Untuk memeriksa apakah situs memiliki file ini, masukkan "https://site.com.ua/robots.txt" ke bilah alamat browser. Alih-alih "site.com.ua" Anda harus memasukkan sumber daya yang Anda butuhkan.

Bekerja dengan robots.txt
Bekerja dengan robots.txt

Fungsi dokumen

File robots.txt menyediakan beberapa jenis informasi bagi perayap. Ini dapat memberikan akses parsial sehingga "laba-laba" memindai elemen tertentu dari sumber daya. Akses penuh memungkinkan Anda untuk memeriksa semua halaman yang tersedia. Larangan lengkap mencegah robot untuk mulai memeriksa, dan mereka meninggalkan situs.

Setelah mengunjungi sumber, "laba-laba" menerima respons yang sesuai dengan permintaan tersebut. Mungkin ada beberapa, semuanya tergantung pada informasi di robots.txt. Misalnya, jika pemindaian berhasil, robot akan menerima kode 2xx.

Mungkin situs telah dialihkan dari satu halaman ke halaman lain. Dalam hal ini, robot menerima kode 3xx. Jika kode ini muncul beberapa kali, maka laba-laba akan mengikutinya hingga menerima respons lain. Meskipun, sebagai suatu peraturan, ia hanya menggunakan 5 upaya. Jika tidak, kesalahan 404 yang populer akan muncul.

Jika jawabannya 4xx, maka robot diperbolehkan untuk merayapi seluruh isi situs. Tetapi dalam kasus kode 5xx, pemeriksaan mungkin berhenti total, karena ini sering menunjukkan kesalahan server sementara.

Cari robot
Cari robot

Untuk apabutuh robots.txt?

Seperti yang sudah Anda duga, file ini adalah panduan robot untuk root situs. Sekarang digunakan untuk membatasi sebagian akses ke konten yang tidak pantas:

  • halaman dengan informasi pribadi pengguna;
  • situs cermin;
  • hasil pencarian;
  • formulir pengiriman data, dll.

Jika tidak ada file robots.txt di root situs, robot akan merayapi semua konten. Dengan demikian, data yang tidak diinginkan mungkin muncul di hasil pencarian, yang berarti Anda dan situs akan menderita. Jika ada instruksi khusus dalam dokumen robots.txt, maka "laba-laba" akan mengikutinya dan memberikan informasi yang diinginkan oleh pemilik resource.

Bekerja dengan file

Untuk menggunakan robots.txt untuk memblokir situs dari pengindeksan, Anda perlu mengetahui cara membuat file ini. Untuk melakukannya, ikuti instruksi:

  1. Buat dokumen di Notepad atau Notepad++.
  2. Setel ekstensi file ".txt".
  3. Masukkan data dan perintah yang diperlukan.
  4. Simpan dokumen dan unggah ke root situs.

Seperti yang Anda lihat, pada salah satu tahapan itu perlu untuk mengatur perintah untuk robot. Ada dua jenis: membolehkan (Allow) dan melarang (Disallow). Selain itu, beberapa pengoptimal mungkin menentukan kecepatan perayapan, host, dan tautan ke peta halaman sumber daya.

Cara menutup situs dari pengindeksan
Cara menutup situs dari pengindeksan

Untuk mulai bekerja dengan robots.txt dan sepenuhnya memblokir situs dari pengindeksan, Anda juga harus memahami simbol yang digunakan. Misalnya, dalam dokumengunakan "/", yang menunjukkan bahwa seluruh situs dipilih. Jika "" digunakan, maka diperlukan urutan karakter. Dengan cara ini, dimungkinkan untuk menentukan folder tertentu yang dapat dipindai atau tidak.

Fitur bot

"Laba-laba" untuk mesin pencari berbeda, jadi jika Anda bekerja untuk beberapa mesin pencari sekaligus, maka Anda harus memperhitungkan momen ini. Nama mereka berbeda, yang berarti bahwa jika Anda ingin menghubungi robot tertentu, Anda harus menentukan namanya: “Agen Pengguna: Yandex” (tanpa tanda kutip).

Jika Anda ingin mengatur arahan untuk semua mesin pencari, maka Anda perlu menggunakan perintah: "Agen Pengguna: " (tanpa tanda kutip). Untuk memblokir situs dari pengindeksan dengan benar menggunakan robots.txt, Anda perlu mengetahui secara spesifik mesin telusur populer.

Faktanya adalah bahwa mesin pencari paling populer Yandex dan Google memiliki beberapa bot. Masing-masing dari mereka memiliki tugas sendiri. Misalnya, Yandex Bot dan Googlebot adalah "laba-laba" utama yang merayapi situs. Mengetahui semua bot, akan lebih mudah untuk menyempurnakan pengindeksan sumber daya Anda.

Cara kerja file robots.txt
Cara kerja file robots.txt

Contoh

Jadi, dengan bantuan robots.txt, Anda dapat menutup situs dari pengindeksan dengan perintah sederhana, yang utama adalah memahami apa yang Anda butuhkan secara spesifik. Misalnya, jika Anda ingin Googlebot tidak mendekati sumber daya Anda, Anda harus memberikan perintah yang sesuai. Ini akan terlihat seperti: "User-agent: Googlebot Disallow: /" (tanpa tanda kutip).

Sekarang kita perlu memahami apa yang ada dalam perintah ini dan bagaimana cara kerjanya. Jadi "Agen-pengguna"digunakan untuk menggunakan panggilan langsung ke salah satu bot. Selanjutnya, kami menunjukkan yang mana, dalam kasus kami ini adalah Google. Perintah "Disallow" harus dimulai pada baris baru dan melarang robot memasuki situs. Simbol garis miring dalam hal ini menunjukkan bahwa semua halaman sumber daya dipilih untuk eksekusi perintah.

Untuk apa robots.txt?
Untuk apa robots.txt?

Di robots.txt, Anda dapat menonaktifkan pengindeksan untuk semua mesin pencari dengan perintah sederhana: "User-agent:Disallow: /" (tanpa tanda kutip). Karakter asterisk dalam hal ini menunjukkan semua robot pencarian. Biasanya, perintah seperti itu diperlukan untuk menghentikan sementara pengindeksan situs dan memulai pekerjaan utama di dalamnya, yang jika tidak, dapat memengaruhi pengoptimalan.

Jika sumber daya besar dan memiliki banyak halaman, sering kali berisi informasi kepemilikan yang tidak diinginkan untuk diungkapkan, atau dapat berdampak negatif pada promosi. Dalam hal ini, Anda perlu memahami cara menutup halaman agar tidak terindeks di robots.txt.

Anda dapat menyembunyikan folder atau file. Dalam kasus pertama, Anda harus memulai lagi dengan menghubungi bot tertentu atau semua orang, jadi kami menggunakan perintah "User-agent", dan di bawah ini kami menentukan perintah "Disallow" untuk folder tertentu. Tampilannya akan seperti ini: "Disallow: /folder /" (tanpa tanda kutip). Dengan cara ini Anda menyembunyikan seluruh folder. Jika berisi beberapa file penting yang ingin Anda tampilkan, maka Anda perlu menulis perintah di bawah ini: “Allow: /folder/file.php” (tanpa tanda kutip).

Periksa file

Jika menggunakan robots.txt untuk menutup situs dariAnda berhasil mengindeks, tetapi Anda tidak tahu apakah semua arahan Anda berfungsi dengan benar, Anda dapat memeriksa kebenaran pekerjaannya.

Pertama, Anda perlu memeriksa kembali penempatan dokumen. Ingat bahwa itu harus secara eksklusif di folder root. Jika ada di folder root, maka itu tidak akan berfungsi. Selanjutnya, buka browser dan masukkan alamat berikut di sana: “https://yoursite. com/robots.txt (tanpa tanda kutip). Jika Anda mendapatkan kesalahan di browser web Anda, maka file tersebut tidak berada di tempat yang seharusnya.

Cara menutup folder dari pengindeksan
Cara menutup folder dari pengindeksan

Petunjuk dapat diperiksa di alat khusus yang digunakan oleh hampir semua webmaster. Kita berbicara tentang produk Google dan Yandex. Misalnya, di Google Search Console ada bilah alat tempat Anda perlu membuka "Perayapan", lalu jalankan "Alat Inspeksi File Robots.txt". Anda perlu menyalin semua data dari dokumen ke dalam jendela dan mulai memindai. Pemeriksaan yang sama persis dapat dilakukan di Yandex. Webmaster.

Direkomendasikan: