WordPress robots.txt Nedir?

Web sitesi sahibi herkes bir şekilde robot, bot, spider vb. isimlerle anılan araçları duymuştur. Robotlar arama motorları tarafından siteler hakkında bilgi toplamak ve indexlemek için kullanılırlar. Bir kelime arattırdığımızda, önceden toplanan  veriler ışığında en yakın sonuçlar bize gösterilir. Robotlar sadece bu amaçla kullanılmazlar, e-mail toplamak ya da başka amaçlar için oluşturulmuş zararlı botlarda mevcuttur. Bu nedenle sitemiz ile ilgili robot yönetimini iyi yapmamız gerekir.  Botların siteye girişini engellemek ya da izin vermek için robots.txt dosyasını kullanırız. Bu basit dosya ile başlıca şu işlemleri gerçekleştirebiliriz.

  • Hangi robotların sitemizden bilgi alabileceğine karar verebiliriz.
  • Siteye giriş izni verilen botların, site içinde nerelere girebileceğine karar verebiliriz.

Robots.txt Dosya Tanımı

Herhangi bir bot sitenize geldiğine ilk olarak root klasörünüzde /robots.txt dosyasını arayacaktır. Domain adınız “http://sizinsiteniz.com” ise dosya yolu “http://sizinsiteniz.com/robots.txt” olacaktır. Robot dosyaya bakacak ve kendisine izin verilip verilmediğini, izin verildiyse site içinde nerelere girebileceğini öğrenecek ve aldığı bilgilerle birlikte geri dönecektir. Aşağıda tipik bir dosya örneğini görebilirsiniz. Robots.txt dosyası notepad ile hazırlanabilir.

User-agent: *

Disallow: /

User-agent: robot, bot spider (örümcek)  ismi. Siteye girmesini istemediğiniz bot isminin yazıldığı satır. ” * ” işareti tüm robotları kapsar.

Disallow: dizin ya da dosya ismi. Botlar tarafından indexlenmesini istemediğiniz dizin ya da dosya isimlerinin yazıldığı satır. ” /  ” işareti tüm dizin ve dosya isimlerini kapsar.

Şimdi tekrar yukarıdaki robots.txt içeriğini incelediğimizde, robotların sitemizde bulunan tüm dizin ve dosyalara erişimini engellemiş durumdayız.

Robots.txt Kullanımı

Robotları yönetmek neden bu kadar önemli? Arama motorlarında gösterilmesini istemediğiniz henüz bitmemiş sayfalarınız olabilir ya da bazı içeriklerin tanıtılmasını istemiyor  olabilirsiniz. Sitenizin hiç bir şekilde yer almasını istemediğiniz arama motorları olabilir. İşte bu ve benzeri durumlarda robots.txt dosyası kullanmamız tavsiye edilmektedir. Robots Exclusion Standard – robot engeleme  (dışlama) standartına  uygun yönetilen botların her zaman tam olarak engellenemeyeceğide söylenmektedir. Şimdi birazda kullanım örneklerine ve kodlarına bakalım.

Tüm Klasörler robotların erişimine açık.

User-agent: *
Disallow:

Tüm Klasörler robotların erişimine kapalı.

User-agent: *
Disallow: /

Belirtilen klasörlere robotların erişimi yasak.

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /wp-admin/
Disallow: /wp-includes/

Belirtilen Klasörlere, belirtilen robotların erişimi yasak.

User-agent: bot_ismi #istenmeyen bot
Disallow: /cgi-bin/

Belirtilen dosya robotların erişimine kapalı.

User-agent: *
Disallow: /dizin_adi/dosya_adi.html

Belirli dizin ya da klasöre izin vermek (Allow)

User-agent: *
Allow: /dizin_adi/dosya_adi.html
Disallow: /dizin_adi

dosya_adi.html dışındaki, aynı dizinde bulunan tüm dosyalara erişim yasak. Önce Allow komutu izlenir daha sonra disallow komutu uygulanır. robots.txt dosyanızı google webmaster tools aracında test edebilir ve oluşturabilirsiniz.

Benzer konular:

Password Reset
Please enter your e-mail address. You will receive a new password via e-mail.