SEO Nível: intermediário

Robots.txt

Robots.txt é um arquivo de texto usado para orientar robôs de busca sobre quais áreas do site podem ou não ser rastreadas.

Robots.txt é um arquivo localizado normalmente na raiz do site que informa aos robôs de busca regras de rastreamento. Ele pode permitir ou bloquear o acesso a pastas, parâmetros, arquivos e seções específicas.

É importante entender que robots.txt controla rastreamento, não indexação de forma absoluta. Uma URL bloqueada pode ainda aparecer no Google se existirem links externos apontando para ela, mas o Google pode não conseguir ler o conteúdo da página.

O risco de uma regra errada

Uma única linha mal configurada pode bloquear o site inteiro. Isso acontece muito em ambientes de staging que usam Disallow: / para impedir rastreamento e depois vão para produção sem remover a regra.

Como funciona na prática

  • O robô de busca acessa /robots.txt antes de rastrear o site
  • O arquivo informa regras para user-agents específicos ou para todos os bots
  • Diretivas como Allow e Disallow indicam caminhos permitidos ou bloqueados
  • O arquivo também pode apontar a localização do sitemap XML
  • O robô usa essas regras para decidir quais URLs pode rastrear

Exemplo Prático

Durante uma migração, o site novo fica bloqueado com `Disallow: /` para não ser rastreado antes da hora. Após publicar, essa regra precisa ser removida. Se continuar, o Googlebot não conseguirá rastrear o site em produção.

Por que isso é importante?

Robots.txt importa porque afeta diretamente a capacidade do Google de acessar o site. É um arquivo simples, mas erros nele podem causar queda de rastreamento, páginas fora do índice e perda de tráfego orgânico.

Perguntas Frequentes (FAQ) sobre Robots.txt

Robots.txt remove página do Google?

Não necessariamente. Para remover uma página do índice, o mais correto é usar noindex ou remoção no Search Console. Robots.txt impede rastreamento, mas não garante remoção se a URL já for conhecida.

Posso bloquear páginas administrativas no robots.txt?

Pode orientar bots a não rastrear, mas isso não é segurança. Áreas administrativas precisam de login, permissões e proteção real no servidor ou aplicação.