Robots.txt
Robots.txt é um arquivo de texto usado para orientar robôs de busca sobre quais áreas do site podem ou não ser rastreadas.
Robots.txt é um arquivo localizado normalmente na raiz do site que informa aos robôs de busca regras de rastreamento. Ele pode permitir ou bloquear o acesso a pastas, parâmetros, arquivos e seções específicas.
É importante entender que robots.txt controla rastreamento, não indexação de forma absoluta. Uma URL bloqueada pode ainda aparecer no Google se existirem links externos apontando para ela, mas o Google pode não conseguir ler o conteúdo da página.
O risco de uma regra errada
Uma única linha mal configurada pode bloquear o site inteiro. Isso acontece muito em ambientes de staging que usam Disallow: / para impedir rastreamento e depois vão para produção sem remover a regra.
Como funciona na prática
- O robô de busca acessa /robots.txt antes de rastrear o site
- O arquivo informa regras para user-agents específicos ou para todos os bots
- Diretivas como Allow e Disallow indicam caminhos permitidos ou bloqueados
- O arquivo também pode apontar a localização do sitemap XML
- O robô usa essas regras para decidir quais URLs pode rastrear
Exemplo Prático
Durante uma migração, o site novo fica bloqueado com `Disallow: /` para não ser rastreado antes da hora. Após publicar, essa regra precisa ser removida. Se continuar, o Googlebot não conseguirá rastrear o site em produção.
Por que isso é importante?
Robots.txt importa porque afeta diretamente a capacidade do Google de acessar o site. É um arquivo simples, mas erros nele podem causar queda de rastreamento, páginas fora do índice e perda de tráfego orgânico.
Perguntas Frequentes (FAQ) sobre Robots.txt
Robots.txt remove página do Google?
Não necessariamente. Para remover uma página do índice, o mais correto é usar noindex ou remoção no Search Console. Robots.txt impede rastreamento, mas não garante remoção se a URL já for conhecida.
Posso bloquear páginas administrativas no robots.txt?
Pode orientar bots a não rastrear, mas isso não é segurança. Áreas administrativas precisam de login, permissões e proteção real no servidor ou aplicação.