robots.txt: la guía definitiva para controlar tu crawl budget

Un archivo robots.txt mal configurado puede destruir años de trabajo SEO en 24 horas. Una empresa e-commerce desplegó accidentalmente un Disallow: / en producción y perdió el 90% de su tráfico orgánico en un día.

El archivo robots.txt es tu primera línea de comunicación con los crawlers. Y cuando se trata de comunicación con Google, cada palabra cuenta.

¿Qué es robots.txt y cómo funciona?

robots.txt es un archivo de texto plano ubicado en https://tudominio.com/robots.txt que implementa el Robots Exclusion Protocol (RFC 9309, oficial desde septiembre 2022).

Distinción CRÍTICA:

✅ robots.txt controla el CRAWLING (rastreo/visita de páginas)
❌ robots.txt NO controla el INDEXING (inclusión en resultados)

Consecuencia importante: Si una página está bloqueada en robots.txt pero recibe enlaces externos, Google puede indexar su URL sin contenido (aparecerá en resultados sin descripción).

Sintaxis básica y directivas

1. User-agent

Especifica a qué rastreador se aplican las reglas.

User-agent: *
# Aplica a todos los crawlers

User-agent: Googlebot
# Solo para Google

User-agent: GPTBot
# Solo para ChatGPT

User-agents importantes (2025)

Googlebot: Crawler principal de Google
Bingbot: Microsoft Bing
GPTBot: OpenAI / ChatGPT
ClaudeBot: Anthropic / Claude
CCBot: Common Crawl
Google-Extended: Para bloquear entrenamiento de IA de Google

2. Disallow y Allow

User-agent: *
# Bloquear directorio admin
Disallow: /admin/

# Bloquear parámetros de búsqueda
Disallow: /*?s=
Disallow: /*?filter=

# Permitir excepción específica
Allow: /admin/public/

3. Wildcards (* y $)

Asterisco (*): Cualquier secuencia de caracteres

# Bloquear todos los PDFs
Disallow: /*.pdf

# Bloquear URLs con parámetros
Disallow: /*?

# Bloquear imágenes en cualquier ubicación
Disallow: /*/*.jpg

Dólar ($): Especifica el final de la URL

# Bloquear solo URLs que terminen en .php
Disallow: /*.php$

# Bloquear solo archivos .gif (no /image.gif.html)
Disallow: /*.gif$

4. Sitemap

Sitemap: https://tudominio.com/sitemap.xml

# Múltiples sitemaps
Sitemap: https://tudominio.com/sitemap-posts.xml
Sitemap: https://tudominio.com/sitemap-products.xml

5. Crawl-delay

⚠️ IMPORTANTE: Google NO soporta esta directiva. Solo Bing y Yandex.

User-agent: Bingbot
Crawl-delay: 10
# Bing: máximo 1 página cada 10 segundos

User-agent: Yandexbot
Crawl-delay: 5
# Yandex: espera 5 segundos entre solicitudes

Errores CRÍTICOS que debes evitar

1. Bloquear todo el sitio accidentalmente

❌ ERROR FATAL:

User-agent: *
Disallow: /

Consecuencia: Pérdida del 90% del tráfico orgánico en 24-48 horas. Años de trabajo SEO destruidos.

✅ CORRECTO:

User-agent: *
Disallow: /admin/
Disallow: /private/

2. Bloquear CSS y JavaScript

❌ MAL:

Disallow: /css/
Disallow: /js/
Disallow: /*.css$
Disallow: /*.js$

Consecuencia: Google no puede renderizar las páginas correctamente. Problemas de indexación, pérdida de featured snippets, evaluación incorrecta de Core Web Vitals.

✅ BIEN:

User-agent: *
Allow: /css/
Allow: /js/

3. Usar robots.txt para contenido NoIndex

❌ ERROR CONCEPTUAL:

# robots.txt
Disallow: /thank-you-page/
# Pensando que esto previene indexación

Problema: Robots.txt bloquea el crawling, así que Google NO puede leer la etiqueta noindex en la página. La URL puede aparecer en resultados si hay enlaces externos.

✅ SOLUCIÓN CORRECTA:

<!-- En thank-you-page.html -->
<meta name="robots" content="noindex, follow">

# robots.txt - PERMITIR crawling
User-agent: *
Allow: /thank-you-page/

4. Subdominios sin robots.txt

❌ ERROR:

www.example.com/robots.txt configurado ✅
staging.example.com/robots.txt no existe ❌

Consecuencia: Entornos de desarrollo indexados, contenido duplicado, contenido no finalizado en resultados de búsqueda.

✅ SOLUCIÓN:

# staging.example.com/robots.txt
User-agent: *
Disallow: /

5. Archivo robots.txt con 5000+ líneas

Caso real documentado: Negocio pequeño con robots.txt de más de 5000 directivas = solo 1 página indexada.

❌ MAL (5000 líneas):

Disallow: /product-page-1.html
Disallow: /product-page-2.html
Disallow: /product-page-3.html
... (4997 líneas más)

✅ BIEN (1 línea):

Disallow: /product-page-*.html

Máximo recomendado: 100-200 líneas

Casos de uso prácticos

1. WordPress básico

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/

# Páginas dinámicas
Disallow: /*?replytocom=
Disallow: /*?s=

Sitemap: https://tudominio.com/sitemap_index.xml

2. E-commerce / WooCommerce

User-agent: *

# WordPress básico
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

# WooCommerce - checkout y cuenta
Disallow: /my-account/
Disallow: /cart/
Disallow: /checkout/
Disallow: /order-tracking/

# Filtros y parámetros
Disallow: /*?add-to-cart=
Disallow: /*?filter_*
Disallow: /*?orderby=

# Permitir categorías y productos
Allow: /product-category/
Allow: /product/

Sitemap: https://tudominio.com/product-sitemap.xml
Sitemap: https://tudominio.com/product_cat-sitemap.xml

3. Bloquear AI Crawlers (Tendencia 2025)

Muchos sitios de noticias (BBC, New York Times) bloquean crawlers de IA para proteger contenido.

# Bloquear entrenamiento de IA de Google
User-agent: Google-Extended
Disallow: /

# Bloquear OpenAI/ChatGPT
User-agent: GPTBot
Disallow: /

# Bloquear Anthropic/Claude
User-agent: ClaudeBot
Disallow: /

# Bloquear Common Crawl
User-agent: CCBot
Disallow: /

# Bloquear Perplexity
User-agent: PerplexityBot
Disallow: /

# Otros crawlers pueden seguir accediendo
User-agent: *
Disallow:

4. Optimización de Crawl Budget (sitio grande)

User-agent: *

# Bloquear páginas de búsqueda interna
Disallow: /*?s=
Disallow: /search?

# Bloquear parámetros de filtrado y ordenación
Disallow: /*?filter=
Disallow: /*?sort=
Disallow: /*?orderby=

# Bloquear navegación facetada
Disallow: /*?price=
Disallow: /*?color=
Disallow: /*?size=

# Bloquear paginación duplicada
Disallow: /*?page=
Disallow: /page/

# Permitir sitemap
Sitemap: https://tudominio.com/sitemap.xml

Reglas de precedencia

REGLA FUNDAMENTAL: La regla más específica (con más caracteres) gana.

User-agent: *
Disallow: /folder/
Allow: /folder/public/
Disallow: /folder/public/secret.html

# Para /folder/public/secret.html:
# - Disallow: /folder/ = 8 caracteres
# - Allow: /folder/public/ = 15 caracteres
# - Disallow: /folder/public/secret.html = 28 caracteres ← GANA
# Resultado: BLOQUEADO

En caso de empate: Allow tiene precedencia sobre Disallow

Herramientas de validación

Google Search Console: Robots.txt Tester + URL Inspection Tool
TametheBots: https://tamethebots.com/tools/robotstxt-checker
TechnicalSEO.com: https://technicalseo.com/tools/robots-txt/
SE Ranking: https://seranking.com/free-tools/robots-txt-tester.html

Relación con meta robots y X-Robots-Tag

Aspecto	robots.txt	meta robots	X-Robots-Tag
Controla	Crawling	Indexing	Indexing
Ubicación	Archivo raíz	HTML <head>	HTTP Header
Tipos de archivo	Todos	Solo HTML	Todos (PDF, imágenes, etc.)

Tu checklist de robots.txt

☐ Archivo ubicado en raíz (https://example.com/robots.txt)
☐ Sintaxis validada con herramienta oficial
☐ CSS y JavaScript permitidos
☐ Sitemap.xml referenciado
☐ Probado con Google Search Console Tester
☐ Configuración diferente para staging/production
☐ No expone información sensible
☐ Documentado con comentarios
☐ Monitoreado en Search Console
☐ Versionado en control de versiones (Git)

Estadísticas importantes

✅ 30% de reducción en visibilidad de búsqueda con configuración incorrecta (investigación documentada)
✅ 2.9 millones de penalizaciones manuales emitidas por Google por link manipulation (gestión correcta de crawl budget ayuda)
✅ Recuperación de penalty puede llevar meses o años

Conclusión: Menos es más

El archivo robots.txt debe ser simple, directo y bien documentado.

La regla de oro: Permitir por defecto, bloquear selectivamente.

Tu plan de acción ahora:

Audita tu robots.txt actual con Google Search Console
Verifica que CSS/JS están permitidos
Confirma que subdominios de staging bloquean todo
Simplifica usando wildcards (máx 200 líneas)
Documenta con comentarios cada sección
Monitorea Coverage Report en Search Console semanalmente

Recuerda: Un error en robots.txt puede destruir tu SEO en 24 horas. Pero bien configurado, optimiza tu crawl budget y protege lo que debe protegerse. Tómatelo en serio.

El Autor

Jorge J. Rolo

Especialista en SEO técnico y AIO, apasionado por la automatización y la optimización para motores de búsqueda e inteligencia artificial. Con más de una década de experiencia en el mundo digital, me he especializado en la intersección entre el SEO técnico tradicional y las nuevas oportunidades que presenta la inteligencia artificial.

Más de Jorge J. Rolo →