Un archivo robots.txt mal configurado puede destruir años de trabajo SEO en 24 horas. Una empresa e-commerce desplegó accidentalmente un Disallow: / en producción y perdió el 90% de su tráfico orgánico en un día.
El archivo robots.txt es tu primera línea de comunicación con los crawlers. Y cuando se trata de comunicación con Google, cada palabra cuenta.
¿Qué es robots.txt y cómo funciona?
robots.txt es un archivo de texto plano ubicado en https://tudominio.com/robots.txt que implementa el Robots Exclusion Protocol (RFC 9309, oficial desde septiembre 2022).
Distinción CRÍTICA:
- ✅ robots.txt controla el CRAWLING (rastreo/visita de páginas)
- ❌ robots.txt NO controla el INDEXING (inclusión en resultados)
Consecuencia importante: Si una página está bloqueada en robots.txt pero recibe enlaces externos, Google puede indexar su URL sin contenido (aparecerá en resultados sin descripción).
Sintaxis básica y directivas
1. User-agent
Especifica a qué rastreador se aplican las reglas.
User-agent: *
# Aplica a todos los crawlers
User-agent: Googlebot
# Solo para Google
User-agent: GPTBot
# Solo para ChatGPT
User-agents importantes (2025)
- Googlebot: Crawler principal de Google
- Bingbot: Microsoft Bing
- GPTBot: OpenAI / ChatGPT
- ClaudeBot: Anthropic / Claude
- CCBot: Common Crawl
- Google-Extended: Para bloquear entrenamiento de IA de Google
2. Disallow y Allow
User-agent: *
# Bloquear directorio admin
Disallow: /admin/
# Bloquear parámetros de búsqueda
Disallow: /*?s=
Disallow: /*?filter=
# Permitir excepción específica
Allow: /admin/public/
3. Wildcards (* y $)
Asterisco (*): Cualquier secuencia de caracteres
# Bloquear todos los PDFs
Disallow: /*.pdf
# Bloquear URLs con parámetros
Disallow: /*?
# Bloquear imágenes en cualquier ubicación
Disallow: /*/*.jpg
Dólar ($): Especifica el final de la URL
# Bloquear solo URLs que terminen en .php
Disallow: /*.php$
# Bloquear solo archivos .gif (no /image.gif.html)
Disallow: /*.gif$
4. Sitemap
Sitemap: https://tudominio.com/sitemap.xml
# Múltiples sitemaps
Sitemap: https://tudominio.com/sitemap-posts.xml
Sitemap: https://tudominio.com/sitemap-products.xml
5. Crawl-delay
⚠️ IMPORTANTE: Google NO soporta esta directiva. Solo Bing y Yandex.
User-agent: Bingbot
Crawl-delay: 10
# Bing: máximo 1 página cada 10 segundos
User-agent: Yandexbot
Crawl-delay: 5
# Yandex: espera 5 segundos entre solicitudes
Errores CRÍTICOS que debes evitar
1. Bloquear todo el sitio accidentalmente
❌ ERROR FATAL:
User-agent: *
Disallow: /
Consecuencia: Pérdida del 90% del tráfico orgánico en 24-48 horas. Años de trabajo SEO destruidos.
✅ CORRECTO:
User-agent: *
Disallow: /admin/
Disallow: /private/
2. Bloquear CSS y JavaScript
❌ MAL:
Disallow: /css/
Disallow: /js/
Disallow: /*.css$
Disallow: /*.js$
Consecuencia: Google no puede renderizar las páginas correctamente. Problemas de indexación, pérdida de featured snippets, evaluación incorrecta de Core Web Vitals.
✅ BIEN:
User-agent: *
Allow: /css/
Allow: /js/
3. Usar robots.txt para contenido NoIndex
❌ ERROR CONCEPTUAL:
# robots.txt
Disallow: /thank-you-page/
# Pensando que esto previene indexación
Problema: Robots.txt bloquea el crawling, así que Google NO puede leer la etiqueta noindex en la página. La URL puede aparecer en resultados si hay enlaces externos.
✅ SOLUCIÓN CORRECTA:
<!-- En thank-you-page.html -->
<meta name="robots" content="noindex, follow">
# robots.txt - PERMITIR crawling
User-agent: *
Allow: /thank-you-page/
4. Subdominios sin robots.txt
❌ ERROR:
www.example.com/robots.txtconfigurado ✅staging.example.com/robots.txtno existe ❌
Consecuencia: Entornos de desarrollo indexados, contenido duplicado, contenido no finalizado en resultados de búsqueda.
✅ SOLUCIÓN:
# staging.example.com/robots.txt
User-agent: *
Disallow: /
5. Archivo robots.txt con 5000+ líneas
Caso real documentado: Negocio pequeño con robots.txt de más de 5000 directivas = solo 1 página indexada.
❌ MAL (5000 líneas):
Disallow: /product-page-1.html
Disallow: /product-page-2.html
Disallow: /product-page-3.html
... (4997 líneas más)
✅ BIEN (1 línea):
Disallow: /product-page-*.html
Máximo recomendado: 100-200 líneas
Casos de uso prácticos
1. WordPress básico
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
# Páginas dinámicas
Disallow: /*?replytocom=
Disallow: /*?s=
Sitemap: https://tudominio.com/sitemap_index.xml
2. E-commerce / WooCommerce
User-agent: *
# WordPress básico
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
# WooCommerce - checkout y cuenta
Disallow: /my-account/
Disallow: /cart/
Disallow: /checkout/
Disallow: /order-tracking/
# Filtros y parámetros
Disallow: /*?add-to-cart=
Disallow: /*?filter_*
Disallow: /*?orderby=
# Permitir categorías y productos
Allow: /product-category/
Allow: /product/
Sitemap: https://tudominio.com/product-sitemap.xml
Sitemap: https://tudominio.com/product_cat-sitemap.xml
3. Bloquear AI Crawlers (Tendencia 2025)
Muchos sitios de noticias (BBC, New York Times) bloquean crawlers de IA para proteger contenido.
# Bloquear entrenamiento de IA de Google
User-agent: Google-Extended
Disallow: /
# Bloquear OpenAI/ChatGPT
User-agent: GPTBot
Disallow: /
# Bloquear Anthropic/Claude
User-agent: ClaudeBot
Disallow: /
# Bloquear Common Crawl
User-agent: CCBot
Disallow: /
# Bloquear Perplexity
User-agent: PerplexityBot
Disallow: /
# Otros crawlers pueden seguir accediendo
User-agent: *
Disallow:
4. Optimización de Crawl Budget (sitio grande)
User-agent: *
# Bloquear páginas de búsqueda interna
Disallow: /*?s=
Disallow: /search?
# Bloquear parámetros de filtrado y ordenación
Disallow: /*?filter=
Disallow: /*?sort=
Disallow: /*?orderby=
# Bloquear navegación facetada
Disallow: /*?price=
Disallow: /*?color=
Disallow: /*?size=
# Bloquear paginación duplicada
Disallow: /*?page=
Disallow: /page/
# Permitir sitemap
Sitemap: https://tudominio.com/sitemap.xml
Reglas de precedencia
REGLA FUNDAMENTAL: La regla más específica (con más caracteres) gana.
User-agent: *
Disallow: /folder/
Allow: /folder/public/
Disallow: /folder/public/secret.html
# Para /folder/public/secret.html:
# - Disallow: /folder/ = 8 caracteres
# - Allow: /folder/public/ = 15 caracteres
# - Disallow: /folder/public/secret.html = 28 caracteres ← GANA
# Resultado: BLOQUEADO
En caso de empate: Allow tiene precedencia sobre Disallow
Herramientas de validación
- Google Search Console: Robots.txt Tester + URL Inspection Tool
- TametheBots: https://tamethebots.com/tools/robotstxt-checker
- TechnicalSEO.com: https://technicalseo.com/tools/robots-txt/
- SE Ranking: https://seranking.com/free-tools/robots-txt-tester.html
Relación con meta robots y X-Robots-Tag
| Aspecto | robots.txt | meta robots | X-Robots-Tag |
|---|---|---|---|
| Controla | Crawling | Indexing | Indexing |
| Ubicación | Archivo raíz | HTML <head> | HTTP Header |
| Tipos de archivo | Todos | Solo HTML | Todos (PDF, imágenes, etc.) |
Tu checklist de robots.txt
- ☐ Archivo ubicado en raíz (
https://example.com/robots.txt) - ☐ Sintaxis validada con herramienta oficial
- ☐ CSS y JavaScript permitidos
- ☐ Sitemap.xml referenciado
- ☐ Probado con Google Search Console Tester
- ☐ Configuración diferente para staging/production
- ☐ No expone información sensible
- ☐ Documentado con comentarios
- ☐ Monitoreado en Search Console
- ☐ Versionado en control de versiones (Git)
Estadísticas importantes
- ✅ 30% de reducción en visibilidad de búsqueda con configuración incorrecta (investigación documentada)
- ✅ 2.9 millones de penalizaciones manuales emitidas por Google por link manipulation (gestión correcta de crawl budget ayuda)
- ✅ Recuperación de penalty puede llevar meses o años
Conclusión: Menos es más
El archivo robots.txt debe ser simple, directo y bien documentado.
La regla de oro: Permitir por defecto, bloquear selectivamente.
Tu plan de acción ahora:
- Audita tu robots.txt actual con Google Search Console
- Verifica que CSS/JS están permitidos
- Confirma que subdominios de staging bloquean todo
- Simplifica usando wildcards (máx 200 líneas)
- Documenta con comentarios cada sección
- Monitorea Coverage Report en Search Console semanalmente
Recuerda: Un error en robots.txt puede destruir tu SEO en 24 horas. Pero bien configurado, optimiza tu crawl budget y protege lo que debe protegerse. Tómatelo en serio.
El Autor

Jorge J. Rolo
Especialista en SEO técnico y AIO, apasionado por la automatización y la optimización para motores de búsqueda e inteligencia artificial. Con más de una década de experiencia en el mundo digital, me he especializado en la intersección entre el SEO técnico tradicional y las nuevas oportunidades que presenta la inteligencia artificial.
Más de Jorge J. Rolo →Artículos relacionados
Guía completa para SEO en Lovable
Lovable es una plataforma visual de creación web usando IA que promete construir sitios rápidamente. Analizamos los retos de SEO técnico en Lovable: indexabilidad, sitemaps, metadatos, Core Web Vitals y compatibilidad con rastreadores de IA.
Cómo hacer SEO en entornos de JavaScript
JavaScript se ha convertido en una piedra angular del desarrollo web. Descubre cómo optimizar proyectos basados en JavaScript para motores de búsqueda.
El futuro del SEO: 8 nuevas formas de ser visible en la era de la IA
De AIO a MEO, pasando por SXO y GEO: la nueva taxonomía del posicionamiento multiplataforma en la era de la inteligencia artificial.
¿Quieres mejorar tu estrategia de SEO y AIO?
Descubre cómo puedo ayudarte a optimizar tu presencia digital y alcanzar tus objetivos de negocio.
