El rastreo y la indexación no son lo mismo, sin embargo lo solemos confundir con frecuencia. Hace unos días saltó a la palestra la noticia del bloqueo de todos los crawlers del robots.txt por parte de Reddit, lo cual ha generado ríos de tinta digital y ha dado lugar a conversaciones sobre la pérdida de tráfico y la desindexación de su contenido. Aprovechemos esta situación para hablar de los clásicos: archivo robots.txt y la indexación de contenido.
En este post vamos a hablar de:
Rastreo vs Indexación
¿Qué es el rastreo?
De manera resumida podemos decir que el rastreo es el proceso de descubrir URL de los robots rastreadores para, posteriormente procesarlas e indexarlas.
El rastreo supone que un roboto pueda acceder a las URL de una web y podemos controlar el acceso de los crawlers mediante el archivo robots.
¿Qué es la indexación?
La indexación es el proceso por el cual una página o URL pasa a formar parte del índice del buscador y aparece en los resultados de búsqueda cuando realizamos una consulta en Google.
El archivo robots.txt
El archivo robots.txt proporciona directivas a los diferentes robots rastreadores sobre qué zonas tienen bloqueado el acceso. Podemos evitar el acceso a toda la web o a parte de ella . Del mismo modo podemos permitir el acceso a todos los rastreadores o impedir que algunos bots de rastreo tengan acceso limitado o total a la web.
Reddit recientemente ha bloqueado el acceso a toda la web a todos los rastreadores (fuente).
En este archivo robots la marca expone su visión de creer en un internet abierto, porque no todo vale y por ello limita el acceso a su contenido para evitar que se haga un uso indebido del mismo.
Cuando en el robots.txt te encuentras almohadillas que anteceden al texto es lo mismo que cuando te las encuentras en html: son comentarios de humanos para humanos, puesto que los rastreadores o crawlers omiten todo lo que no sean sus directivas.
Este bloqueo es un bloqueo estratégico que alude a decisión de negocio y lo hacen para evitar que scrappeen el contenido de la web o el contenido pueda ser utilizado para entrenar a inteligencia artificial.
El rastreo y la indexación son cosas diferentes
El robots.txt controla el rastreo del site, o lo que es lo mismo, el acceso a la web y no es sinónimo de indexación.
La indexación es el proceso por el que una página o URL pasa a formar parte del índice del buscador y hace que nos aparezca cuando realizamos una consulta en Google. El bloqueo a acceder a los crawlers a la web de Reddit no implica que vaya a dejar de aparecer en los resultados de búsqeda porque el archivo robots.txt no impide la indexación.
Una URL bloqueada por el robots.txt puede ser indexada
Seguro que te has encontrado en Google Search Console el mensaje «indexada bloqueada por el robots.txt» y eso ocurre cuando hemos bloqueado una página mediante el archivo robots, pero Google encuentra señales (cómo pueden ser enlaces de sitios de terceros o que aparezca en el sitemap) que da a entender a Google que esa URL es relevante para los usuarios y omite la directiva del robots para indexar dicha página. Si quisieran que este bloqueo en el robots impidiera que aparecieran en los resultados de Google, deberían (para empezar) eliminar todos los enlaces que apunta su web y no son pocos…
Si no queremos que una web no aparezca en los resultados de búsqueda tendremos que usar la metaetiqueta noindex y no incluirla en el sitemap, para evitar que los crawlers la descubran.
Bloqueo estratégico en el robots: ¿Por qué bloquear en el archivo robots a todos los crawlers ?
La decisión de Reddit de bloquear el acceso a toda la web a todo los crawlers es una decisión tomada por el negocio de Reddit, quién se alió con Google y posteriormente con OpenAi. Por eso, cuando analizamos el SEO de una web o vemos tácticas que implementan algunas marcas debemos ser cautelosos a la hora de coger e implementar lo primero que veamos porque puede que no se ajuste con nuestras necesidades.
Son muchos los motivos por los que Reddit ha tomado esta acción, algunos de ellos pueden ser:
- Mayor control de los datos y contenido de su web y del uso que se hace de ellos. Evitando el rastreo, evita que se scrappee el contenido para hacer webs o entrenar a LLMs.
- Pasar por caja. Aunque este no sería el objetivo dado el mensaje que encontramos en su web de «Reddit cree en una Internet abierta, pero no en el mal uso del contenido público, pero podría ser una decisión de negocio en los que alvergar nuevos verticales para ofrecer el contenido previo pago.
Otras implicaciones que tiene este bloqueo
Pérdida de visibilidad
Y no porque se deje de indexar la URL, si no porque no se va a poder acceder los hilos nuevos que se generen, los temas nuevos que se generen, ni ningún tipo de nuevo contenido. A lo anterior aún lo podremos ver en buscadores si tiene enlaces podremos descubrirlo mediante Google u otros buscadores, pero al resto no.
La marca personal
A nivel de aparición en las hojas de resultados de Google, Reddit seguirá apareciendo, pero ¿qué pasa con la marca personal? ¿Nadie piensa en las marcas personales?
Es una regla no escrita lo de que el centro de tu estrategia digital debe ser la web porque un día va y cierra, o se pone de moda otra y pierdes todo aquello en lo que has invertido tanto tiempo en crear.
La imposibilidad de seguir las actualizaciones de perfiles o de hilos va a hacer que se limite la visibilidad.
Reddit tiene muchos links y va a seguir apareciendo, pero los perfiles de usuarios que llevan posteando y generando contenido no suelen gozar de la misma dicha, con lo que su contenido va a ser más complicado de acceder y por tanto perderán también visibilidad.
¿El SEO es necesario?
Curiosamente una de las implicaciones que tiene para el negocio de Reddit esta nueva situación consecuencia de sus acuerdos y decisiones SEO es que podría limitar su crecimiento y para compensarlo ha comenzado a invertir en paid (imagen 1) .
Aunque dado lo que promocionan en Linkedin, tienen previsto invertir muy duro en ads, al fin y al cabo creen en la internet abierta hay que sacarlo un poco de rendimiento a lo que han generado gracias a ella XD: «Reedit: dónde las opiniones confiables impulsan decisiones de compra en el mundo real».
Cría fama y échate a dormir en versión digital.
Reflexiones sobre el bloqueo en robots
La conclusión principal es que el bloqueo en el robots.txt no va a impedir la indexación del contenido y en segundo lugar que debemos entender que lo que a nivel SEO puede parecer una locura puede tener sentido si está alineada con tu estrategia de negocio.
No todo sirve para todos y está claro que Reddit tiene motivos suficientes para hacerlo y que ha tomado medidas para evitar que esto suponga un descenso de lo que le da sentido cómo plataforma: sus usuarios.
Empezar a invertir en Ads en España e incrementar notablemente su inversión en ads en Estados Unidos pone de manifiesto que el crecimiento de Reddit no va a parar y que, incluso, se atisba que puede fortalecerle.
Al final no todo lo que atrae tráfico es SEO y me parece un buen caso para hacer seguimiento a su estrategia.
Bibliografía:
- Google Developers. (n.d.). Introducción al archivo robots.txt. Recuperado de https://developers.google.com/search/docs/crawling-indexing/robots/intro
- Google Developers. (n.d.). Visión general de sitemaps. Recuperado de https://developers.google.com/search/docs/crawling-indexing/sitemaps/overview
- Google Search Central. (n.d.). Cómo utilizar el archivo robots.txt. Recuperado de https://support.google.com/webmasters/answer/7646114?hl=es
- Google Search Central. (n.d.). Guía de robots.txt para búsqueda programable. Recuperado de https://support.google.com/programmable-search/answer/4513925?hl=es
Comparte El rastreo y la indexación no son lo mismo: Caso Reddit en tus Redes Sociales
También te puede interesar...
leitzaran
Posted at 18:29h, 06 agostoHola, Lucía:
Siempre me he preguntado hasta qué punto los crawlers hacen caso al robots.txt. Quizá los más legales sí…
Si yo quiero entrenar una IA, por ejemplo, y me interesan los contenidos de reddit, lo último que miro es su robots. Entro a saco en la web y punto.
¿Es tan buena y formal la gente en internet?
Saludos
Lucía Rico
Posted at 17:02h, 21 agostoHola Xabier!
Cuando vas a robar un artículo, hacerlo cómo dices es posible. El tema es que lo están bloqueando a los bots que acceden al contenido en bulk y un solo acceso de un bot puede raspar el contenido de miles de URL en milésimas de segundo. En Internet hay gente buena, formal (todo lo contrario también) y muy lista 😉