No es lo mismo rastreo que indexación. El caso de Reddit

bloqueo robots txt reddit El rastreo y la indexación no son lo mismo: Caso Reddit

Escrito el 06/Ago/2024 en SEO, SEO técnico por Lucía Rico 2 Comentarios 8 minutos de lectura

El rastreo y la indexación no son lo mismo, sin embargo lo solemos confundir con frecuencia. Hace unos días saltó a la palestra la noticia del bloqueo de todos los crawlers del robots.txt por parte de Reddit, lo cual ha generado ríos de tinta digital y ha dado lugar a conversaciones sobre la pérdida de tráfico y la desindexación de su contenido. Aprovechemos esta situación para hablar de los clásicos: archivo robots.txt y la indexación de contenido.

En este post vamos a hablar de:

Rastreo vs Indexación

¿Qué es el rastreo?

De manera resumida podemos decir que el rastreo es el proceso de descubrir URL de los robots rastreadores para, posteriormente procesarlas e indexarlas.

El rastreo supone que un roboto pueda acceder a las URL de una web y podemos controlar el acceso de los crawlers mediante el archivo robots.

¿Qué es la indexación?

La indexación es el proceso por el cual una página o URL pasa a formar parte del índice del buscador y aparece en los resultados de búsqueda cuando realizamos una consulta en Google.

El archivo robots.txt

El archivo robots.txt proporciona directivas a los diferentes robots rastreadores sobre qué zonas tienen bloqueado el acceso. Podemos evitar el acceso a toda la web o a parte de ella . Del mismo modo podemos permitir el acceso a todos los rastreadores o impedir que algunos bots de rastreo tengan acceso limitado o total a la web.

Reddit recientemente ha bloqueado el acceso a toda la web a todos los rastreadores (fuente).

imagen del archivo robots txt de reddit — Captura de pantalla del archivo robots.txt de Reddit

En este archivo robots la marca expone su visión de creer en un internet abierto, porque no todo vale y por ello limita el acceso a su contenido para evitar que se haga un uso indebido del mismo.

Cuando en el robots.txt te encuentras almohadillas que anteceden al texto es lo mismo que cuando te las encuentras en html: son comentarios de humanos para humanos, puesto que los rastreadores o crawlers omiten todo lo que no sean sus directivas.

Este bloqueo es un bloqueo estratégico que alude a decisión de negocio y lo hacen para evitar que scrappeen el contenido de la web o el contenido pueda ser utilizado para entrenar a inteligencia artificial.

El rastreo y la indexación son cosas diferentes

El robots.txt controla el rastreo del site, o lo que es lo mismo, el acceso a la web y no es sinónimo de indexación.

La indexación es el proceso por el que una página o URL pasa a formar parte del índice del buscador y hace que nos aparezca cuando realizamos una consulta en Google. El bloqueo a acceder a los crawlers a la web de Reddit no implica que vaya a dejar de aparecer en los resultados de búsqeda porque el archivo robots.txt no impide la indexación.

Una URL bloqueada por el robots.txt puede ser indexada

Seguro que te has encontrado en Google Search Console el mensaje «indexada bloqueada por el robots.txt» y eso ocurre cuando hemos bloqueado una página mediante el archivo robots, pero Google encuentra señales (cómo pueden ser enlaces de sitios de terceros o que aparezca en el sitemap) que da a entender a Google que esa URL es relevante para los usuarios y omite la directiva del robots para indexar dicha página. Si quisieran que este bloqueo en el robots impidiera que aparecieran en los resultados de Google, deberían (para empezar) eliminar todos los enlaces que apunta su web y no son pocos…

enlaces reddit El rastreo y la indexación no son lo mismo: Caso Reddit

Si no queremos que una web no aparezca en los resultados de búsqueda tendremos que usar la metaetiqueta noindex y no incluirla en el sitemap, para evitar que los crawlers la descubran.

Bloqueo estratégico en el robots: ¿Por qué bloquear en el archivo robots a todos los crawlers ?

La decisión de Reddit de bloquear el acceso a toda la web a todo los crawlers es una decisión tomada por el negocio de Reddit, quién se alió con Google y posteriormente con OpenAi. Por eso, cuando analizamos el SEO de una web o vemos tácticas que implementan algunas marcas debemos ser cautelosos a la hora de coger e implementar lo primero que veamos porque puede que no se ajuste con nuestras necesidades.

Son muchos los motivos por los que Reddit ha tomado esta acción, algunos de ellos pueden ser:

Mayor control de los datos y contenido de su web y del uso que se hace de ellos. Evitando el rastreo, evita que se scrappee el contenido para hacer webs o entrenar a LLMs.
Pasar por caja. Aunque este no sería el objetivo dado el mensaje que encontramos en su web de «Reddit cree en una Internet abierta, pero no en el mal uso del contenido público, pero podría ser una decisión de negocio en los que alvergar nuevos verticales para ofrecer el contenido previo pago.

Otras implicaciones que tiene este bloqueo

Pérdida de visibilidad

Y no porque se deje de indexar la URL, si no porque no se va a poder acceder los hilos nuevos que se generen, los temas nuevos que se generen, ni ningún tipo de nuevo contenido. A lo anterior aún lo podremos ver en buscadores si tiene enlaces podremos descubrirlo mediante Google u otros buscadores, pero al resto no.

La marca personal

A nivel de aparición en las hojas de resultados de Google, Reddit seguirá apareciendo, pero ¿qué pasa con la marca personal? ¿Nadie piensa en las marcas personales?

Es una regla no escrita lo de que el centro de tu estrategia digital debe ser la web porque un día va y cierra, o se pone de moda otra y pierdes todo aquello en lo que has invertido tanto tiempo en crear.

La imposibilidad de seguir las actualizaciones de perfiles o de hilos va a hacer que se limite la visibilidad.

Reddit tiene muchos links y va a seguir apareciendo, pero los perfiles de usuarios que llevan posteando y generando contenido no suelen gozar de la misma dicha, con lo que su contenido va a ser más complicado de acceder y por tanto perderán también visibilidad.

¿El SEO es necesario?

Curiosamente una de las implicaciones que tiene para el negocio de Reddit esta nueva situación consecuencia de sus acuerdos y decisiones SEO es que podría limitar su crecimiento y para compensarlo ha comenzado a invertir en paid (imagen 1) .

inversion en paid de reddit El rastreo y la indexación no son lo mismo: Caso Reddit — imagen con la inversión en ads de Reddit en España

Aunque dado lo que promocionan en Linkedin, tienen previsto invertir muy duro en ads, al fin y al cabo creen en la internet abierta hay que sacarlo un poco de rendimiento a lo que han generado gracias a ella XD: «Reedit: dónde las opiniones confiables impulsan decisiones de compra en el mundo real».

Cría fama y échate a dormir en versión digital.

anuncios reddit linkedin El rastreo y la indexación no son lo mismo: Caso Reddit

Reflexiones sobre el bloqueo en robots

La conclusión principal es que el bloqueo en el robots.txt no va a impedir la indexación del contenido y en segundo lugar que debemos entender que lo que a nivel SEO puede parecer una locura puede tener sentido si está alineada con tu estrategia de negocio.

No todo sirve para todos y está claro que Reddit tiene motivos suficientes para hacerlo y que ha tomado medidas para evitar que esto suponga un descenso de lo que le da sentido cómo plataforma: sus usuarios.
Empezar a invertir en Ads en España e incrementar notablemente su inversión en ads en Estados Unidos pone de manifiesto que el crecimiento de Reddit no va a parar y que, incluso, se atisba que puede fortalecerle.

Al final no todo lo que atrae tráfico es SEO y me parece un buen caso para hacer seguimiento a su estrategia.