El rastreo y la indexación no son lo mismo: Caso Reddit

bloqueo robots txt reddit El rastreo y la indexación no son lo mismo: Caso Reddit

El rastreo y la indexación no son lo mismo, sin embargo lo solemos confundir con frecuencia. Hace unos días saltó a la palestra la noticia del bloqueo de todos los crawlers del robots.txt por parte de Reddit, lo cual ha generado ríos de tinta digital y ha dado lugar a conversaciones sobre la pérdida de tráfico y la desindexación de su contenido. Aprovechemos esta situación para hablar de los clásicos: archivo robots.txt y la indexación de contenido.

Rastreo vs Indexación

¿Qué es el rastreo?

De manera resumida podemos decir que el rastreo es el proceso de descubrir URL de los robots rastreadores para, posteriormente procesarlas e indexarlas.

El rastreo supone que un roboto pueda acceder a las URL de una web y podemos controlar el acceso de los crawlers mediante el archivo robots.

¿Qué es la indexación?

La indexación es el proceso por el cual una página o URL pasa a formar parte del índice del buscador y aparece en los resultados de búsqueda cuando realizamos una consulta en Google.

El archivo robots.txt

El archivo robots.txt proporciona directivas a los diferentes robots rastreadores sobre qué zonas tienen bloqueado el acceso. Podemos evitar el acceso a toda la web o a parte de ella . Del mismo modo podemos permitir el acceso a todos los rastreadores o impedir que algunos bots de rastreo tengan acceso limitado o total a la web.

Reddit recientemente ha bloqueado el acceso a toda la web a todos los rastreadores (fuente).

imagen del archivo robots txt de reddit
Captura de pantalla del archivo robots.txt de Reddit

En este archivo robots la marca expone su visión de creer en un internet abierto, porque no todo vale y por ello limita el acceso a su contenido para evitar que se haga un uso indebido del mismo.

Cuando en el robots.txt te encuentras almohadillas que anteceden al texto es lo mismo que cuando te las encuentras en html: son comentarios de humanos para humanos, puesto que los rastreadores o crawlers omiten todo lo que no sean sus directivas.

Este bloqueo es un bloqueo estratégico que alude a decisión de negocio y lo hacen para evitar que scrappeen el contenido de la web o el contenido pueda ser utilizado para entrenar a inteligencia artificial.

El rastreo y la indexación son cosas diferentes

El robots.txt controla el rastreo del site, o lo que es lo mismo, el acceso a la web y no es sinónimo de indexación.

La indexación es el proceso por el que una página o URL pasa a formar parte del índice del buscador y hace que nos aparezca cuando realizamos una consulta en Google. El bloqueo a acceder a los crawlers a la web de Reddit no implica que vaya a dejar de aparecer en los resultados de búsqeda porque el archivo robots.txt no impide la indexación.

Una URL bloqueada por el robots.txt puede ser indexada

Seguro que te has encontrado en Google Search Console el mensaje «indexada bloqueada por el robots.txt» y eso ocurre cuando hemos bloqueado una página mediante el archivo robots, pero Google encuentra señales (cómo pueden ser enlaces de sitios de terceros o que aparezca en el sitemap) que da a entender a Google que esa URL es relevante para los usuarios y omite la directiva del robots para indexar dicha página. Si quisieran que este bloqueo en el robots impidiera que aparecieran en los resultados de Google, deberían (para empezar) eliminar todos los enlaces que apunta su web y no son pocos…

enlaces reddit El rastreo y la indexación no son lo mismo: Caso Reddit

Si no queremos que una web no aparezca en los resultados de búsqueda tendremos que usar la metaetiqueta noindex y no incluirla en el sitemap, para evitar que los crawlers la descubran.

Bloqueo estratégico en el robots: ¿Por qué bloquear en el archivo robots a todos los crawlers ?

La decisión de Reddit de bloquear el acceso a toda la web a todo los crawlers es una decisión tomada por el negocio de Reddit, quién se alió con Google y posteriormente con OpenAi. Por eso, cuando analizamos el SEO de una web o vemos tácticas que implementan algunas marcas debemos ser cautelosos a la hora de coger e implementar lo primero que veamos porque puede que no se ajuste con nuestras necesidades.

Son muchos los motivos por los que Reddit ha tomado esta acción, algunos de ellos pueden ser:

  • Mayor control de los datos y contenido de su web y del uso que se hace de ellos. Evitando el rastreo, evita que se scrappee el contenido para hacer webs o entrenar a LLMs.
  • Pasar por caja. Aunque este no sería el objetivo dado el mensaje que encontramos en su web de «Reddit cree en una Internet abierta, pero no en el mal uso del contenido público, pero podría ser una decisión de negocio en los que alvergar nuevos verticales para ofrecer el contenido previo pago.

Otras implicaciones que tiene este bloqueo

Pérdida de visibilidad

Y no porque se deje de indexar la URL, si no porque no se va a poder acceder los hilos nuevos que se generen, los temas nuevos que se generen, ni ningún tipo de nuevo contenido. A lo anterior aún lo podremos ver en buscadores si tiene enlaces podremos descubrirlo mediante Google u otros buscadores, pero al resto no.

La marca personal

A nivel de aparición en las hojas de resultados de Google, Reddit seguirá apareciendo, pero ¿qué pasa con la marca personal? ¿Nadie piensa en las marcas personales?

Es una regla no escrita lo de que el centro de tu estrategia digital debe ser la web porque un día va y cierra, o se pone de moda otra y pierdes todo aquello en lo que has invertido tanto tiempo en crear.

La imposibilidad de seguir las actualizaciones de perfiles o de hilos va a hacer que se limite la visibilidad.

Reddit tiene muchos links y va a seguir apareciendo, pero los perfiles de usuarios que llevan posteando y generando contenido no suelen gozar de la misma dicha, con lo que su contenido va a ser más complicado de acceder y por tanto perderán también visibilidad.

¿El SEO es necesario?

Curiosamente una de las implicaciones que tiene para el negocio de Reddit esta nueva situación consecuencia de sus acuerdos y decisiones SEO es que podría limitar su crecimiento y para compensarlo ha comenzado a invertir en paid (imagen 1) .

inversion en paid de reddit El rastreo y la indexación no son lo mismo: Caso Reddit
imagen con la inversión en ads de Reddit en España

Aunque dado lo que promocionan en Linkedin, tienen previsto invertir muy duro en ads, al fin y al cabo creen en la internet abierta hay que sacarlo un poco de rendimiento a lo que han generado gracias a ella XD: «Reedit: dónde las opiniones confiables impulsan decisiones de compra en el mundo real».

Cría fama y échate a dormir en versión digital.

anuncios reddit linkedin El rastreo y la indexación no son lo mismo: Caso Reddit

Reflexiones sobre el bloqueo en robots

La conclusión principal es que el bloqueo en el robots.txt no va a impedir la indexación del contenido y en segundo lugar que debemos entender que lo que a nivel SEO puede parecer una locura puede tener sentido si está alineada con tu estrategia de negocio.

No todo sirve para todos y está claro que Reddit tiene motivos suficientes para hacerlo y que ha tomado medidas para evitar que esto suponga un descenso de lo que le da sentido cómo plataforma: sus usuarios.
Empezar a invertir en Ads en España e incrementar notablemente su inversión en ads en Estados Unidos pone de manifiesto que el crecimiento de Reddit no va a parar y que, incluso, se atisba que puede fortalecerle.

Al final no todo lo que atrae tráfico es SEO y me parece un buen caso para hacer seguimiento a su estrategia.

Bibliografía:

Comparte El rastreo y la indexación no son lo mismo: Caso Reddit en tus Redes Sociales

También te puede interesar...

Lucía Rico

Aumento la visibilidad y reputación de las marcas mediante posicionamiento web y marketing digital. Creadora de contenido memorable en luciayelSEO.com. Inconformista creativa a jornada completa.

Escribe tu comentario

INFORMACIÓN BÁSICA SOBRE LA POLÍTICA DE PRIVACIDAD

Lucía Rico solicita tu consentimiento para publicar y moderar los comentarios. Los datos no se cederán a terceros salvo en los casos en que exista una obligación legal. En todo caso, los datos que nos facilitas están ubicados en servidores cuya sede se encuentra dentro del territorio de la UE o gestionados por Encargados de Tratamiento acogidos al acuerdo “Privacy Shield”. Visita la política de privacidad para consultar cómo ejercer los derechos de acceso, rectificación o supresión de datos, entre otros. Si no facilita los datos solicitados como obligatorios, puede dar como resultado no poder cumplir con la finalidad para los que se solicitan

2 Comentarios en El rastreo y la indexación no son lo mismo: Caso Reddit

  • leitzaran
    Posted at 18:29h, 06 agosto Responder

    Hola, Lucía:

    Siempre me he preguntado hasta qué punto los crawlers hacen caso al robots.txt. Quizá los más legales sí…

    Si yo quiero entrenar una IA, por ejemplo, y me interesan los contenidos de reddit, lo último que miro es su robots. Entro a saco en la web y punto.

    ¿Es tan buena y formal la gente en internet?

    Saludos

    • Lucía Rico
      Posted at 17:02h, 21 agosto Responder

      Hola Xabier!

      Cuando vas a robar un artículo, hacerlo cómo dices es posible. El tema es que lo están bloqueando a los bots que acceden al contenido en bulk y un solo acceso de un bot puede raspar el contenido de miles de URL en milésimas de segundo. En Internet hay gente buena, formal (todo lo contrario también) y muy lista 😉

Lucia y el SEO - Suscripcion

Suscríbete y recibe mi newsletter

"*" señala los campos obligatorios

Privacidad*
Este campo es un campo de validación y debe quedar sin cambios.