Problemas de indexación más comunes

Es realmente doloroso comprobar cómo una página que tienes posicionada con alta visibilidad en el buscador, desaparece de repente. En este tema, vamos a ver los casos comunes de problemas de indexación del contenido para identificar aquellos motivos por los que nuestra página no se muestra en la SERP del buscador.

Configuración del archivo Robots.txt

El archivo Robots.txt nos ayuda a indicarle a los rastreadores que visitan nuestro sitio, aquellas páginas a las que pueden y no pueden acceder. Qué contenido indexar y cuál no. Deberías asegurarte de que tu archivo robots.txt está bien configurado para evitar que los buscadores eliminen contenido esencial de tu página en sus resultados.

Desde la consola de Google, puedes comprobar el contenido bloqueado por Google a través de la versión del archivo robots.txt que está cargando.probador de robots

Configuración del servidor (.htaccess)

La mayoría de servidores de alojamiento usan la tecnología Linux y manejan desde apache las redirecciones y reescrituras de las URL dinámicas. Debes asegurarte de que tu servidor está bien configurado y no incluye redirecciones con varios saltos (de una a otra URL), redirecciones de páginas que queremos mantener, etc.

Tu contenido ha sido baneado o eliminado por Spam

Directamente relacionado con el punto 8 de este tema. Google bloquea el contenido de páginas web que hacen spam. Puedes hacer spam sin tener conocimiento de ello si tu página web ha sido hackeada.

La URL no se encuentra (error 404)

Este es un problema habitual en sitios web que son migrados de un servidor a otro, o bien cuando se publica una nueva página web que no mantiene la misma nomenclatura de las URL que lo contienen. La consola de Google te ayudará a identificar las URL no encontradas para darle solución.

Carga de la página

Vamos a hablar de este asunto en reiteradas ocasiones. La carga de la página es un factor fundamental  a la hora de indexar el contenido y, en consecuencia, el posicionamiento SEO de la página.

velocidad de carga

Tiempos de carga que se recogen en los informes de Google Analytics.

Rel=Canonical mal configurada

La etiqueta “rel=canonical” te ayuda a marcar el contenido original de tu sitio web. En ocasiones, al usar CMS como WordPress y plugins como Yoast SEO, puedes configurar por error como canonical una url que no lo es, la consecuencia es que la página original es eliminada.

Contenido irrelevante

La calidad marca la pauta. Es el comienzo de todo. Si publicas contenido irrelevante o duplicado en tu web, es probable que no sea indexado.

Tu web ha sido hackeada

Este va a ser el más común de los problemas de indexación. Sobre todo si usas un CMS y no lo tienes actualizado. Los hackers elaboran scripts para acceder a tu sitio web, cambiar tu archivo .htaccess, robots.txt, etc. con el objetivo de perjudicar tu sitio web, incluso obtener beneficios por ello.

Caso real del hackeo de una web

A veces el hackeo de una web puede tardar en percibirse si este no se ve reflejado en la parte pública. Si un sitio web no ha sido penalizado manualmente, el único indicador que te hará saber de su castigo será la invisibilidad total del mismo (aparece más allá de la quinta página de las SERP).

Este fue el caso de uno de nuestros clientes de SEO, nos contrató  para realizar un nuevo diseño del sitio web y llevar a cabo una estrategia de SEO. Una vez creada la nueva web y optimizada según la estrategia SEO (llevando a cabo la optimización On-Page y Off-Page), comprobamos como iban transcurriendo las semanas y la página no aparecía en los resultados de búsquedas. Sin penalización aparente, una web totalmente “saneada” en código. El motivo no nos lo imaginábamos, pero más tarde descubrimos que nos encontrábamos frente a una acción manual y una penalización algorítmica por parte de Google Penguin, existiendo incluso la posibilidad de haber sido penalizados por Panda. Hasta que detectamos esto, se convirtieron en las semanas más amargas para la labor del SEO.

Esto fue más difícil de detectar debido a que la web se realizó nueva en otro CMS diferente. Anteriormente usaban Joomla! y en la agencia creamos su nueva web con WordPress. Por lo que nada de lo anterior debía afectar al sitio web nuevo. Pero el sitio web ya venía con las penalizaciones aplicadas cosa que desconocíamos. Además, existía una copia de la web antigua en un dominio diferente.

¿Cómo detectar una penalización?

En ocasiones es muy fácil detectar una penalización, pero esto dependerá del tipo de penalización que haya recibido tu sitio web.

En el caso de nuestro cliente, fue un poco más difícil, ya que tenía varias penalizaciones dos de ellas algorítmicas, que son las más difíciles de detectar ya que Google no muestra notificación alguna sobre esto. Las penalizaciones algorítmicas aunque son las más difíciles de detectar no son muy difícil de solventar. Lo puedes ver en el módulo 8 del curso que está dedicado completamente a las penalizaciones.

Las acciones manuales son más fáciles de detectar, ya que Google si notifica a través de Google Search Console que se ha procedido a la eliminación de la página de los resultados de búsquedas de Google basada en la DCMA. Por eso es tan importante tener bien configurados los mensajes y notificaciones de nuestra cuenta de Webmasters de Google de todas las propiedades (con y sin www y con y sin SSL).

Posiciones en los resultados

En nuestro caso la primera alarma fue que el sitio web, después de dos meses de trabajo de SEO, no había conseguido entrar entre los primeros 50 resultados.

Entonces empezamos a analizar exhaustivamente los datos recogidos en Analytics, donde nos encontramos que la mayoría de los usuarios que visitaban el sitio, no era el público objetivo al que el sitio web se dirigía, si no tráfico de Rusia, Irlanda, China, etc. tráfico que a todo profesional SEO pone en alerta (si el sitio web no tiene esos usuarios como público objetivo).

Herramientas de Analítica y Webmasters

La segunda alerta y clara prueba de que algo no estaba yendo bien, la encontramos también en Analytics cuando entre las páginas que se visitaban del sitio, aparecían URLs que realmente no existían en el sitio web. Todas las URLs empezaban por la misma estructura: /?option=com_k2&view=itemlist&task=…./ y se redirigían a la home del sitio.

Estos enlaces son de un plugin de Joomla! que se vuelve muy vulnerable si no se mantiene actualizado, por lo que troyanos, spamers y demás andaban a sus anchas por el sitio web del cuál desconocíamos su existencia. Aprovecharon el agujero de seguridad para inyectar código y crear páginas autogeneradas que incluían palabras como “viagra”, “download Song…” etc.. Además estas páginas fueron procesadas e indexadas por Google. Esto lo podemos comprobar introduciendo en el buscador el comando “site:nuestrodominio.com” a través del cual se nos mostrará en los resultados de búsqueda solo el contenido procesado por el buscador que pertenezca a nuestro dominio.

En el departamento de SEO no pudimos detectar nada de esto, ya que procedimos a migrar la web a WordPress conforme estuvo en nuestras manos, además, la notificación de penalización de Google Search Console fué mostrada antes de tener nosotros acceso a la propiedad en la misma haciendo que comenzásemos a realizar SEO en una web penalizada y por lo tanto malgastando recursos y tiempo sin ver resultados, en vez de emplearlo en enmendar dichas penalizaciones.

En Google Search Console si encontramos otra clara prueba del motivo por el que el posicionamiento SEO no mejoraba: enlaces entrantes de diferentes países, todos de una calidad bastante tóxica. Y en el apartado de acciones manuales, encontramos la notificación de una acción manual.

Otras de las penalizaciones que sufría el sitio, era una penalización algorítmica por parte de Panda, ya que los enlaces como hemos comentado antes contenían palabras tabú para Google, y por si eso fuera poco, a través de los enlaces entrantes descubrimos que en otro de los dominios que pertenecía al cliente, había una copia exacta de la web antigua (contenido muy similar, prácticamente duplicado).

Cómo recuperar el SEO después de que tu web haya sido hackeada

Una vez detectado todos los problemas, nos ponemos manos a la obra para solucionarlo. En el caso del sitio web de nuestro cliente, debíamos llevar a cabo las siguientes tareas:

1. Acción manual

Presentar una contra-notificación basada en la DMCA demostrando que el sitio web no incumplía los derechos de autor de otros usuarios.

Esta acción debe ser revisada y aprobada por un trabajador de Google, por lo que tienen unos plazos un poco más lentos de respuesta. Además hay que tener en cuenta que esto no significa que la página aparezca en las SERPs nuevamente, debemos esperar a que Google rastree y califique el sitio de nuevo. Ya hemos visto en capítulos anteriores cómo forzar la indexación de un sitio.

2. Desautorización enlaces entrantes

Con SEO SpyGlass y SEMRush podemos detectar todos los enlaces entrantes que tiene nuestro sitio web. En esta misma aplicación podemos crear una lista negra con los enlaces entrantes de mala calidad que estén afectando a la autoridad de nuestro sitio. Esta lista podemos exportarla en formato .txt o .csv y enviarla a Google, a través de la herramienta de desautorización de enlaces, para que estos enlaces no perjudiquen al sitio web. Antes podemos intentar contactar con el autor del sitio web, para que este retire nuestro enlace de su sitio, a veces el propio dueño del sitio desconoce que esto haya sucedido, otras veces es imposible contactar con el sitio, por lo que se acude a la herramienta para que estos enlaces sean ignorados.

3. Eliminación de URLs

En este caso, como se generaron los enlaces tóxicos,  había que proceder a eliminar dichas URLs de las SERPs. Para conocer todos los enlaces que Google ha rastreado, en la caja de búsqueda de Google ejecutamos el comando site:dominio.com y nos mostrará todas las URLs del sitio web que estemos analizando que Google haya rastreado e indexado.

Con la herramienta de eliminación de URLs de Google Search Console vamos eliminando las URLs encontradas que no deban aparecer en los resultados de búsquedas. Es importante saber que la eliminación de las URLs tienen un periodo de duración de 90 días, a los 90 días esta eliminación caduca y si Google la vuelve a detectar y a rastrear la volverá a incluir en los índices.

Para evitar que Google vuelva a rastrear dichas URLs estas deben devolver un error 410. Un error 410 es un código de estado que indica que esa página ha sido eliminada y no volverá a existir, por lo que le indica a Google que no debe volver a rastrearla.

4. Forzado de indexación del sitio

Una vez eliminados todos los enlaces entrantes y URLs de las SERPs debemos volver a forzar la indexación de Google para así acelerar el proceso de rastreo y calificación.

Un final feliz

Poco a poco con todas las tareas anteriores realizadas pudimos conseguir que nuestro sitio web alcanzara la primera posición por su principal palabra clave en los resultados de búsqueda.

Debemos saber que recuperarse de una -o como en este caso- varias penalizaciones, lleva un largo periodo de tiempo y volver a un estado de posicionamiento SEO normal puede costar incluso meses.

Cómo habrás podido comprobar tener un sitio desactualizado puede acarrear consecuencias desastrosas al posicionamiento de un sitio web, por lo que debemos tomar todas las medidas de seguridad necesarias.

/* ]]> */