Denominamos contenido duplicado a bloques de contenido que coinciden totalmente o en parte a otros que se encuentran en ese mismo dominio o en cualquier otro. En contra del pensamiento mayoritario el duplicado detectado suele producirse en el mismo sitio web.

Sabemos que Google penaliza el contenido duplicado, tanto si es interno como si es externo. De cualquiera de las dos manera puede afectar de negativamente al posicionamiento orgánico.

El objetivo de los buscadores como Google, es dar con lo que el usuario está buscando. Para poder ofrecerle un buen abanico de posibilidades que le permita acertar, Google necesita conocer el distinto contenido que va apareciendo a lo largo y ancho de internet e identificar cuál es de calidad para el usuario. Por este motivo Google descarta el contenido duplicado y se va quedando con las páginas que considera originales y de utilidad para los usuarios.

Tipos de contenido duplicado

Debemos diferenciar  dos tipos de contenido duplicado.

  • Interno: Contenido duplicado dentro de la propia web. Es decir, hablamos de páginas que se encuentran en el mismo dominio. El problema con este tipo de contenido es que no queremos hacer que Google pierda el tiempo que emplee en nuestro sitio. Los robots de Google cuentan con un presupuesto de rastreo limitado por lo que hay que intentar que ese presupuesto lo empleen en páginas optimizadas.
  • Externo: Una de las páginas de nuestra web tiene un texto completo o fragmentos copiados de páginas externas. Es el contenido que es copiado entre diferentes sitios web, es decir, dos dominios diferentes que utilizan páginas con el mismo contenido.

En el momento en el que los robots rastreadores de Google detectan un duplicado el buscador lo puede penalizar de distintas maneras.

  • Filtrando comentarios
  • Penalizando directamente la página
  • En caso de denuncia un revisor de Google puede hacer una comprobación y decidir si establece penalizaciones de manera manual.

Es prácticamente imposible que alguna web pueda librarse de tener contenidos duplicados.

Método de detección

En pocas palabras y abreviando lo que Google utiliza es una suma de verificación, también llamada checksum para cada página de un sitio web. El fin principal es detectar errores que puedan haberse introducido durante su transmisión o almacenamiento. Es una huella digital única de cada documento basada en las palabras de la página.

De esta manera al realizar dicha suma de verificación si Google detecta que hay dos páginas que tienen la misma suma las identifica como clones. Estas sumas de verificación se utilizan para verificar la integridad de los datos pero no son utilizadas para verificar su autenticidad. La detección de contenido duplicado y la canonicalización no son lo mismo.

Que es la canonicalización

En informática, la canonicalización es un proceso para convertir datos que tienen más de una representación posible en una forma «estándar», «normal» o canónica. Para entendernos mejor, canonicalizar significa elegir la mejor URL para mostrar un mismo contenido. Una etiqueta canonical indica a los buscadores cuál es la URL original  sobre otras  para que la prioricen y darle relevancia sobre otras a ignorar. Primero se detecta a los clones, básicamente se agrupan diciendo que todos son clones entre sí. Luego se tiene que encontrar la página líder entre todos estos clones: eso es la canonicalización.

Existen varios algoritmos que intentan detectar y luego eliminar texto estándar de las páginas. Excluyendo la navegación del cálculo de esta suma de verificación y el pie de página nos quedamos lo que se llama la pieza central. La pieza central es básicamente el contenido central de las páginas y lo que interesa examinar.

Que señales utiliza Google para encontrar la URL canónica

Google toma en cuenta si la página está en una URL HTTPS, si está incluida en un mapa del sitio, o si la página se redirige a otra página. Esta sería una señal muy clara de que la otra página debería ser la canónica. Entre todas las señales que utiliza Google, que son más de 20,  podemos destacar las siguientes:

  • Contenido
  • Page Rank
  • HTTPS
  • Si la página está en el archivo de mapa de sitio
  • Una señal de redireccionamiento del servidor
  • Etiqueta Canonical

Que puedes hacer para evitar contenido duplicado

Si quieres evitar contenido duplicado puedes seguir estos consejos:

  • Elabora contenido único y exclusivo para tu audiencia.
  • Utiliza la etiqueta Rel Canonical
  • Deniega el acceso a los robots.
  • Crea redirecciones 301.

Que puedes hacer si detectas contenido duplicado

Si descubres que alguna página web tiene el mismo contenido que la tuya, dispones de varias opciones. La más conciliadora es ponerte en contacto con el Webmaster de la web y decirle que tiene el mismo contenido en su web que en la tuya. Coméntale que si no lo elimina que al  menos incluya un enlace a tu página. Se cortés y educado, normalmente los Webmasters no son los responsables de la creación del contenido y  no suelen estar de acuerdo con estas prácticas. Otra opción sería ponerte en contacto con Google para pedir que se elimine de sus resultados de búsqueda el contenido que ha sido plagiado.

Bibliotecaria frustrada que un día descubrió el potencial que tenía de creatividad y después de varios cursos de marketing decidió explotarlo en redes sociales y terminó haciéndose community mánager de diferentes empresas y artistas. Le encanta el silencio pero es melómana hasta la médula, puro espíritu de contradicción. Fanática de libros, películas y series de terror. Vive mirando una estrella, siempre en estado de espera.