¿Que porcentaje de contenido representa un contenido duplicado?

John Mueller de Google respondió recientemente a una pregunta sobre si existe un umbral porcentual de duplicación de contenido que Google utiliza para identificar y filtrar el contenido duplicado.

Este contenido fue creado con Easy Content Creator, una herramienta para crear contenido a partir de otro contenido, fácil y sencillo. Empieza a crear contenido hoy con su plan GRATIS.

¿Qué porcentaje equivale a contenido duplicado?

De hecho, la conversación comenzó en Facebook cuando Duane Forrester ( @DuaneForrester ) preguntó si alguien sabía si algún motor de búsqueda había publicado un porcentaje de superposición de contenido en el que el contenido se considera duplicado.

Bill Hartzer ( bhartzer ) recurrió a Twitter para preguntarle a John Mueller y recibió una respuesta casi inmediata.

Bill tuiteó :

“Oye, @johnmu, ¿hay un porcentaje que represente contenido duplicado?

Por ejemplo, ¿deberíamos intentar asegurarnos de que las páginas sean al menos un 72,6 % únicas en comparación con otras páginas de nuestro sitio?

¿Google siquiera lo mide?

John Mueller de Google respondió:

¿Cómo detecta Google el contenido duplicado?

La metodología de Google para detectar contenido duplicado se ha mantenido notablemente similar durante muchos años.

Puede interesarte  Qué hacer con el contenido antiguo de baja calidad

En 2013, Matt Cutts ( @mattcutts ), un ingeniero de software en ese momento en Google , publicó un video oficial de Google que describía cómo Google detecta contenido duplicado.

Comenzó el video afirmando que una gran cantidad de contenido de Internet está duplicado y que es algo normal que suceda.

“Es importante darse cuenta de que si observa el contenido en la web, aproximadamente el 25 % o el 30 % de todo el contenido de la web es contenido duplicado.

…La gente citará un párrafo de un blog y luego enlazará al blog, ese tipo de cosas”.

Continuó diciendo que debido a que gran parte del contenido duplicado es inocente y sin intención de spam, Google no penalizará ese contenido.

Penalizar páginas web por tener algún contenido duplicado, dijo, tendría un efecto negativo en la calidad de los resultados de búsqueda.

Lo que hace Google cuando encuentra contenido duplicado es:

«… intenta agruparlo todo y tratarlo como si fuera solo una pieza de contenido».

Matt continuó:

“Simplemente se trata como algo que necesitamos agrupar adecuadamente. Y debemos asegurarnos de que se clasifique correctamente”.

Explicó que Google luego elige qué página mostrar en los resultados de búsqueda y filtra las páginas duplicadas para mejorar la experiencia del usuario.

Cómo maneja Google el contenido duplicado: versión 2020

Avance rápido hasta 2020 y Google publicó un episodio de podcast de Search Off the Record en el que se describe el mismo tema en un lenguaje notablemente similar.

Puede interesarte  El texto en negrita puede ayudar a tu SEO ¿Lo sabias?

Aquí está la sección relevante de ese podcast desde el minuto 06:44 del episodio:

“Gary Illyes: Y ahora terminamos con el siguiente paso, que en realidad es canonicalización y detección de duplicados.

Martin Splitt: ¿No es eso lo mismo, detección de duplicados y canonicalización, más o menos?

Gary Illyes: [00:06:56] Bueno, no lo es, ¿verdad? Porque primero tienes que detectar los duplicados, básicamente agruparlos, diciendo que todas estas páginas son duplicados entre sí,

y luego básicamente tienes que encontrar una página líder para todos ellos.

…Y eso es canonicalización.

Entonces, tiene la duplicación, que es el término completo, pero dentro de eso tiene la creación de clústeres, como la creación de clústeres duplicados y la canonicalización. “

Gary luego explica en términos técnicos cómo hacen exactamente esto. Básicamente, Google realmente no está mirando porcentajes exactamente, sino comparando sumas de verificación (checksum).

Se puede decir que una suma de verificación es una representación del contenido como una serie de números o letras. Entonces, si el contenido está duplicado, la secuencia numérica de la suma de verificación será similar.

Así lo explicó Gary:

“Entonces, para la detección de duplicados lo que hacemos es, bueno, tratamos de detectar duplicados.

Y cómo lo hacemos es quizás cómo lo hace la mayoría de las personas en otros motores de búsqueda, que es, básicamente, reducir el contenido a un hash o suma de verificación y luego comparar las sumas de verificación”.

Gary dijo que Google lo hace así porque es más fácil (y obviamente preciso).

Puede interesarte  ¿Publicar páginas en blanco para que Google indexe la URL es buena o mala idea?

Google detecta contenido duplicado con checksum

Entonces, cuando se habla de contenido duplicado, probablemente no se trate de un umbral de porcentaje, donde hay un número en el que se dice que el contenido está duplicado.

Más bien, el contenido duplicado se detecta con una representación del contenido en forma de suma de verificación y luego se comparan esas sumas de verificación.

Una conclusión adicional es que parece haber una distinción entre cuando parte del contenido está duplicado y todo el contenido está duplicado.

Imagen destacada de Shutterstock/Ezume Images

¿Te ha sido útil este contenido?

¡Haz clic para puntuar!

Promedio de puntuación 3 / 5. Recuento de votos: 4

Hasta ahora, ¡no hay votos!. Sé el primero en puntuar este contenido.

Ya que has encontrado útil este contenido...

¡Sígueme en los medios sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Comentarios

Comenta