John Mueller de Google dijo que es aceptable restringir el acceso de sus Sitemaps XML solo a los motores de búsqueda. Por lo tanto, técnicamente puede bloquear a los humanos para que no vean sus mapas de sitio XML, pero permitir que Google acceda a ellos.
Esto surgió cuando Christoph Cemper preguntó acerca de algunos sitios que usan Cloudflare para restringir el acceso a sus archivos de mapa de sitio XML. Christoph preguntó: «He visto un mapa del sitio xml ‘protegido’ por . Cloudflare. Me pregunto si Googlebot escribiría ese Captcha, o simplemente volvería a intentarlo más tarde, o simplemente ignoraría el mapa. ¿Alguna experiencia/orientación @JohnMu en tal caso?»
John respondió en Twitter diciendo: «Está bien. Estos archivos de mapa de sitio son para motores de búsqueda, y algunos sitios prefieren restringir su acceso en consecuencia».
Estos son esos tuits:
https://twitter.com/JohnMu/status/1533698456199516162?ref_src=twsrc%5Etfw
https://twitter.com/JohnMu/status/1534500213217546240?ref_src=twsrc%5Etfw
Claramente, esto no sería una forma de cloaking porque los humanos no necesitan ver sus mapa de sitio, porque los archivos de mapa del sitio XML están diseñados para motores de búsqueda, no para humanos. Pero esto, obviamente, no se aplicaría a los archivos de mapa de sitio HTML.
¿Cómo restringir el acceso a los humanos al sitemap?
Esto se muy sencillo pero debes utilizar Cloudflare para eso. En mi post sobre como mejorar la seguridad de WordPress con Cloudflare, explico como agregar estas reglas, asi que si no sabes como hacerlo, te recomiendo leerlo.
Podrías estarte preguntando ¿Por que querria restringir el acceso al sitemap a los humanos? en el mundo nichero, mientras menos información pueda obtener tu competencia mejor, el sitemap puede ser utilizado para muchas cosas: contar cuantas URL tienes en la web, obtener un listado de todo tu contenido, etc.
Para restringir el acceso a humanos, practicamente, solo debes agregar una regla en el firewall, donde especifiques en URI Path el nombre del archivo de tu sitemap por ejemplo, sitemap.xml y que la regla sea ignorada por los bots. mira la siguiente imagen:
Para agregar la expresión directamente, puedes copiar los siguiente, solo no olvides colocar el nombre de tu sitemap:
(http.request.uri.path contains "sitemap.xml" and not cf.cliente.bot)
Si te ha servido este contenido, no olvides votar mas abajo y dejarme un comentario, también si te ha servido, compartelo con las personas que crees que pueda servirles, a ti no te cuesta nada, y a mi me ayuda bastante.
Foro de discusión en Twitter .