Google ha anunciado un nuevo Googlebot, un nuevo rastreador de Google, llamado Google-Extended que puede utilizar para controlar si su contenido puede ayudar a mejorar las API generativas de Bard y Vertex AI o futuros productos de Google AI. Entonces, si desea impedir que Bard use su contenido, especifíquelo en su archivo robots.txt con el agente de usuario extendido por Google.
Google no rastreará desde Google-Extended, Google seguirá rastreando desde su robot de Google normal u otros robots. Pero el uso de Google-Extended comunicará a Google que no utilice ese contenido para Bard u otros proyectos de IA de Google. Un portavoz de Google dijo: «Google-Extended le dirá a Google que no utilice el contenido del sitio para las API generativas de IA de Bard y Vertex». «Para la búsqueda, los administradores de sitios web deben seguir utilizando el agente de usuario del robot de Google a través de robots.txt y la metaetiqueta NOINDEX para gestionar su contenido en los resultados de búsqueda, incluidos experimentos como la experiencia generativa de búsqueda», añadió Google.
Básicamente, esto permite que la Búsqueda de Google rastree, indexe y clasifique su sitio web, pero no permite que Bard u otros proyectos de inteligencia artificial de Google utilicen su contenido.
Esto se produce después de que Bing ofreciera controles para impedir que Bing Chat AI use su sitio hace una semana.
«Hoy anunciamos Google-Extended, un nuevo control que los editores web pueden usar para administrar si sus sitios ayudan a mejorar las API generativas de Bard y Vertex AI, incluidas las generaciones futuras de modelos que impulsan esos productos. Al usar Google-Extended para controlar el acceso al contenido de un sitio, un administrador del sitio web puede elegir si desea ayudar a que estos modelos de IA sean más precisos y capaces con el tiempo», escribió Google.
Google-Extended es un «token de producto independiente que los editores web pueden utilizar para gestionar si sus sitios ayudan a mejorar las API generativas de Bard y Vertex AI, incluidas las generaciones futuras de modelos que impulsan esos productos», explicó Google.
El token del agente de usuario está extendido por Google
«Google-Extended no tiene una cadena de agente de usuario de solicitud HTTP separada. El rastreo se realiza con cadenas de agente de usuario de Google existentes; el token de agente de usuario robots.txt se utiliza con capacidad de control», agregó Google.
No estoy seguro de si este es el enfoque alternativo para robots.txt para IA…
Big news on the AI front. You can implement via robots.txt -> Announcing Google-Extended, a new control that web publishers can use to manage whether their sites help improve Bard & Vertex AI generative APIs, including future generations of models https://t.co/L73rm6mwzM pic.twitter.com/BtcQ5kaATP
— Glenn Gabe (@glenngabe) September 28, 2023
Tenga en cuenta que el bot de Google News también funciona de manera similar, donde no rastrea pero usa la directiva para usar ese contenido en Google News:
https://twitter.com/JohnMu/status/1707665217331548341?ref_src=twsrc%5Etfw
Discusión del foro en X.