No hay almuerzo gratis: Baidu impide a Google y Bing la extracción de inteligencia artificial

No hay almuerzo gratis: Baidu impide a Google y Bing la extracción de inteligencia artificial – Notas clave

  • Baidu bloquea el acceso de Google y Bing a sus contenidos Baike para evitar el “scraping” de datos de inteligencia artificial.
  • La medida refleja una tendencia cada vez mayor de las empresas a restringir el acceso a contenidos en línea para proteger datos valiosos.
  • Otras empresas, como Reddit y Microsoft, también están reforzando el control sobre sus datos con fines de IA.
  • Las asociaciones entre desarrolladores de IA y editores de contenidos están aumentando a medida que crece la demanda de conjuntos de datos de alta calidad.

Baidu bloquea el acceso de Google y Bing a los contenidos de Baike

Baidu ha introducido recientemente cambios significativos en su servicio Baike, una plataforma similar a Wikipedia, para impedir que Google y Microsoft Bing raspen su contenido para utilizarlo en el entrenamiento de IA. Esta modificación se ha notado en la actualización del archivo robots.txt, que ahora bloquea el acceso a los rastreadores Googlebot y Bingbot.

El papel de Robots.txt en el bloqueo de los motores de búsqueda

La versión anterior del archivo robots.txt, archivada en Wayback Machine, permitía a estos motores de búsqueda indexar el repositorio central de Baidu Baike, que contiene más de 30 millones de entradas, con algunos subdominios restringidos. Este cambio se produce en medio de una creciente demanda de grandes conjuntos de datos necesarios para el entrenamiento y las aplicaciones de IA.

Una tendencia más amplia de protección de contenidos en línea

La medida de Baidu no es un caso aislado. Otras empresas también han tomado medidas para proteger sus contenidos en línea. Por ejemplo, Reddit ha bloqueado todos los motores de búsqueda excepto Google, que tiene un acuerdo financiero para el acceso a los datos. Del mismo modo, Microsoft está considerando limitar el acceso a los datos de búsqueda en Internet a los motores de búsqueda de la competencia que los utilizan para chatbots y servicios de IA generativa.

Wikipedia sigue abierta mientras Baidu aprieta el acelerador

Curiosamente, la versión china de Wikipedia, con sus 1,43 millones de entradas, sigue siendo accesible para los rastreadores de los motores de búsqueda. Mientras tanto, un estudio indica que las entradas de Baidu Baike siguen apareciendo en los motores de búsqueda, posiblemente debido al uso de contenidos antiguos almacenados en caché.

Asociaciones para un acceso privilegiado a los datos

Este movimiento de Baidu refleja una tendencia más amplia en la que los desarrolladores de IA se asocian cada vez más con editores de contenidos para garantizar contenidos de alta calidad. OpenAI, por ejemplo, se ha asociado con la revista Time para acceder a su archivo completo de más de un siglo de antigüedad. En abril se firmó un acuerdo similar con el Financial Times.

El creciente valor de los datos en la era de la IA

La decisión de Baidu de restringir el acceso a los contenidos de Baike subraya el creciente valor de los datos en la era de la inteligencia artificial. A medida que las empresas invierten en el desarrollo de la IA, aumenta la importancia de los grandes conjuntos de datos. Esto ha provocado un cambio en la forma en que las plataformas en línea gestionan el acceso a los datos, y muchas han optado por restringir o monetizar sus contenidos.

Implicaciones futuras de las políticas de intercambio de datos

A medida que la industria de la IA siga creciendo, es probable que más empresas reconsideren sus políticas de intercambio de datos. Esta tendencia podría dar lugar a nuevos cambios en la forma de indexar y acceder a la información en Internet, alterando fundamentalmente el panorama de la disponibilidad de contenidos en línea.

Descripciones

  • Baidu Baike: Enciclopedia china en línea similar a Wikipedia. Contiene más de 30 millones de entradas y su acceso está restringido a los robots de búsqueda de Google y Bing.
  • archivo robots.txt: Archivo estándar utilizado por los sitios web para indicar a los rastreadores de los motores de búsqueda qué páginas pueden o no pueden indexar. Baidu actualizó este archivo para bloquear a Google y Bing.
  • Scraping: Proceso de extracción de datos de sitios web. En el contexto de la IA, estos datos pueden utilizarse para entrenar modelos y mejorar su rendimiento.
  • Contenido en caché: Información almacenada temporalmente por un navegador o motor de búsqueda. Aunque un sitio web restrinja el acceso, las versiones en caché del contenido pueden seguir apareciendo en los resultados de búsqueda.
  • Asociaciones para el acceso a los datos: Acuerdos entre empresas de IA y editores de contenidos para proporcionar acceso a conjuntos de datos exclusivos, que a menudo implican transacciones financieras u otros beneficios.

Preguntas más frecuentes

  • ¿Por qué Baidu ha bloqueado el acceso de Google a sus contenidos Baike?
    Baidu ha bloqueado el acceso a Google para evitar que sus contenidos Baike se utilicen con fines de entrenamiento de inteligencia artificial. El objetivo de la empresa es evitar que sus competidores utilicen sus valiosos datos.
  • ¿Cómo bloquea el archivo robots.txt de Baidu a Google y Bing?
    Baidu ha actualizado su archivo robots.txt para impedir específicamente que Googlebot y Bingbot indexen sus contenidos. Este archivo estándar indica a los rastreadores de los motores de búsqueda a qué partes de un sitio web no pueden acceder.
  • ¿Hay otras empresas que también restringen el acceso a los datos como Baidu?
    Sí, otras empresas, como Reddit y Microsoft, también están restringiendo o monetizando sus datos para controlar cómo se utilizan, en particular para aplicaciones de IA como los chatbots.
  • ¿Afecta el movimiento de Baidu a la versión china de Wikipedia?
    No, la versión china de Wikipedia sigue siendo accesible para los rastreadores de los motores de búsqueda. Las restricciones de Baidu son específicas de su propia plataforma, Baidu Baike.
  • ¿Por qué está aumentando la tendencia a asociarse para acceder a datos de alta calidad?
    Como los desarrolladores de IA necesitan grandes conjuntos de datos de alta calidad para entrenarse, cada vez se asocian más con editores de contenidos. Estos acuerdos permiten a las empresas de IA acceder a datos exclusivos que no están disponibles a través del scraping normal de la web.

source

Derechos Reservados FGJ MULTIMEDIOS 2024