La IA como ChatGPT es posible gracias al uso indiscriminado del contenido online. Cloudflare acaba de decir que se acabó

Título: La IA como ChatGPT es posible gracias al uso indiscriminado del contenido online. Cloudflare acaba de decir que se acabó

Contenido:
Jose García
Jose García
Las grandes inteligencias artificiales que utilizamos a diario, como GPT, Gemini, Claude y Perplexity, existen y son capaces de realizar sus funciones en gran parte gracias al contenido disponible en Internet. Empresas como OpenAI, Google y Anthropic han rastreado (y continúan rastreando en tiempo real) la web en busca de información que responda a las preguntas de los usuarios.
Sin embargo, lo hacen, salvo que existan acuerdos específicos, sin ofrecer contraprestación a los creadores de dicho contenido, más allá de un enlace. Esta práctica ha sido objeto de debate desde el nacimiento de esta tecnología. Se han reportado casos donde artículos de blogs, entradas en Wikipedia, libros y hasta datos personales han sido utilizados sin autorización. Los bots automatizados, conocidos como rastreadores, no dejan nada atrás, y hoy, Cloudflare ha anunciado que se ha acabado.
Desde hoy, Cloudflare bloqueará por defecto a los scrapers de IA, una decisión que tiene implicaciones significativas. Empecemos desde el principio.
Web crawlers. Esta tecnología no es nueva; de hecho, es gracias a ella que existen los cimientos de la búsqueda en Internet. Seguramente resulte familiar el término “araña de Google“, ese bot que rastrea toda la web en busca de contenido que indexar y ofrecer al usuario. Es solo uno de los miles de bots que generan aproximadamente el 30% de todo el tráfico a nivel mundial.
Esta tecnología fue fundamental para dar forma al Internet que conocemos, y la relación con los generadores de contenido era simbiótica. Nació así la economía del clic: el creador genera contenido, Google lo indexa, el usuario lo encuentra, Google genera ingresos a través de la publicidad del buscador, y el creador recibe tráfico y genera ingresos de diversas fuentes.
Con la IA, la situación es bastante diferente.
Datos. Los modelos de IA requieren información para alimentarse, ser entrenados y responder preguntas. Para ello, las grandes empresas han rastreado la web, extrayendo todo el contenido posible para desarrollar tecnologías como ChatGPT. El problema radica en que este contenido puede estar protegido por derechos de autor, lo que llevó a que The New York Times demandara a OpenAI por este motivo y a que las empresas de IA firmaran acuerdos con los medios para acceder a su contenido.
IAs conectadas. La evolución de la IA ha permitido que, como era de esperar, ChatGPT se conecte a Internet. Ya no se limita a responder con datos de entrenamiento finitos; ahora puede buscar información en medios, blogs y páginas online en tiempo real. El usuario ya no necesita hacer clic en un enlace; la IA busca, analiza y genera la respuesta, lo que ha llevado a una caída en el tráfico hacia los medios y blogs.
Esta tecnología es alimentada por AI Crawlers, la evolución de los bots que dieron forma al Internet moderno. Entre ellos se encuentran GPTBot de OpenAI, Meta-ExternalAgent de Meta, ClaudeBot de Anthropic y ByteSpider de ByteDance. Esto ha comenzado a deteriorar la relación simbiótica previamente mencionada, ya que el usuario no accede al contenido original, sino que consume un producto derivado generado por IA. Un claro ejemplo son las nuevas vistas previas generadas con IA en Google que aparecen en cada búsqueda.
Echa el freno… O no, solo soy un .txt. ¿Cómo solucionar este rastreo indiscrimin

Editado con FGJ CONTENT REWRITER

Derechos Reservados FGJ MULTIMEDIOS 2024