a Investigación por noticias de prueba Algunas de las empresas de tecnología más grandes del mundo, incluidas Apple y Nvidia, afirman estar entrenando sistemas de inteligencia artificial utilizando transcripciones de videos de YouTube sin el permiso de los creadores.
El informe que Incluye una herramienta de búsqueda. Para determinar si un canal de YouTube estaba en el conjunto de datos, dice que «los pesos pesados de Silicon Valley, incluidos Anthropic, Nvidia, Apple y Salesforce, utilizaron subtítulos de 173,536 videos de YouTube, extraídos de más de 48,000 canales». Algunos de los canales de YouTube incluidos en el conjunto de datos son programas nocturnos como The Late Show with Stephen Colbert y Jimmy Kimmel Live, así como contenido de personalidades populares de YouTube, entre ellas Sr. mejorReferencias técnicas Marqués Brownlee Y PewDiePie.
Proof News dijo que el conjunto de datos era parte de un grupo llamado Pile que provenía de una organización sin fines de lucro. Eleutherae. en Trabajo de investigación 2020La organización sin fines de lucro describió que el montón contenía 22 conjuntos de datos separados.
Apple, Anthropic y EleutherAI no respondieron de inmediato a las solicitudes de comentarios, mientras que Nvidia se negó a comentar.
En un correo electrónico a CNET, un portavoz de Google dijo que la compañía mantiene sus declaraciones anteriores sobre el asunto, vinculándolas a… Artículo de Bloomberg de abrilEn el artículo, el director ejecutivo de Google, Neil Mohan, dijo que no sabía si OpenAI realmente usaba videos de YouTube para entrenar el generador de texto a video, pero si lo hiciera, sería una violación de los términos de servicio de la plataforma. No abordó si el propio Google ha utilizado vídeos de esta manera.
Si bien la IA sigue siendo una tecnología central perseguida por gigantes tecnológicos como Apple, Google, Microsoft, Meta e IBM, desarrollar la tecnología requiere alimentar a los modelos de IA con cantidades masivas de datos. Los líderes de la industria, incluido OpenAI, reconocen que esto se está volviendo más difícil. Cada vez es más difícil encontrar conjuntos de datos para entrenar sistemas de IAEsto ha llevado a OpenAI, el creador de ChatGPT, a negociar acuerdos con empresas de contenido, incluidas… Corporación de noticias Y Reddit, con el fin de obtener contenidos para alimentar los sistemas de IA.
Sin embargo, la información del informe sugiere que empresas de tecnología como Apple y Nvidia pueden estar devorando conjuntos de datos que contienen información que no coincide, al menos en espíritu, con lo que los creadores de contenido esperan de una plataforma como YouTube. Lo cual aparentemente está prohibido. Extraiga datos de videoclips o transcripciones de videos.
Un portavoz de Anthropic, una startup de inteligencia artificial de bien público, dijo a Proof News que la compañía usa Pile para capacitar a su asistente de inteligencia artificial, Claude, y agregó: «Pile incluye un subconjunto muy pequeño de traducciones de YouTube».
La portavoz de YouTube, Jennifer Martinez, dijo: «Los términos de YouTube cubren el uso directo de su plataforma, que es diferente del uso del conjunto de datos de The Pile. Para posibles violaciones de los términos de servicio de YouTube, debemos remitirlo a los autores de The Pile».
Y como señala el informe, el propio Google Fue acusado de raspar contenido de YouTubeLa compañía le dijo al New York Times que su acuerdo con los creadores de contenido permite utilizar el contenido de YouTube para el entrenamiento en inteligencia artificial.
«Food ninja. Freelance pop culture fanatic. Wannabe zombie maven. Twitter aficionado.»
More Stories
La red social Butterflies AI añade una función que te convierte en un personaje de inteligencia artificial
Edición del vigésimo aniversario de Hautlence HLXX: redefiniendo el tiempo con minutos que retroceden y horas saltantes
Un marco para resolver ecuaciones diferenciales parciales equivalentes puede guiar el procesamiento y la ingeniería de gráficos por computadora