Un logro pionero en el campo de la innovación en inteligencia artificial multimedia

(cicerebro/Shutterstock)

El desarrollo de modelos multimedia a gran escala se basa en conjuntos de datos completos que integran imágenes y texto. Estos conjuntos de datos facilitan la creación de modelos avanzados que pueden interpretar y generar contenido en múltiples medios, tal como lo hacen los humanos. Sin embargo, a medida que las capacidades de la IA continúan evolucionando, crece la necesidad de conjuntos de datos diversos y de alta calidad, lo que lleva a los investigadores a explorar enfoques innovadores para recopilar y organizar datos.

La escasez de conjuntos de datos multimodales de código abierto que combinen texto e imágenes se debe a los altos costos, la diversidad limitada de datos y la complejidad que implica recopilar y organizar dichos datos. Como resultado, existen brechas de rendimiento en los modelos de código abierto y propietarios.

Salesforce AI Research aborda la necesidad de conjuntos de datos intermodales más grandes y diversos Lanzamiento MINT-1TAl combinar un billón de símbolos de texto y 3,4 mil millones de imágenes en un formato que imita documentos del mundo real, este conjunto de datos ofrece una herramienta única y valiosa para avanzar en el aprendizaje multimodal en IA. Salesforce afirma que el nuevo conjunto de datos es 10 veces más amplio que otros conjuntos de datos disponibles públicamente.

«La superposición de conjuntos de datos multimodales que presentan secuencias superpuestas de imágenes y texto de forma libre son fundamentales para entrenar modelos multimodales (LMM) a gran escala», explicaron los investigadores en su estudio. Artículo de investigación publicado en arXiv«A pesar del rápido progreso de los LMM de código abierto, sigue habiendo una clara escasez de conjuntos de datos anidados multimodales de código abierto a gran escala».

READ Lanzada la actualización del firmware Sony a6700: mejoras y correcciones en las funciones de grabación de video

MINT-1T fue desarrollado por investigadores de la Universidad de Stanford, la Universidad de Texas en Austin, la Universidad de Washington, Salesforce Research y la Universidad de California Berkeley. Los equipos utilizaron un proceso complejo de adquisición, filtrado y deduplicación de datos de conjuntos de datos anteriores disponibles públicamente.

Se analizaron datos de documentos HTML, archivos PDF y hojas ArXix para garantizar una variedad de contenido multimedia. Los filtros avanzados eliminaron datos inapropiados o de baja calidad, mientras que los métodos de deduplicación garantizaron que se eliminaran los datos duplicados.

Otros conjuntos de datos de código abierto, como OBELICS y MMC4, utilizan hasta 115 mil millones de símbolos, una cantidad pequeña en comparación con los billones de símbolos utilizados en MINT-1T. No sólo el tamaño de MINT-1T, sino también la diversidad de sus datos, que abarcan una amplia gama de fuentes, proporciona una amplia base de conocimiento humano para los modelos de IA.

(Lightspring/Shutterstock)

La introducción de MINT-1T representa un importante paso adelante en la promoción del aprendizaje multimodal y proporciona un recurso valioso para que la comunidad estudie y construya modelos multimodales a gran escala. Los investigadores individuales y los equipos pequeños ahora tienen acceso a datos que rivalizan con los de las grandes empresas tecnológicas.

El conjunto de datos MINT-1T también promoverá el desarrollo de diversas aplicaciones de IA, incluidos asistentes virtuales, sistemas de navegación autónomos, reconocimiento de objetos y comprensión de escenas, al proporcionar un conjunto de datos más rico y diverso para la capacitación y el desarrollo.

Si bien el lanzamiento del conjunto de datos MINT-1T puede ser un catalizador para la innovación, también presenta varios obstáculos. El gran tamaño del conjunto de datos MINT-1T significa un mayor potencial para amplificar los problemas de privacidad y los sesgos presentes en los materiales originales. La comunidad de IA debe ser consciente de cómo se utiliza esta herramienta porque puede dar forma al futuro de la IA. Además, deberían considerar el desarrollo de marcos sólidos para abordar estos desafíos.

READ Mira el superdeportivo T.50 de Gordon Murray dando vueltas en la pista de Top Gear

Las tendencias recientes indican que la IA de código abierto es el futuro de la IA. Esto garantizaría que más personas en todo el mundo tuvieran acceso a los beneficios y oportunidades de la IA. Muchos líderes tecnológicos, incluido Mark Zuckerberg, han indicado que la IA es el futuro de la IA. La IA de código abierto como camino a seguirSin embargo, a medida que más personas obtienen acceso a herramientas avanzadas de IA, las preocupaciones éticas y de responsabilidad sobre quién dirigirá su desarrollo se vuelven cada vez más importantes.

Artículos relacionados

Gretel Open Sources 100.000 scripts de muestra para SQL

Base de datos Rockset Primes de enorme servicio vectorial

Crunchy Data aprovecha todo lo de Postgres

Vinicio Terrazas

«Food ninja. Freelance pop culture fanatic. Wannabe zombie maven. Twitter aficionado.»

Un logro pionero en el campo de la innovación en inteligencia artificial multimedia

Cómo los nuevos formatos fotónicos contribuyen al desarrollo de las tecnologías ópticas

La red social Butterflies AI añade una función que te convierte en un personaje de inteligencia artificial

Edición del vigésimo aniversario de Hautlence HLXX: redefiniendo el tiempo con minutos que retroceden y horas saltantes

Un trozo de cometa ilumina los cielos de España y Portugal «como de película»

El envejecimiento se produce en ataques repentinos, revelan los científicos

Cómo los nuevos formatos fotónicos contribuyen al desarrollo de las tecnologías ópticas

Joseph García lidera el país de origen

Entradas recientes

Deja una respuesta Cancelar la respuesta

More Stories

Cómo los nuevos formatos fotónicos contribuyen al desarrollo de las tecnologías ópticas

La red social Butterflies AI añade una función que te convierte en un personaje de inteligencia artificial

Edición del vigésimo aniversario de Hautlence HLXX: redefiniendo el tiempo con minutos que retroceden y horas saltantes

You may have missed

Un trozo de cometa ilumina los cielos de España y Portugal «como de película»

El envejecimiento se produce en ataques repentinos, revelan los científicos

Cómo los nuevos formatos fotónicos contribuyen al desarrollo de las tecnologías ópticas

Joseph García lidera el país de origen