Revista El Color del Dinero

Bienvenidos a Spain News Today.

Una nueva investigación presenta el modelo AI Recognize Anything (RAM): un poderoso modelo subyacente para el etiquetado de imágenes

Una nueva investigación presenta el modelo AI Recognize Anything (RAM): un poderoso modelo subyacente para el etiquetado de imágenes

https://arxiv.org/abs/2306.03514

Cuando se trata de tareas de procesamiento de lenguaje natural (NLP), los modelos grandes de lenguaje (LLM) entrenados en grandes conjuntos de datos en línea funcionan excepcionalmente bien. El Segment Anything Model (SAM) ha demostrado impresionantes capacidades de localización en visión por computadora (CV) al escalar los datos.

Desafortunadamente, SAM no puede producir etiquetas semánticas, que es una tarea igualmente esencial con la traducción. Reconocer múltiples etiquetas para una sola imagen es el objetivo del reconocimiento de imágenes de múltiples etiquetas, también conocido como etiquetado de imágenes. Debido a que las imágenes tienen diferentes etiquetas, incluidos objetos, escenas, propiedades y actividades, el etiquetado de imágenes es un problema de visión artificial importante y útil.

Hay dos factores principales que dificultan el etiquetado de imágenes de la siguiente manera:

  1. Amplia gama de datos de alta calidad. Todavía falta un motor de anotación de datos efectivo que pueda anotar de forma semiautomática o automática grandes cantidades de imágenes en diferentes categorías, como es el caso con un sistema de etiquetado estándar y completo.
  2. No hay suficientes vocabularios abiertos y modelos robustos creados con un diseño de modelo eficiente y flexible que aproveche los datos a gran escala y mal moderados.

El modelo Recognition Anything (RAM) es un poderoso modelo básico para el etiquetado de imágenes, que acaba de ser presentado por investigadores del Instituto de Investigación OPPO, la Academia Internacional de Economía Digital (IDEA) y AI2 Robotics. Cuando se trata de datos, la RAM puede superar problemas como esquemas de etiquetado inapropiados, conjuntos de datos insuficientes, motores de datos ineficientes y limitaciones arquitectónicas.

READ  Unity y Google profundizan la cooperación para acelerar el éxito de los desarrolladores de juegos

Los investigadores comienzan estableciendo una convención de nomenclatura global estándar. Utilizan conjuntos de datos académicos (clasificación, detección y segmentación) y marcas registradas (Google, Microsoft y Apple) para enriquecer su sistema de etiquetado. Al combinar todas las etiquetas genéricas disponibles y las etiquetas de texto comunes, el método de etiquetado produce 6449 etiquetas que abordan colectivamente la gran mayoría de los casos de uso. Los investigadores afirmaron que es posible identificar las etiquetas de vocabulario abierto restantes mediante el reconocimiento abierto.

Hacer anotaciones en fotos de gran tamaño con el sistema automático de pegatinas es un trabajo duro. El enfoque propuesto para el etiquetado de imágenes está inspirado en trabajos anteriores en este campo, que utiliza pares de imagen-texto genéricos a gran escala para entrenar modelos visuales robustos. Para hacer un buen uso de estas grandes cantidades de datos de texto de imágenes para el etiquetado, el equipo utilizó el análisis semántico automático del texto para extraer etiquetas de imágenes. Con este método, pueden obtener un gran conjunto de etiquetas de imagen basadas en pares de imagen y texto sin depender de las anotaciones manuales.

Las combinaciones de imágenes y texto de fuentes de Internet tienden a ser imprecisas debido al ruido aleatorio. El equipo está creando un motor de etiquetado de datos para mejorar la precisión de las anotaciones. Para resolver el problema de las etiquetas que faltan, adoptan modelos preexistentes para producir etiquetas complementarias. Cuando se trata de regiones mal etiquetadas, señalan ciertas secciones dentro de la imagen que están asociadas con etiquetas distintas. Luego, usan el método de agregación de regiones para encontrar y eliminar las anomalías dentro de la misma clase. Además, las etiquetas que hacen predicciones inconsistentes también se eliminan para una anotación más precisa.

READ  El tráiler de GTA 6 puede haber sido provocado por la lista de trabajos de Rockstar

RAM permite la generalización a nuevas clases al agregar contexto semántico a las búsquedas de nombres. Las capacidades de limitación de RAM se pueden aumentar con esta arquitectura modelo para cualquier conjunto de datos visuales, lo que demuestra su versatilidad. Al mostrar que un modelo genérico entrenado con datos ruidosos y sin anotaciones puede superar a los modelos muy supervisados, RAM introduce un nuevo paradigma para el etiquetado de imágenes. La RAM requiere un conjunto de datos anotado, gratuito y disponible públicamente. La versión más potente de RAM solo debe entrenarse durante tres días en ocho GPU A100.

Según el equipo, se pueden realizar mejoras en la memoria RAM. Esto incluye ejecutar múltiples iteraciones del motor de datos, aumentar los parámetros de la columna vertebral para mejorar la capacidad del modelo y expandir el conjunto de datos de entrenamiento más allá de 14 millones de imágenes para cubrir mejor diversas regiones.


escanear el papelY proyectoY Y github. No olvides unirte Sub Reddit de 23k+MLY canal de discordiaY Y Boletín electrónico, donde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más. Si tiene alguna pregunta sobre el artículo anterior o si nos hemos perdido algo, no dude en enviarnos un correo electrónico a [email protected]

🚀 Echa un vistazo a las herramientas de IA de 100 en el club de herramientas de IA