Apple lanza Ferret, un modelo conversacional aún en investigación pero prometedor

Ferret

Ferret es un nuevo modelo de IA multimodal experto en la comprensión conversacional de imágenes a través del razonamiento conjunto sobre entradas visuales y textuales. La medida representa la sorprendente adopción por parte de Apple del desarrollo de IA de código abierto y sienta las bases para avances en sistemas multimodales inteligentes.

Ferret combina un modelo de visión por computadora y procesamiento del lenguaje natural para adoptar un enfoque novedoso que permite interactuar eficientemente con contenidos de carácter visual.

El modelo tiene la capacidad de identificar objetos y regiones dentro de una imagen, conectar conceptos textuales con elementos visuales y aprovechar esta comprensión para tener conversaciones textuales matizadas sobre imágenes.

IA conversacional de Apple

La búsqueda que ha venido realizando Apple en avances de la IA conversacional está liderada por el jefe de IA, John Giannandrea. Giannandrea supervisa los esfuerzos de Apple en modelos de lenguajes grandes y reporta directamente al CEO Tim Cook. Estableció un equipo dedicado de IA conversacional hace cuatro años y el trabajo se ha acelerado desde entonces.

Internamente, Apple tiene un chatbot al que algunos ingenieros han apodado “Apple GPT”. Sin embargo, es probable que la empresa no utilice este nombre públicamente para ningún producto de consumo. Actualmente, el acceso al chatbot está estrictamente restringido dentro de Apple. Sus resultados aún no se pueden aprovechar para desarrollar nuevas características de productos para los clientes. El chatbot se utiliza principalmente para la creación de prototipos internos y para responder consultas basadas en sus datos de capacitación.

Impulsar su investigación de IA conversacional requiere inversiones masivas por parte de Apple para la infraestructura de hardware necesaria. La formación de modelos de lenguaje complejos y eficaces exige amplios recursos computacionales. Según un analista, se prevé que Apple gaste más de 4.000 millones de dólares en servidores de IA en 2024 a medida que intensifica sus esfuerzos en este espacio.

Cómo funciona Ferret

La innovación clave de Ferret es su capacidad para detectar objetos y conceptos semánticos dentro de regiones de una imagen especificadas por el usuario en lugar de simplemente analizar la imagen completa.

Por ejemplo, un usuario puede dibujar una forma irregular alrededor del rostro de una persona en una foto y preguntar "¿De qué color son los ojos de esta persona?". Luego, el sistema identificará los ojos dentro de esa región, detectará que son azules y responderá: "Esta persona tiene ojos azules".
El sistema va más allá del reconocimiento básico de objetos. Puede comprender las relaciones entre objetos, acciones y otros detalles contextuales para tener una conversación rica y de varios niveles sobre una imagen. Esto lo hace más capaz de chatear enfocado en la región que los sistemas de IA multimodales anteriores.

Cómo funciona el reconocimiento de objetos de Ferret

Ferret aprovecha una arquitectura de codificador dual. Un codificador se centra en los aspectos visuales, mientras que el otro maneja la entrada de texto. Los dos flujos de datos se fusionan mediante un novedoso mecanismo de fusión dinámica. Esto permite un uso equilibrado de ambas modalidades durante el entrenamiento.
Entrenamiento con diversos datos espaciales y reducción de alucinaciones
Para optimizar las capacidades de referencia visual y conexión a tierra de Ferret, los investigadores seleccionaron cuidadosamente un conjunto de datos a gran escala llamado GRIT (Ground-and-Refer Institution Tuning). Como se señala en el artículo, GRIT contiene más de 1,1 millones de muestras diversas con un rico conocimiento espacial en múltiples niveles, que abarca objetos, relaciones, descripciones de regiones y razonamiento.
El conjunto de datos incluye ejemplos de texto en ubicación y salida y de ubicación en texto y salida para cubrir tareas de referencia y conexión a tierra. Se generaron 34.000 conversaciones de referencia y de tierra utilizando modelos como GPT-3 para hacer que el conjunto de datos siguiera más instrucciones. Además, se agregaron 95.000 muestras negativas desafiantes para mejorar la solidez.

Los beneficios del enfoque de código abierto de Ferret

Ferret tiene una licencia no comercial de código abierto de Apple. Esto contrasta con el enfoque históricamente cerrado de la empresa hacia la investigación de IA.
Lanzar Ferret como código abierto trae varias ventajas:

Permite una amplia colaboración: investigadores de todas partes pueden aprovechar los cimientos
del desarrollo de Ferret para retroalimentar la experiencia así como para formular nuevos desafíos en su desarrollo.

Volver a la página de INicio

Representación de proceso mental