Les chercheurs de la CMU proposent GILL : une méthode d'IA pour fusionner les LLM avec des modèles d'encodeur et de décodeur d'images

Nouvelles

MaisonMaison / Nouvelles / Les chercheurs de la CMU proposent GILL : une méthode d'IA pour fusionner les LLM avec des modèles d'encodeur et de décodeur d'images

May 16, 2023

Les chercheurs de la CMU proposent GILL : une méthode d'IA pour fusionner les LLM avec des modèles d'encodeur et de décodeur d'images

Avec la sortie du nouveau GPT 4 d'OpenAI, la multimodalité dans les grands modèles linguistiques a été introduite. Contrairement à la version précédente, GPT 3.5, qui n'est utilisé que pour permettre au célèbre ChatGPT de prendre des

Avec la sortie du nouveau GPT 4 d'OpenAI, la multimodalité dans les grands modèles linguistiques a été introduite. Contrairement à la version précédente, GPT 3.5, qui est uniquement utilisée pour permettre au célèbre ChatGPT de prendre des entrées textuelles, la dernière version de GPT-4 accepte le texte ainsi que les images en entrée. Récemment, une équipe de chercheurs de l'Université Carnegie Mellon a proposé une approche appelée Génération d'images avec de grands modèles linguistiques (GILL), qui se concentre sur l'extension de modèles linguistiques multimodaux pour générer de superbes images uniques.

La méthode GILL permet le traitement des entrées mélangées à des images et du texte pour produire du texte, récupérer des images et créer de nouvelles images. GILL y parvient malgré les modèles utilisant des encodeurs de texte distincts en transférant l'espace d'intégration de sortie d'un LLM gelé contenant uniquement du texte vers celui d'un modèle de génération d'images gelé. Contrairement à d'autres méthodes qui nécessitent des données image-texte entrelacées, le mappage est réalisé en affinant un petit nombre de paramètres à l'aide de paires image-légende.

L’équipe a mentionné que cette méthode combine de grands modèles de langage pour le texte figé avec des modèles de codage et de décodage d’images déjà entraînés. Il peut fournir un large éventail de capacités multimodales, telles que la récupération d'images, la production d'images uniques et le dialogue multimodal. Cela a été fait en cartographiant les espaces d'intégration des modalités afin de les fusionner. GILL fonctionne en conditionnant des entrées mixtes d’images et de texte et produit des sorties à la fois cohérentes et lisibles.

Cette méthode fournit un réseau de cartographie efficace qui ancre le LLM sur un modèle de génération de texte en image afin d'obtenir d'excellentes performances en matière de génération d'images. Ce réseau cartographique convertit les représentations textuelles cachées en espace d'intégration des modèles visuels. Ce faisant, il utilise les puissantes représentations textuelles du LLM pour produire des résultats esthétiquement cohérents.

Avec cette approche, le modèle peut récupérer des images à partir d'un ensemble de données spécifié en plus de créer de nouvelles images. Le modèle choisit de produire ou d'obtenir une image au moment de l'inférence. Un module de décision apprise, conditionnel aux représentations cachées du LLM, est utilisé pour faire ce choix. Cette approche est efficace sur le plan informatique car elle fonctionne sans qu'il soit nécessaire d'exécuter le modèle de génération d'images au moment de la formation.

Cette méthode est plus performante que les modèles de génération de base, en particulier pour les tâches nécessitant un langage plus long et plus sophistiqué. En comparaison, GILL surpasse la méthode de diffusion stable dans le traitement de textes plus longs, y compris les dialogues et les discours. GILL est plus performant dans la génération d'images conditionnées par le dialogue que dans les modèles de génération non basés sur LLM, bénéficiant d'un contexte multimodal et générant des images qui correspondent mieux au texte donné. Contrairement aux modèles texte-image conventionnels qui traitent uniquement les entrées textuelles, GILL peut également traiter les entrées image-texte arbitrairement entrelacées.

En conclusion, GILL (Generating Images with Large Language Models) semble prometteur car il présente un plus large éventail de capacités par rapport aux modèles de langage multimodaux précédents. Sa capacité à surpasser les modèles de génération non basés sur LLM dans diverses tâches de conversion texte-image qui mesurent la dépendance au contexte en fait une solution puissante pour les tâches multimodales.

VérifiezPapieretPage du projet.N'oubliez pas de vous joindrenotre SubReddit 26k+ ML,Chaîne Discorde, etCourriel , où nous partageons les dernières nouvelles en matière de recherche sur l'IA, des projets intéressants en matière d'IA et bien plus encore. Si vous avez des questions concernant l'article ci-dessus ou si nous avons manqué quelque chose, n'hésitez pas à nous envoyer un e-mail à[email protected]

🚀 Découvrez les outils d'IA de 100 dans AI Tools Club

Tanya Malhotra est en dernière année de premier cycle à l'Université des études sur le pétrole et l'énergie de Dehradun et poursuit un BTech en ingénierie informatique avec une spécialisation en intelligence artificielle et apprentissage automatique. Elle est passionnée par la science des données et possède une bonne pensée analytique et critique, ainsi qu'un intérêt marqué pour l'acquisition de nouvelles compétences, la direction de groupes et la gestion du travail de manière organisée.