LLaVA 1.5 : Une alternative open source à GPT-4 Vision
L’intelligence artificielle générative connaît une évolution rapide avec l’émergence des modèles langage multimodaux (LMM), tels que le GPT-4 Vision d’OpenAI. Ces modèles révolutionnent notre interaction avec les systèmes d’IA en intégrant à la fois du texte et des images.
Cependant, la nature fermée et commerciale de certaines de ces technologies peut restreindre leur adoption universelle. C’est dans ce contexte que la communauté open source entre en jeu en proposant LLaVA 1.5 comme une alternative prometteuse à GPT-4 Vision.
La mécanique des LMM
Les LMM fonctionnent grâce à une architecture multicouche. Ils combinent un modèle pré-entraîné pour le traitement des éléments visuels, un grand modèle de langage (LLM) pour comprendre et répondre aux instructions de l’utilisateur, ainsi qu’un connecteur multimodal pour relier la vision et le langage.
Leur formation se déroule en deux étapes : une première phase d’alignement entre la vision et le langage, suivie d’un ajustement fin pour répondre aux requêtes visuelles. Ce processus, bien qu’efficace, demande souvent des ressources computationnelles importantes et nécessite une base de données riche et précise.
Les atouts de LLaVA 1.5
LLaVA 1.5 s’appuie sur le modèle CLIP pour le traitement visuel et sur Vicuna pour le langage. Contrairement au modèle original LLaVA qui utilisait les versions textuelles de ChatGPT et GPT-4 pour l’ajustement visuel et qui générait ainsi 158 000 exemples d’entraînement, LLaVA 1.5 va plus loin en connectant le modèle de langage et l’encodeur visuel grâce à un perceptron multicouche (MLP).
Cette mise à jour, qui comprend environ 600 000 exemples, a permis à LLaVA 1.5 de surpasser d’autres LMM open source sur 11 des 12 benchmarks multimodaux.
L’avenir des LMM open source
La démonstration en ligne de LLaVA 1.5, accessible à tous, présente des résultats prometteurs, même avec un budget limité. Cependant, il convient de noter que l’utilisation des données générées par ChatGPT limite son utilisation à des fins non commerciales.
Malgré cette limitation, LLaVA 1.5 ouvre la voie à l’avenir des LMM open source. Sa rentabilité, sa capacité à générer efficacement des données d’entraînement et son efficacité dans l’ajustement des instructions visuelles en font une introduction aux innovations à venir.
LLaVA 1.5 n’est que le début d’une série d’avancées dans le domaine des LMM open source. En anticipant des modèles plus performants et accessibles, nous pouvons envisager un futur où la technologie de l’IA générative sera accessible à tous, révélant ainsi le potentiel illimité de l’intelligence artificielle.





What do you think?
Show comments / Leave a comment