Meta Platforms a publié jeudi des versions préliminaires de son dernier grand modèle linguistique, Llama 3, et d'un générateur d'images qui met à jour les images en temps réel pendant que les utilisateurs tapent des messages, afin de rattraper le leader du marché de l'IA générative, OpenAI.

Les modèles seront intégrés à l'assistant virtuel Meta AI, que l'entreprise présente comme le plus sophistiqué de ses homologues à usage gratuit. L'assistant occupera une place plus importante dans les applications Facebook, Instagram, WhatsApp et Messenger de Meta, ainsi que dans un nouveau site web autonome qui lui permettra de rivaliser plus directement avec ChatGPT, le grand succès d'OpenAI soutenu par Microsoft.

Cette annonce intervient alors que Meta s'efforce de proposer des produits d'IA générative à ses milliards d'utilisateurs afin de contester la position dominante d'OpenAI sur cette technologie, ce qui implique une refonte de l'infrastructure informatique et la consolidation d'équipes de recherche et de produits jusqu'alors distinctes.

Le géant des médias sociaux a doté Llama 3 de nouvelles capacités de codage informatique et l'a alimenté en images ainsi qu'en texte cette fois-ci, bien que pour l'instant le modèle ne produise que du texte, a déclaré Chris Cox, directeur général des produits de Meta, dans une interview.

Des raisonnements plus avancés, comme la capacité à élaborer des plans plus longs en plusieurs étapes, suivront dans les versions ultérieures, a-t-il ajouté. Les versions prévues pour les mois à venir seront également capables de "multimodalité", c'est-à-dire qu'elles pourront générer à la fois du texte et des images, a indiqué Meta dans des articles de blog.

"L'objectif est de vous faciliter la vie, qu'il s'agisse d'interagir avec des entreprises, d'écrire quelque chose ou de planifier un voyage", a déclaré M. Cox.

M. Cox a déclaré que l'inclusion d'images dans la formation du Llama 3 améliorerait une mise à jour des lunettes intelligentes Ray-Ban Meta, un partenariat avec le fabricant de lunettes Essilor Luxoticca, qui permet à l'IA Meta d'identifier les objets vus par le porteur et de répondre à des questions à leur sujet.

Meta a également annoncé un nouveau partenariat avec Google (Alphabet) pour inclure des résultats de recherche en temps réel dans les réponses de l'assistant, en complément d'un accord existant avec Bing (Microsoft).

L'assistant Meta AI s'étend à plus d'une douzaine de marchés en dehors des États-Unis avec cette mise à jour, notamment l'Australie, le Canada, Singapour, le Nigéria et le Pakistan. Meta "travaille encore sur la bonne manière de procéder en Europe", a déclaré M. Cox, où les règles de confidentialité sont plus strictes et où la prochaine loi sur l'IA est sur le point d'imposer des exigences telles que la divulgation des données d'entraînement des modèles.

Le besoin vorace de données des modèles d'IA générative est apparu comme une source majeure de tension dans le développement de la technologie.

Dans le cadre de ses efforts de rattrapage, Meta a mis à la disposition des développeurs des modèles tels que Llama 3 pour une utilisation commerciale gratuite, car le succès d'une option gratuite puissante pourrait contrecarrer les plans de ses rivaux visant à tirer des revenus de leur technologie propriétaire. Cette stratégie a également suscité des inquiétudes en matière de sécurité de la part des critiques qui craignent que des développeurs peu scrupuleux n'utilisent le modèle pour construire.

Le PDG de Meta, Mark Zuckerberg, a fait un clin d'œil à cette concurrence dans une vidéo accompagnant l'annonce, dans laquelle il a qualifié Meta AI d'"assistant d'intelligence artificielle le plus intelligent que vous puissiez utiliser librement".

Mark Zuckerberg a déclaré que la plus grande version de Llama 3 est actuellement entraînée avec 400 milliards de paramètres et obtient déjà un score de 85 MMLU, en citant les mesures utilisées pour exprimer la force et la qualité des performances des modèles d'IA. Les deux versions plus petites qui sont actuellement déployées ont 8 milliards de paramètres et 70 milliards de paramètres, et la dernière a obtenu un score d'environ 82 MMLU (Massive Multitask Language Understanding), a-t-il précisé.

Les développeurs se sont plaints que la version précédente du modèle Llama 2 ne comprenait pas le contexte de base, confondant les requêtes sur la manière de "tuer" un programme informatique avec des demandes d'instructions sur la manière de commettre un meurtre. Le concurrent Google a rencontré des problèmes similaires et a récemment suspendu l'utilisation de son outil de génération d'images Gemini AI après avoir été critiqué pour avoir produit des représentations inexactes de personnages historiques.

Meta a déclaré avoir réduit ces problèmes dans Llama 3 en utilisant des "données de haute qualité" pour que le modèle reconnaisse les nuances. L'entreprise n'a pas donné de détails sur les ensembles de données utilisés, mais elle a indiqué qu'elle avait introduit sept fois plus de données dans Llama 3 que dans Llama 2 et qu'elle avait utilisé des données "synthétiques", c'est-à-dire créées par l'IA, pour renforcer des domaines tels que le codage et le raisonnement.

M. Cox a déclaré qu'il n'y avait "pas de changement majeur" dans la manière dont l'entreprise s'approvisionnait en données de formation. (Reportage de Katie Paul, édition de Nick Zieminski)