Les LLMs ont mijoté dans les laboratoires de recherche depuis la fin des années 2010, mais après la sortie de ChatGPT (qui a mis en avant la puissance de GPT), ils ont fait irruption dans le monde réel.
Nous sommes maintenant dans la troisième et quatrième génération de LLMs, et avec cela, ils sont de plus en plus utiles et puissants. Nous assistons également aux premières générations de grands modèles multimodaux (LMM), capables de gérer d’autres modalités d’entrée et de sortie, telles que les images, l’audio et la vidéo, en plus du texte, ce qui complique encore les choses.
Le mot « meilleur » est à prendre avec des pincettes: il existe des dizaines de LLMs majeurs, et des centaines qui sont sans doute significatifs pour une raison ou une autre. Les lister tous serait presque impossible, et de toute façon, la liste serait obsolète en quelques jours en raison de la rapidité avec laquelle les LLMs sont développés. Nous nous concentrerons ici sur les LLMs les plus importants, intéressants et populaires selon Artificial Analysis.
Sommaire
Le classement des meilleurs LLMs en 2025
LLM | Développeur |
---|---|
o1-preview et o1-mini | OpenAI |
Gemini 2.0 Flash | |
Gemini 1.5 Pro | |
Claude | Anthropic |
DeepSeek |
DeepSeek |
GPT-4o | OpenAI |
Phi-4 | Microsoft |
Alibaba | |
OpenAI | |
AWS | |
Llama | Meta |
Mistral AI |
Qu’est-ce qu’un LLM ?
Un LLM, ou grand modèle de langage, est un générateur de texte d’IA à usage général. C’est ce qui se cache derrière tous les chatbots d’IA, les générateurs d’écriture d’IA, et la plupart des autres fonctionnalités alimentées par l’IA, comme les réponses de recherche résumées. Les LLMs sont des systèmes de saisie semi-automatique surchargés. Dépourvus d’interfaces sophistiquées et d’autres solutions de contournement, ils prennent une instruction et génèrent une réponse en utilisant une chaîne de texte plausible. Les chatbots basés sur des LLMs ne recherchent pas des mots-clés pour pouvoir répondre avec une réponse préenregistrée, mais essaient plutôt de comprendre ce qui est demandé et de répondre de manière appropriée.
C’est pourquoi les LLMs ont vraiment décollé: les mêmes modèles (avec ou sans un peu d’entraînement supplémentaire) peuvent être utilisés pour répondre aux questions des clients, rédiger des documents marketing, résumer les notes de réunion, et bien plus encore.
Les LLMs ne peuvent travailler qu’avec du texte, c’est pourquoi les LMMs commencent à apparaître: ils peuvent incorporer des images, des notes manuscrites, de l’audio, de la vidéo, et plus encore. Bien qu’ils ne soient pas aussi facilement disponibles que les LLMs, ils ont le potentiel d’offrir beaucoup plus de fonctionnalités dans le monde réel.
Quels sont les particularité d’un LLM open source ?
Il existe trois grandes catégories de LLM: propriétaire, ouvert et open source. Les modèles propriétaires, comme o1-preview, o1-mini et Claude 3.5, sont parmi les modèles les plus populaires et les plus puissants disponibles, mais ils sont développés et exploités par des sociétés privées. Le code source, les stratégies d’entraînement, les poids des modèles et même des détails comme le nombre de paramètres qu’ils ont sont tous tenus secrets. La seule façon d’accéder à ces modèles est de passer par un chatbot ou une application qui les utilise, ou par une API. Vous ne pouvez pas simplement exécuter o1-preview sur votre propre serveur.
Les modèles ouverts et open source sont plus librement disponibles. Vous pouvez télécharger Lllama 3 et Gemma 2 à partir de Hugging Face et d’autres plateformes de modèles et les exécuter sur vos propres appareils, et même les réentraîner avec vos propres données pour créer votre propre modèle. Les développeurs peuvent créer leurs propres chatbots et applications à partir de ces modèles. Vous pouvez même explorer en profondeur des éléments comme les poids des modèles et l’architecture du système pour comprendre comment ils fonctionnent (du mieux que l’on peut).
Alors, quelle est la différence entre ouvert et open source ? Eh bien, des entreprises comme Meta et Google disent que Llama 3 et Gemma 2 sont ouverts comme si c’était la même chose que l’open source, mais il y a une distinction majeure. Les licences open source sont incroyablement permissives. La plupart du temps, vous devez accepter de rendre open source tout ce que vous construisez avec et de citer les développeurs originaux. Si vous voulez créer une entreprise de plusieurs milliards de dollars à partir d’un logiciel open source ou créer un chatbot criminel qui dit aux gens comment s’en tirer avec des cambriolages, vous êtes absolument libre de le faire. La police pourrait avoir quelques problèmes avec ce dernier projet, mais vous ne violeriez aucune licence logicielle.
Les licences ouvertes sont toujours permissives, mais elles ont des limites supplémentaires. Par exemple, la licence de Llama 3 autorise l’utilisation commerciale jusqu’à 700 millions d’utilisateurs mensuels et bloque certaines utilisations. Vous et moi pourrions construire quelque chose avec, mais Apple et Google ne le peuvent pas. De même, la politique d’utilisation interdite de Gemma 2, entre autres choses, interdit de « faciliter ou d’encourager les utilisateurs à commettre tout type de crime ». Naturellement, Google ne veut pas voir des bots douteux « alimentés par Google Gemma » placardés partout dans les médias.
Comment fonctionnent les LLMs ?
Pour en arriver là, les LLMs ont été entraînés sur d’énormes corpus de données. Les spécificités varient légèrement entre les différents LLMs – en fonction du soin que les développeurs prennent à acquérir pleinement les droits sur les matériaux qu’ils utilisent – mais en règle générale, vous pouvez supposer qu’ils ont été entraînés sur quelque chose comme l’ensemble de l’internet public et tous les livres majeurs qui ont jamais été publiés au minimum. C’est pourquoi les LLMs peuvent générer du texte qui sonne si autoritaire sur une si grande variété de sujets.
À partir de ces données d’entraînement, les LLMs sont capables de modéliser la relation entre différents mots (ou plutôt, des fractions de mots appelées jetons) en utilisant des vecteurs de haute dimension. C’est là que les choses deviennent très compliquées et mathématiques, mais l’essentiel est que chaque jeton individuel se retrouve avec un ID unique et que des concepts similaires sont regroupés. Ceci est ensuite utilisé pour générer un réseau neuronal, une sorte d’algorithme à plusieurs couches basé sur le fonctionnement du cerveau humain – et c’est au cœur de chaque LLM.
Le réseau neuronal a une couche d’entrée, une couche de sortie, et plusieurs couches cachées, chacune avec plusieurs nœuds. Ce sont ces nœuds qui calculent les mots qui doivent suivre l’entrée, et différents nœuds ont des poids différents. Par exemple, si la chaîne d’entrée contient le mot « Apple », le réseau neuronal devra décider de suivre avec quelque chose comme « Mac » ou « iPad », quelque chose comme « tarte » ou « crumble », ou quelque chose de complètement différent. Lorsque l’on parle du nombre de paramètres d’un LLM, on compare en fait le nombre de couches et de nœuds du réseau neuronal sous-jacent. En général, plus il y a de nœuds, plus le texte qu’un modèle est capable de comprendre et de générer est complexe.
Les LMMs sont encore plus complexes car ils doivent également incorporer des données provenant de modalités supplémentaires, mais ils sont généralement entraînés et structurés de la même manière. Bien sûr, un modèle d’IA entraîné sur l’internet ouvert avec peu ou pas de direction semble être un cauchemar. Et il ne serait probablement pas très utile non plus, donc à ce stade, les LLMs subissent un entraînement et un réglage fin supplémentaires pour les guider vers la génération de réponses sûres et utiles. L’une des principales façons d’y parvenir est d’ajuster les poids des entrées et des sorties des différents nœuds, bien qu’il y ait d’autres aspects.
Tout cela pour dire que si les LLMs sont des boîtes noires, ce qui se passe à l’intérieur n’est pas magique. Une fois que vous comprenez un peu leur fonctionnement, il est facile de voir pourquoi ils sont si bons à répondre à certains types de questions. Il est également facile de comprendre pourquoi ils ont tendance à inventer (ou à halluciner) des choses au hasard.
À quoi peuvent servir les LLMs ?
Les LLMs sont puissants principalement parce qu’ils peuvent être généralisés à de nombreuses situations et utilisations différentes. Le même LLM de base (parfois avec un peu d’adaptation) peut être utilisé pour effectuer des dizaines de tâches différentes. Bien que tout ce qu’ils font est basé sur la génération de texte, la manière spécifique dont ils sont invités à le faire modifie les fonctionnalités qu’ils semblent posséder.
Voici quelques-unes des tâches pour lesquelles les LLMs sont couramment utilisés:
- Chatbots à usage général (comme ChatGPT et Google Gemini)
- Résumé des résultats de recherche et d’autres informations provenant du web
- Chatbots de service client qui sont entraînés sur les documents et les données de votre entreprise
- Traduction de texte d’une langue à une autre
- Conversion de texte en code informatique, ou d’une langue à une autre
- Génération de messages pour les médias sociaux, d’articles de blog et d’autres copies marketing
- Analyse des sentiments
- Modération de contenu
- Correction et édition de textes
- Analyse de données
Et des centaines d’autres choses. Nous n’en sommes qu’aux premiers jours de la révolution actuelle de l’IA.
Mais il y a aussi beaucoup de choses que les LLMs ne peuvent pas faire, mais que d’autres types de modèles d’IA peuvent faire. Quelques exemples:
- Interpréter des images
- Générer des images
- Convertir des fichiers entre différents formats
- Créer des tableaux et des graphiques
- Effectuer des calculs mathématiques et d’autres opérations logiques
Bien sûr, certains LLMs et chatbots semblent faire certaines de ces choses. Mais dans la plupart des cas, un autre service d’IA intervient pour les aider – ou vous utilisez en fait un LMM.
Pourquoi y a-t-il autant de LLMs ?
Jusqu’à il y a un an ou deux, les LLMs étaient limités aux laboratoires de recherche et aux démonstrations technologiques lors de conférences sur l’IA. Maintenant, ils alimentent d’innombrables applications et chatbots, et il existe des centaines de modèles différents que vous pouvez exécuter vous-même (si vous avez les compétences informatiques). Comment en sommes-nous arrivés là ?
Il y a plusieurs facteurs en jeu. En voici quelques-uns:
- Avec GPT-3 et ChatGPT, OpenAI a démontré que la recherche sur l’IA avait atteint le point où elle pouvait être utilisée pour construire des outils pratiques – de nombreuses autres entreprises ont donc commencé à faire la même chose.
- L’entraînement des LLMs nécessite beaucoup de puissance de calcul, mais il peut être réalisé en quelques semaines ou quelques mois.
- Il existe de nombreux modèles ouverts qui peuvent être réentraînés ou adaptés à de nouveaux modèles sans qu’il soit nécessaire de développer un tout nouveau modèle.
- Beaucoup d’argent est investi dans les entreprises d’IA, il y a donc de fortes incitations pour toute personne ayant les compétences et les connaissances nécessaires à développer un LLM à le faire.
Que peut-on attendre des LLMs à l’avenir ?
Il est probable que nous verrons beaucoup plus de LLMs dans un avenir proche, en particulier de la part des grandes entreprises technologiques. Apple, Amazon, IBM, Intel et NVIDIA ont tous des LLMs en cours de développement, de test ou disponibles pour les clients. Ils ne sont pas aussi populaires que les modèles énumérés ci-dessus, et il est peu probable que des personnes ordinaires les utilisent directement, mais il est raisonnable de s’attendre à ce que les grandes entreprises commencent à les déployer à grande échelle, à la fois en interne et pour des services comme le support client.
On peut également s’attendre à voir beaucoup plus de LLMs efficaces, conçus pour fonctionner sur les smartphones et autres appareils légers. Google a déjà fait allusion à cela avec Gemini Nano, qui exécute certaines fonctions sur le Google Pixel Pro 8, et Apple Intelligence devrait arriver sur les appareils Apple plus tard cette année. Une plus grande attention a également été accordée aux modèles plus petits qui sont capables de surpasser leur taille, comme le Mixtral 8x22B de Mistral.
L’autre grande nouveauté à venir est celle des grands modèles multimodaux ou LMMs. Ceux-ci combinent la génération de texte avec d’autres modalités, comme les images et l’audio, ce qui permet de demander à un chatbot ce qui se passe dans une image ou de lui faire répondre par de l’audio. GPT-4o et les modèles Gemini de Google sont deux des premiers LMMs largement déployés, bien que toutes leurs capacités ne soient pas encore déployées – nous allons certainement en voir d’autres.
En dehors de cela, qui peut le dire ? Il y a trois ans, il était difficile d’imaginer que nous aurions des IA puissantes comme ChatGPT disponibles gratuitement. Peut-être que dans quelques années, nous aurons une intelligence générale artificielle (AGI).