Malgré le fait que GPT-3 soit une technologie relativement ancienne, elle a reçu une nouvelle attention en novembre. Immédiatement après OpenAI, les créateurs de GPT-3 ont révélé un ChatGPT révolutionnaire. Si, pour une raison ou une autre, vous n’avez pas entendu parler de ce phénomène, nous allons vous expliquer rapidement de quoi il s’agit et pourquoi tout le monde en parle.

Cependant, c’est sur les alternatives gratuites au TPG-3 que nous allons nous concentrer aujourd’hui. Commençons donc par les principes de base avant de passer à l’examen des alternatives libres à cette technologie à la mode.

Qu’est-ce que GPT-3 ?

GPT-3 (Generative Pretrained Transformer), est un modèle d’intelligence artificielle capable de créer pratiquement n’importe quel type de doublage de type humain. Le GPT-3 s’est déjà essayé à la rédaction de poèmes, d’e-mails, de traductions, de tweets et même de code informatique. Il lui suffit d’un tout petit message pour définir le sujet afin de générer n’importe quel type de matériel.

En réalité, GPT-3 a plus de 175 milliards de paramètres et est un grand modèle de langage (LLM), ou réseau neuronal compliqué. Il a été entraîné sur un volume considérable de données provenant de l’Internet – par « considérable », nous entendons environ 700 Go de données.

ChatGPT est un chatbot qui peut répondre à des requêtes en simulant une conversation. Il est basé sur la technologie GPT-3, comme vous avez pu le supposer précédemment. Certains pensent même qu’il pourrait éventuellement provoquer la faillite de Google.

Maintenant que vous avez une compréhension générale de la technologie dont nous parlons, passons aux concurrents d’OpenAI GPT-3.

OPT

Meta a publié un substitut open-source fiable pour GPT-3 en mai 2022. OPT, également connu sous le nom de modèle de langage Open Pretrained Transformer, possède 175B paramètres. OPT a été entraîné à l’aide d’une variété de jeux de données ouverts, dont BookCorpus et The Pile.

Le fait que l’OPT intègre à la fois des modèles pré-formés et le code source permettant de les utiliser ou de les former constitue son principal facteur de différenciation.

Il n’est actuellement accessible que pour les besoins de la recherche avec une licence non commerciale. Afin de mieux comprendre la technologie et de déterminer les bases de son utilisation éthique, Meta souhaite habiliter les laboratoires de recherche universitaires, gouvernementaux, civils et industriels.

AlexaTM

Le 18 novembre 2022, Amazon a annoncé publiquement le lancement d’AlexaTM, un modèle de séquence2séquence multilingue de grande taille. Qu’est-ce qui le rend si unique ? Il utilise une architecture d’encodeur-décodeur et a été entraîné en utilisant des tâches de débruitage et de modélisation causale du langage (CLM).

De ce fait, AlexaTM apprend de nouvelles informations plus rapidement que les versions à décodeur seul. Par conséquent, il surpasse le PaLM 540B de Google dans les tâches de résumé à un coup et de traduction automatique. De plus, en utilisant les jeux de données SuperGlue et SQuADv2, le modèle surpasse le GPT-3 dans les tests zéro-shot.

En ce qui concerne les questions moins techniques, AlexaTM prend en charge une variété de langues, notamment l’anglais, l’espagnol, l’arabe, l’allemand, l’hindi, le français, le japonais, l’italien, le portugais et d’autres langues (comme son nom l’indique).

Tout bien considéré, cela fait d’AlexaTM un rival redoutable pour tout autre LLM, gratuit ou non.

Jurassic-1

AI21 Labs a développer Jurassic-1, un modèle autorégressif de traitement du langage naturel (NLP) accessible aux développeurs et aux universitaires en version bêta ouverte.

Bien qu’il ne soit pas entièrement open-source, vous recevez 90 dollars de crédits gratuits après vous être inscrit. Grâce aux modèles préétablis pour la reformulation, le résumé, la rédaction, la conversation, la création d’ébauches, le tweet, le codage et d’autres tâches, vous pouvez utiliser ces crédits dans l’aire de jeu. En outre, vous êtes en mesure de concevoir et d’affiner vos propres modèles uniques.

Grâce à ses deux composants, J1-Jumbo, qui a été entraîné sur plus de 178B paramètres, et J1-Large, qui a été entraîné sur seulement 7B paramètres, Jurassic-1 pourrait devenir un challenger très redoutable pour GPT-3. En conséquence, il est déjà 3B paramètres plus sophistiqué que le modèle de langage GPT-3.

CodeGen

Vous ne pouviez pas manquer une autre option open-source de GPT-3. Développé par Salesforce, CodeGen est un modèle de langage à grande échelle capable de créer des programmes à partir d’invites en texte brut, comme son nom l’indique. L’approche est basée sur l’idée de l’IA conversationnelle, qui tente de combiner l’apport créatif humain avec un potentiel de codage IA virtuellement illimité.

Trois types de modèles (NL, multi et mono) de différentes tailles sont inclus dans la version de CodeGen (350M, 2B, 6B et 16B). Chaque type de modèle est développé à l’aide d’une variété de jeux de données :

La caractéristique la plus étonnante de CodeGen est que n’importe qui, indépendamment de ses compétences techniques, peut l’utiliser. Néanmoins, comme l’IA n’est pas encore sans défaut, l’expertise en programmation aidera à produire de meilleures et plus belles solutions.

Megatron-Turing NLG

Étant donné qu’il possède plus de 530B caractéristiques, ce NLG est l’un des plus grands. Megatron-Turing NLG (Natural Language Generation) est un produit de la coopération entre Microsoft et NVIDIA. Ils ont utilisé le supercalculateur Selene basé sur NVIDIA DGX SuperPOD et le jeu de données The Pile pour entraîner le modèle.

D’après les recherches publiées en octobre 2021, le modèle Megatron-Turing NLG obtient de très bons résultats sur des travaux issus des jeux de données PiQA dev et LAMBADA. En outre, le modèle prédit plus de 50 % du temps dans les tests de zéro coup et augmente ces pourcentages dans les tests de un et quatre coups.

Microsoft et NVIDIA fournissent actuellement un accès anticipé à Megatron-Turing NGL et invitent d’autres entreprises à collaborer à leurs recherches. Leur principal objectif est de réduire les réponses incorrectes, la toxicité et les biais dans les grands modèles linguistiques et de créer des politiques pour l’utilisation responsable de l’IA.

LaMDA

LaMDA est une conception de décodeur uniquement pour un modèle de langage autorégressif pour les applications de dialogue. Le modèle peut construire des listes et être entraîné à converser sur certains sujets spécifiques à un domaine, en plus d’engager une conversation générale sur divers thèmes.

Les modèles de dialogue sont évolutifs et tolérants aux dépendances durables. Par conséquent, ils sont capables de prendre en compte le contexte passé en plus de l’entrée actuelle. En outre, ils s’appuient sur le domaine.

Par exemple, pour que LaMDA puisse faire des recommandations musicales, les chercheurs de Google l’ont préconditionné sur de nombreux cycles de dialogues spécifiques aux rôles. Google le met à la disposition du public, mais vous devez vous inscrire à la file d’attente pour accéder au modèle.

BLOOM

En tant que substitut open-source de GPT-3, le LLM autorégressif BLOOM a été créé par un certain nombre de contributeurs dans le cadre de l’atelier BigScience. Plus de 1000 chercheurs en IA, dont des experts de Microsoft, NVIDIA, PyTorch et d’autres sociétés, ont rejoint cette initiative. Toute personne intéressée par la recherche sur les performances et le comportement des énormes modèles de langage et qui accepte les conditions de licence du modèle peut utiliser le BLOOM.

Le modèle peut gérer 46 langues et 13 langages de programmation et a été entraîné sur 176B paramètres entre mars et juillet 2022. Il existe également dans des tailles plus petites avec moins de paramètres.

Le modèle BLOOM a été construit sur Megatron-LM, le précurseur à 8,3 milliards de paramètres de Megatron-Turing NLG, et en tant que tel, il comporte un décodeur uniquement.

BERT

L’un des premiers modèles de langage de transformateur est BERT (Bidirectional Encoder Representations from Transformers), qui a été mis en open-source en 2018 et a été pré-entraîné sur des textes Wikipédia. Depuis 2019, Google l’utilise pour améliorer la compréhension des intentions de recherche et fournir une prédiction plus précise des requêtes.

BERT est une représentation linguistique non supervisée et bidirectionnelle par conception. Cela indique que le modèle considère à la fois le contexte antérieur et les conditions qui viendront après lui afin de poursuivre la phrase.

Lorsque BERT a été développé, il a été comparé à d’autres modèles et les résultats étaient nettement meilleurs. Voici un exemple des résultats obtenus par le modèle lors du test GLUE :

GLaM

Le modèle de langage généraliste, ou GLaM, a été créé par Google. Il a été dévoilé en décembre 2021 et possède des spécifications de 1,2T, ce qui en fait l’un des plus grands types actuellement utilisés. Google n’a pas mis son code source à la disposition du public, mais le concept lui-même est impressionnant.

Sa principale particularité est qu’il combine des modèles experts (MoE). Il est constitué de nombreuses couches ou sous-modèles, souvent appelés experts, chacun étant spécialisé dans un domaine distinct. Un réseau de sélection choisit les experts les plus pertinents en fonction des données d’entrée (normalement, deux pour chaque mot ou sa partie). Néanmoins, cela signifie que le modèle n’utilise pas tout son potentiel ; pendant l’inférence, il active généralement environ 97B des paramètres.

Parmi les évaluations utilisées, citons la compréhension de lecture en contexte, le raisonnement de bon sens, les activités de type Winograd et la réponse à des questions dans un domaine ouvert.

GPT-J et GPT-NeoX

GPT-J est un modèle autorégressif facile à utiliser, à 6 paramètres B, pour la création de textes. The Pile, un ensemble de données comprenant 22 sous-ensembles et plus de 800 Go de textes anglais, a servi de données d’entraînement.

Malgré sa taille modeste, le modèle surpasse GPT-Neo et GPT-3 6.7B-param en termes de performances. Ce dernier a deux versions avec 1,3 et 2,7 milliards et s’est développé en GPT-NeoX en février 2022 avec 20 milliards de paramètres.

Wu Dao 2.0

L’Académie d’intelligence artificielle de Pékin a créé Wu Dao, un modèle d’apprentissage profond multimodal et multitâche pré-entraîné, qui se traduit du chinois par « chemin vers la conscience » (BAAI). Avec 1,75 trillion de paramètres, ils affirment qu’il s’agit du plus grand transformateur jamais créé. La version la plus ancienne a été mise à disposition en 2021, et la plus récente a été lancée en mai 2022.

Wu Dao a été entraîné sur un ensemble de données spécialement créé qui contient environ 3,7 téraoctets de textes et d’images en chinois et en anglais à l’aide de The Pile. Il est donc capable de comprendre le langage, de produire des textes, de reconnaître et de produire des images, ainsi que de produire des images à partir d’instructions textuelles. À l’instar de Google GLaM, le modèle utilise une architecture MoE.

Des titans de l’industrie chinoise comme Xiaomi Corporation et Kuaishou Technology sont déjà partenaires de BAAI (le propriétaire du réseau social de vidéos courtes).

Chinchilla

Un récent modèle de langage optimal pour le calcul, appelé Chinchilla, a été publié en mars 2022 par le groupe DeepMind AI, que Google a acquis en 2014.

Bien que le modèle ne compte que 70 milliards de paramètres, il a été entraîné sur 1,4 trillion de tokens (données textuelles), soit quatre fois plus que les MLL les plus utilisés.

Chinchilla démontre que les grandes performances sont définies par la quantité de tokens d’entraînement plutôt que par la taille des paramètres. Cette découverte pourrait donner à d’autres modèles la possibilité d’évoluer en fonction du volume de données sur lequel ils sont entraînés plutôt que du nombre de paramètres.

Loïc Frissard

Passionné par le web et l’entrepreneuriat, j’ai fondé Digitiz en 2016. Mon objectif est de vous transmettre mon expérience et de pouvoir vous faire gagner du temps dans le choix de vos outils.

Pin It on Pinterest

Share This