Alors qu’OpenAI est en pleine crise existentielle, il y a une nouvelle mise à jour du chatbot d’Anthropic, la start-up d’IA soutenue par Google et fondée par d’anciens ingénieurs d’OpenAI qui sont partis suite à des désaccords sur la direction de plus en plus commerciale de l’entreprise alors que son partenariat avec Microsoft se poursuivait.

Anthropic a annoncé que la dernière mise à jour de son chatbot, Claude 2.1, peut traiter jusqu’à 200 000 token à la fois pour les utilisateurs du niveau Pro, ce qui équivaut, selon l’entreprise, à plus de 500 pages de matériel.

La société déclare également que Claude hallucinera – ou mentira – deux fois moins souvent qu’avant, et il peut faire des choses comme rechercher sur le web ou utiliser une calculatrice grâce à des outils personnalisables. Le chatbot prend également en charge des instructions personnalisées et persistantes et dispose d’une nouvelle fenêtre de test pour essayer des invites.

La fonctionnalité de 200 000 tokens double ce que Claude pouvait gérer auparavant, et c’est une limite significativement plus élevée que le plafond de 32 000 tokens de la version la plus chère de GPT-4. Anthropic appelle cela une « première dans l’industrie » et dit que cela permet au chatbot d’examiner des téléchargements de bases de code complètes ou d’œuvres comme l' »Iliade ». Le nombre de tokens plus élevé est exclusif au plan Pro de l’entreprise.

Claude AI Homepage

Anthropic a également rapproché Claude de ChatGPT avec la nouvelle fonctionnalité bêta d’utilisation d’outil. Les utilisateurs peuvent désormais connecter des outils API, et Claude choisira le meilleur pour le travail en fonction du contexte. Cela inclut l’utilisation d’une calculatrice ou la recherche sur le web, et la société dit que les utilisateurs peuvent demander des appels API spécifiques en utilisant un langage naturel.

Enfin, la société a déclaré avoir mis à jour sa console de développeur avec une fenêtre de test pour essayer de nouvelles invites et a ajouté la capacité de donner à Claude des instructions personnalisées et persistantes. Comme avec GPT-4, cela signifie que vous pouvez personnaliser le chatbot pour qu’il réponde de manière spécifique ou avec des personnalités spécifiques.

Anthropic a été fondée à l’origine en 2021 par d’anciens employés d’OpenAI, y compris l’ancien vice-président de la recherche chez OpenAI, Dario Amodei. Anthropic s’est séparé pour se concentrer sur la construction de LLMs de plus grande taille et plus sûrs.

Alors que les LLMs actuels sont précis à environ 80% dans leurs réponses, la société de recherche GlobalData prévoit dans son briefing exécutif sur l’IA que des LLMs avec une précision de 99% pourraient être atteints dans les 10 à 30 prochaines années.

Ce niveau de précision pourrait amener le début des LLMs remplaçant complètement des titres de poste ou des équipes, poussant l’IA au-delà d’un simple outil de collaboration humaine.

D’ici 2030, GlobalData prévoit que le marché mondial de l’IA sera évalué à plus de 900 milliards de dollars.

Tour d’horizon des nouvelles fonctionnalités :

Claude 2.1 peut assimiler jusqu’à 200 000 jetons à la fois

Depuis son lancement plus tôt cette année, Claude, un outil alimenté par l’IA, est devenu une option privilégiée pour des millions d’utilisateurs dans divers domaines. Que ce soit pour traduire des articles académiques, rédiger des plans d’affaires ou analyser des contrats complexes, Claude a été un outil fiable et efficace pour les utilisateurs.

Sur la base des retours des utilisateurs, les développeurs ont amélioré Claude avec une fenêtre de contexte plus grande et des sorties plus précises lorsqu’il travaille avec des documents volumineux. Désormais, les utilisateurs peuvent télécharger de la documentation technique telle que des bases de code entières, des états financiers comme des S-1, ou même de longues œuvres littéraires telles que L’Iliade ou L’Odyssée. Claude peut traiter jusqu’à 200 000 tokens, ce qui équivaut à environ 150 000 mots ou plus de 500 pages de matériel, ce qui rend plus pratique pour les utilisateurs de travailler avec de plus grands ensembles de contenu ou de données.

Cette nouvelle capacité permet à Claude de résumer, d’effectuer des Q&R, de prévoir des tendances, de comparer et de contraster plusieurs documents, et bien plus encore. Cependant, traiter un message de 200 000 de longueur est un exploit complexe et une première dans l’industrie, donc des tâches qui nécessiteraient typiquement des heures d’effort humain pour être complétées peuvent prendre à Claude quelques minutes. On s’attend à ce que la latence diminue considérablement à mesure que la technologie progresse.

Diminution de 2x des taux d’hallucination

Claude 2.1 est maintenant plus honnête et fiable que jamais. Nous l’avons soumis à des tests rigoureux et avons constaté qu’il offre maintenant une diminution de 2x des fausses déclarations par rapport à notre modèle Claude 2.0 précédent. C’est une percée majeure qui permet aux entreprises de construire des applications d’IA performantes qui résolvent des problèmes commerciaux concrets avec plus de confiance et de fiabilité.

Pour tester l’honnêteté de Claude 2.1, les développeurs ont préparé un grand ensemble de questions factuelles complexes qui sondent les faiblesses connues des modèles actuels. Nous avons utilisé une grille qui distingue les affirmations incorrectes des admissions d’incertitude et avons constaté que Claude 2.1 était significativement plus susceptible de se rétracter plutôt que de fournir des informations incorrectes. Cela signifie que vous pouvez désormais faire confiance à Claude 2.1 pour fournir des réponses précises même face à des questions délicates.

Mais ce n’est pas tout. Claude 2.1 a également réalisé des améliorations significatives en termes de compréhension et de résumé, en particulier pour les documents longs et complexes qui exigent un haut degré de précision, tels que les documents juridiques, les rapports financiers et les spécifications techniques. Dans les évaluations, Claude 2.1 a démontré une réduction de 30 % des réponses incorrectes et un taux 3 à 4 fois inférieur de conclure à tort qu’un document soutient une revendication particulière. Cela signifie que vous pouvez désormais compter sur Claude 2.1 pour fournir des résumés précis et perspicaces même des documents les plus complexes.

Utilisation de l’API

À la demande populaire, le développeur de Claude a également ajouté l’utilisation d’outils, une nouvelle fonctionnalité bêta qui permet à Claude de s’intégrer aux processus, produits et API existants des utilisateurs. Cette interopérabilité élargie vise à rendre Claude plus utile dans les opérations quotidiennes de nos utilisateurs.
 
Claude peut désormais orchestrer des fonctions ou des API définies par les développeurs, rechercher sur des sources web et récupérer des informations à partir de bases de connaissances privées. Les utilisateurs peuvent définir un ensemble d’outils pour que Claude les utilise et spécifier une demande. Le modèle décidera ensuite de l’outil nécessaire pour accomplir la tâche et exécutera une action en leur nom, telles que :
 
  • Utiliser une calculatrice pour un raisonnement numérique complexe
  • Traduire des demandes en langage naturel en appels API structurés
  • Répondre à des questions en recherchant dans des bases de données ou en utilisant une API de recherche web
  • Effectuer des actions simples dans des logiciels via des API privées
  • Se connecter à des ensembles de données de produits pour faire des recommandations et aider les utilisateurs à compléter des achats
 
L’utilisation de l’outil est actuellement en début de développement – les concepteurs construisent des fonctionnalités pour les développeurs et des directives d’invite pour une intégration plus facile dans vos applications. Les développeurs de Claude encouragent les utilisateurs à partager leurs retours sur l’utilisation de l’outil pour aider à façonner et améliorer le produit.

Expérience des développeurs

Les équipes de Claude ont travaillé pour simplifier l’expérience de notre console de développement pour les utilisateurs de l’API Claude, tout en facilitant le test de nouvelles invites pour un apprentissage plus rapide. Le nouveau produit Workbench permet aux développeurs d’itérer sur les invites dans une expérience de style aire de jeux et d’accéder à de nouveaux paramètres de modèle pour optimiser le comportement de Claude. Ils peuvent créer plusieurs invites et naviguer entre elles pour différents projets, et les révisions sont sauvegardées au fur et à mesure pour conserver le contexte historique. Les développeurs peuvent également générer des extraits de code pour utiliser leurs invites directement dans l’un de nos SDK.

Les équipes de Claude se sont concentrées sans relâche sur le raffinement de l’expérience de la console de développement pour les utilisateurs de l’API Claude. La dernière offre, le produit Workbench, permet aux développeurs de profiter d’une expérience de style aire de jeux pour itérer rapidement et efficacement sur de nouvelles invites. Avec Workbench, les développeurs peuvent accéder à une gamme de nouveaux paramètres de modèle pour optimiser le comportement de Claude, offrant une expérience plus fluide pour les utilisateurs finaux.

Avec la capacité de créer de multiples invites uniques et de naviguer sans heurt entre elles pour différents projets, Workbench offre le mélange parfait de flexibilité et de fonctionnalité. Les révisions sont automatiquement sauvegardées, fournissant le contexte historique dont les développeurs ont besoin pour suivre leurs progrès et affiner leur travail au fil du temps. Et avec la possibilité de générer des extraits de code directement à partir de Workbench, les développeurs peuvent facilement intégrer leurs invites dans l’un de nos SDK pour des flux de travail de développement plus rapides et plus efficaces.

Loïc Frissard

Passionné par le web et l’entrepreneuriat, j’ai fondé Digitiz en 2016. Mon objectif est de vous transmettre mon expérience et de pouvoir vous faire gagner du temps dans le choix de vos outils.

Pin It on Pinterest

Share This