Falcon 180B surpasse LLaMA 2 et d’autres modèles à la fois en matière d’échelle et de performances dans toute une série de tâches de traitement du langage naturel (NLP). Falcon 180B se classe au premier rang du classement Hugging Face des modèles en libre accès avec 68,74 points et atteint presque la parité avec des modèles commerciaux comme le PaLM-2 de Google sur des évaluations telles que le benchmark HellaSwag. Plus précisément, les données de l’équipe montrent que Falcon 180B égale ou dépasse PaLM-2 Medium sur des critères de référence couramment utilisés, notamment HellaSwag, LAMBADA, WebQuestions, Winogrande, etc.
Falcon 180B est pratiquement au même niveau que PaLM-2 Large de Google. Cela représente une performance extrêmement forte pour un modèle open source, même lorsqu’il est comparé à des solutions développées par des géants de l’industrie. Comparé à ChatGPT, le modèle serait plus puissant que la version gratuite, mais moins performant que le service payant ChatGPT Plus, lancé au début de l’année. « Falcon 180B se situe entre GPT-3.5 et GPT-4 en fonction du benchmark d’évaluation, et il sera très intéressant de suivre les améliorations apportées par la communauté maintenant qu’il est disponible en libre accès », explique l’équipe de l’Institut.
Pour les personnes recherchant des capacités conversationnelles prêtes à l’emploi, le TII propose Falcon 180B-Chat, un dérivé du Falcon 180B, affiné sur un mélange d’ensembles de données de chat. La variante Chat présente ses propres avantages, avec une architecture optimisée pour l’inférence. Cependant, elle n’est pas idéale pour ceux qui cherchent à affiner le modèle pour des tâches spécifiques d’instruction ou de conversation. Falcon 180B est maintenant disponible gratuitement sur le portail Hugging Face, et le TII d’Abu Dhabi a déclaré mercredi que le nouveau modèle d’IA pouvait être utilisé à des fins de recherche et de commercialisation.
