Série Xiaomi MiMo-V2.5 Open Source : 1T de paramètres sous licence MIT, efficacité en tokens surpassant GPT-5.4 sur ClawEval

robot
Création du résumé en cours

Selon la surveillance de Dongcha Beating, l’équipe Xiaomi MiMo a open-sourcé la série de grands modèles MiMo-V2.5, qui comprend deux modèles, tous deux sous licence MIT, supportant le déploiement commercial, la formation continue et le réglage fin, avec une fenêtre de contexte allant jusqu’à 1 million de tokens. Le MiMo-V2.5-Pro est un modèle MoE purement textuel (architecture de mélange d’experts) avec un total de 1,02 trillion de paramètres et 42 milliards de paramètres actifs ; le MiMo-V2.5 est un modèle multimodal natif avec un total de 310 milliards de paramètres et 15 milliards de paramètres actifs, supportant la compréhension du texte, des images, des vidéos et de l’audio. Le MiMo-V2.5-Pro cible principalement les tâches complexes d’agents et de programmation. Dans l’évaluation ClawEval, V2.5-Pro a atteint un taux de réussite de 64 %, atteignant des niveaux comparables tout en consommant seulement environ 70 000 tokens par trajectoire de tâche, ce qui représente environ 40 % à 60 % de moins que Claude Opus 4.6, Gemini 3.1 Pro et GPT-5.4. Le score vérifié SWE-bench est de 78,9. Dans un cas présenté sur le blog officiel, V2.5-Pro a autonomement implémenté un compilateur complet SysY vers RISC-V pour un projet de principes de compilateur à l’Université de Pékin, en 4,3 heures et 672 appels d’outils, obtenant un score parfait de 233/233 sur un ensemble de tests cachés. Le MiMo-V2.5 est conçu pour les scénarios d’agents multimodaux, équipé d’un encodeur visuel dédié (ViT de 729 millions de paramètres) et d’un encodeur audio (261 millions de paramètres), avec un score de 62,3 sur le sous-ensemble général Claw-Eval. Les deux modèles utilisent une architecture mixte d’attention à fenêtre glissante (SWA) et d’attention globale (GA), ainsi qu’un module de prédiction multi-token (MTP) à 3 couches (prédiction de plusieurs tokens en une seule fois pour accélérer l’inférence). Les poids ont été publiés sur Hugging Face. Avec la sortie open-source, l’équipe MiMo a lancé le « Programme d’incitation à la création de trillions de tokens Orbit », offrant un quota total de 100 trillions de tokens gratuit aux utilisateurs mondiaux dans les 30 jours. Les développeurs individuels, les équipes et les entreprises peuvent postuler sur la page de l’événement, avec une période d’évaluation d’environ 3 jours ouvrables. Après approbation, les avantages seront crédités sous forme de Plan Token ou de subventions, pouvant être directement utilisés avec des outils de programmation comme Claude Code et Cursor.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler