Une note interne de Tencent divulguée : le dernier modèle Hy3 a utilisé Claude Code lors de la phase post-formation

robot
Création du résumé en cours

Selon le rapport de Beating Monitoring, « The Information » cite des sources proches du dossier et un mémo interne de Tencent révélant que des employés de Tencent ont utilisé Claude Code d’Anthropic lors de la phase de post-entraînement du modèle Hy3, malgré l’interdiction claire d’Anthropic de fournir des services commerciaux aux entreprises chinoises pour des raisons de sécurité nationale.

Hy3 est le modèle de langage le plus puissant de la série Mengyuan de Tencent à ce jour, avec une architecture MoE de 295 milliards de paramètres, développé sous la direction de Yao Shunyu, le premier scientifique en IA de Tencent, à la fin de l’année dernière. Lors de la phase RLHF (apprentissage par renforcement basé sur le feedback humain), Tencent a organisé ses employés pour qu’ils jouent le rôle d’évaluateurs humains, un mémo interne fournissant un guide d’installation pour Claude Code, avec une limite d’utilisation de « quelques milliers de tokens » par personne.

Les employés de Tencent ne considèrent pas cela comme de la distillation (entraîner un modèle plus faible à partir de la sortie d’un modèle plus fort). Leur méthode consiste à soumettre la même question de programmation à deux modèles anonymes, puis à effectuer une évaluation à l’aveugle ; en même temps, ils utilisent Claude Code pour générer en temps réel des exemples de comportements de haute qualité comme référence, afin d’aider à filtrer les réponses de faible qualité. Plusieurs employés de sociétés d’IA ont confirmé que l’utilisation de modèles de référence de pointe dans le post-entraînement est une pratique courante.

Un porte-parole d’Anthropic a déclaré que l’équipe de sécurité de l’entreprise « surveille activement les attaques de distillation et agit immédiatement lorsqu’elles sont détectées », mais n’a pas répondu directement à la question de l’utilisation de Claude Code par Tencent. Les moyens courants pour les entreprises et développeurs chinois d’accéder à Claude sont via des intermédiaires, des enregistrements avec des numéros de téléphone non chinois ou des cartes de crédit. Au début de ce mois, Anthropic a renforcé ses exigences d’authentification, certains utilisateurs devant fournir une pièce d’identité officielle délivrée par le gouvernement et une photo d’eux-mêmes.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler