ドンチャビーティングの監視によると、The Informationは関係者に詳しい情報筋と、Tencentの内部メモを引用しています。そのメモには、Tencentの従業員がAnthropicのClaude Codeを、Hy3モデルの開発後期のトレーニング後段階で使用したことが記されており、Anthropicは国家安全保障上の理由から中国企業への商業サービスを明確に禁止しているにもかかわらずです。Hy3はTencent史上最も強力な大規模言語モデルで、295BパラメータのMoEアーキテクチャを特徴とし、昨年末にTencentに加入した最高AI科学者の姚舜宇の指導の下で開発されました。RLHF(人間のフィードバックによる強化学習)フェーズでは、Tencentは従業員を人間評価者として組織し、内部メモにはClaude Codeのインストールガイドラインと、「一人当たり数千トークン」の使用制限が記されていました。Tencentの従業員はこれを蒸留(より強力なモデルの出力を用いて弱いモデルを訓練すること)とは考えていませんでした。彼らのアプローチは、同じプログラミングの質問を匿名の2つのモデルに提示し、ブラインド評価を行うことでした。同時に、Claude Codeを使って高品質な行動例をリアルタイムで生成し、低品質な回答をフィルタリングするための参考資料として利用していました。複数のAI企業の従業員は、ポストトレーニング中に業界をリードするモデルをベンチマークとして使用することは一般的な慣行であると確認しています。Anthropicのスポークスパーソンは、「当社のセキュリティチームは蒸留攻撃を積極的に監視し、発見次第直ちに対処している」と述べましたが、TencentのClaude Codeの使用については直接言及しませんでした。中国の企業や開発者がClaudeにアクセスする一般的な方法は、仲介者を通じて、または非中国の電話番号やクレジットカードで登録することです。今月初め、Anthropicは認証要件を厳格化し、一部のユーザーには政府発行のID写真や個人写真の提供を求めるようになりました。
テンセント内部メモが明らかに:最新モデルHy3は事後学習段階でクロードコードを使用
ドンチャビーティングの監視によると、The Informationは関係者に詳しい情報筋と、Tencentの内部メモを引用しています。そのメモには、Tencentの従業員がAnthropicのClaude Codeを、Hy3モデルの開発後期のトレーニング後段階で使用したことが記されており、Anthropicは国家安全保障上の理由から中国企業への商業サービスを明確に禁止しているにもかかわらずです。Hy3はTencent史上最も強力な大規模言語モデルで、295BパラメータのMoEアーキテクチャを特徴とし、昨年末にTencentに加入した最高AI科学者の姚舜宇の指導の下で開発されました。RLHF(人間のフィードバックによる強化学習)フェーズでは、Tencentは従業員を人間評価者として組織し、内部メモにはClaude Codeのインストールガイドラインと、「一人当たり数千トークン」の使用制限が記されていました。Tencentの従業員はこれを蒸留(より強力なモデルの出力を用いて弱いモデルを訓練すること)とは考えていませんでした。彼らのアプローチは、同じプログラミングの質問を匿名の2つのモデルに提示し、ブラインド評価を行うことでした。同時に、Claude Codeを使って高品質な行動例をリアルタイムで生成し、低品質な回答をフィルタリングするための参考資料として利用していました。複数のAI企業の従業員は、ポストトレーニング中に業界をリードするモデルをベンチマークとして使用することは一般的な慣行であると確認しています。Anthropicのスポークスパーソンは、「当社のセキュリティチームは蒸留攻撃を積極的に監視し、発見次第直ちに対処している」と述べましたが、TencentのClaude Codeの使用については直接言及しませんでした。中国の企業や開発者がClaudeにアクセスする一般的な方法は、仲介者を通じて、または非中国の電話番号やクレジットカードで登録することです。今月初め、Anthropicは認証要件を厳格化し、一部のユーザーには政府発行のID写真や個人写真の提供を求めるようになりました。