金十データ3月4日の情報によると、豆包の大規模モデルチームの公式ウェブサイトによると、最近、豆包の大規模モデルチームがオープンソースSuperGPQA、領域全体をカバーし、高い識別力を備えた知識推論ベンチマークテストをリリースしました。このデータセットは、研究科目を285個カバーし、26529の専門問題を含む評価体系を構築しており、主要な学科だけでなく、軽工業、農業、サービス科学などのロングテールの学科も取り入れており、幅広い学科領域を示し、ロングテールの知識評価領域の空白を埋めることになります。
14.2K 人気度
26.4K 人気度
68.8K 人気度
10.3K 人気度
24.9K 人気度
豆包大モデルチームオープンソースベンチマークテストセットSuperGPQA
金十データ3月4日の情報によると、豆包の大規模モデルチームの公式ウェブサイトによると、最近、豆包の大規模モデルチームがオープンソースSuperGPQA、領域全体をカバーし、高い識別力を備えた知識推論ベンチマークテストをリリースしました。このデータセットは、研究科目を285個カバーし、26529の専門問題を含む評価体系を構築しており、主要な学科だけでなく、軽工業、農業、サービス科学などのロングテールの学科も取り入れており、幅広い学科領域を示し、ロングテールの知識評価領域の空白を埋めることになります。