Selon les données de Jinshi du 4 mars, selon le message officiel de l'équipe de modélisation de gros sac de haricots, récemment, l'équipe de modélisation de gros sac de haricots a publié en open source le Super GPQA, un test de benchmark de raisonnement de connaissances complet et à haute résolution dans un domaine. Selon les informations, cet ensemble de données construit un système d'évaluation couvrant 285 disciplines de niveau supérieur, avec 26529 questions professionnelles, couvrant non seulement les disciplines principales, mais également des disciplines de longue traîne telles que l'industrie légère, l'agriculture, les sciences du service, etc., démontrant une large couverture de disciplines, comblant le vide dans le domaine de l'évaluation des connaissances de longue traîne.