DeepSeek a discrètement lancé la version V2 de l'article R1, révélant plusieurs avancées technologiques clés.
Sur la question de l'authenticité du contenu généré par les grands modèles de langage, ils ont fourni une interprétation officielle. Concernant le phénomène où le modèle mentionne fréquemment OpenAI et ChatGPT dans ses réponses, DeepSeek explique que ce n'est pas une conception intentionnelle, mais provient plutôt de l'état objectif des données d'entraînement — les corpus de pages web contiennent objectivement de grandes quantités de contenu généré en externe, et lorsque ce contenu est incorporé dans l'entraînement du modèle fondateur, il produit un impact indirect mais mesurable. Cette découverte a une importance majeure pour comprendre les caractéristiques de comportement des LLM et leur dépendance aux données.
Plus remarquable encore est leur planification concernant les orientations futures des capacités. L'article place explicitement les « sorties structurées » et l'« utilisation d'outils » comme directions de développement fondamentales de R2. Les sorties structurées permettent au modèle d'organiser les informations selon un format spécifique, améliorant l'utilisabilité dans les applications pratiques ; l'utilisation d'outils implique les capacités d'interaction du modèle avec les systèmes externes, ce qui est crucial pour étendre les frontières des applications pratiques des modèles de raisonnement. Ces orientations itératives technologiques reflètent une tendance à la transition du pur texte vers des capacités multimodales et fortement interactives.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
16 J'aime
Récompense
16
8
Reposter
Partager
Commentaire
0/400
SignatureLiquidator
· 01-10 17:22
Haha, DeepSeek fait encore profil bas en ce moment, on ne sait même pas quand une nouvelle version sortira.
Attends, ils rejettent encore la faute sur les données d'entraînement ? Parlant de la situation objective... D'accord, cette raison est effectivement solide.
La sortie structurée et l'utilisation d'outils semblent prometteuses, mais j'ai peur que ce ne soit qu'une progression sur le papier.
Voir l'originalRépondre0
SatsStacking
· 01-10 09:19
Hmm... la responsabilité de la pollution des données est encore assez directement rejetée, mais cette explication est effectivement solide
Sortie structurée + appel aux outils, c'est vraiment ce que tous les joueurs veulent, le simple chat n'a vraiment plus de compétitivité
Cette mise à jour de DeepSeek semble encore assez stable, sans cette impression d'exagération
En ce qui concerne la donnée d'entraînement, en fin de compte, personne ne peut l'éviter, il vaut mieux être honnête plutôt que de la cacher
Si R2 parvient vraiment à bien faire ses capacités d'outils, ce pourrait être le vrai moment de mérite
Le problème de la qualité des jeux de données trouble effectivement toute l'industrie, DeepSeek ose en parler franchement, c'est aussi une preuve de sincérité
Cette mise à jour ne semble pas apporter de grandes surprises, mais au moins la logique est cohérente, sans tromperie
Voir l'originalRépondre0
LightningWallet
· 01-09 12:25
Haha, cette mise à jour de DeepSeek a vraiment du contenu, sortie structurée + intégration d'outils, on dirait qu'ils préparent vraiment une grosse nouveauté
L'influence des données d'entraînement sur le comportement du modèle est un point correct, toute cette masse de contenu généré par IA sur internet peut effectivement contaminer
R2 arrive, n'est-ce pas ? La multimodalité est vraiment l'avenir
L'essentiel est de savoir si ça sera vraiment pratique, ne pas encore une fois se contenter d'une façade brillante
Voir l'originalRépondre0
SchrodingerWallet
· 01-08 07:45
DeepSeek est à nouveau discret et en progrès, tu as du culot, tu ne peux pas faire une déclaration pour nous le faire savoir ?
Les données d'entraînement sont pleines de l'ombre de ChatGPT... c'est bon maintenant, tout ce qu'on dit semble être une répétition de l'adversaire
Sortie structurée + utilisation d'outils, cela semble préparer le terrain pour la prochaine génération de praticité, R2 arrive vraiment ?
La pollution des données, tout l'écosystème ne peut pas y échapper, le fait que DeepSeek l'avoue semble au contraire honnête
Les ambitions de R2 ne sont pas petites, passant directement de la génération de texte à l'interaction multimodale, un peu agressif mais j'aime ça
Cette feuille de route technologique est assez claire, c'est juste une indication du plafond de sa propre performance
L'utilisation d'outils est vraiment la clé, sans cela un LLM aussi puissant soit-il est juste un vase
Le document V2 est sorti depuis si longtemps et les gens n'en discutent que maintenant, l'enthousiasme n'est pas à la hauteur
Voir l'originalRépondre0
MemeTokenGenius
· 01-08 07:41
Haha, deepseek recommence à faire des siennes, la sortie structurée et l'utilisation des outils sont vraiment au top.
C'est aussi intéressant de voir que tout dans les données d'entraînement porte la trace de ChatGPT, en gros, c'est un problème d'ADN Internet.
Est-ce que R2 décollera directement ? Un peu d'attente.
Voir l'originalRépondre0
GasGuzzler
· 01-08 07:41
La toxicité des données est effectivement un sujet difficile à contourner, il est difficile de dire que l'entraînement avec des traces de ChatGPT n'a aucune influence.
Mais la combinaison de sortie structurée + appel d'outils est la clé, c'est vraiment là que réside la véritable percée pratique.
DeepSeek continue à faire ça discrètement, avec une discrétion extrême... ils publient leur article seulement après avoir terminé.
Si la capacité des outils est vraiment bien développée, cela pourra réellement menacer l'écosystème d'OpenAI.
Voir l'originalRépondre0
ForkPrince
· 01-08 07:29
Hmm... la pollution des données, enfin quelqu'un ose en parler sérieusement, ce n'est pas un bug, c'est une feature haha
Les deux directions fiables sont la sortie structurée et l'appel d'outils, si R2 peut vraiment faire ça, ce serait génial
DeepSeek a vraiment cette discrétion, à chaque fois ils publient discrètement des papiers, c'est bien plus classe que certains qui en parlent tous les jours
Les données d'entraînement sont toutes issues de ChatGPT, pas étonnant que le modèle mentionne toujours leur nom, peu importe comment on le lave
Une fois que la capacité à utiliser les outils sera là, le modèle de raisonnement aura vraiment un espace d'utilisation, je suis déjà fatigué du simple chat
Voir l'originalRépondre0
wrekt_but_learning
· 01-08 07:21
Les données décident de tout, pas étonnant qu'ils mentionnent toujours OpenAI... Donc DeepSeek est une façon de suggérer que le jeu de données d'entraînement a un problème ?
---
Sortie structurée + appel d'outils, c'est la véritable clé pour ouvrir la porte à l'utilité, l'ère de la génération de texte en purement textuel est vraiment révolue
---
Attendez, ils parlent de "l'impact indirect mais mesurable"... N'est-ce pas une façon déguisée d'admettre que le modèle sera biaisé par les données d'entraînement ?
---
La feuille de route R2 est intéressante, on dirait que DeepSeek suit sa propre voie, sans suivre le courant du raisonnement pur
---
Les données d'entraînement sont toutes externes, comment ce truc peut-il garantir son indépendance...
DeepSeek a discrètement lancé la version V2 de l'article R1, révélant plusieurs avancées technologiques clés.
Sur la question de l'authenticité du contenu généré par les grands modèles de langage, ils ont fourni une interprétation officielle. Concernant le phénomène où le modèle mentionne fréquemment OpenAI et ChatGPT dans ses réponses, DeepSeek explique que ce n'est pas une conception intentionnelle, mais provient plutôt de l'état objectif des données d'entraînement — les corpus de pages web contiennent objectivement de grandes quantités de contenu généré en externe, et lorsque ce contenu est incorporé dans l'entraînement du modèle fondateur, il produit un impact indirect mais mesurable. Cette découverte a une importance majeure pour comprendre les caractéristiques de comportement des LLM et leur dépendance aux données.
Plus remarquable encore est leur planification concernant les orientations futures des capacités. L'article place explicitement les « sorties structurées » et l'« utilisation d'outils » comme directions de développement fondamentales de R2. Les sorties structurées permettent au modèle d'organiser les informations selon un format spécifique, améliorant l'utilisabilité dans les applications pratiques ; l'utilisation d'outils implique les capacités d'interaction du modèle avec les systèmes externes, ce qui est crucial pour étendre les frontières des applications pratiques des modèles de raisonnement. Ces orientations itératives technologiques reflètent une tendance à la transition du pur texte vers des capacités multimodales et fortement interactives.