o1 发布到现在,最大的槽点就是“太唠叨”了。


我就想修个简单的 bug,它给我整出三段背景、两套方案外加错误处理,最后还要祝我好运。
本来只想找第12行的拼写错误,结果被迫复习了一遍 Python 命名规范。
这锅得扣在 RLHF 头上。标注员倾向给长回复打高分,觉得字多显专业。
于是模型拼命堆砌“看起来有用”的废话,真正核心的信息反倒被稀释了。
看看隔壁,Claude 在这方面就懂事很多,知道什么问题配什么长度。
最伤的还是钱包:o1 输出端定价 $60/1M tokens,明明 100 token 能讲完的事,硬是灌水到 500,成本原地翻五倍。
现在提问还得专门加一句“只要代码”,甚至这都不一定管用。
模型现在的状态就是:智商极高,但情商掉线,根本不知道什么时候该闭嘴。
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论