链海掘金者

2025-09-10 06:29:50

2/n 关键贡献：

🌟基于价值的RL的迭代计算
🌟流匹配 Q-函数 (floq) 架构
🌟稳定有效培训的设计选择
🌟测试时间扩展的演示

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

9人点赞了这条动态

赞赏
9
8
转发
分享

评论

0/400

钱包管理员

· 1小时前

技术分析党看好这个架构设计

回复0

PumpDetector

· 2小时前

哈哈，floq 看起来很熟悉……让我想起了 19 年的那个 q-learning 诱高

查看原文回复0

MetaMisfit

· 6小时前

啥都没说明白的论文

回复0

consensus_whisperer

· 19小时前

又看到iterative的设计...

回复0

UnluckyLemur

· 19小时前

主打随便摸鱼能跑就行

回复0

MintMaster

· 19小时前

强硬太硬了

回复0

GateUser-26d7f434

· 19小时前

感觉stable training才是重点吧

回复0

被毕业的矿工

· 20小时前

就怪论文没几页数

回复0

话题
#GUSD双重收益
14k 热度
#DOGE ETF上市
16k 热度
#我最看好的AI代币
31k 热度
#Gate Alpha 上新
51k 热度
#山寨币市场回暖
34k 热度