3. 梯度更新是针对模型内部计算的更新。即使奖励函数是“人类选择”,但它们并不总是(,例如RLAIF),模型在奖励上的更新方式取决于模型的权重和激活,以及

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 6
  • 转发
  • 分享
评论
0/400
空投追逐者vip
· 6小时前
梯度方程看傻了
回复0
数据酸菜鱼vip
· 7小时前
这也太复杂了叭
回复0
GateUser-7b078580vip
· 7小时前
梯度更新这算法又不合理....
回复0
Gwei_Watchervip
· 7小时前
内部计算太深奥了8
回复0
社区潜水员vip
· 7小时前
这公式太难了吧。。。
回复0
口嗨做多王vip
· 7小时前
梯度大小都是玄学啦
回复0
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)