3. Градієнтні оновлення стосуються внутрішніх обчислень моделі, яка оновлюється. Навіть якщо функції винагороди є "людськими виборами", чим вони не завжди є (, наприклад, RLAIF), спосіб, яким модель оновлюється на винагородах, залежить від ваг і активацій моделі, і
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
12 лайків
Нагородити
12
6
Репост
Поділіться
Прокоментувати
0/400
AirdropChaser
· 4год тому
Градiєнтне рівняння здивувало
Переглянути оригіналвідповісти на0
DataPickledFish
· 5год тому
Це занадто складно.
Переглянути оригіналвідповісти на0
GateUser-7b078580
· 5год тому
Градієнтне оновлення цього Алгоритму є нерозумним....
3. Градієнтні оновлення стосуються внутрішніх обчислень моделі, яка оновлюється. Навіть якщо функції винагороди є "людськими виборами", чим вони не завжди є (, наприклад, RLAIF), спосіб, яким модель оновлюється на винагородах, залежить від ваг і активацій моделі, і