3. As atualizações de gradiente são em relação aos cálculos internos do modelo que estão sendo atualizados. Mesmo que as funções de recompensa sejam "escolhas humanas", o que não são sempre (, por exemplo, RLAIF), a forma como o modelo se atualiza com base nas recompensas depende dos pesos e ativações do modelo, e o
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
12 Curtidas
Recompensa
12
7
Repostar
Compartilhar
Comentário
0/400
MidnightGenesis
· 6h atrás
A matriz de gradiente parece estranha, vale a pena estudar.
Ver originalResponder0
AirdropChaser
· 16h atrás
A equação de gradiente deixou-me perplexo.
Ver originalResponder0
DataPickledFish
· 16h atrás
Isto é demasiado complicado.
Ver originalResponder0
GateUser-7b078580
· 16h atrás
Atualização de gradiente este Algoritmo é irracional....
Ver originalResponder0
GweiWatcher
· 16h atrás
Os cálculos internos são muito profundos 8
Ver originalResponder0
SilentObserver
· 16h atrás
Esta fórmula é muito difícil...
Ver originalResponder0
AllTalkLongTrader
· 16h atrás
O tamanho do gradiente é tudo uma questão de esoterismo.
3. As atualizações de gradiente são em relação aos cálculos internos do modelo que estão sendo atualizados. Mesmo que as funções de recompensa sejam "escolhas humanas", o que não são sempre (, por exemplo, RLAIF), a forma como o modelo se atualiza com base nas recompensas depende dos pesos e ativações do modelo, e o