eles aplicam um MLP para projetar tokens visuais do FastViTHD para o mundo do LLM
o resultado: muito menos tokens ( como 4× menos que o FastViT, 16× menos que o ViT‑L/14 a 336‑pixel res). Quero dizer, isso é uma grande diminuição na contagem de tokens e complexidade, enquanto
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
11 gostos
Recompensa
11
6
Republicar
Partilhar
Comentar
0/400
rekt_but_resilient
· 2h atrás
Aqui a melhoria é enorme!
Ver originalResponder0
GasFeeLover
· 09-02 14:39
Assim seja. O que há para se gabar?
Ver originalResponder0
ser_we_are_early
· 09-02 14:39
Parece que o FastVLM é realmente fantástico!
Ver originalResponder0
BlockchainBard
· 09-02 14:38
Estou impressionado, fiquei chocado com a quantidade de tokens.
Ver originalResponder0
WhaleWatcher
· 09-02 14:27
Já estão a fazer coisas novas!
Ver originalResponder0
DiamondHands
· 09-02 14:23
Ah ah, estou um pouco confuso com o que foi dito...
é aqui que o FastVLM entra em cena
eles aplicam um MLP para projetar tokens visuais do FastViTHD para o mundo do LLM
o resultado: muito menos tokens ( como 4× menos que o FastViT, 16× menos que o ViT‑L/14 a 336‑pixel res). Quero dizer, isso é uma grande diminuição na contagem de tokens e complexidade, enquanto