DappDominator

Então agora onde isso fará sentido para inferência, mal conseguimos encaixar os codificadores Q8 Qwen Coder 3 e Kimi K2 nas nossas H200s. Kimi K2 @ Q8 não deixou espaço para um cache kv para o contexto. Esses modelos poderiam caber em uma única instância 8xB200? Provavelmente, vamos tentar esta semana.
LL2.29%