這家公司提供的LLM推理速度快到冒煙,能達到至少1500token/每秒!



什麼概念呢?在openrouter的qwen3 coder模型的提供商吞吐如下圖,cerebras的平均吞吐1650tok/s,是第二名92tok/s的17倍

按照這個吞吐量,在編碼領域幾秒鍾就能噴出幾千行代碼!

這家公司的核心競爭力就是自研發的芯片技術,下圖2是他們的芯片推理速度與傳統GPU速度的一個對比圖👇
查看原文
post-image
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)