币界网のニュースによると、Qwenチームがオープンソース化したFlashQLAは、GDN(ゲートデルタネットワーク、Qwen3-next / 3.5 / 3.6シリーズで使用される線形注意力層)に対する高性能演算子ライブラリです。H200上での実測では、前方計算速度はFla Tritonカーネルより2〜3倍速く、逆方向計算速度は2倍です。TP8シナリオでは、前方計算速度は最大5.33倍に達します。高速化の核心は、GDNゲート値の指数減衰特性を利用して、従来の方法で必要だった校正行列の計算ステップをスキップし、キャッシュ内で自動的にコンテキスト並列(autocp)を実現することにあります。システムはバッチサイズ、ヘッド数、シーケンス長に基づいて、自動的にCPの有効化を判断し、手動設定は不要です。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン