広場
最新
注目
ニュース
プロフィール
ポスト
CoinNetwork
2026-04-29 14:39:28
フォロー
币界网のニュースによると、Qwenチームがオープンソース化したFlashQLAは、GDN(ゲートデルタネットワーク、Qwen3-next / 3.5 / 3.6シリーズで使用される線形注意力層)に対する高性能演算子ライブラリです。H200上での実測では、前方計算速度はFla Tritonカーネルより2〜3倍速く、逆方向計算速度は2倍です。TP8シナリオでは、前方計算速度は最大5.33倍に達します。高速化の核心は、GDNゲート値の指数減衰特性を利用して、従来の方法で必要だった校正行列の計算ステップをスキップし、キャッシュ内で自動的にコンテキスト並列(autocp)を実現することにあります。システムはバッチサイズ、ヘッド数、シーケンス長に基づいて、自動的にCPの有効化を判断し、手動設定は不要です。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
GateSquareMayTradingShare
391.75K 人気度
#
BitcoinHoldsFirmAbove80K
94.29M 人気度
#
CryptoMarketRecovery
113.78K 人気度
#
IsraelStrikesIranBTCPlunges
43.21K 人気度
#
AaveSuesToUnfreeze73MInETH
1.84M 人気度
ピン
サイトマップ
币界网のニュースによると、Qwenチームがオープンソース化したFlashQLAは、GDN(ゲートデルタネットワーク、Qwen3-next / 3.5 / 3.6シリーズで使用される線形注意力層)に対する高性能演算子ライブラリです。H200上での実測では、前方計算速度はFla Tritonカーネルより2〜3倍速く、逆方向計算速度は2倍です。TP8シナリオでは、前方計算速度は最大5.33倍に達します。高速化の核心は、GDNゲート値の指数減衰特性を利用して、従来の方法で必要だった校正行列の計算ステップをスキップし、キャッシュ内で自動的にコンテキスト並列(autocp)を実現することにあります。システムはバッチサイズ、ヘッド数、シーケンス長に基づいて、自動的にCPの有効化を判断し、手動設定は不要です。