通義把Vibe Coding塞進全模態,Qwen3.5-Omni稱拿下215項SOTA

区块律动

据 1M AI News 监测,通义实验室发布全模态模型 Qwen3.5-Omni,支持文本、图片、音频和音视频输入,并可生成带时间戳的细粒度音视频 Caption。官方称,Qwen3.5-Omni-Plus 在音频及音视频分析、推理、对话、翻译等任务上拿下 215 项 SOTA,相关能力超过 Gemini-3.1-Pro。

这次最特别的增量不是榜单,而是「自然涌现的 Audio-Visual Vibe Coding 能力」。通义称,模型未经过专门训练,已经能根据音视频指令直接生成可运行代码。官方还称,该模型支持 256K 上下文、113 种语言识别,可处理 10 小时音频或 1 小时视频,并原生支持 WebSearch 和复杂 Function Call。

Qwen3.5-Omni 延续 Thinker-Talker 分工架构,两部分都升级为 Hybrid-Attention MoE。通义已通过阿里云百炼提供 Plus、Flash、Light 三种尺寸,并上线实时版本 Qwen3.5-Omni-Plus-Realtime。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
暫無留言