鳳凰網(wǎng)科技訊 3月27日,北京時(shí)間周四凌晨,阿里巴巴發(fā)布通義千問(wèn)系列的最新旗艦?zāi)P蚎wen2.5-Omni。這款端到端多模態(tài)模型專為廣泛的多模態(tài)感知設(shè)計(jì),能夠處理文本、圖像、音頻和視頻等多種輸入,同時(shí)能夠通過(guò)生成文本和合成語(yǔ)音提供實(shí)時(shí)流式響應(yīng)。
據(jù)“通義千問(wèn)Qwen”官方微信號(hào)介紹,這款模型的主要特點(diǎn)如下:
全能創(chuàng)新架構(gòu):Qwen團(tuán)隊(duì)提出了一種全新的Thinker-Talker架構(gòu),這是一種端到端的多模態(tài)模型,旨在支持文本/圖像/音頻/視頻的跨模態(tài)理解,同時(shí)以流式方式生成文本和自然語(yǔ)音響應(yīng)。Qwen提出了一種新的位置編碼技術(shù),稱為T(mén)MRoPE(Time-aligned Multimodal RoPE),通過(guò)時(shí)間軸對(duì)齊實(shí)現(xiàn)視頻與音頻輸入的精準(zhǔn)同步。
實(shí)時(shí)音視頻交互:架構(gòu)旨在支持完全實(shí)時(shí)交互,支持分塊輸入和即時(shí)輸出。
自然流暢的語(yǔ)音生成:在語(yǔ)音生成的自然性和穩(wěn)定性方面超越了許多現(xiàn)有的流式和非流式替代方案。
全模態(tài)性能優(yōu)勢(shì):在同等規(guī)模的單模態(tài)模型進(jìn)行基準(zhǔn)測(cè)試時(shí),表現(xiàn)出卓越的性能。Qwen2.5-Omni在音頻能力上優(yōu)于類似大小的Qwen2-Audio,并與Qwen2.5-VL-7B保持同等水平。
卓越的端到端語(yǔ)音指令跟隨能力:Qwen2.5-Omni在端到端語(yǔ)音指令跟隨方面表現(xiàn)出與文本輸入處理相媲美的效果,在MMLU通用知識(shí)理解和GSM8K數(shù)學(xué)推理等基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異。
Qwen2.5-Omni采用Thinker-Talker雙核架構(gòu)。Thinker模塊如同大腦,負(fù)責(zé)處理文本、音頻、視頻等多模態(tài)輸入,生成高層語(yǔ)義表征及對(duì)應(yīng)文本內(nèi)容;Talker 模塊則類似發(fā)聲器官,以流式方式接收 Thinker實(shí)時(shí)輸出的語(yǔ)義表征與文本,流暢合成離散語(yǔ)音單元。Thinker 基于 Transformer 解碼器架構(gòu),融合音頻/圖像編碼器進(jìn)行特征提??;Talker則采用雙軌自回歸 Transformer 解碼器設(shè)計(jì),在訓(xùn)練和推理過(guò)程中直接接收來(lái)自 Thinker 的高維表征,并共享全部歷史上下文信息,形成端到端的統(tǒng)一模型架構(gòu)。
模型性能方面,Qwen2.5-Omni在包括圖像,音頻,音視頻等各種模態(tài)下的表現(xiàn)都優(yōu)于類似大小的單模態(tài)模型以及封閉源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。
在多模態(tài)任務(wù)OmniBench,Qwen2.5-Omni達(dá)到了SOTA的表現(xiàn)。此外,在單模態(tài)任務(wù)中,Qwen2.5-Omni在多個(gè)領(lǐng)域中表現(xiàn)優(yōu)異,包括語(yǔ)音識(shí)別(Common Voice)、翻譯(CoVoST2)、音頻理解(MMAU)、圖像推理(MMMU、MMStar)、視頻理解(MVBench)以及語(yǔ)音生成(Seed-tts-eval和主觀自然聽(tīng)感)。
該模型現(xiàn)已在 Hugging Face、ModelScope、DashScope 和 GitHub上開(kāi)源開(kāi)放。