3月6日凌晨3點(diǎn),阿里巴巴發(fā)布并開源全新的推理模型通義千問(wèn)QwQ-32B。阿里巴巴稱,這是一款擁有320億參數(shù)的模型,其性能可與具備6710億參數(shù)(其中370億被激活)的DeepSeek-R1媲美,但二者在參數(shù)量上相差將近20倍。
據(jù)悉,QwQ-32B 在一系列基準(zhǔn)測(cè)試中進(jìn)行了評(píng)估,測(cè)試了數(shù)學(xué)推理、編程能力和通用能力,并與OpenAI的o1-mini以及DeepSeek滿血版及蒸餾版進(jìn)行了比較。
在測(cè)試數(shù)學(xué)能力的AIME24評(píng)測(cè)集上,以及評(píng)估代碼能力的LiveCodeBench 中,千問(wèn) QwQ-32B表現(xiàn)與DeepSeek-R1相當(dāng),遠(yuǎn)勝于o1-mini及相同尺寸的R1蒸餾模型。
在由Meta首席科學(xué)家楊立昆領(lǐng)銜的“最難LLMs評(píng)測(cè)榜”LiveBench、谷歌等提出的指令遵循能力IFEval評(píng)測(cè)集、由加州大學(xué)伯克利分校等提出的評(píng)估準(zhǔn)確調(diào)用函數(shù)或工具方面的BFCL測(cè)試中,千問(wèn)QwQ-32B的得分均超越了DeepSeek- R1。
官方介紹稱,這一成果突顯了將強(qiáng)化學(xué)習(xí)應(yīng)用于經(jīng)過(guò)大規(guī)模預(yù)訓(xùn)練的強(qiáng)大基礎(chǔ)模型的有效性。此外,阿里團(tuán)隊(duì)還在推理模型中集成了與Agent相關(guān)的能力,使其能夠在使用工具的同時(shí)進(jìn)行批判性思考,并根據(jù)環(huán)境反饋調(diào)整推理過(guò)程。
除了性能上的大幅提升,QwQ-32B的另外一個(gè)亮點(diǎn)是大幅降低了部署使用成本,開發(fā)者和企業(yè)可以在消費(fèi)級(jí)硬件上輕松將其部署到本地設(shè)備中。
資料顯示,從2023年至今,阿里通義團(tuán)隊(duì)已開源200多款模型,包含大語(yǔ)言模型千問(wèn)Qwen及視覺(jué)生成模型萬(wàn)相Wan等兩大基模系列,覆蓋從0.5B到110B等參數(shù),實(shí)現(xiàn)了全模態(tài)、全尺寸大模型的開源。
開源社區(qū)Hugging Face此前的榜單顯示,開源僅6天的阿里萬(wàn)相大模型已反超DeepSeek-R1,登頂模型熱榜、模型空間榜兩大榜單,成為近期全球開源社區(qū)最受歡迎的大模型。根據(jù)最新數(shù)據(jù),萬(wàn)相2.1(Wan2.1)在Hugging Face及魔搭社區(qū)的總下載量已超百萬(wàn),在Github的Star數(shù)超6k。
在通義千問(wèn)最新推理模型發(fā)布并開源后,阿里巴巴股價(jià)應(yīng)聲大漲。隔夜美股收盤漲8.61%,報(bào)收141.03美元。截至發(fā)稿,阿里巴巴港股漲超7%。今年以來(lái),阿里巴巴股價(jià)累計(jì)漲幅已近70%。