《科創(chuàng)板日?qǐng)?bào)》2月12日訊(記者 張洋洋)今日,字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)提出了全新的稀疏模型架構(gòu) UltraMem,該架構(gòu)有效解決了MoE推理時(shí)高額的訪存問(wèn)題,推理速度較 MoE 架構(gòu)提升2-6倍,推理成本最高可降低83%。
目前,國(guó)內(nèi)外大模型領(lǐng)域的競(jìng)爭(zhēng)愈發(fā)激烈,已然進(jìn)入白熱化階段。豆包在AI基礎(chǔ)層和應(yīng)用層上均進(jìn)行了全面布局,并持續(xù)迭代升級(jí)。
大模型持續(xù)降本增效
根據(jù)豆包大模型團(tuán)隊(duì)的研究,在Transformer架構(gòu)下,模型的性能與其參數(shù)數(shù)量和計(jì)算復(fù)雜度呈對(duì)數(shù)關(guān)系。隨著LLM規(guī)模不斷增大,推理成本會(huì)急劇增加,速度變慢。
盡管MoE(混合專家)架構(gòu)已經(jīng)成功將計(jì)算和參數(shù)解耦,但在推理時(shí),較小的batch size就會(huì)激活全部專家,導(dǎo)致訪存急劇上升,進(jìn)而使推理延遲大幅增加。
字節(jié)跳動(dòng)豆包大模型Foundation團(tuán)隊(duì)提出了UltraMem,這是一種同樣將計(jì)算和參數(shù)解耦的稀疏模型架構(gòu),在保證模型效果的前提下解決了推理的訪存問(wèn)題。
實(shí)驗(yàn)結(jié)果表明,在參數(shù)和激活條件相同的情況下,UltraMem在模型效果上超越了MoE,并將推理速度提升了2-6倍。此外,在常見batch size規(guī)模下,UltraMem的訪存成本幾乎與同計(jì)算量的Dense模型相當(dāng)。
可以看到,不論是訓(xùn)練端還是推理端,大模型廠商均在力爭(zhēng)降本增效。核心原因是隨著模型規(guī)模的擴(kuò)大,推理成本和訪存效率已成為限制大模型規(guī)模應(yīng)用的關(guān)鍵瓶頸,而DeepSeek已經(jīng)走通了“低成本高性能”突破的這條路。
巖芯數(shù)智CEO劉凡平在接受《科創(chuàng)板日?qǐng)?bào)》記者采訪分析認(rèn)為,降低大模型的成本,業(yè)內(nèi)更傾向于從技術(shù)和工程層面進(jìn)行突破,實(shí)現(xiàn)架構(gòu)優(yōu)化的“彎道超車”?;A(chǔ)架構(gòu),如Transformer架構(gòu)成本依舊高企,新的架構(gòu)研究必須要有;基礎(chǔ)算法,主要是反向傳播算法,這類算法可能是深度學(xué)習(xí)的瓶頸。
在劉凡平看來(lái),短期內(nèi),高端芯片市場(chǎng)仍然還是會(huì)由英偉達(dá)主導(dǎo)。推理應(yīng)用市場(chǎng)需求在增加,國(guó)產(chǎn)GPU公現(xiàn)在也有機(jī)會(huì)。從長(zhǎng)期來(lái)看,算法一旦創(chuàng)新出的結(jié)果,還是比較驚人,整個(gè)算力市場(chǎng)需求后期有待觀察。
豆包的壓力才剛剛開始
在剛剛過(guò)去的春節(jié),DeepSeek以其低廉的訓(xùn)練成本和高效的運(yùn)算效率迅速火爆全球,成為AI領(lǐng)域的黑馬。目前,國(guó)內(nèi)外大模型領(lǐng)域的競(jìng)爭(zhēng)愈發(fā)激烈,已然進(jìn)入白熱化階段。
DeeSeek是目前國(guó)內(nèi)大模型中,豆包最強(qiáng)勁的對(duì)手,前者在1月28日的日活躍用戶數(shù)首次超越后者。目前DeepSeek的日活數(shù)據(jù)已經(jīng)突破4000萬(wàn),成為中國(guó)移動(dòng)互聯(lián)網(wǎng)歷史上第一個(gè)上線不足一個(gè)月,但闖進(jìn)全網(wǎng)日活Top50的應(yīng)用。
近幾日,豆包大模型團(tuán)隊(duì)連續(xù)發(fā)力。兩天前,其剛剛發(fā)布視頻生成實(shí)驗(yàn)?zāi)P汀癡ideoWorld”,不同于 Sora 、DALL-E 、Midjourney 等主流多模態(tài)模型,VideoWorld 在業(yè)界首次實(shí)現(xiàn)無(wú)需依賴語(yǔ)言模型,即可認(rèn)知世界。
目前,豆包在AI基礎(chǔ)層和應(yīng)用層進(jìn)行了全面布局,并持續(xù)迭代升級(jí)。其AI產(chǎn)品矩陣已涵蓋多個(gè)領(lǐng)域,如AI聊天助手豆包、貓箱、即夢(mèng)AI、星繪、豆包MarsCode等。
2月12日,豆包概念股午后快速走高。據(jù)Wind數(shù)據(jù)顯示,抖音豆包指數(shù)2月以來(lái)累計(jì)漲幅已超15%。個(gè)股方面,博彥科技強(qiáng)勢(shì)漲停,漢得信息快速拉升一度漲停,廣和通、先進(jìn)數(shù)通等盤中沖高。
中信證券此前發(fā)布研報(bào)認(rèn)為,豆包AI的生態(tài)擴(kuò)張將引發(fā)新一輪巨頭的技術(shù)投資周期。AI產(chǎn)業(yè)具有強(qiáng)網(wǎng)絡(luò)效應(yīng)和規(guī)模效應(yīng),當(dāng)頭部AI應(yīng)用獲得用戶領(lǐng)先優(yōu)勢(shì)后,其模型精準(zhǔn)度、邊際成本以及用戶粘性等競(jìng)爭(zhēng)優(yōu)勢(shì)將逐漸加強(qiáng)。
豆包用戶數(shù)持續(xù)增長(zhǎng),基于豆包AI的應(yīng)用生態(tài)將有望加速,一方面,將催化公司對(duì)AI訓(xùn)練及推理算力基礎(chǔ)設(shè)施投資,另一方面,豆包AI的快速增長(zhǎng)將刺激其它巨頭廠商加大對(duì)AI基礎(chǔ)設(shè)施投資。
但是對(duì)于豆包自己而言,與尖子生DeepSeek的較量或許才剛剛開始。
作為一個(gè)開源模型,DeepSeek的低成本和高性能正在改變不少公司的模型選擇策略。目前,華為、百度等公司旗下的不少AI應(yīng)用都宣布了接入DeepSeek,甚至字節(jié)跳動(dòng)自己,旗下的飛書的多維表格功能已接入DeepSeek-R1模型,火山引擎也做了適配。
據(jù)《科創(chuàng)板日?qǐng)?bào)》記者了解,目前,豆包團(tuán)隊(duì)內(nèi)部還在討論豆包App是否要接入DeepSeek,從用戶體驗(yàn)的角度來(lái)講,選擇一個(gè)效果更優(yōu)的模型無(wú)可厚非,但是放棄自家模型選擇友商,也很難向股東交代。這還不考慮,新增模型接入,增加適配負(fù)擔(dān)等問(wèn)題。