上海AI獨(dú)角獸MiniMax發(fā)布新一代開源模型，創(chuàng)新突破受海內(nèi)外好評

　來源:　　發(fā)表時(shí)間：2025-01-20 15:51　　點(diǎn)擊：

????日月開新元，萬象啟新篇。

????1月15日，MiniMax發(fā)布并開源新一代01系列模型，包含基礎(chǔ)語言大模型 MiniMax-Text-01 和視覺多模態(tài)大模型MiniMax-VL-01。該系列模型使用多項(xiàng)突破性創(chuàng)新，以大規(guī)模應(yīng)用線性注意力機(jī)制打破Transformer傳統(tǒng)架構(gòu)記憶瓶頸，在綜合性能比肩GPT-4o、Claude-3.5等海外領(lǐng)軍模型的基礎(chǔ)上，能夠高效處理高達(dá)400萬token的輸入，可輸入長度是GPT-4o的32倍，Claude-3.5-Sonnet的20倍。

????目前，MiniMax-01系列開源模型已應(yīng)用于MiniMax旗下產(chǎn)品海螺AI并在全球上線，企業(yè)與個(gè)人開發(fā)者可前往MiniMax開放平臺使用API。

????以架構(gòu)創(chuàng)新實(shí)現(xiàn)高效超長文本輸入

????2017年，具有里程碑意義的論文《Attention Is All You Need》正式發(fā)表，Transformer架構(gòu)問世并逐步發(fā)展成為該領(lǐng)域的主流技術(shù)范式。自2023年起，自然語言處理領(lǐng)域迎來了一股創(chuàng)新浪潮，對模型架構(gòu)的創(chuàng)新需求日益增加。

????MiniMax-01系列模型首次將線性注意力機(jī)制擴(kuò)展到商用模型的級別，并使其綜合能力達(dá)到全球第一梯隊(duì)。而受益于此次架構(gòu)創(chuàng)新，該系列模型在處理長輸入的時(shí)候具有非常高的效率，接近線性復(fù)雜度。從Scaling Law、與MoE的結(jié)合、結(jié)構(gòu)設(shè)計(jì)、訓(xùn)練優(yōu)化和推理優(yōu)化等層面綜合考慮，MiniMax選擇模型參數(shù)量為4560億，其中每次激活459億，能夠高效處理高達(dá)400萬token的上下文，將有效替代Transformer傳統(tǒng)架構(gòu)并開啟超長文本輸入時(shí)代。

????MiniMax-01模型發(fā)布后，在國內(nèi)外迅速掀起了熱議浪潮。海外媒體與AI從業(yè)者聚焦該模型，深入探討其技術(shù)內(nèi)涵與潛在價(jià)值，對其所展現(xiàn)出的創(chuàng)新性給予了高度肯定。

????性能比肩國際領(lǐng)軍模型

????在應(yīng)用創(chuàng)新架構(gòu)之外，MiniMax大規(guī)模重構(gòu)了01系列模型的訓(xùn)練和推理系統(tǒng)，包括更高效的MoE All-to-all通訊優(yōu)化、更長的序列的優(yōu)化，以及推線性注意力層的高效Kernel實(shí)現(xiàn)，使得模型能力可與全球頂級閉源模型相媲美。

????在業(yè)界主流的文本和多模態(tài)理解任務(wù)處理表現(xiàn)上，MiniMax-01系列模型大多情況下可以追平海外公認(rèn)最先進(jìn)的兩個(gè)模型，GPT-4o-1120以及Claude-3.5-sonnet-1022。過往的模型能力評測中，Google的自研模型Gemini有著顯著的長文優(yōu)勢。而在01系列模型參評的長文任務(wù)下，相較于Gemini等一眾全球頂級模型，MiniMax-01隨著輸入長度變長，性能衰減最慢，效果及其出眾。

????▲ 多項(xiàng)任務(wù)評測結(jié)果顯示，MiniMax-01系列模型核心性能穩(wěn)居全球第一梯隊(duì)。（圖源MiniMax-01系列模型技術(shù)報(bào)告）

????▲ MiniMax-01系列模型長上下文處理能力全球領(lǐng)先。（圖源MiniMax-01系列模型技術(shù)報(bào)告）

????▲ MiniMax-01系列模型長上下文處理能力在LongBench?V2第三方評測成績僅次于OpenAI的o1-preview和人類。（注：LongBench?V2是面向現(xiàn)實(shí)情景，進(jìn)行長上下文多任務(wù)深入理解和推理的測試集。）

????加速AI Agent時(shí)代到來

????2025年，AI將迎來至關(guān)重要的發(fā)展節(jié)點(diǎn)，AI Agent有望成為新一年最重要的產(chǎn)品形態(tài)，引領(lǐng)AI從傳統(tǒng)的“工具”角色向更具互動性與協(xié)作性的“伙伴”角色轉(zhuǎn)變。AI Agent時(shí)代，由于智能體處理的任務(wù)變得越來越復(fù)雜，涉及的數(shù)據(jù)量也越來越大，單個(gè)智能體的記憶以及多個(gè)智能體協(xié)作間的上下文都會變得越來越長。因此，長上下文能力與多模態(tài)處理能力的提升，是AI Agent為各行業(yè)帶來更為豐富、高效、智能的解決方案的必要條件。

????MiniMax在Github上開源了Text-01模型、VL-01模型的完整權(quán)重，以便于更多開發(fā)者做有價(jià)值、突破性的研究。MiniMax創(chuàng)始人、CEO閆俊杰表示，“這是我們第一個(gè)開源系列模型，本質(zhì)上兩個(gè)原因：第一是我們認(rèn)為真正有價(jià)值的事，不是當(dāng)前做得怎么樣，而是技術(shù)進(jìn)化速度。而開源會加速技術(shù)進(jìn)化，做得好的地方有鼓勵，不好的地方會有很多批評，外面的人也會有貢獻(xiàn)，這是我們開源的最大驅(qū)動力。”

????憑借開放、共享、協(xié)作的特點(diǎn)，開源模型激發(fā)AI產(chǎn)業(yè)的創(chuàng)新活力，正在成為賦能新質(zhì)生產(chǎn)力發(fā)展的關(guān)鍵引擎。受益于Linear Attention層面的架構(gòu)創(chuàng)新、算力層面的優(yōu)化，以及集群上的訓(xùn)推一體的設(shè)計(jì)，MiniMax以業(yè)內(nèi)極具性價(jià)比的價(jià)格提供文本模型和多模態(tài)理解模型的API服務(wù)，標(biāo)準(zhǔn)定價(jià)是輸入token 1元/百萬token，輸出token 8元/百萬token。

????論文鏈接：https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf

(責(zé)任編輯：袁明輝 )

分享到：

相關(guān)閱讀

版權(quán)聲明：任何本站發(fā)表之文章，受《中華人民共和國著作權(quán)法》的保護(hù)，任何商業(yè)、非商業(yè)站點(diǎn)，未經(jīng)書面許可不得轉(zhuǎn)載。

上一篇3800萬元消費(fèi)券來了！廣東省電影局?jǐn)y淘票票邀你看春節(jié)檔電影

【推薦給朋友】【關(guān)閉窗口】

江門新聞網(wǎng)版權(quán)與免責(zé)聲明：: ① 凡本網(wǎng)注明"稿件來源：江門日報(bào)"的所有文字、圖片和音視頻稿件，版權(quán)均屬江門日報(bào)社所有，任何媒體、網(wǎng)站或個(gè)人未經(jīng)本網(wǎng)協(xié)議授權(quán)不得復(fù)制或轉(zhuǎn)載。已經(jīng)本網(wǎng)協(xié)議授權(quán)的媒體、網(wǎng)站，在下載使用時(shí)必須注明"稿件來源：江門日報(bào)"，違者本網(wǎng)將依法追究責(zé)任。; ② 本網(wǎng)未注明"稿件來源：江門日報(bào)"的文/圖等稿件均為轉(zhuǎn)載稿，如其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)下載使用，必須保留本網(wǎng)注明的"稿件來源"，并自負(fù)版權(quán)等法律責(zé)任。; ③ 本網(wǎng)轉(zhuǎn)載其他媒體稿件是為傳播更多的信息，此類稿件不代表本網(wǎng)觀點(diǎn)，本網(wǎng)不承擔(dān)此類稿件侵權(quán)行為的連帶責(zé)任。如轉(zhuǎn)載稿件涉及版權(quán)等問題，請作者速與本網(wǎng)取得聯(lián)系。; ※ 聯(lián)系方式（0750-3502625、0750-3502626 ）

江門要聞

更多 >>

熱點(diǎn)圖片