公司动态

继DeepSeek后,MiniMax也宣布了挑衅传统Transformer架构

图片起源:视觉中国蓝鲸消息1月15日讯(记者 朱俊熹)国产开源年夜模子再添一员强将。1月15日,年夜模子独角兽MiniMax宣布并开源了MiniMax-01全新系列模子,包括基本言语年夜模子跟视觉多模态年夜模子两个模子。据MiniMax先容,其基本言语年夜模子MiniMax-Text-01在少数义务上,追平了GPT-4o、Claude 3.5 Sonnet这两个海内公认开始进的闭源模子。在评价模子指令遵守才能的IFEval跟C-SimpleQA中文评测会合,该基本言语年夜模子的得分也超越了另一国产开源模子DeepSeek-V3。与DeepSeek模子相似,MiniMax的新系列模子也对传统的Transformer架构停止了翻新。MiniMax称,在模子中初次年夜范围实现了线性留神力机制,每8层中有7个是基于Lightning Attention的线性留神力,有一层是传统的SoftMax留神力。艰深来讲,假如比方成要在一群人中找到最主要的谁人,传统留神力须要每团体跟其余人都独自聊一遍,逐个比拟全部人的主要性。而线性留神力只用检查每团体手中的手刺,疾速统计出哪些人持有的信息是最主要的。因而,传统留神力机制精准但盘算沉重,合适短输入或庞杂义务,而线性留神力以其高效更合适超长输入、须要疾速处置的义务。MiniMax在技巧讲演中提到,正在研讨更高效的模子架构,盼望可能完整去除SoftMax留神机制,从而实现无穷长的高低文窗口,而不会增添盘算开支。幻方量化旗下AI公司DeepSeek在12月尾宣布了V3开源模子,采取的是翻新的多头潜伏留神力机制(MLA)跟DeepSeekMoE混杂专家架构。在节俭内存占用跟盘算资本的同时,确保资本被高效应用。DeepSeek-V3以极低的练习本钱实现了对齐领军闭源模子的机能,激发海内外科技社区热议。不只被前OpenAI联创Andrej Karpathy赞为“在资本受限的情形下对研讨跟工程的一次令人印象深入的展现”,也被OpenAI列作中国AI技巧疾速开展的典范。缭绕线性留神力机制,MiniMax对模子的练习跟推理体系停止了重构。其模子包括4560亿个参数,单次推理激活459亿个。可能高效处置最长400万token的高低文,是GPT-4o的32倍,Claude 3.5 Sonnet的20倍。在长高低文的测评集上,MiniMax-Text-01的表示明显当先于其余开闭源模子。图片起源:MiniMax官网MiniMax表现,01系列模子将可能支撑将来一年内智能体利用的年夜幅增加需要,由于智能系统统越来越须要更长的高低文处置才能跟连续的影象。“咱们信任2025年会是Agent(智能体)高速开展的一年。”该公司称,“在这个模子中,咱们走出了第一步,并盼望应用这个架构连续树立庞杂Agent所需的基本才能。”智能体正成为海内外AI公司竞相押注的赛道。OpenAI CEO Sam Altman本月初发文称,到2025年,将可能看到第一批AI智能体“参加休息力步队”,并本质性地转变公司的产出。谷歌在推出新一代Gemini 2.0年夜模子时也表现,这是为智能体时期构建的。该模子主打支撑多模态输入跟输出,以构建出更濒临通用助手愿景的智能体。MiniMax在论述为何抉择将模子开源时提到,一是以为这有可能启示更多长高低文的研讨跟利用,从而更快增进智能体时期的到来。二是经由过程开源促使其尽力做更多翻新,更高品质地发展后续的模子研发任务。MiniMax建立于2021年12月,被广泛称为海内“年夜模子六小龙”之一。旗下领有AI陪同利用星野,以及集成了对话、视频、音乐功效的海螺AI等代表性产物,在海内市场积聚了必定热度。其最新表露的一轮融资仍是在客岁3月,由阿里领投的6亿美元B轮融资,公司估值达25亿美元。此前腾讯、米哈游、高瓴创投等机构也参投了MiniMax。六小龙中,各公司的年夜模子开源进度纷歧。此中,百川智能、智谱AI、零一万物开源了多款模子,涵盖年夜言语模子、多模态模子等。而月之暗面、阶跃星斗仅开源了局部技巧,比方月之暗面结合清华年夜学等机构开源的年夜模子推理架构Mooncake,以及阶跃星斗专一晋升光学字符辨认(OCR)技巧的GOT-OCR2.0模子。