继DeepSeek后，MiniMax也宣布了挑衅传统Transformer架构-365bet登录

公司动态

继DeepSeek后，MiniMax也宣布了挑衅传统Transformer架构

图片起源：视觉中国蓝鲸消息1月15日讯（记者朱俊熹）国产开源年夜模子再添一员强将。1月15日，年夜模子独角兽MiniMax宣布并开源了MiniMax-01全新系列模子，包括基本言语年夜模子跟视觉多模态年夜模子两个模子。据MiniMax先容，其基本言语年夜模子MiniMax-Text-01在少数义务上，追平了GPT-4o、Claude 3.5 Sonnet这两个海内公认开始进的闭源模子。在评价模子指令遵守才能的IFEval跟C-SimpleQA中文评测会合，该基本言语年夜模子的得分也超越了另一国产开源模子DeepSeek-V3。与DeepSeek模子相似，MiniMax的新系列模子也对传统的Transformer架构停止了翻新。MiniMax称，在模子中初次年夜范围实现了线性留神力机制，每8层中有7个是基于Lightning Attention的线性留神力，有一层是传统的SoftMax留神力。艰深来讲，假如比方成要在一群人中找到最主要的谁人，传统留神力须要每团体跟其余人都独自聊一遍，逐个比拟全部人的主要性。而线性留神力只用检查每团体手中的手刺，疾速统计出哪些人持有的信息是最主要的。因而，传统留神力机制精准但盘算沉重，合适短输入或庞杂义务，而线性留神力以其高效更合适超长输入、须要疾速处置的义务。MiniMax在技巧讲演中提到，正在研讨更高效的模子架构，盼望可能完整去除SoftMax留神机制，从而实现无穷长的高低文窗口，而不会增添盘算开支。幻方量化旗下AI公司DeepSeek在12月尾宣布了V3开源模子，采取的是翻新的多头潜伏留神力机制（MLA）跟DeepSeekMoE混杂专家架构。在节俭内存占用跟盘算资本的同时，确保资本被高效应用。DeepSeek-V3以极低的练习本钱实现了对齐领军闭源模子的机能，激发海内外科技社区热议。不只被前OpenAI联创Andrej Karpathy赞为“在资本受限的情形下对研讨跟工程的一次令人印象深入的展现”，也被OpenAI列作中国AI技巧疾速开展的典范。缭绕线性留神力机制，MiniMax对模子的练习跟推理体系停止了重构。其模子包括4560亿个参数，单次推理激活459亿个。可能高效处置最长400万token的高低文，是GPT-4o的32倍，Claude 3.5 Sonnet的20倍。在长高低文的测评集上，MiniMax-Text-01的表示明显当先于其余开闭源模子。图片起源：MiniMax官网MiniMax表现，01系列模子将可能支撑将来一年内智能体利用的年夜幅增加需要，由于智能系统统越来越须要更长的高低文处置才能跟连续的影象。“咱们信任2025年会是Agent（智能体）高速开展的一年。”该公司称，“在这个模子中，咱们走出了第一步，并盼望应用这个架构连续树立庞杂Agent所需的基本才能。”智能体正成为海内外AI公司竞相押注的赛道。OpenAI CEO Sam Altman本月初发文称，到2025年，将可能看到第一批AI智能体“参加休息力步队”，并本质性地转变公司的产出。谷歌在推出新一代Gemini 2.0年夜模子时也表现，这是为智能体时期构建的。该模子主打支撑多模态输入跟输出，以构建出更濒临通用助手愿景的智能体。MiniMax在论述为何抉择将模子开源时提到，一是以为这有可能启示更多长高低文的研讨跟利用，从而更快增进智能体时期的到来。二是经由过程开源促使其尽力做更多翻新，更高品质地发展后续的模子研发任务。MiniMax建立于2021年12月，被广泛称为海内“年夜模子六小龙”之一。旗下领有AI陪同利用星野，以及集成了对话、视频、音乐功效的海螺AI等代表性产物，在海内市场积聚了必定热度。其最新表露的一轮融资仍是在客岁3月，由阿里领投的6亿美元B轮融资，公司估值达25亿美元。此前腾讯、米哈游、高瓴创投等机构也参投了MiniMax。六小龙中，各公司的年夜模子开源进度纷歧。此中，百川智能、智谱AI、零一万物开源了多款模子，涵盖年夜言语模子、多模态模子等。而月之暗面、阶跃星斗仅开源了局部技巧，比方月之暗面结合清华年夜学等机构开源的年夜模子推理架构Mooncake，以及阶跃星斗专一晋升光学字符辨认（OCR）技巧的GOT-OCR2.0模子。

上一篇：封面无数丨春节自驾抢手目标地：北赏雪南避寒下一篇：商务部：2神仙道24年货品进出口额再翻新高

公司动态

继DeepSeek后，MiniMax也宣布了挑衅传统Transformer架构

关于我们

联系我们

微信扫一扫