DeepSeek 新模型曝光:MODEL1 代码预示新架构,最快有望 2 月发布
最新 1 月 21 日消息,The Information 月初爆料称,DeepSeek 将在今年 2 月中旬农历新年期间推出新一代旗舰 AI 模型 ——DeepSeek V4,将具备更强的写代码能力。
1 月 20 日,正值 DeepSeek-R1 发布一周年之际,有开发者发现 DeepSeek 在 GitHub 中更新了一系列 FlashMLA 代码,横跨 114 个文件中有 28 处都提到了未知的“MODEL1”大模型标识符。

该标识符与已知的现有模型“V32”(即 DeepSeek-V3.2)被并列或区别提及。根据代码上下文分析,“MODEL1”很可能代表一个不同于现有架构的新模型。
开发者分析认为,“MODEL1”与“V32”在关键技术上存在区别,主要体现在键值(KV)缓存的布局、稀疏性处理方式以及对 FP8 数据格式的解码支持等方面。这些差异表明新架构可能在内存优化和计算效率上进行了针对性设计。
此前,DeepSeek 研究团队还陆续发布了两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI 记忆模块(Engram)”。这一举动不禁引起用户猜测,DeepSeek 正在开发中的新模型有可能会整合这些最新的研究成果。敬请期待。
相关阅读:
《微软研报称 DeepSeek 在中国 AI 市场份额达 89%,在白俄罗斯达 56%》
《DeepSeek 开源大模型记忆模块:梁文锋署名新论文,下一代稀疏模型提前剧透》
《DeepSeek V4 大模型被曝春节前后发布:AI 编程能力超越 OpenAI GPT 及 Anthropic Claude》
《DeepSeek 新模型曝光:MODEL1 代码预示新架构,最快有望 2 月发布》转载自互联网,如有侵权,联系我们删除,QQ:369-8522。
相关图文
-
DeepSeek 新模型曝光:MODEL1 代码预示新架构,最快有望 2 月发布
DeepSeek在GitHub更新代码,出现神秘“MODEL1”标识符,与现有V32架构存在技术差异,暗示全新模型可能在2月农历新年期间发布。该模型有望整合优化残差连接和AI记忆模块等最新研究成果。#DeepSeek新模型##AI大模型#... -
功能夸大、操作复杂,总台中国之声曝光部分“伪智能”家居
江苏消保委曾在 2025 年底选取了扫地机器人 / 洗地机、智能洗衣机、智能门锁等 10 类主流智能产品作为调查对象,发布智能家居家电产品消费调查报告。报告显示:部分产品“伪智能”,其核心问题集中表现为功能夸大、体验落差与设备不兼容。... -
“超能小度”升级后部分智能音箱用户不习惯新音色,百度致歉
百度旗下“小度小度”官微发布致歉信称,2025 年底开始陆续为已售设备免费升级“超能小度”大模型服务,部分智能音箱的助手默认音色发生变化,有用户反馈称新音色“不太习惯”“缺少了以往的亲切感”。... -
监管跟不上发展速度,英国议员呼吁银行启动针对 AI 的压力测试
英国议会财政委员会警告称,如果继续对 AI 风险采取观望态度,英国金融监管体系可能无法应对潜在冲击,公众利益和整体经济面临“严重伤害”的风险,监管机构应尽快启动针对 AI 的压力测试。... -
OpenAI 首款硬件设备被曝为 AI 耳机,首年有望出货 4000~5000 万台
OpenAI 首席全球事务官 Chris Lehane 本周一在达沃斯出席外媒 Axios 举办的活动时表示,该企业正朝今年下半年公布首款(硬件)设备的目标迈进。...

















