DeepSeek-V4,需要一次重估
日期:2026-04-27 16:04:55 / 人气:14
24日,DeepSeek-V4的“突然”发布,没有再次惊吓华尔街。当晚,英伟达股价上涨超过4%,市值稳稳站上5万亿美元。而在15个月前,DeepSeek-R1曾让它单日暴跌17%。市场的平静宣告了一个关键变化:从推理时代到智能体时代,中国与美国已形成两套截然不同的“token经济学”与AI叙事——一种围绕成本效率扩展,受算力约束;另一种盯着能力上限定价,以稀缺为前提。双方各自走上了一条无法轻易掉头的路——但这真的是既定事实,无需重估吗?
【落后3-6个月,但工程能力凸显】DeepSeek将此次发布定义为“预览版”,团队在技术报告中坦诚,当前架构仍不够优雅,还有诸多探索未及融入。此次推出的两款模型各有侧重:“性能比肩顶级闭源模型”的DeepSeek-V4-Pro,拥有1.6T总参数、49B激活参数;“更快捷高效的经济之选”DeepSeek-V4-Flash,则为284B总参数、13B激活参数。两者均原生支持百万token上下文,但暂未实现多模态能力。

仅从参数规模来看,DeepSeek-V4与当前最前沿的闭源模型仍有明显差距。DeepSeek自身也承认,其演进轨迹落后美国前沿3-6个月,在Agentic Coding的实际体验上,虽优于Sonnet 4.5,但与Opus 4.6的思考模式仍有距离。在通用基准日渐饱和、个人测评相对主观的环境下,DeepSeek团队在技术报告末尾特意感谢了DollyDeng的测评意见,后者评价V4-Pro在编程领域具备广泛的知识储备、长上下文低幻觉的优势,同时也存在偶发性注意力失焦、架构与UI不够精致的问题,但其max和high档位的可用性相当高。
海外研究机构semianalysis的测评则给出了积极评价,称其为“卓越的工程版本”,紧贴SOTA( state-of-the-art,最先进技术)水平,将成为闭源模型的最低成本替代方案。相较于上一代模型,DeepSeek-V4在工程领域的核心突破的是上下文窗口的扩展:在百万token上下文场景下,V4-Pro的单token推理FLOPs仅为DeepSeek-V3.2的27%,KV缓存大小仅为10%;V4-Flash的效率提升更为激进,FLOPs仅为10%,KV缓存仅为7%,其影响远超上个月市场热炒的谷歌TurboQuant论文。
DeepSeek将“迈向高效百万token上下文智能”视为当下最迫切的任务,这一突破为高效处理超长序列开启了测试时扩展的新前沿,为长时任务研究铺平了道路,也为在线学习等未来范式奠定了基础。但随着上下文长度达到极端规模,注意力机制的计算瓶颈愈发凸显。受客观算力约束,优化注意力机制长期以来都是DeepSeek等中国开源模型厂商的核心课题。此次DeepSeek-V4在继承此前DSA与mHC创新的基础上,吸收了月之暗面对Muon优化器的验证,进一步提出了CSA(压缩稀疏注意力)与HCA(重压缩注意力)混合注意力机制。
简言之,CSA以4:1的压缩率将KV缓存压缩为单个条目,再通过稀疏注意力加速;HCA则将压缩率提升至128:1,且压缩后的KV缓存全部参与后续计算。两种机制交替运行,既保证了模型的全局感知能力,又实现了精细检索。按照DeepSeek的规划,未来将在V4基础上,进一步探索更“稀疏”的专家和注意力架构,拓展模型稀疏性的更多维度,包括Engram所解决的“记忆”稀疏化——这一技术相当于模型内部的“存算解耦”,可有效绕过GPU的HBM限制,为参数的激进扩展扫清障碍。同时,DeepSeek也在持续推进多模态能力的融入。
【昇腾Day 0适配,国产算力协同提速】DeepSeek-V4发布后,华为与寒武纪第一时间宣布实现Day 0支持,这意味着该模型在推理协同层面已与国产芯片完成深度优化。目前,中国开源模型仍选择兼顾英伟达与国产芯片,据semianalysis分析,DeepSeek-V4的参数设计恰好能容纳在8块H20芯片FP4精度下的内存容量之内,而H20在中国的存量规模庞大,短期内仍将是推理主力。即便如此,该机构仍预测,这款模型的推理服务中,“相当可观的一部分”将由华为昇腾(Ascend)承载。
据昇腾CANN介绍,基于16卡昇腾950DT的算力基础设施,DeepSeek-V4-Pro在多并发吞吐场景下,可在单请求延迟20ms的前提下,实现388TPS(tokens per second)的吞吐速度;DeepSeek-V4-Flash的吞吐速度更是高达4722TPS。据悉,昇腾950DT将于2026年下半年全面上市,这是一款兼顾推理Decode阶段与训练的芯片,将进一步提升国产算力的支撑能力。
在技术报告正文中,DeepSeek仅提及华为1次、英伟达2次,其中最关键的表述是“我们在英伟达GPU和华为昇腾NPU平台上对细粒度EP方案进行了验证”,这一表述指向MegaMoE核心算子与MXFP4低精度数据路径的适配能力——而这些技术,DeepSeek-V4在正式开源前一周就已悄悄向社区开源。MegaMoE的核心优势的是对专家并行(MoE)中的计算与通信进行细粒度重排,通过两者重叠(overlap)“隐藏”通信延迟,缓解互连带宽瓶颈;而向FP4精度要效率,则能大幅降低数据搬运成本,提升计算单元利用率,逼近理论峰值性能。
市场曾一度猜测,DeepSeek-V4是在英伟达Blackwell架构上训练的。此前,英伟达为Hopper架构引入NVFP8精度格式,Blackwell架构进一步推出NVFP4,其对未来需求的预见具有代际领先性——早在2024年黄仁勋介绍Blackwell时,市场仍将FP4视为营销手段,其他AI芯片公司后续才逐步跟进。不过,向低精度要效率已成为行业趋势:谷歌第八代TPU正尝试原生FP4训练与推理,华为去年发布的昇腾950系列也已预告支持业界标准FP8/MXFP8/MXFP4。值得注意的是,DeepSeek-V4在训练阶段仍“无缝复用现有的FP8混合精度框架”。
如今,DeepSeek正扮演着指引行业未来需求的关键角色。其技术报告鼓励下一代硬件设计更多考虑计算-通信比(C-C Ratio)、功率预算(Power Budget)、通信原语(Communication Primitives)与激活函数(Activation Function),尤其是基于MegaMoE工程实践得出的“每1GBps互联带宽足以支撑6.1 TFLOP/s计算”这一结论,被认为是整篇报告中产业影响最深远的数据点。
【AGI叙事分野:普惠 vs 稀缺】软硬件协同的方向,既指向算力自由,也指向AI普惠。DeepSeek-V4发布当天,DeepSeek研究员陈德里在社交媒体平台X上表态,始终以“谦卑”之心践行“AGI属于每个人”的理念。随着2026年下半年昇腾950超节点规模上线及DeepSeek-V4的持续优化,其单位token成本将进一步下降。团队进一步指出,该模型采用的FP4×FP8运算,虽在现有硬件上只能跑出与FP8×FP8相同的峰值FLOPS,但理论上未来硬件可实现1/3的效率提升。
与之形成鲜明对比的是美国的AGI叙事:经历去年的“泡沫”恐慌后,当前美国AI叙事几乎被Anthropic主导,核心逻辑是“AI将吃掉软件,进而走向覆盖全球的AGI”——谁占有更多最先进算力,谁就更有可能研发出前沿模型及智能体执行环境,进而匹配最高定价,因为这类模型能解决最有价值的任务。其推出的Mythos模型甚至强大到仅允许Anthropic指定的极少数使用者访问。
英伟达、亚马逊、谷歌,以及OpenAI与xAI,均已被这一叙事俘获,形成了自我强化的路径:模型成本越来越高,却依然不乏买单者;Anthropic推出任何垂直领域的智能体工具,相关上市公司股价便会大幅波动。据报道,Uber自使用Claude Code后,2026年全年AI预算仅4个月就已耗尽。但这套叙事并非无懈可击:大多数生产工作负载无需触及智能上限,而企业恐慌式投入的AI成本,能否转化为终端市场的持续性收入,仍有待验证。
云厂商CloudFlare认为,个人智能体与编码智能体的兴起,让成本成为规模扩展的主要障碍,而非次要问题。编码软件公司Replit首席执行官Amjad Masad直言,中国研究者公开分享的人工智能突破,惠及了包括美国大小实验室在内的所有人,这一观点得到HuggingFace CEO的认同。编码软件公司Cline创始人Saoud Rizwan更是调侃,若将Uber的AI预算分配给DeepSeek-V4-Pro,足以支撑84个月的使用。
【黄仁勋的破防与DeepSeek的长期主义】不可否认,即使再过3-6个月,中国开源模型也难以追平美国闭源模型的水平,差距客观存在。年初EpochAI统计显示,自2023年以来,中国模型平均落后美国7个月,最小差距4个月,最大差距14个月。DeepSeek曾承认,训练算力的约束,限制了旗舰模型在世界知识覆盖广度上的突破。此次DeepSeek-V4同时兼容英伟达与华为芯片,相当于在为未来的算力切换做“基准测试”——毕竟,英伟达用十几年搭建的CUDA生态,绝非一朝一夕可超越。
这种差距并非单纯的技术追赶所能弥补。美国艾伦实验室研究员Nathan Lambert认为,数据与训练环境才是真正的护城河。当前AI叙事聚焦于智能体(尤其是编程智能体),美国闭源模型凭借深厚的软件行业积累,拥有压倒性优势——中国软件行业的积累不足,是蒸馏技术无法弥补的;同时,中国金融、法律、医疗等行业,也缺乏美国市场那样慷慨的支付能力。
但这种优势并非不可动摇。Nathan Lambert总结,AI叙事的重点每12-18个月就会发生转移,从对话到推理再到智能体,若下一个强化学习环境恰好是中国积累最深的领域,杠杆便会向中国倾斜。DeepMind创始人哈萨比斯也认为,AGI还需要几个Transformer级别的重大突破,预计5-10年后才有可能实现,中国模型仍有充足的窗口期。
这让人联想到Android与iOS的竞争:Android并非优于iOS,却凭借更低的门槛和更广的可及性,实现了规模普及,而iOS则代表高价值与高溢价。目前,DeepSeek-V4针对FP4的推理优化,客观上帮助美国创业者在英伟达芯片上低成本嵌入中国开源模型。但更深层的长期逻辑是,随着英伟达下一代Rubin系列受到更严苛的供应链管制,DeepSeek将难以继续放大英伟达GPU的性能优势。未来,除了美国最具实力的企业,更多应用开发者将选择中国开源模型;而随着中国算力硬件性能逐步提升,通过深度协同优化,将逐步替换底层美国技术栈——当“船靠岸”时,或许已没有一块“板子”是原来的英伟达,而船上的开发者,从未离开。
这也正是黄仁勋面对芯片管制时“破防”的核心原因——他清楚地知道,长期来看,这种技术栈的替换,将动摇英伟达的行业根基。而DeepSeek的压力,在于如何在维持更低单位token价格的前提下,坚持走到“AGI普惠”的终点。这意味着它必须走一条更慢、更难,且难以获得资本市场即时奖励的道路。正因如此,DeepSeek在发布V4时,以“不诱于誉,不恐于诽,率道而行,端然正己”作结,彰显了其长期主义的坚守。
值得关注的是,如今DeepSeek终于不再否认融资传闻。据此前报道,DeepSeek已开启首次外部融资,计划筹集至少3亿美元补充资金储备,应对成本高昂的AI军备大赛,市场传闻其目标估值超过100亿美元,甚至有消息称腾讯、阿里正在洽谈投资(目前相关传闻已被否认)。据悉,DeepSeek此前依托创始人梁文锋背后的幻方资本,在量化交易和智能金融领域拥有深厚技术积累和算力基础,且曾以“不追求商业化”闻名业内,此次融资本质上并非“缺钱”,而是为期权系统建立估值锚点,稳定团队信心。希望它的投资人,能真正理解其“率道而行”的坚守与分量——DeepSeek-V4的价值,从来不止于当下的技术参数,更在于它所代表的、中国AI通往普惠与自主的长期路径,这也正是它需要被重新评估的核心意义。
作者:天辰娱乐
新闻资讯 News
- DeepSeek-V4,需要一次重估04-27
- 全球零售变天04-27
- 市场洞察探索与产品技术构建:后...04-27
- 腾讯出牌方式变了04-27

