DeepSeek-V4，需要一次重估

日期：2026-04-27 16:04:55 / 人气：14

24日，DeepSeek-V4的“突然”发布，没有再次惊吓华尔街。当晚，英伟达股价上涨超过4%，市值稳稳站上5万亿美元。而在15个月前，DeepSeek-R1曾让它单日暴跌17%。市场的平静宣告了一个关键变化：从推理时代到智能体时代，中国与美国已形成两套截然不同的“token经济学”与AI叙事——一种围绕成本效率扩展，受算力约束；另一种盯着能力上限定价，以稀缺为前提。双方各自走上了一条无法轻易掉头的路——但这真的是既定事实，无需重估吗？
【落后3-6个月，但工程能力凸显】DeepSeek将此次发布定义为“预览版”，团队在技术报告中坦诚，当前架构仍不够优雅，还有诸多探索未及融入。此次推出的两款模型各有侧重：“性能比肩顶级闭源模型”的DeepSeek-V4-Pro，拥有1.6T总参数、49B激活参数；“更快捷高效的经济之选”DeepSeek-V4-Flash，则为284B总参数、13B激活参数。两者均原生支持百万token上下文，但暂未实现多模态能力。

仅从参数规模来看，DeepSeek-V4与当前最前沿的闭源模型仍有明显差距。DeepSeek自身也承认，其演进轨迹落后美国前沿3-6个月，在Agentic Coding的实际体验上，虽优于Sonnet 4.5，但与Opus 4.6的思考模式仍有距离。在通用基准日渐饱和、个人测评相对主观的环境下，DeepSeek团队在技术报告末尾特意感谢了DollyDeng的测评意见，后者评价V4-Pro在编程领域具备广泛的知识储备、长上下文低幻觉的优势，同时也存在偶发性注意力失焦、架构与UI不够精致的问题，但其max和high档位的可用性相当高。
海外研究机构semianalysis的测评则给出了积极评价，称其为“卓越的工程版本”，紧贴SOTA（ state-of-the-art，最先进技术）水平，将成为闭源模型的最低成本替代方案。相较于上一代模型，DeepSeek-V4在工程领域的核心突破的是上下文窗口的扩展：在百万token上下文场景下，V4-Pro的单token推理FLOPs仅为DeepSeek-V3.2的27%，KV缓存大小仅为10%；V4-Flash的效率提升更为激进，FLOPs仅为10%，KV缓存仅为7%，其影响远超上个月市场热炒的谷歌TurboQuant论文。
DeepSeek将“迈向高效百万token上下文智能”视为当下最迫切的任务，这一突破为高效处理超长序列开启了测试时扩展的新前沿，为长时任务研究铺平了道路，也为在线学习等未来范式奠定了基础。但随着上下文长度达到极端规模，注意力机制的计算瓶颈愈发凸显。受客观算力约束，优化注意力机制长期以来都是DeepSeek等中国开源模型厂商的核心课题。此次DeepSeek-V4在继承此前DSA与mHC创新的基础上，吸收了月之暗面对Muon优化器的验证，进一步提出了CSA（压缩稀疏注意力）与HCA（重压缩注意力）混合注意力机制。
简言之，CSA以4:1的压缩率将KV缓存压缩为单个条目，再通过稀疏注意力加速；HCA则将压缩率提升至128:1，且压缩后的KV缓存全部参与后续计算。两种机制交替运行，既保证了模型的全局感知能力，又实现了精细检索。按照DeepSeek的规划，未来将在V4基础上，进一步探索更“稀疏”的专家和注意力架构，拓展模型稀疏性的更多维度，包括Engram所解决的“记忆”稀疏化——这一技术相当于模型内部的“存算解耦”，可有效绕过GPU的HBM限制，为参数的激进扩展扫清障碍。同时，DeepSeek也在持续推进多模态能力的融入。
【昇腾Day 0适配，国产算力协同提速】DeepSeek-V4发布后，华为与寒武纪第一时间宣布实现Day 0支持，这意味着该模型在推理协同层面已与国产芯片完成深度优化。目前，中国开源模型仍选择兼顾英伟达与国产芯片，据semianalysis分析，DeepSeek-V4的参数设计恰好能容纳在8块H20芯片FP4精度下的内存容量之内，而H20在中国的存量规模庞大，短期内仍将是推理主力。即便如此，该机构仍预测，这款模型的推理服务中，“相当可观的一部分”将由华为昇腾（Ascend）承载。
据昇腾CANN介绍，基于16卡昇腾950DT的算力基础设施，DeepSeek-V4-Pro在多并发吞吐场景下，可在单请求延迟20ms的前提下，实现388TPS（tokens per second）的吞吐速度；DeepSeek-V4-Flash的吞吐速度更是高达4722TPS。据悉，昇腾950DT将于2026年下半年全面上市，这是一款兼顾推理Decode阶段与训练的芯片，将进一步提升国产算力的支撑能力。
在技术报告正文中，DeepSeek仅提及华为1次、英伟达2次，其中最关键的表述是“我们在英伟达GPU和华为昇腾NPU平台上对细粒度EP方案进行了验证”，这一表述指向MegaMoE核心算子与MXFP4低精度数据路径的适配能力——而这些技术，DeepSeek-V4在正式开源前一周就已悄悄向社区开源。MegaMoE的核心优势的是对专家并行（MoE）中的计算与通信进行细粒度重排，通过两者重叠（overlap）“隐藏”通信延迟，缓解互连带宽瓶颈；而向FP4精度要效率，则能大幅降低数据搬运成本，提升计算单元利用率，逼近理论峰值性能。
市场曾一度猜测，DeepSeek-V4是在英伟达Blackwell架构上训练的。此前，英伟达为Hopper架构引入NVFP8精度格式，Blackwell架构进一步推出NVFP4，其对未来需求的预见具有代际领先性——早在2024年黄仁勋介绍Blackwell时，市场仍将FP4视为营销手段，其他AI芯片公司后续才逐步跟进。不过，向低精度要效率已成为行业趋势：谷歌第八代TPU正尝试原生FP4训练与推理，华为去年发布的昇腾950系列也已预告支持业界标准FP8/MXFP8/MXFP4。值得注意的是，DeepSeek-V4在训练阶段仍“无缝复用现有的FP8混合精度框架”。
如今，DeepSeek正扮演着指引行业未来需求的关键角色。其技术报告鼓励下一代硬件设计更多考虑计算-通信比（C-C Ratio）、功率预算（Power Budget）、通信原语（Communication Primitives）与激活函数（Activation Function），尤其是基于MegaMoE工程实践得出的“每1GBps互联带宽足以支撑6.1 TFLOP/s计算”这一结论，被认为是整篇报告中产业影响最深远的数据点。
【AGI叙事分野：普惠 vs 稀缺】软硬件协同的方向，既指向算力自由，也指向AI普惠。DeepSeek-V4发布当天，DeepSeek研究员陈德里在社交媒体平台X上表态，始终以“谦卑”之心践行“AGI属于每个人”的理念。随着2026年下半年昇腾950超节点规模上线及DeepSeek-V4的持续优化，其单位token成本将进一步下降。团队进一步指出，该模型采用的FP4×FP8运算，虽在现有硬件上只能跑出与FP8×FP8相同的峰值FLOPS，但理论上未来硬件可实现1/3的效率提升。
与之形成鲜明对比的是美国的AGI叙事：经历去年的“泡沫”恐慌后，当前美国AI叙事几乎被Anthropic主导，核心逻辑是“AI将吃掉软件，进而走向覆盖全球的AGI”——谁占有更多最先进算力，谁就更有可能研发出前沿模型及智能体执行环境，进而匹配最高定价，因为这类模型能解决最有价值的任务。其推出的Mythos模型甚至强大到仅允许Anthropic指定的极少数使用者访问。
英伟达、亚马逊、谷歌，以及OpenAI与xAI，均已被这一叙事俘获，形成了自我强化的路径：模型成本越来越高，却依然不乏买单者；Anthropic推出任何垂直领域的智能体工具，相关上市公司股价便会大幅波动。据报道，Uber自使用Claude Code后，2026年全年AI预算仅4个月就已耗尽。但这套叙事并非无懈可击：大多数生产工作负载无需触及智能上限，而企业恐慌式投入的AI成本，能否转化为终端市场的持续性收入，仍有待验证。
云厂商CloudFlare认为，个人智能体与编码智能体的兴起，让成本成为规模扩展的主要障碍，而非次要问题。编码软件公司Replit首席执行官Amjad Masad直言，中国研究者公开分享的人工智能突破，惠及了包括美国大小实验室在内的所有人，这一观点得到HuggingFace CEO的认同。编码软件公司Cline创始人Saoud Rizwan更是调侃，若将Uber的AI预算分配给DeepSeek-V4-Pro，足以支撑84个月的使用。
【黄仁勋的破防与DeepSeek的长期主义】不可否认，即使再过3-6个月，中国开源模型也难以追平美国闭源模型的水平，差距客观存在。年初EpochAI统计显示，自2023年以来，中国模型平均落后美国7个月，最小差距4个月，最大差距14个月。DeepSeek曾承认，训练算力的约束，限制了旗舰模型在世界知识覆盖广度上的突破。此次DeepSeek-V4同时兼容英伟达与华为芯片，相当于在为未来的算力切换做“基准测试”——毕竟，英伟达用十几年搭建的CUDA生态，绝非一朝一夕可超越。
这种差距并非单纯的技术追赶所能弥补。美国艾伦实验室研究员Nathan Lambert认为，数据与训练环境才是真正的护城河。当前AI叙事聚焦于智能体（尤其是编程智能体），美国闭源模型凭借深厚的软件行业积累，拥有压倒性优势——中国软件行业的积累不足，是蒸馏技术无法弥补的；同时，中国金融、法律、医疗等行业，也缺乏美国市场那样慷慨的支付能力。
但这种优势并非不可动摇。Nathan Lambert总结，AI叙事的重点每12-18个月就会发生转移，从对话到推理再到智能体，若下一个强化学习环境恰好是中国积累最深的领域，杠杆便会向中国倾斜。DeepMind创始人哈萨比斯也认为，AGI还需要几个Transformer级别的重大突破，预计5-10年后才有可能实现，中国模型仍有充足的窗口期。
这让人联想到Android与iOS的竞争：Android并非优于iOS，却凭借更低的门槛和更广的可及性，实现了规模普及，而iOS则代表高价值与高溢价。目前，DeepSeek-V4针对FP4的推理优化，客观上帮助美国创业者在英伟达芯片上低成本嵌入中国开源模型。但更深层的长期逻辑是，随着英伟达下一代Rubin系列受到更严苛的供应链管制，DeepSeek将难以继续放大英伟达GPU的性能优势。未来，除了美国最具实力的企业，更多应用开发者将选择中国开源模型；而随着中国算力硬件性能逐步提升，通过深度协同优化，将逐步替换底层美国技术栈——当“船靠岸”时，或许已没有一块“板子”是原来的英伟达，而船上的开发者，从未离开。
这也正是黄仁勋面对芯片管制时“破防”的核心原因——他清楚地知道，长期来看，这种技术栈的替换，将动摇英伟达的行业根基。而DeepSeek的压力，在于如何在维持更低单位token价格的前提下，坚持走到“AGI普惠”的终点。这意味着它必须走一条更慢、更难，且难以获得资本市场即时奖励的道路。正因如此，DeepSeek在发布V4时，以“不诱于誉，不恐于诽，率道而行，端然正己”作结，彰显了其长期主义的坚守。
值得关注的是，如今DeepSeek终于不再否认融资传闻。据此前报道，DeepSeek已开启首次外部融资，计划筹集至少3亿美元补充资金储备，应对成本高昂的AI军备大赛，市场传闻其目标估值超过100亿美元，甚至有消息称腾讯、阿里正在洽谈投资（目前相关传闻已被否认）。据悉，DeepSeek此前依托创始人梁文锋背后的幻方资本，在量化交易和智能金融领域拥有深厚技术积累和算力基础，且曾以“不追求商业化”闻名业内，此次融资本质上并非“缺钱”，而是为期权系统建立估值锚点，稳定团队信心。希望它的投资人，能真正理解其“率道而行”的坚守与分量——DeepSeek-V4的价值，从来不止于当下的技术参数，更在于它所代表的、中国AI通往普惠与自主的长期路径，这也正是它需要被重新评估的核心意义。

作者：天辰娱乐

DeepSeek-V4，需要一次重估

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →