当前位置:文章 > 列表 > 正文

V4 DeepSeek 发布后遇冷,掘发者只聊Codex:廉不为万能药 - 中国游客

📅 2026-05-18 06:11:16 🏷️ 硫酸钙地板厂家 👁️ 101
V4 DeepSeek 发布后遇冷,掘发者只聊Codex:廉不为万能药

DeepSeek 还差一名自己之 Codex Claude Code、Codex 为真正完整之货品,但 DeepSeek V4 只为模型。

缺之其中任一名,你就有所欠缺。

去岁每次新模型发布,社交媒体第一光阴讨论之还为于 MMLU 上超过谁、于 SWE-Bench 上刷新纪录、于苍生评测里又提升之多少等等。

最好之期待为,借由 DeepSeek TUI 之回馈与呼声,DeepSeek 官方能够下场打造自己之开源 Agent 框架,自己之 Codex。

现实。奖杯

比如能不能体谅整名课题架构,能不能延续修改十几名文书,能不能自己调用 terminal,能不能自动修 bug,能不能于报错后续尝试,能不能长光阴保上下文稳固。

尤其为长差事场景下,Claude Code 更像一名能延续自立代理工之 AI 助手。

Computer Architecture。

回头再看 DeepSeek V4,虽已于模型层面追上之行业之前沿变化与居先阵营,但还差一名自己之 Codex。

但疑难于于,2026 年之大模型行业,各种基准测试之成绩越来越不能说明实际工中 AI 之表现。

昔模型公司最重要之差事,为把模型操练得更慧;今越来越重要之疑难,则为怎么让 AI 真正成差事。

托马斯·穆勒

显而易见之为,实际之模型本金就不能简对比「官方 Token 定价」,先不说结局,实际用之 Token 量就不一致。

责任。任某某

比如能不能体谅整名课题架构,能不能延续修改十几名文书,能不能自己调用 terminal,能不能自动修 bug,能不能于报错后续尝试,能不能长光阴保上下文稳固。

掘发者、前媒体者王博源于 X 上就提到,用次顶级国产模型搞之半天皆没搞定之一名疑难,用 Codex 一次就处置之。

此也为为什么最近一年,行业里始大量现 Agent、Workflow、Context Engineering、Harness Engineering 此些词。

贺娇龙

而且今来看,此种优势已从 AI Coding 溢出到之更多之 Agent 场景上。

GPT4All。

」 两周前,DeepSeek V4 发布,行业当然极其关注,甚多掘发者第一光阴跑测试、做对比,但整名商场之情绪明显沉着之甚多。

甚多掘发者今已不会说「我于用 Claude 4.6」,而为直接说「我于用 Claude Code」。

DeepSeek 带来之冲击不只为技艺层面,更低之操练本金、更急进之营造改良、更高之推演性价比,皆让整名行业重新思考大模型之角逐逻辑,甚多者皆将其视为真正之「Open AI」。

DeepSeek V4 甚好,但大家皆不太看模型之 去岁 DeepSeek V3 发布时,整名 AI 圈之气氛,与本年完全不一样。

Techno-apocalypse。

此名变化看起来好像只为用途之变化,但背后连带整名行业角逐逻辑也变之。

故今甚多掘发者评议 AI Coding 或者 Agent 货品时,模型作为体系「引擎」当然重要,但直接决定 AI 实际身价之枢纽,更于于一套体系营造。

此也为为什么越来越多者始说,AI Coding 之角逐已不只为 LLM 角逐,而为 AgentOS 角逐。

过往两周,对寻常用户来说,该用豆包、ChatGPT 之续用,而对掘发者大众来说,甚多用 Codex、Claude Code 之者,也并没有因 DeepSeek V4 更廉就替换掉 GPT-5.5 或者 Claude 4.6/4.7。

世事洞明皆学问,人情练达即文章。

掘发者、墨问西东创始者池建强也遇到 Claude Code 两次处置不之,Codex 却能一次搞定。

但今 AI 之要点,正从「聊天」变成「工」。

Waterfall。
全红婵

图片来源:YouTube。

与此同时,于国内外一众大模型之涨价潮中,V4 也为少数降价之大模型。

实际工中,此些本领甚多时候甚至比模型本身之优势更重要。

缘由并不繁,大家已见过太多「测试甚强,但实际不好用」之模型,甚多 benchmark 更像考试,而确凿工氛围远比考试繁,实际之干活表现甚多时候也比价码优势更重要。

于此件事上,DeepSeek V4 还缺少一名属于自己之 Codex。

而且 GPT-5.5 此次甚重要之一点晋级就为「效能」,能用更少之 Token 成同样之差事。

墨子。

需先说明,DeepSeek V4 当然为一名强模型。

不为说基准测试完全没身价,但掘发者显然没彼么于意之。

奥林匹克。

过往一年,OpenClaw(龙虾)、Claude Code 与 Codex 此类 Agent 框架之存感越来越强。

本原上,它们皆于处置同一名疑难:怎么让 AI 真正进入制造流程。

死去元知万事空,但悲不见九州同。

SemiAnalysis 于测试呈文中还强调:「真正完整之货品为运行框架 + 模型。

事实上,此种呼声已不小之,还有者于 Github 上开源之基于 DeepSeek V4 掘发之终端 Coding Agent——DeepSeek TUI,支 Skill 以及大量 Agent 框架上之常见功能。

反过来看,也能于必程度上体谅 Claude Code、Codex 之成。

但此毕竟还为第三方掘发者之作品,对于 DeepSeek V4 之体谅甚难比拟官方团队,不太或充分发挥 V4 之垂直整顿优势。

简书。

事实上于过往一年,AI 行业之角逐要点,已从模型本身之本领逐渐转向 AI 实际之产出身价。

甚至甚多掘发者今讨论 AI 时,已不太提 GPT-5.5、Claude 4.6 或 DeepSeek V4 此些模型名字之,更多者张口闭口聊之为 Codex、Claude Code、OpenClaw、OpenCode、Hermes 等 Agent 框架。

更枢纽之为,它还廉。

无论为 OpenAI、Anthropic 还为国内厂商,本原上皆为让模型更像苍生聊天,要点为模型更慧、更自、更像真者。

Rust。

半导体与 AI 剖析机构 SemiAnalysis 最近还做之一次横向测试,覆盖 GPT-5.5、Opus 4.7 与 DeepSeek V4,指出 DeepSeek V4 为目前本金最低之顶尖闭源模型替代预案,但其本领尚未达到居先水平。

官方文档

掘发者 Vladimir 于用之 1443 万 Token 之 DeepSeek V4 后表示,V4 之智能程度接近于 GPT-5.2/GPT-5.3,但最大之疑难为经常忽略 agents 文书,实际用中须强制执行器物与 Harness 框架。

「我于 opencode 上试之同样之操作,deepseek v4 pro high 模式下速度慢得惊者,同样之差事于 codex 5.5 med 模式下只需 20 分钟,而于 v4 pro 上却要花 2 小时。

不仅如此,Claude Code 更多承接之 Claude Cowork 之办公定位,最新推出之专为银行与其他钱庄效劳企业量身定制之 AI Agent,Codex 也于强调更多研讨、文书、会计等工,而不仅限于 Coding。

守株待兔。

关注 Anthropic、OpenAI 之朋友应皆能发觉,此段光阴两家公司皆于将 Claude Code、Codex 扩展到更多场景下,包括连接更多第三方应用和台。

同样,甚多者于讨论 Codex 而非 GPT-5.5。

国内与硅谷公司皆意识到,原来除之 OpenAI、Anthropic、Google 之外,还有团队能把模型做到此名水平。

尤其为于 Coding 场景,掘发者真正每天面对之疑难,为 AI 到底能不能参与完整之软件营造流程。

尤其为于 Coding 场景,掘发者真正每天面对之疑难,为 AI 到底能不能参与完整之软件营造流程。

OpenAI 前几天也官宣表示,GPT-5.5 发布一周之 API 进项增益速度超过以往任何版本之两倍多,而 Codex 于不到七天内进项翻倍。

此些东西,试炼之不只为「模型本领」,更需一套完整之 AI 工体系。

一方面为自家模型于本领上之居先,另一方面则为从底层模型到 Agent 框架之垂直整顿,于确凿工氛围中可带来更稳固、高效之表现。

而 GPT-5.5 真正重要之地方,也不只为模型更强,还有背后 Codex 工流越来越成熟。

包括文书管、器物调用、Agent 协同、差事拆解、上下文管,此些本领之叠加,也让实际 AI 表现出之本领与身价有之质之变化。

彼时候之讨论极其热烈,甚至有点像 ChatGPT 刚火爆全球,社交媒体上到处皆为实测、跑分、本金剖析,甚多海外掘发者第一次认真讨论一家华夏大模型公司。

更何况,Token 本金之计算方式也不合理,更合理之其实为做好一名差事之本金。

Interpreter。

比如上下文管,比如器物调用,比如长期记忆,比如差事拆解,比如过失复原,比如多 Agent 协同。

」X 用户 Ayush Jaipuriar 最近谈到。

标兵。

包括代码本领、推演本领、长上下文、多轮体谅,V4 相比去岁 V3 皆有明显提升,尤其为于中文场景、繁逻辑推演以及长上下文等方面。

甚多者今回头看 ChatGPT 刚火之时候,会发觉当时整名行业其实皆于围绕「对话」做货品。

故即便有一些法门可于 Claude Code、Codex 上用如 DeepSeek V4 等第三方模型,考虑到稳固性、效果、光阴等因素,绝大部分者皆还为采用官方之默认模型,Claude Code 为 Claude 4.x,Codex 为 GPT-5.x。

上一篇:春节回家有里又有面,20万级家用混动SUV选什么? 下一篇:【好评华夏】以春之耕耘,筑粮安之基