AI 为什么会编程——原理、历史与未来

标签： | 发表时间：2026-05-20 16:13 | 作者：

出处：https://x.com

我们来回顾一下AI Coding。

2021 年那会儿，AI Coding还基本是学术圈的论文话题，圈内程序员把它当作编程的辅助工具。GitHub Copilot 那年第一次发出来，火过一阵子，争议主要还是”这玩意到底该不该用，会不会让我变笨”。

到 2026 年 4 月，画面发生了剧变：GitHub 上每天约有 13 万 5000 个公开提交（commit）由 Claude Code 直接产出，约占全平台公开提交的 4%；OpenAI Codex CLI 重启一年，周活开发者破 300 万；Cursor 母公司 Anysphere 这两年的 ARR 从 0 跑到 20 亿美元，是 SaaS 历史上最快的曲线。

短短四五年，这件事完成了从”论文话题”到”日活千万级生产力工具”的跃迁。

我自己写专业代码超过十年，过去三年每天都跟这些工具打交道。这篇文章想用我的视角，把三个被反复问到、但很少有人系统答过的问题一次说清楚：

AI 凭什么会写代码？
这件事在过去五年是怎么发生的？
接下来几年，每个人真的能自己造 App 吗？

我会按”原理、历史、未来”的顺序讲下来。不需要技术背景。

一、原理：从史前到现在

1.1 史前时代：补全工具走的两条路

ChatGPT 之前，让机器写代码这件事走在两条路上。

一条是程序员用论坛式平台或者工具自助。Stack Overflow 这类问答社区做的是”全人类积累过的报错和解法都摆在这里”。你写一段代码报错，把错误信息贴上去，社区里有人答。中国对标的是 CSDN，1999 年起步的中国软件开发者社区，到 2024 年累计 4000 万注册用户、1200 万月活，是整个国内程序员的”中文外脑”。我自己 2014 年学编程时，每天工作流就是写代码、报错、复制粘贴去 Stack Overflow 搜，把答案改一改贴回去。这个流程在 ChatGPT 出现之前用了整整 15 年。

IDE 这一层也在试图帮人。Microsoft Visual Studio（1997 年首发）的 IntelliSense、IBM 主导的 Eclipse（2001 年开源）的 Content Assist、JetBrains IntelliJ IDEA（2001 年）的 smart completion，都是当年”智能提示”的代表。但它们本质是查字典：你打 str.，IDE 列出 String 类的所有方法。它不”理解”你想干什么，它在”查表”。

加载图片

52 KB

另一条是学术界的程序合成（program synthesis），目标是用形式逻辑从规约（specification）反推出代码。这条路从上世纪 70 年代算起，被困在玩具级别整整半个世纪。半个世纪里几乎只跑出来一个工业级成果，是 Microsoft Research 的 Sumit Gulwani 主导的 FlashFill，2013 年集成到 Excel 里，根据你给的几个例子自动猜出整列的变换规则。但这套思路要求形式化规约或纯净例子，对自然语言无能为力。

加载图片

20 KB

program synthesis

2020 年前后还出现过神经网络版本的代码工具，比如 Microsoft 的 CodeBERT（2020 年 9 月）、Salesforce 的 CodeT5（2021 年），都属于智能一点的自动补全。它们的根本限制还是不懂自然语言。你没法跟它对话，它也只能补一行代码，没法接一个任务。

把这几条线放一起看，问题的本质就浮上来了：要让机器真正会写代码，前提是它得先懂自然语言。这件事 2018 年之前，没人做出来。

1.2 转折点： GPT 系列怎么改局面

转折点是 GPT 系列。OpenAI 2018 年 6 月提出一种思路：先用海量自然文本做预训练，让模型学会”猜下一个词”的通用能力，再针对具体任务微调，GPT应运而生。GPT 全称 Generative Pre-trained Transformer，GPT-1 只有 0.117B（billion）参数，是个研究原型；GPT-2（2019 年 2 月）涨到 1.5B；GPT-3（2020 年 5 月）直接做到 175B，比 GPT-2 大 100 倍。规模上去之后，”懂自然语言”这件事第一次跨过了门槛。从这条线往代码迁移，就有路可走了。

写代码的模型和聊天的模型用的是同一种 Transformer 网络，做的是同一件事：看着前面已有的 tokens，预测下一个 token 该是什么。一段 Python 代码在模型眼里，和一段中文小说一样，都是 token 序列。模型并不”知道”自己在写代码，它只是沿着前面的上下文做最大概率的下一个 token 预测。

举个具体例子。最简单的斐波那契函数长这样：

def fib(n):

if n < 2:

return n

return fib(n - 1) + fib(n - 2)

模型生成它的过程，就是一个 token 接一个 token 往下猜。给定 def fib(n): 这一行之后，下一个最高概率的 token 是换行加缩进；再下一个是 if；再下一个是 n；再下一个是 <；再下一个是 2；再下一个是 :；再下一个是 return；这样一直猜下去，直到整个函数收尾。把成百万行 GitHub 代码看过几遍之后，这种”猜下一个 token”的概率分布天然就编码了语法、惯用法、变量命名、注释风格。

1.3 为什么代码这种语料特别适合模型训练

但代码这种语料特别适合被模型学会，原因有几条。

最直观的一条是代码的规律性极强。for i in range(10): 后面缩进了就是循环体，规则是死的，比自然语言稳定得多。同一个意思，自然语言可以有十种说法，代码基本只有两三种写法。这让模型从有限语料里学到的”压缩后的规则”密度远超普通文本。

再深一层，代码有客观对错。给一段函数和一组测试用例，跑一下测试就知道对错。这件事自然语言完全没有：一首诗写得好不好、一段散文动不动人，没有自动判分器。代码的这个性质后面会变成核武器。

还有一层是数据本身。每个开源仓库的 README、每段函数前的 docstring、每条 commit message，都是免费的”自然语言 ↔ 代码”对照语料。这是 GPT-3 之后所有代码模型都在吃的数据红利，量级远超人工标注能造出来的对照集。

最早一批走这条路的人，是把代码当作专门技能来训的。OpenAI 2021 年拿 GPT-3 在 GitHub 上 100 多 GB 的公开代码继续训练（这种做法叫 continued pretraining），得到 Codex 这个衍生模型。Codex 在 HumanEval（OpenAI 自己造的 164 道编程题数据集）上做到 28.8% 的首次通过率，是当年的 SOTA。那一阵 OpenAI API 里 code-davinci 和 text-davinci 就是两个独立的模型，前者写代码，后者写文。

GPT-4 时代之后，这条分家又合上了。Anthropic、OpenAI、Google 都在通用大模型的预训练数据里直接大量混入代码（公开估计占比 20% 到 40%），不再有专门的代码模型，统一一个 Claude / GPT / Gemini 既写文又写代码。

为什么会合并？因为出现了一个反常识的发现：训练里加大量代码，模型在数学、逻辑、甚至自然语言任务上都会变强。这件事最早是 DeepMind、Google Brain、OpenAI 几家在 2022 到 2023 年陆续观察到的。解释其实很直观：代码这种语料强迫模型学习”严格逐步推理”的思维方式，每一步必须严格成立，不然下一步就崩。这种思维一旦学到手，会迁移到非代码任务上。换句话说，代码训练已经成了让通用模型变聪明的核心成分之一，远超出”顺带做的副业”这个定位。

1.4 RLVR ：从”会写”到”能写对”

代码模型独有的杀手锏，是基于执行反馈的强化学习。具体的训练流程是这样：让模型生成一段代码，扔到一个真实的运行环境里跑，看测试用例通过几个，把结果（pass / fail）作为奖励信号回传给模型，让它下一次写得更好。这套方法叫 RLVR（Reinforcement Learning from Verifiable Rewards，可验证奖励的强化学习）。”可验证”是关键词：奖励信号不来自人类标注（贵、慢、有偏差），来自机器自动判分（廉价、可大规模、客观）。代码、数学题、形式化逻辑这几类任务都满足”可验证”，是 RLVR 最适合的场景。

加载图片

30 KB

DeepSeek 2025 年初放出来的 R1 模型把这条路推到极致：先用强化学习在数学和代码上把推理能力训出来，再迁移回普通对话场景，在多个 benchmark 上追上同期的闭源前沿模型。Claude Code、OpenAI o3 / Codex 这条线背后的训练大头，也都是 RLVR。这件事 2024 年之后才成为主流，是代码能力在过去两年涨这么快的核心原因。

整理一下。今天的代码能力是两件事的合成。一件是代码训练把通用大模型整体推到了一个新台面，让”先把问题分步、再每一步成立”这种思维方式渗进了模型的默认行为。另一件是在代码、数学、推理这类有客观对错的任务上叠加了大量基于真实执行的强化学习，把模型从”会写”训到”能写对”。这两条合起来，才是 AI 编程的真正引擎。

二、 AI Coding 公司发展史

2.1 起源：双雄站位与早期工具（ 2020 - 2022 ）

GPT-3 在 2020 年 5 月发布，175B 参数，规模上去之后，OpenAI 第一次有了把模型卖给开发者的底气。2021 年 7 月，他们拿 GPT-3 在 GitHub 公开代码上继续训练，得到 12B 参数的 Codex 衍生模型，搭载到 GitHub 推出的 Copilot 里。这是 AI 第一次进入程序员的”肌肉记忆”。每天敲 Tab 几百次接受补全建议，这个习惯就是从那个夏天开始的。

加载图片

25 KB

但 Copilot 当时形态有限：上下文窗口只有 2k 到 8k token，看得到的是当前文件局部，被动响应你不打字它不动。它适合补一行，不适合做一件事。

模型这一边，Anthropic 几乎同时起步。它的两位掌舵者是 Dario 和 Daniela Amodei 兄妹，2020 年底从 OpenAI 出走，2021 年 1 月把公司做出来，团队带走了一批 GPT-3 时代的核心研究员（Tom Brown、Jared Kaplan、Sam McCandlish 等人）。Anthropic 把”模型的诚实性、可控性、对长上下文的理解”作为差异化方向，这套底色后来变成 Claude 在代码任务上的天然优势：长代码库读得进去、复杂指令听得懂、对自己不确定的部分愿意说”我不确定”。

2022 年 11 月 OpenAI 发出 ChatGPT，AI 编程的形态从”补全工具”变成”对话伙伴”。但那时 ChatGPT 编代码经常一本正经地胡说八道，自信地编一个不存在的 API。同期出现的 Claude 系列，体感上的代码准确率明显高于 ChatGPT，是工程师圈里的”小众选择”。

ChatGPT 起飞之后，一整套”程序员的外脑生态”开始被重写。Stack Overflow 是受冲击最直接的一家：2008 年 9 月由 Joel Spolsky 和 Jeff Atwood 创立的全球程序员问答社区，2017 年峰值时每月新问题超过 30 万、月访问量超过 1 亿、累计注册用户破 1000 万。但 ChatGPT 之后，每月新问题数从 2017 年峰值的 30 多万一路掉到 2023 年的约 8.7 万、2024 年不到 6 万；到 2025 年 12 月只剩下不到 4000 个新问题，回到 2008 年刚上线时的水平。CSDN 也在掉。专做 AI 代码补全的早期创业公司 Kite，2014 年成立、是最早一拨 AI 编程工具，2022 年 11 月关闭，留下一句”我们是早了 10 年的产品，技术那时还没到”，500,000 月活也没能把它撑活下来。Codecademy、W3Schools 这一类教程站的流量也在持续下滑。

加载图片

45 KB

2.2 范式革新：编辑器革命到智能体时代（ 2023 - 2026 ）

2023 年 GitHub 把 Copilot 扩到对话，发出 Copilot Chat。但侧边栏聊天加 IDE 主区写代码，体验是分裂的，AI 始终被关在角落里。

真正改整个范式的是 Cursor。母公司 Anysphere 是 4 个 MIT 学生 2022 年起步做的，关键判断是把 VS Code 整个 fork 出来重写。fork 比做插件难得多，但能让他们改编辑器本身的交互。Cursor 真正的技术贡献是 codebase indexing，把整个项目全量向量化，让 AI 第一次能”看见整个项目”。这套范式后来定义了行业标准：模型用别人的（Anthropic / OpenAI），工程层是自己的（项目索引、上下文组织、UI 工作流）。

加载图片

59 KB

2024 年 10 月 Claude 3.5 Sonnet 升级版发布，SWE-bench Verified（一个由人工核对过的真实 GitHub bug 修复 benchmark）上的分数从前一代的 33% 跳到 49%。”AI 真的能写代码”这件事从这一刻第一次成立。Cursor 的体验在那几个月发生质变，工程师圈从 Copilot 大批往 Cursor + Claude 迁移。我自己 2024 年底切过去，三个月之内代码产出感觉翻了一倍。

接下来 2024 到 2025 年，整条线从”IDE 内的补全”往”智能体（agent）”方向跳了一步。Devin 是 Cognition Labs 2024 年 3 月发的，第一个把自己定位成”AI 软件工程师”的产品。营销大于实际，但定调了”端到端任务级 agent”的产品形态：给它一个目标，它自己去拆任务、写代码、跑测试、改 bug。

加载图片

71 KB

从那之后，最近一年的竞争主要落在三家头部产品之间。Codex 这个名字 OpenAI 用了第二次：第一次是 2021 年作为 GPT-3 衍生模型，作为 Copilot 的引擎；2023 年被弃用迁到 GPT-4；2025 年 4 月 16 日以”产品名”重启，这次是 Rust 写的命令行 agent。重启势头很猛，2026 年 3 月周活做到 200 万，4 月跳到 300 万，环比涨 50%；ChatGPT 企业版里 Codex 用户从 1 月到 4 月翻了 6 倍。

加载图片

402 KB

Claude Code 在工程师圈的渗透更深。Anthropic 2025 年发出来之后，靠 Claude 在长代码库上的天然优势，2026 年初做到约 25 亿美元年化收入（ARR），每天产生约 13 万 5000 个公开 GitHub 提交，占全平台公开提交的 4%。SemiAnalysis 预测它到 2026 年底会涨到 20% 以上。

Cursor 自己的体量也在快速涨。2026 年 2 月做到 20 亿美元 ARR，4 月在以 500 亿美元估值融资，是 SaaS 历史上从 0 跑到 20 亿美元最快的曲线。

剩下几家也有特点。Windsurf（前身 Codeium）是另一个 AI 原生 IDE，2025 年中被收购之后情况变复杂。GitHub 老牌玩家也追了上来，把 Copilot 升级成 Agent Mode 和 Coding Agent，老用户自然转化过去。

整体看下来，今天工程师圈的格局：资深程序员主流是 Cursor + Claude Code 组合，IDE 写代码加命令行跑大任务。

2.3 国内赛道和外行使用

主线之外，有两条值得单独说：国内厂商，以及面向非程序员的外行赛道。先说国内。

国内这个赛道是和海外平行展开的，几家大厂各占一席，开源那一拨也有自己的位置。

字节做的 Trae 是国内体感最接近 Cursor 的 AI 原生 IDE，2024 年底前后上线，初期对个人完全免费的策略让它在国内开发者圈渗透很快。Trae 接的是字节自家的豆包大模型，在中文项目和中文注释场景下，体感比直接用 Cursor 顺。同期字节还有一个更早的产品叫 MarsCode，定位偏向云端 IDE，跟 Trae 形成内部分线。

阿里的通义灵码是国内最早一批的 AI 编程助手，2023 年发布，作为 VS Code 和 JetBrains 系列 IDE 的插件存在，背后接通义千问 Qwen 系列模型。它在阿里云生态内的企业客户里渗透最深：钉钉、阿里云的内部团队和云上客户大量在用。Qwen 系列也是国内开源大模型里代码能力最强的一档。

百度的文心快码（Comate）有一个值得单独说的特性：SPEC 模式，强制先写需求文档、再让 AI 按文档写代码，把”PRD → 设计 → 开发”这条工程流程装进了 IDE 里。这套打法在国内大厂的内部研发场景里挺受欢迎，因为大厂的代码标准和合规审查严，AI 自由发挥的代码很多过不了 review。文心快码是国内少有的、走出工程化深度差异化的一家。

剩下几家。腾讯的 CodeBuddy 接的是混元大模型，主要走腾讯云生态。智谱的 CodeGeeX 是国内最早一批专门的代码模型，2022 年起就在做，今天也是国产代码 LLM 里开源版本最完整的一家。华为的 CodeArts 捆绑在华为云的 DevOps 套件里，主打央企和大型国企客户。

整体看下来，国内的真正优势在三条：中文场景适配明显更好、和国产云绑得紧、企业级落地路径短，加上个人版基本免费。短板也实在：前沿模型能力仍落后 Claude Opus 系列和 GPT-5 系列，在复杂多文件、跨仓库的智能体任务上还有可见差距。差异化的真正空间在两条，一是模型能力本身继续追，DeepSeek、Qwen、智谱都在做；二是把具体行业流程吃进工具里，文心快码的 SPEC 模式就是这个方向。

再说外行赛道。Vibe Coding 这一类工具的定位是让非程序员也能造 App：你用自然语言描述需求，AI 直接给你一个能跑的应用。这条线最近一年起得很快，每家有自己的切入点。

Lovable 是这一波里跑得最猛的。瑞典人 Anton Osika 2024 年做出来，从 0 到 4 亿美元 ARR 用了不到一年，全公司只有 146 人。它的产品形态是一个聊天框加实时预览：你说一句”我要一个看板，能拖拽卡片，能跟 Slack 同步”，Lovable 直接给你生成前端加 Supabase 数据库的全栈应用，几分钟内在浏览器里跑起来。

加载图片

69 KB

StackBlitz 做的 Bolt.new 走的是另一条路：在浏览器里写完整全栈应用，不依赖任何本地后端，跑在浏览器内嵌的 WebContainer 里。你描述需求，它生成代码、装依赖、运行起来，全程不用本地装环境。Bolt 在创业者和教育场景里渗透得特别快。

加载图片

43 KB

Vercel 的 v0 切的是 UI 设计这个口子。你给它一段描述或一张草图，它生成一个 React 组件，能直接拖到你已有的项目里。v0 不试图做整个 App，在前端组件这一段做得最精，是设计师和前端的高频工具。

加载图片

26 KB

Replit Agent 是老牌在线 IDE Replit 2024 年 9 月发的智能体产品，强调”从需求到部署，一个 agent 跑完”。Replit 的优势是它本来就有完整的云端运行环境，agent 跑完直接就在云上跑起来。Base44、Mocha、Glide 这些更新的入局者，定位偏企业内部小工具，主要解决”5 个人的小团队想要一个内部表单或仪表盘”这种长尾需求。

把整条外行赛道压一句：Vibe Coding 已经把造 demo 的成本砸到地板。一个有产品 sense 的人凭一个想法做出来一个能展示的 demo，过去要一周以上，现在一个下午就行。但从 demo 到真正能用的产品中间还隔着整个软件工程行业的活，这个鸿沟留到第三章细说。

三、展望未来

3.1 做 App 是个系统工程， AI 编程只解决了一环

现在经常可以看到这样的口号，让不懂一行代码的外行，可以直接做出一个app，躺着数钱。我们先不说需求端，我们来看技术方面。

外行直接造 App 这个口号，有真的部分，也有需要打折的部分。先看一眼以前在公司里做一个像样的功能是什么样。

软件工程把做软件这件事拆成几个阶段，是有正式标准的。最权威的一份是 ISO/IEC/IEEE 12207《系统与软件工程：软件生命周期过程》，1995 年首发，2017 年更新到现行版，给软件全生命周期定义了几十个标准过程。各国大学的软件工程教材讲的也是这套生命周期：需求、设计、开发、测试、上线、运维。

国际标准之外，国内大厂也把这套生命周期落地成了自己的工程规范，且不少是公开的。阿里巴巴 2017 年发出《阿里巴巴 Java 开发手册》（项目代号 P3C），分编程规约、异常日志、单元测试、安全规约、工程结构、MySQL 数据库六大维度，配套 IDE 插件累计下载超过 160 万次。美团技术博客（ tech.meituan.com）专门写过大量灰度发布、故障复盘、产品上线流程的实操文章。国外更彻底的是 GitLab，把整个公司的研发流程开源做成公开手册（GitLab Handbook，几十万字）。这些材料让外部读者能直接看到大厂内部的研发节奏，骨子里都遵循同一套生命周期。

一个像样的功能在大厂里走的流程是这样：需求阶段（PRD + 评审）、设计阶段（UI/UX + 评审 + 技术方案 + 技术评审）、开发阶段（任务拆分 + 前后端开发 + 联调 + 代码评审）、测试阶段（自测 + QA + bug 循环 + UAT）、上线阶段（灰度 + 全量 + 监控应急）、验证回收（数据验证 + 复盘 + 归档）。一个像样的需求走完这条流程，少则两周，多则两三个月。

这条流程每一环都是在堵一个真实的坑。PRD 评审堵的是做出来不是想要的，技术评审堵的是架构上选错了半年后推倒重来，代码评审堵的是代码能跑但维护不了，QA 堵的是上线就崩，灰度堵的是出 bug 影响所有用户。每一环都是过去几十年血泪经验的沉淀。

回到 AI 这边，它今天能直接吃掉的环节其实不止写代码这一个。把每个阶段、每个子环节里 AI 真正能切多少，挨个过一遍。

加载图片

50 KB

3.1.1 需求阶段（ PRD + 评审）

PRD 这一段 AI 已经能做不少活：把零散想法整理成结构化文档（背景、用户画像、流程图、验收标准），扫已有功能找冲突点，列边界条件，甚至自动生成数据埋点和 A/B 实验设计。但 PRD 评审会本身 AI 替不了。评审要 4 到 6 个不同岗位的人坐下来吵：业务方关心 ROI 和发布节奏，产品关心用户体验，工程关心实现成本和技术债，QA 关心可测性。这种跨岗位的拉锯和共识形成，需要的是组织协调，AI 帮不上忙。

3.1.2 设计阶段（ UI/UX 和技术方案）

设计阶段实际有两条线：UI/UX 和技术方案，每条线各带一次评审。

UI/UX 这条线被 AI 吃得最透。v0、Figma AI 这类工具几分钟就能从一句话生成一个能跑的 React 组件，样式系统都能配好。设计评审里的形式化检查，比如风格有没有对齐、组件有没有复用已有库，AI 也能跑一遍。但一个交互到底符不符合品牌调性、用户走完这一步下一步会做什么，这种判断还是要资深设计师拍板。

技术方案这条线 AI 也已经很有用。给它一段需求，它能列出三套候选架构，把吞吐、延迟、成本对比清楚。但最后选哪一套要人来定，因为选型背后是一堆 AI 不知道的组织约束：团队熟悉哪个栈、有什么合规要求、对外承诺了什么 SLA、关键人员稳不稳。技术评审会上的辩论更是如此，往往是为什么不用 X、为什么不用 Y、为什么这次必须做 Z，每一句背后都有一段团队历史。AI 没坐过这些会，跟不上节奏。

3.1.3 开发阶段（编码与评审）

开发阶段是 AI 真正的主战场，但里面也有 AI 切不动的硬骨头。

先说 AI 能直接做的。任务拆分这一步 Claude Code 已经能从 PRD 直接生成 issue list 和依赖图。前后端开发是 Cursor + Claude / Codex 的核心使用场景，资深工程师里 2 到 10 倍的效率提升是普遍体感。联调（前后端打通接口）AI 能自动起 mock server、跑契约测试、扫接口签名不一致。代码评审 AI 也能做静态分析、规约检查、潜在 bug 标记。

但代码评审里有一层 AI 跟不上：架构判断。这次改动会不会让模块边界变模糊、这套抽象未来三年好不好维护、这个解耦在团队的下一阶段规划里是不是合理，这种 review 还是要资深 reviewer。

更硬的骨头是跟外部世界打交道的那一段。要接一个第三方 API（微信支付、Stripe、Google Maps），AI 能把调用代码写得很标准，但 API key 怎么申请、商务怎么谈、KYC 怎么过、回调地址怎么备案，这些步骤要真人去走流程。要做权限管理（OAuth、SSO、公司内部 IAM、云上 RBAC），AI 能写规则和代码层，但谁该有什么权限、合规和 GDPR 是不是过得了、出事谁负责，仍然是组织决策。这一类卡点跟 3.2 节要说的”非程序员造 App”碰到的问题是同根源的。

整体看下来：开发阶段纯代码部分 70% 到 80% 的活 AI 能直接做，剩下的 20% 到 30% 一部分是架构判断和疑难调试，另一部分是接外部 API、做身份和权限这类需要走人工流程的硬骨头。

3.1.4 测试阶段（自动化与人工验收）

测试阶段是 AI 的第二大主战场。

自测和 QA 这两步 AI 几乎全包。自测里 AI 自动生成单元测试和集成测试，覆盖率比人手写的高很多。QA 阶段 AI 能跑全量回归、做 fuzzing（用随机输入压测程序找崩溃点）、扫边界条件。fuzzing 以前因为成本高、回报低很少做，AI 把它的边际成本降到几乎为零。

bug 循环 AI 也已经在闭环。从错误堆栈定位代码、生成修复 patch、提交 PR，不少团队 80% 的 P3 / P4 级 bug 在 AI 流水线里直接走完。

UAT（用户验收测试）AI 替不了。这一步要真用户在真场景里点一遍，看产品和用户预期对不对得上。代码正确性的所有测试 AI 都能跑，但产品贴不贴用户需求，只有用户自己能判断。

3.1.5 上线阶段（执行与决策）

上线阶段分两段：执行和决策。

执行这一段 AI 已经能完整接管。灰度发布的细节（按比例放量、按地域放量、按用户 cohort 放量）和全量发布的步骤都能自动跑。监控告警、异常检测、针对预定义场景的自动回滚也都已经成熟。

决策这一段还是人在拍。灰度跑到 10% 之后核心指标抖动了，要不要继续推、要不要 rollback、要不要先 hold 住调查，每一个动作都要权衡：往前推一格 5% 的回滚成本，往后推一格全量的风险。这种 go/no-go 决策光看仪表盘是拍不出来的，背后还有业务节奏、合作方协调、市场窗口一堆 AI 看不见的因素。

更难的一类是没见过的事故。第三方依赖挂了引发级联故障、某个区域机房断电、某次安全事件需要紧急下线，这种没在 runbook 里的情况，处置方案还是要 oncall 工程师来定。

3.1.6 验证回收（数据验证 + 复盘 + 归档）

数据验证 AI 可以拉指标、生成可视化、给三到五种可能的归因解释，但”这个功能转化率没达到预期，是用户不需要、还是入口太深、还是定价错了”这种判断要产品经理结合定性数据来决定。复盘会 AI 替不了，复盘的核心是组织学习：这次教训怎么变成下次的工程规范、谁该承担什么责任、流程要不要改，这是人对人的事。归档环节 AI 完全可以自动化，文档结构化、链接知识库、生成检索索引，这些是 AI 干得最干净的活。

把六个阶段连起来看一张图。

加载图片

59 KB

今天 AI 在整个研发流程里能直接替的工作量，按子环节加权大概是 50% 到 60%。开发和测试两个阶段占的份额最大，各自有 70% 到 85% 的活 AI 能直接做；需求、设计、验证回收这几段，AI 能切的子任务多在 30% 到 50%；上线阶段里执行部分几乎 100% 自动化，但 go/no-go 决策仍是 0%。

换个说法：AI 已经把每个阶段”做完”的成本拉到很低，每个阶段”拍板”的那一下还得人来。

剩下的 40% 到 50% 的人工部分，再往下能不能继续被 AI 吃掉？这是判断未来若干年走向的关键问题。里面分两类。

第一类是技术上还差一截、但有路可走的：基于团队历史的架构选型、复杂归因、跨多文件 / 多仓库的疑难调试、未见过事故的应急处置。这些今天 AI 做不到，主要是上下文不够长、对组织语境不熟悉、对长期演进缺乏概念。模型继续涨上下文、加上长期记忆、在团队代码库里持续训练，五年内有希望吃掉这里面的一大半，把流程整体推到 70% 到 80% AI。

第二类是技术再涨也吃不动的：跨人共识、承担责任、对接真实世界（KYC、商务谈判、合规审批、法律责任）。这些卡点的根子在制度，跟模型能力没关系。要 AI 真正接手，前提是 AI 能作为法律主体存在，能签合同、能持账户、能为后果负责。已经有创业公司在做”为 AI agent 持有账号、承担责任、买保险”的法律实体，但这条路涉及法律、监管、社会接受度，时间窗口是 5 到 10 年。一旦走通，剩下的 20% 到 30% 也会被吃掉，软件研发就会进入下一个范式：人只剩出题人和最终拍板人两个角色，其它全是 AI。

短期内（未来 2 到 3 年）整个流程从现在的 50% 到 60% AI 推到 70% 到 80% AI 是大概率事件，途径是模型能力持续进步加上工具链填齐。要再往上走到 90% 以上，模型本身已经不够用了，得靠制度突破。

这件事有学术背书。IEEE 的 SWEBOK V4（2024 年 10 月发布的软件工程知识体系）列出 18 个知识域，AI Coding 主要覆盖其中的”软件构造”和部分”软件测试”，剩下 16 个知识域（需求工程、软件架构、软件安全、软件维护、软件配置管理、软件工程经济学等等）AI 只能做辅助。把每个 App 当作一棵树，AI 砍下了最高最壮的一根树枝，剩下的根、干、其他枝条还得人来扶。

工程师视角下，这个迁移已经在重新定义人和机器的分工。我自己的体感是这样：人定义问题、把关结果、处理复杂部分；AI 写代码、跑测试、修常规 bug。从 2022 到 2026，code review 的粒度也在变。2022 年程序员每行代码都自己看；2024 年看的是 PR 级别的 diff；2026 年越来越多场景下，看的是 issue 级别的结果（这个 bug 修好了吗，这个功能跑通了吗）。工程师没失业，但工作内容里写代码这部分的占比快速下降，判断、审查、验收的比重上来。

3.2 是否会有”外行一键造 App ”的神器

回答这个问题，先把上一节那张大厂研发全流程图拿过来，对照看一遍：对于一键造 App 的场景，哪些环节其实根本不需要 AI 替，可以直接省掉。

需求阶段 :

几乎可以全省。你一个人就是需求方加决策方加用户，脑子里有想法直接说就行，不需要 PRD 文档化、不需要跨部门评审、不需要业务对齐会。

设计阶段 :

大幅简化。UI/UX 让 AI 自动生成，接受厂商的默认风格就行，没有品牌调性的拉锯。技术方案这一段在 Vibe Coding 工具里被默认死了：Lovable 给你 Next.js + Supabase， Bolt.new 给你 WebContainer + 内嵌 Vite，你没得选，也不用选。技术评审会因此整个消失。

开发阶段 :

保留，但只剩 AI 写代码这一段。没有任务拆分会，没有联调（前后端是同一个生成的栈），没有代码评审（你自己看跑不跑得起来就行）。

测试阶段 :

大幅退化。自测等于你自己点几下，QA 和 bug 循环退化成”我用着舒不舒服”，UAT 在自己用的场景下根本没有这一步。Lovable 直接在浏览器里跑，崩了重生成。

上线阶段 :

几乎全省。一个人用谈不上灰度，全量等于”自己打开网址访问”，监控应急对应不到这个规模。出问题重新生成一次就完事。

验证回收阶段 :

也基本不存在。没数据可验证（用户就你自己），没复盘会议，归档让 AI 自己干。

省下这些之后，一键造 App 的真实流程就剩三步：你描述需求 → AI 生成加部署 → 你自己用。这条精简流程能不能 100% AI 化？答案要分两类场景看，每一类还要再分一层。

3.2.1 自己用的、一次性的、内部的小工具

这一类今天确实已经基本 AI 化了。但内部其实分两种架构。

最干净的一种是纯前端、跑在浏览器里、关掉就没的。Anthropic 的 Artifact、OpenAI 的 Canvas、Vercel 的 v0、 Bolt.new 都属于这种。它们生成的工具没有后端、没有数据库、没有用户登录，就是一段 HTML + JavaScript 在浏览器里跑，stack 简到只有 React + Tailwind 一两个文件。临时计算器、UI 原型、数据可视化、文档格式转换是典型场景，今天确实是一句话描述、几分钟拿到、连账号都不用注册，AI 一条龙包圆。

复杂一点的是有简单后端、能存数据、可能多人用的。Lovable 的”前端 + Supabase”组合是典型代表，stack 大概是 Next.js + Tailwind + Supabase（数据库 + Auth）+ Vercel 部署，跟我自己在 indie 项目里用的标准技术栈基本一致。这一类的代码 AI 能 100% 写，但人还要做几件 dashboard 操作：去 Supabase 注册账号、新建 project、复制 URL 和 key；去 Vercel 把 repo 接进去、粘环境变量、点 Redeploy。AI 打不开浏览器控制台，所以这一段卡在那里。个人记账带云端同步、小型内部审批流、几个朋友共用的协作小工具属于这一档。

两种加起来，个人和内部小工具的场景今天已经接近 95% AI 化，剩下的 5% 是 Human 在控制台粘几次 key。

3.2.2 给别人用的、能上 App Store 或者能收钱的正式 App

这一类的现实情况是：AI 能把代码 95% 以上写完，人主要做的是控制台点击和审批走流程。展开看，控制台点击里又分技术性的和制度性的两层。

技术性那一层，AI 写代码、人配凭证。一个标准的 indie App stack（Next.js + Supabase + Stripe + Resend + Vercel）跑起来，AI 这边做的事大约是：写所有 TypeScript 代码、写 Prisma schema、跑 db push、写 Stripe checkout 和 webhook 处理、写邮件模板、装依赖、git push 触发部署。人这边要做以下的 dashboard 操作（只是一个范例）：

Supabase 建 project、配 OAuth providers（粘 Google / GitHub 的 Client ID + Secret，这俩还得自己去 Google Cloud Console 和 GitHub OAuth Apps 申请一遍）、配 redirect URL
Vercel Import GitHub repo、粘环境变量、改 Build Command、改完 env 手动 Redeploy
Stripe 建 Product、拿 Price ID、上线后建 Webhook endpoint、复制 Webhook Secret 粘回 Vercel
Resend 拿 API key、验证自己的发件域名

接外部 API 走的也是这条路。AI 把调用代码写好，但 API key 怎么拿、商务怎么谈、webhook URL 怎么备案、回调地址怎么注册，要人去对应平台的控制台走流程。AI 今天打不开浏览器，绕不过去。

制度性那一层，是 AI 永远办不到的：

KYC 实名认证（得拿身份证加银行账号去注册主体）
业务资质（要在国内做支付，得 ICP 备案、营业执照、有时还要对接支付牌照）
法律责任（用户数据被泄、被骗、被侵权，得有人去承担）
App Store 上架（Apple、Google 不给 AI agent 开发者账号，每年的实名加年费要人）

两层加起来，给别人用的正式 App 今天大约是 90% AI 加 10% Human dashboard。”一句话造一个真 App”严格说做不到，但已经做到了”一句话加 10 次粘 key”造一个真 App。

这跟”外行直接造 App”那个口号对得上吗？大致对得上技术性那一层，对不上制度性那一层。一个完全没接触过编程的外行，理论上跟着 Lovable 加 Stripe 加 Vercel 的引导文档走，可以发出来一个能收钱的 SaaS。但前提是 ta 愿意去办公司、过 Stripe KYC、签合规文件、当法人。这一段跟 AI 能力没关系，看的是 ta 愿不愿意当老板。

3.2.3 未来两条路

那剩下的人工部分，再往下能不能继续被 AI 吃掉？分两条路看。

技术这条路负责吃 3.2.1 里剩的 5% 和 3.2.2 里技术性那一层的 10%。AI 自己还在快速吃掉精简流程里剩下的活：自动连支付、自动过 OAuth 授权、自动部署加域名加 HTTPS、自动监控自动回滚。更关键的是，浏览器 agent 已经走到了产品化阶段，比如 Anthropic 的 Computer Use、OpenAI 的 Operator，让 AI 能代为登录 Supabase、Vercel、Stripe 这些控制台、点点点、粘 key、Redeploy。一两年内，3.2.1 那两种自己用的小工具会基本 100% AI 化；3.2.2 里 10 几次 dashboard 操作的大半也会被浏览器 agent 接管，正式 App 的技术性那一层从今天的 90⁄10 推到 95⁄5 是大概率事件。

制度这条路要慢得多，负责吃 3.2.2 里制度性那一层。AI 法人能不能成立、能不能持账户、能不能签合同、出事怎么追责，这些是法律和监管要解决的问题，跟模型能力没关系。已经有创业公司在做”为 AI agent 持有账号、承担责任、买保险”的法律实体，但要走通，需要立法、判例、社会接受度同时到位，时间窗口是 5 到 10 年。一旦走通，给陌生人用、能收钱、能上架的真 App 也会被一键造工具吃掉，软件分发的整个版图就要被重写。

一句话：自己用的小工具今天已经一键搞定；给别人用的真 App 今天做到一句话加 10 次粘 key，1 到 2 年内浏览器 agent 把粘 key 那一段也吃掉，5 到 10 年后 AI 法人成立，最后的制度卡点也才被跨过去。

加载图片

234 KB

3.3 这一波 AI 编程会重塑 PC / 手机 App 生态吗

会，但重塑的方向跟很多人的直觉相反。先把几条变量摆清楚。

3.3.1 供给 100 倍，需求还是 1 倍

3.1 和 3.2 已经把”造一个 App 的门槛”讲透了。今天 Lovable 加 Vercel 加 Stripe 这一套下来，过去要 5 个人 6 个月的活，1 个人 1 个周末就能跑出来。供给侧的产能至少翻 10 到 100 倍。

但需求侧没动多少。每个人每天还是 24 小时，平均盯着手机的时间已经 5 个小时左右，再上去基本到顶。一个人手机上常用的 App 就是 10 到 20 个，装的 60 到 100 个里大半冷启动一次就再也没点过。这是过去十年很稳定的结构。

供给翻 100 倍、需求不变，结果只能是中间那层被拍扁。具体哪一层会被拍扁，要分类型看。

最先扛不住的是工具型长尾 SaaS。报销系统、内部仪表盘、个人记账、记单词、计步器、临时表单生成器，这些过去靠卖年费活着的小工具，今天用户自己用 Lovable 半小时就能撸一个。SaaS 公司收 100 美元一年还在解释功能，AI 生成的版本免费且更贴合自己的需求。这一层大面积消失只是时间问题。

垂直行业 SaaS 复杂一点。给律所做的合同管理、给医院做的排班、给小学做的家校沟通，这些有行业知识沉淀的产品没那么容易被一句话生成。但它们也会承压：客户内部的 IT 部门可以拿同样的 AI 工具生成一个内部版本，不再付月费。这一层会被价格战打到很薄，可能砍掉一半的市场容量。

社交、内容、电商、地图这一层基本不动。这一层的价值不在代码，下一节单独说。

3.3.2 头部 App 不会被取代，反而更强

微信、抖音、淘宝、Google Maps、Instagram、WhatsApp 这一类头部 App，AI 编程动不了它们的根。原因有四条。

网络效应。微信的价值 90% 来自其他 10 亿用户在上面，你做不出一个只有你一个人用的微信。Lovable 一个晚上能给你生成一个长得像微信的 App，但里面没有任何一个你想聊天的人。

数据沉淀。抖音过去 8 年攒下来的用户行为数据是它推荐算法的真正护城河。一个新的”AI 生成的短视频 App”零冷启动，没有任何数据，推荐系统从第一天起就比抖音差几个数量级。

内容和供给生态。淘宝有几百万商家、上亿 SKU、稳定的物流和支付。AI 生成的”我的购物 App”打开里面什么都没有。

分发入口。Apple、Google、Meta、ByteDance 把着用户每天打开手机时第一眼看到的位置，这一层 AI 编程根本碰不到。

更反常识的是，AI 编程会让这些头部 App 的优势更深。它们内部用 AI 提速 10 倍迭代，用 AI 处理客服、做推荐、生成内容、做反作弊，规模优势加上 AI 让产品质量进一步拉开。过去一个新创业者还能靠”做得比微信好”这种梦活几年，AI 编程时代连这个梦都没了。

3.3.3 长尾 App 退化成按需生成的 capability

把 3.3.1 和 3.3.2 合起来推一格，几年后的手机格局可能是这样。

头部 App 大约还是 20 到 30 个，跟今天差不多，但每个都更强、更难被替代。微信、抖音、淘宝、银行 App、地图、邮箱、相机这一类，仍然是装着、长期用、跨年攒数据的形态。

中间那一层（工具型 / 单功能 / 长尾）从今天的几十个塌掉，剩下不到 10 个。日历、笔记、密码管理这种个人数据持续累积的还会留，但绝大多数小工具被替代。

替代它们的是临时生成的 Capability。你跟手机里的 AI 助手说”我想记一下这次旅行的开销”，AI 现场给你拼一个表单加表格加简单图表，旅行结束你就把它删了，下次旅行再生成一个新的。Anthropic 的 Artifact、OpenAI 的 Canvas、Apple Intelligence 的 App Intents 已经在做这件事，只是还没普及到所有用户。

这种 Capability 的特点是：用完即弃、个人定制、零安装、无月费、不进 App Store。它跟今天的 App 是两种完全不同的形态。

3.3.4 重构后的生态：三层结构

把上面的拼起来，未来几年的 App 生态大概是这样的三层。

头部层。微信、抖音、淘宝、Apple、Google、Meta 这些。它们靠网络效应、数据、内容生态站稳。AI 编程让它们更强，没让它们变弱。这一层的玩家数量在收缩，每家份额在变大。

助手层。这一层会冒出来。用户的入口从打开某个 App 变成跟 AI 助手说一句话。AI 助手会调用底层模型现场生成一次性的小工具，或者调用某个头部 App 的 API 做事。这一层目前的雏形是 ChatGPT、Claude、Apple Intelligence、Google Gemini 这类通用助手。谁能占住这一层是未来几年最大的战场，因为它有可能蚕食 App Store 的分发地位。

模型层。Anthropic、OpenAI、Google 三家加上 DeepSeek、阿里 Qwen、字节豆包，靠卖 token 和能力赚钱。AI 编程的繁荣首先让这一层赚到钱，因为每一次 Capability 生成、每一次助手调用都在烧 token。

这个新生态对几类玩家的意义不一样。头部 App 平台还在涨，模型层在涨。中间冒出来的 AI 助手层是兵家必争之地，可能会有 1 到 2 家新巨头出来，也可能被现有的几家瓜分。原来做长尾 SaaS 的公司最难过，除非能赶在生态成型前转型成助手层的 Capability 提供商，或者垂直深耕成行业内的”小头部”。

普通人的视角：手机里仍然有 20 到 30 个常用 App，跟今天差不多；多出来一个 AI 助手随叫随到给你拼临时工具；少了一堆装了一次再也没打开过的鸡肋 App。打开手机的第一动作从找那个 App 的图标变成跟 AI 说一句话，这是 iPhone 之后入口形态最大的一次迁移。

加载图片

82 KB

四、结语

把整篇文章压成几条能记住的话。

原理。

AI 会写代码，靠两件事的合成。一件是代码训练把通用大模型整体推到了一个新台面，让”先把问题分步、再每一步成立”这种思维方式渗进了模型的默认行为；这件事最反常识的一面是，代码训练的真正受益者远不止写代码这个任务，整个语言模型的逻辑能力都被它拉高。另一件是 RLVR（基于真实执行反馈的强化学习），让模型从”会写”训到”能写对”，在过去两年把代码能力推上了今天的水平。代码的三个特性（规律性强、有客观对错、自带文档）决定了它天然适合被模型学会，也是 AI 整体变聪明的核心训练成分。

公司发展史。

从 2021 年 7 月 OpenAI 把 Codex 塞进 GitHub Copilot 的肌肉记忆，到 2022 年 11 月 ChatGPT 起飞顺手把 Stack Overflow、Kite、Codecademy 这些前 AI 时代的程序员外脑生态拍扁，再到 2024 年 10 月 Claude 3.5 Sonnet 升级版让”AI 真的能写代码”第一次成立、Cursor 的 codebase indexing 定义新的 IDE 范式，再到 2024-2025 智能体转向、最近一年 Codex CLI 加 Claude Code 加 Cursor 三家头部之间几十亿美元 ARR 的竞速。国内字节 Trae、阿里通义灵码、百度文心快码、智谱 CodeGeeX 几家平行起步；外行赛道 Lovable、 Bolt.new、v0、Replit Agent 把”造 demo”的成本砸到地板。这五年是 AI 产品形态进化最快的领域之一。

系统工程。

软件工程是一条 ISO/IEC/IEEE 12207 标准定义、阿里 P3C 和美团技术博客落地过、SWEBOK V4 用 18 个知识域涵盖的完整生命周期：需求、设计、开发、测试、上线、验证回收。AI 今天能直接替的工作量，按子环节加权大约 50% 到 60%。开发和测试两个阶段被 AI 吃得最透（各 70% 到 85%），需求、设计、验证回收这几段 AI 能切的子任务多在 30% 到 50%。剩下 40% 到 50% 的人工部分里，技术能吃的还有一截（架构选型、复杂归因、疑难调试），几年内有希望把整体推到 70% 到 80% AI；制度性那一层（跨人共识、承担责任、对接真实世界）则是法律和监管要解决的事，跟模型能力没关系。软件工程的复杂性被重新分配了，没有消失。

一键造 App。

自己用的、一次性的、内部的小工具今天已经基本一键搞定（95% AI 加 5% 控制台粘几次 key）。给别人用的、能上 App Store 或者能收钱的正式 App 今天大约是 90% AI 加 10% Human dashboard，能做到”一句话加 10 次粘 key”造出来，但前提是 ta 愿意去办公司、过 KYC、当法人。再往下走两条路：1 到 2 年内浏览器 agent（Computer Use、Operator）把粘 key 那段也吃掉；几年后 AI 法人若能成立，剩下的制度卡点才会被跨过去。

生态。

供给端 AI 编程让产能翻 10 到 100 倍，需求端基本没动，结果是中间层被拍扁：长尾 SaaS 大面积消失，垂直行业 SaaS 被砍掉一半。头部 App（微信、抖音、淘宝、Apple、Google、Meta）不会被取代，反而靠网络效应、数据、内容生态、分发入口加上 AI 提速变得更强。长尾 App 退化成按需生成的 Capability：用完即弃、个人定制、零安装、不进 App Store。几年后的格局可能是三层叠在一起：头部 App 平台层、AI 助手加 Capability 层、模型层。打开手机的第一动作从找 App 图标变成跟 AI 说一句话，这种入口形态的迁移，强度可以跟 iPhone 那一次相比。

下一步的位置。

这场新分工里有几条路可走：当一个能跟 AI 协作的工程师，承担越来越多的判断、审查、验收角色；当一个能驾驭 AI 工具解决真实业务问题的产品人，把哪些流程让 AI 替、哪些环节由人拍板想清楚；当一个用 AI 把过去十人才能做的事一个人做完的创业者，赌一把 AI 助手加 Capability 这个新生态的位置；或者转型做行业内的”小头部”，垂直深耕到 AI 编程复制不了的领域知识里去。每条路都比五年前宽得多，但”白手起家做下一个微信”这种梦确实没了：AI 编程让头部更深、让长尾几乎被替代，中间冒出来一个全新的 AI 助手层等着被占住。

一句话：AI 让造软件这件事的下限大幅抬高，上限仍由人决定。新版图里最大的赢家是头部 App、模型公司，加上少数能在助手层占住位置的玩家，剩下的人要在新分工里找到自己的杠杆点。

作者其它文章

本文参考文献

Raising the bar on SWE-bench Verified with Claude 3.5 Sonnet (Anthropic, 2024-10) - Claude 3.5 Sonnet 升级版 49% 数据
SWE-bench Verified Leaderboard (BenchLM) - 2026 年 4 月 SWE-bench Verified 排行
SWE-bench Pro Leaderboard (Scale) - SWE-bench Pro 排行榜
Why 46% Beats 81%: SWE-bench Pro Leaderboard (Morphllm, 2026) - SWE-bench Pro vs Verified 解读
OpenAI Codex (AI agent) - Wikipedia - Codex 历史 + CLI 重启时间线
OpenAI Codex Statistics 2026 (Gradually) - Codex 300 万周活
Claude Code Statistics 2026 (Gradually) - Claude Code 4% GitHub 提交
Cursor's Anysphere nabs $9.9B valuation (TechCrunch, 2025-06) - Cursor 早期数据
Cursor in talks at $50B valuation hitting $2B ARR (TNW, 2026-04) - Cursor 最新估值
As Lovable hits $200M ARR (TechCrunch, 2025-11) - Lovable 增长曲线
Guide to the SWEBOK v4.0 Has Been Released (basicinputoutput, 2024-10) - SWEBOK V4 发布与 18 个知识域
SWEBOK Evolution (IEEE Computer Society) - SWEBOK 官方信息
CodeBERT GitHub (Microsoft) - CodeBERT 仓库与时间线
CodeT5 GitHub (Salesforce) - CodeT5 仓库与时间线
ISO/IEC/IEEE 12207:2017 Systems and software engineering — Software life cycle processes - 国际软件生命周期标准
阿里巴巴 Java 开发手册（P3C） - 阿里 2017 年公开的工程规约 + IDE 插件，六大维度
美团技术团队官方博客 - 灰度发布、故障复盘、产品上线流程的实操文章
GitLab Handbook - GitLab 公司全流程开源研发手册