软件开发的AI革命：万亿美元市场与「人人都是多面手」的时代

发表于 2025-10-21 更新于 2025-12-03 分类于 AI

译者注

作为一名长期关注AI技术落地的从业者，我在实际工作中见证了AI在软件研发领域带来的显著提效。最新这篇来自a16z的文章系统性地梳理了AI软件开发的整个生态，专门整理翻译一下供参考。

对照文中提到的场景，从我个人实际经验中也已经看到了下面这些方面的实际应用：

老代码迁移（Legacy Code Migration）是其中一个令人印象深刻的应用场景，AI能够理解老旧代码的逻辑并协助迁移到新的技术栈，大大降低了技术债务的偿还成本；
在快速原型和Demo构建方面，我看到越来越多产品经理背景的朋友开始直接使用AI工具来验证自己的产品想法，这在过去是不可想象的。传统上，产品经理需要依赖工程师才能将想法变成可交互的原型，而现在他们可以自己动手，这极大地加快了产品迭代的速度；
AI在生成和维护文档、测试用例方面的能力同样令人瞩目。技术文档和测试用例的编写一直是开发过程中耗时但必要的工作，而现在AI不仅能够基于代码自动生成高质量的文档和测试用例，还能在代码变更时同步更新，甚至同时生成测试脚本，以及智能地识别潜在的边缘案例，提升测试覆盖率；

我之前写过的一篇文章《AI 时代的新法则：2 个产品经理配 1 个工程师？》，其中我探讨了未来团队的角色组合 - 我认为随着AI工具的成熟，团队将需要更多的”通才”或”T型人才”，他们不仅要懂产品，还要能够利用AI工具快速实现想法。而在另一篇最近的文章《美图的AI转型蓝图》中，美图在其AI转型过程中也在强调”人人都是多面手”的理念，鼓励每个团队成员掌握多种技能，并善用AI工具来提升工作效率。

这种转变不仅仅是工具层面的升级，更是组织架构和人才能力模型的重构。当产品经理可以自己构建Demo，当工程师可以借助AI处理更高层次的架构设计，团队的协作方式和价值创造模式都将发生根本性的变化。a16z这篇文章所描绘的万亿美元市场，本质上是对整个软件开发范式转变的量化估算。

以下是a16z文章的全文翻译:

万亿美元的AI软件开发栈

生成式AI已经到来，首个出现的巨大市场就是软件开发。乍一看，这可能令人惊讶。从历史上看，开发者工具并不属于市场规模最大的软件类别之一。然而，仔细观察后，这一发展完全合乎情理，原因有二：首先，开发者往往首先为自己构建工具；其次，潜在市场规模异常庞大。

让我们思考一下：全球大约有3000万软件开发者，据Evans Data估计为2700万，SlashData的估计则高达4700万。如果我们假设每个开发者每年创造10万美元的经济价值 - 这对美国来说可能有些保守，但在全球范围内略高 - 那么AI软件开发的总经济贡献每年高达3万亿美元。根据我们在过去12个月里与企业和软件公司的数十次对话，我们估计当今一个简单的AI编码助手可以将开发者的生产力提高约20%。

但这仅仅是开始。根据轶事证据，我们估计最优秀的AI部署至少可以使开发者生产力翻倍，这将带来每年3万亿美元的GDP贡献。这大约相当于法国的GDP。硅谷和其他地方的少数几家初创公司开发的技术，对世界GDP的影响将超过世界第七大经济体所有居民的全部生产力。

这种大规模的价值创造带来了同样大规模的初创公司收入和估值增长。Cursor在15个月内达到了5亿美元的年经常性收入(ARR)和近100亿美元的估值。谷歌以24亿美元收购Windsurf，击败了OpenAI。Anthropic推出了Claude Code，与AI开发工具（其主要分销渠道）开战。OpenAI的GPT-5发布完全围绕编码展开。面对如此明显的巨大奖励，我们已经进入了AI软件开发的战国时代。

最初，AI编码似乎是一个单一的类别，但今天它已经成为一个生态系统，有潜力支撑数十家价值数十亿美元的公司，甚至是一家万亿美元的巨头。软件一直是过去几十年人类进步和经济增长的主要驱动力。它颠覆了每个行业，而现在软件本身正在被颠覆。通过AI加速开发的双重推动，以及将模型作为软件的新基本构建块，很可能导致软件市场在质量和数量上的大规模扩张。市场规模也可能大幅增长（我们相信在这种情况下杰文斯悖论成立）。

AI编码栈会是什么样子？虽然还处于早期阶段，但下面是我们目前所看到的情况。橙色框是我们看到基于AI的工具正在由初创公司集群构建的领域。每个类别都展示了一个示例。更多示例和与流程正交的其他类别列在下面的市场地图中。

基本循环：规划 -> 编码 -> 审查

18个月前，早期的AI编码涉及向LLM请求特定的代码片段，然后将生成的代码粘贴到源代码中，这个过程在今天看来已经显得古老。今天的工作流程有时被称为规划 -> 编码 -> 审查。它从一开始就使用LLM：首先开发新功能的详细描述，然后确定必要的决策或信息。代码生成通常由代理循环完成，可能涉及测试。最后，开发者审查AI的工作并根据需要进行调整。

上图是启动新项目的简单工作流程示例。模型的任务是起草高级规范 - 但更重要的是，它被指示返回一个全面的附加信息清单，列出它需要的内容。在这个实例中，清单跨越了几页，包括对一系列需求和架构决策的澄清。它还包括对API密钥以及访问必要工具和系统的请求，以成功完成工作。

生成的规范具有双重目的：首先，它指导代码生成，确保意图与实现一致。但除此之外，规范对于确保人类或LLM在大型代码库中继续理解特定文件或模块的功能至关重要。人机AI协作是迭代的：在人类开发者编辑给定的代码片段后，他们通常会指示语言模型修订项目的规范 - 从而确保准确反映最新的代码更改。结果是文档良好的代码，这对人类开发者和语言模型都有好处。

除了特定项目的需求外，大多数AI编码系统现在都纳入了全面的架构和编码指南（例如.cursor/rules）。这些指南可能包括公司范围、项目特定甚至模块特定的规则。我们看到针对特定用例的AI优化编码最佳实践的在线集合（如上图所示，更多Cursor规则可在GitHub这里找到，或Claude Code在这里），这些纯粹针对LLM。我们正在见证第一批专为AI而非人类设计的自然语言知识库的诞生。

在这种新范式中，AI超越了其作为响应提示的代码生成器的旧角色。LLM现在作为真正的协作伙伴，帮助开发者导航设计和实施阶段，做出架构决策，并识别潜在的风险或约束。这些系统配备了对公司政策、项目特定指令、第三方最佳实践和全面技术文档的丰富上下文理解。

使用AI进行规划的工具仍处于早期阶段。一些现有公司和初创公司已经构建了应用程序，从论坛、Slack、电子邮件或像Salesforce和Hubspot这样的CRM系统聚合客户反馈（例如Nexoro）。另一组公司（例如Delty或Traycer）构建网站或VS Code插件，帮助将规范分解为详细的用户故事，并帮助进行票务流程（例如Linear）。展望未来，很明显，像维基和故事跟踪器这样的当前记录系统将需要进行重大转变或完全替换。

生成和审查代码

一旦我们有了坚实的计划，我们就进入一个迭代循环，AI编码助手生成代码，开发者审查它。最佳的用户界面和集成点主要取决于任务长度以及是否应该异步运行。

对于需要几分钟的简短任务，集成开发环境（IDE）中的编码助手是最有效的。开发者通过聊天或类似于代码补全的内联界面与AI交互。当前的领导者是Cursor，它是一个IDE的分支，具有内置的AI功能。微软的GitHub Copilot作为VSCode的插件运行。其他选择包括Codeium，它支持多种IDE，以及Supermaven，它专注于速度和准确性。最近，JetBrains推出了Mellum，它在专有的IDE套件中提供AI辅助。这些工具通常使用自动完成功能、聊天界面、代码生成和调试辅助的组合。新兴选择还包括Zed，一个具有内置AI功能的新轻量级IDE。

对于需要更长时间（几小时）的任务，我们看到两种不同的方法。第一种使用专门的代理和工作流，例如Devin和Poolside。这些代理通常被指示进行大规模的重构，可能需要在提交之前进行多次测试和修复循环。作为副产品，这些代理可能会对整个代码库建立深入的理解，并成为开发者知识管理的工具。

第二种方法专注于特定的编码任务类型。对于包含数百万或数十亿行代码的大型代码库的迁移，早期出现的初创公司如Grit和Moderne已经在大型企业客户中找到了成功。最近，Factory在技术债务管理方面发布了有希望的结果。在创建新代码方面，Lovable和Bolt专注于从简短的提示创建完整的Web应用程序和网站，它们拥有流畅的、与代码生成流程集成的预览界面。

使用AI助手进行代码审查已经成为主流。在大多数AI编码工具出现之前，Codium和CodeRabbit这样的公司已经提供了基于AI的代码审查工具。审查工具通常作为拉取请求（PR）过程的一部分运行，LLM被要求识别常见问题，如代码异味和安全漏洞，理想情况下还会提出修复建议。根据公司的不同，AI可能执行许多以前由人工审查者完成的步骤，例如检查代码风格、语法和测试覆盖率。

质量保证（QA）和测试

测试代码的能力至关重要。编写测试用例是一个众所周知的繁琐过程，当LLM能够生成合理的测试用例时，许多团队都感到宽慰。开发者可以简单地要求他们的IDE生成测试用例，或者使用专门的工具如CodiumAI或Qodo来处理测试生成和维护。然而，当前的工具通常在测试用例的创造性方面表现不佳，我们预计这个领域还有很大的改进空间。

除了生成静态测试外，现代软件开发还需要动态测试和质量保证流程。这里出现了两种不同的方法。第一种使用传统的测试框架，但使用AI来生成和维护测试脚本。Momentic和Octomind等公司提供了这些工具，它们可以与持续集成/持续部署（CI/CD）流程集成。

第二种方法更加雄心勃勃：创建能够像人类测试员一样与应用程序交互的AI代理。这些代理可以浏览网站、点击按钮、填写表单，并验证结果是否符合预期。Momentic、QA Wolf、Autify和Rainforest等公司正在这个领域工作。虽然这项技术仍在成熟中，但它有潜力彻底改变QA流程，特别是对于具有复杂用户界面的应用程序。

测试和QA的关键挑战之一是确保测试覆盖率。AI可以通过分析代码库并识别未充分测试的区域来帮助解决这个问题。Metabob和DeepSource等工具使用静态分析和AI来识别代码中的问题，包括缺少测试的区域。

代理工具

除了上述为人类开发者设计的工具外，还出现了一类专门为代理使用而构建的工具。

代码搜索和索引 – 当操作大型代码库（数百万或数十亿行代码）时，为每次推理操作向LLM提供整个代码库不再可能（更不用说负担得起）。相反，最优秀的方法为LLM配备搜索工具来查找相关的代码片段。对于小型代码库，简单的RAG或grep搜索可能就足够了。对于大型代码库（例如参见Google的论文），需要专门的软件来解析代码并创建调用图，以确保可以找到所有引用。这个新兴类别包括像Sourcegraph这样的公司，它们提供分析大型代码库的工具，以及像Relace这样的公司的专门模型，帮助识别和排名相关文件。

Web和文档搜索 – 像Mintlify和Context7这样的工具擅长生成和维护代码感知文档，从实时代码库中提取最相关的片段、注释和使用示例，以保持文档准确和最新。相比之下，像Exa、Brave和Tavily这样的网络搜索工具针对即时检索进行了优化 - 帮助代理快速获取外部参考和长尾知识。

代码沙箱 – 测试代码和运行简单的命令行工具进行分析和调试是代理的重要工具。然而，由于幻觉或潜在的恶意上下文，在本地开发系统上执行代码存在风险。在其他情况下，开发环境可能很复杂，自动化环境具有确保测试可重复性的优势。像E2B、Daytona、Morph、Runloop和Together的Code Sandbox这样的执行沙箱供应商满足了这一需求，并已成为AI开发栈中的关键组件。

市场地图

下面我们尝试展示更广泛的AI编码初创公司生态系统。布局大致遵循前面概述的软件开发生命周期，并包含其他类别。公司以不特定的顺序列出。偶尔包括来自现有公司的产品。

软件开发如何变化？

基于AI的软件开发技术已经到来，现在组织必须将其投入运营。最近的Reddit帖子问道“Claude Code非常非常昂贵，有什么优化技巧吗？”成本确实可能很高：假设您的代码库填满了整个10万个token的上下文窗口，我们在推理模式下使用Claude Opus 4.1，并生成1万个输出和思考token。按每百万token输入/输出15美元/75美元计算，这每次查询花费2.50美元。将其扩展到每小时3次查询，每天7小时，每年200天，每年约为10,000美元。在许多地区，这超过了初级开发者的成本。

最终，我们认为成本不会减缓AI开发工具的采用。像Cursor这样的许多平台通过相同的界面支持多个模型，并擅长选择合适的模型来优化成本。即使是最便宜的模型也能带来巨大的好处。但对话已经从谁拥有最好的模型转变为谁能以正确的价格点提供价值。几十年来，软件开发成本几乎纯粹是人员成本，但现在LLM增加了大量的运营成本组成部分。这是否意味着IT外包到低成本国家的终结？也许不是，但它确实改变了商业案例。

这一切对全球3000万软件开发者意味着什么？AI会在可预见的未来取代软件开发者吗？当然不会。这种荒谬的叙述是由媒体的耸人听闻和激进的营销策略混合触发的，这些策略试图将软件不是按每个座位定价，而是作为人力成本的替代品。历史告诉我们，虽然替代定价在早期市场有效，但最终商品的成本会收敛到其边际成本，定价也是如此。到目前为止，我们拥有的有限实际数据点表明，最精通AI的企业增加了开发者的招聘，因为他们看到了具有短期正投资回报率的广泛用例。

然而，软件开发者的工作本身已经改变，培训也必须相应改变。今天的大学课程将发生巨大变化；不幸的是，没有人（包括我们）真正理解如何改变… 算法、架构和人机交互仍然相关，甚至编码仍然重要，因为您经常需要将LLM从它为自己挖的洞中拖出来。但大学的典型软件开发课程最好被视为上个时代的遗物，对当今的软件行业几乎没有实际相关性。

从长远来看，AI编码栈允许软件扩展自身。例如，Gumloop允许用户描述他们希望在产品中看到的额外功能，应用程序将使用AI编写实现此功能的代码。这能走多远？我们能否通过让LLM基于人类语言API规范进行后期绑定来实现应用程序集成？未来普通的桌面应用程序会不会都有一个”AI生成自定义功能”的菜单按钮？从长远来看，应用程序作为不可变代码发布而没有任何扩展能力似乎是不合理的。

我们最终能否完全消除代码，而是让LLM直接执行我们的高层意图（正如Andrej在这里建议的）？在最简单的场景中，这已经是事实：ChatGPT会很乐意执行简单的算法。对于更复杂的任务，编写代码仍然更优越，主要是因为它的效率。使用优化代码在现代GPU上添加两个16位整数大约需要10^-14秒。LLM至少需要10^-3秒来生成输出token。快1000亿倍足以成为一条护城河，我们预计代码会存在很长时间。

是时候行动了，借助AI的力量

从历史上看，技术超级周期一直是创办公司的最佳时机，这次也不例外。AI需要新工具，同时加速开发周期的结合极大地有利于初创公司。以编码助手为例：微软的GitHub Copilot似乎势不可挡，率先进入市场，拥有OpenAI合作伙伴关系、排名第一的IDE（VSCode）、排名第一的源代码管理（GitHub）和排名第一的企业销售团队。然而，多家初创公司依然能够有效竞争。在技术超级周期中，即使是巨头也很难保持绝对优势。

我们正处于软件开发自诞生以来可能是最大革命的早期阶段。软件工程师正在获得将使他们比以往任何时候都更高效、更强大的工具。最终用户可以期待更多更好的软件。

Source：The Trillion Dollar AI Software Development Stack