AI时代的工作安全系数：验证者法则教你判断哪些职业更安全

发表于 2025-07-17 分类于 AI

如果你玩过数独游戏就会知道，解一道数独可能需要你思考很久，尝试各种数字组合，但检查一个完成的数独是否正确只需要几秒钟 - 你只要确认每行、每列、每个九宫格都包含1-9的数字即可。

“解决”和“检查”这两个动作之间存在的巨大难度差异，就是AI研究者们最近热议的一个核心概念 - 验证的不对称性（Asymmetry of verification）。简单来说，就是指很多任务“验证答案”比“从头解决”要容易得多。

著名AI研究员Jason Wei最近就此撰写了一篇博文，提出了“验证者法则”（Verifier’s Law）。今天，我们就来聊聊这个话题以及其带来的现实意义。

什么是验证的不对称性？

这个现象其实无处不在，举例来说：

高度不对称（验证极易，创造极难）
- 数独/填字游戏：解决需要反复试错，而验证只需按规则核对一遍。
- 开发一个网站（比如微博）：需要庞大的工程师团队耗时数年，但任何一个用户花几分钟就能判断网站功能是否正常可用。
接近对称（验证和创造难度相当）
- 计算两个900位的数字之和：你自己算一遍和检查别人算的是否正确，工作量几乎一样。
- 审查一段复杂的数据处理代码：要彻底搞懂并确认其正确性，几乎等同于自己重写一遍。
负向不对称（验证比创造还难！）
- 给一篇长文进行事实核查：作者洋洋洒洒可能只用了一天，但核查其中所有信息的真伪，可能需要一个团队数周的时间。这恰好印证了“布兰多里尼定律” - 反驳胡说八道所需的能量，比制造它要高出一个数量级。
- 验证一种新饮食法的效果：提出一种全新的“只吃野牛肉和西兰花”的饮食法很简单，但要科学验证它对大众是否真的健康，需要长达数年的临床试验。

下面这张图非常直观地展示了不同任务在“生成难度”和“验证难度”两个维度上的分布：

验证者法则：AI学习的底层逻辑

理解了不对称性，我们就能引出Jason Wei提出的核心观点：验证者法则（Verifier’s law）。

一句话总结：训练AI解决一个任务的难易程度，与该任务的可验证性成正比。所有可解且易于验证的任务，终将被AI解决。

换句话说，AI最擅长在有明确、快速反馈的环境中学习。如果一个任务能让我们轻松、快速、大规模地判断AI做得“好”还是“不好”，那AI就能以惊人的速度迭代和进步。

一个任务的可验证性高低，通常取决于以下五个关键特性：

客观真理（Objective truth）：是否存在公认的正确答案？（比如，棋类游戏的输赢，代码是否通过测试）
快速验证（Fast to verify）：检查一个答案是否正确，是不是几秒钟就能搞定？
可规模化验证（Scalable to verify）：我们能否同时、自动地验证成千上万个AI的尝试？
低噪声（Low noise）：验证结果是否能精准反映方案的质量？
连续奖励（Continuous reward）：我们能否告诉AI它“离正确答案有多近”，而不仅仅是“对”或“错”？

现在回头看，AI率先攻克的领域——围棋、游戏、竞技编程——无一不完美符合这些特性。游戏有明确的输赢规则，代码有自动化的测试用例，这些都为AI提供了理想的、即时的反馈循环。

AI的能力边界：可验证性就是极限

既然AI的“超能力”源于可验证性，那么它的能力极限自然也受限于此。另一位开发者Alperen Keles在其博客《可验证性是极限》（Verifiability is the Limit）中，将这个观点应用到了软件开发领域，解释了一个有趣的现象：

为什么AI生成前端UI界面看起来比生成后端逻辑更厉害？

一个流行的说法是，因为开源社区的前端代码更多，所以AI学得更好。但这个解释并不充分，因为后端代码也同样海量且结构化。

更深层的原因在于验证的难易度。

前端UI验证：几乎是“所见即所得”。我们可以直接用眼睛看，立刻就能判断生成的界面是否符合我们的想法，并给出反馈：“这个按钮太大了”、“颜色不对”。验证过程直观且快速。
后端逻辑验证：要困难得多。我们无法“看”到逻辑是否正确，必须设计复杂的测试用例，准备测试数据，运行程序，再检查抽象的输出结果。这个过程不仅耗时，而且本身就需要专业知识。

这完美解释了AI能力的“锯齿状边界”：AI并非在所有维度上都“聪明”，它只是在那些反馈回路清晰、验证成本低廉的领域表现得像个天才。AI的极限，不在于其自身的“智能”，而在于我们为它提供反馈、定义“正确”的能力。

我们的角色转变：从创造者到验证者

那么，我们该如何推动AI在更复杂的领域取得突破呢？

答案不是坐等一个无所不能的通用人工智能诞生，而是让我们自己成为更好的“验证者”。如果我们能让那些“难以验证”的任务变得“容易验证”，就等于为AI打通了前进的道路。

未来的方向可能包括：

创造更好的验证工具：比如，开发更智能的测试框架，自动生成更全面的测试用例，将复杂的代码逻辑可视化，让我们能更直观地判断其正确性。
重新定义“正确”：除了“功能正确”（输入输出符合预期），我们还需要建立衡量“性能”、“安全性”、“可维护性”等非功能性质量的标准和验证方法。

对普通人的启示 - 重新定义“安全”的工作

传统上我们认为需要高学历、高技能的工作更安全，不容易被AI替代，但“验证不对称性”告诉我们，关键不在于工作的复杂程度，而在于结果是否容易验证。

为了更全面地评估，我们可以引入Jason Wei的另一个判断框架 - “描述-执行差距”。这个概念指的是：“描述怎么做”与“实际执行”之间的难度差异。差距越大，即“描述”起来越简单而“执行”起来越繁琐的工作，就越容易被AI取代。比如，“帮我把这篇文章里的错别字都改掉”这句话描述起来很简单，但自己执行却很麻烦，这也是AI的优势区。

当我们把这两个概念结合起来，就能得到一个更强大的工作安全评估模型。我们可以得出一个简单的“工作安全系数”公式：

工作安全系数 = 验证难度 × 描述复杂度

那些既难以验证最终结果好坏，又难以用语言清晰描述所有需求和背景知识的工作，将是AI时代最坚固的“安全区”。

例如这些职业：

战略顾问：如何向AI“描述”清楚一个公司面临的复杂市场竞争、内部文化和未来愿景？最终给出的战略是好是坏，也极难用客观标准“验证”。
心理治疗师：治疗的核心在于共情、建立信任和理解那些难以言喻的情感。这些都极难“描述”，治疗效果的好坏也无法量化“验证”。
顶尖科学家：探索未知是其核心。你无法“描述”一个尚未被发现的科学理论，其验证过程本身就是漫长而复杂的科学实践。

相反，像常规的报表生成、初级代码编写等工作，其需求容易“描述”（“给我一份上个月的销售报表”），结果也容易“验证”（数据是否准确），因此更容易被自动化。

因此，对我们个人而言，提升未来竞争力的关键，就在于有意识地培养自己在这两个维度上的能力：处理模糊、复杂、难以言传需求的能力，以及在没有明确“标准答案”的领域做出高质量判断的能力。

对于我们每个人来说，这或许预示着角色的转变。在未来，我们的核心价值可能不再是亲手编写每一行代码，而是成为一个“需求定义者”和“最终验证者”。我们负责提出构想，定义何为“优秀”，并设计出检验AI工作的“完美标尺”，然后利用AI的强大生成能力，去探索和实现那些曾经因工程浩大而不敢想象的宏伟蓝图。

这并非一个“被取代”的未来，而是一个“人机协作”的新时代。在这个新时代中，人类的智慧将更多地体现在提出正确的问题，和定义最终的答案上。

Jason Wei的博客原文 - Asymmetry of verification and verifier’s law
Alperen Keles的博客原文 - Verifiability is the Limit