AI时代的工作安全系数:验证者法则教你判断哪些职业更安全

如果你玩过数独游戏就会知道,解一道数独可能需要你思考很久,尝试各种数字组合,但检查一个完成的数独是否正确只需要几秒钟 - 你只要确认每行、每列、每个九宫格都包含1-9的数字即可。

“解决”和“检查”这两个动作之间存在的巨大难度差异,就是AI研究者们最近热议的一个核心概念 - 验证的不对称性(Asymmetry of verification)。简单来说,就是指很多任务“验证答案”比“从头解决”要容易得多

著名AI研究员Jason Wei最近就此撰写了一篇博文,提出了“验证者法则”(Verifier’s Law)。今天,我们就来聊聊这个话题以及其带来的现实意义。

什么是验证的不对称性?

这个现象其实无处不在,举例来说:

  • 高度不对称(验证极易,创造极难)
    • 数独/填字游戏:解决需要反复试错,而验证只需按规则核对一遍。
    • 开发一个网站(比如微博):需要庞大的工程师团队耗时数年,但任何一个用户花几分钟就能判断网站功能是否正常可用。
  • 接近对称(验证和创造难度相当)
    • 计算两个900位的数字之和:你自己算一遍和检查别人算的是否正确,工作量几乎一样。
    • 审查一段复杂的数据处理代码:要彻底搞懂并确认其正确性,几乎等同于自己重写一遍。
  • 负向不对称(验证比创造还难!)
    • 给一篇长文进行事实核查:作者洋洋洒洒可能只用了一天,但核查其中所有信息的真伪,可能需要一个团队数周的时间。这恰好印证了“布兰多里尼定律” - 反驳胡说八道所需的能量,比制造它要高出一个数量级。
    • 验证一种新饮食法的效果:提出一种全新的“只吃野牛肉和西兰花”的饮食法很简单,但要科学验证它对大众是否真的健康,需要长达数年的临床试验。

下面这张图非常直观地展示了不同任务在“生成难度”和“验证难度”两个维度上的分布:

验证者法则:AI学习的底层逻辑

理解了不对称性,我们就能引出Jason Wei提出的核心观点:验证者法则(Verifier’s law)

一句话总结:训练AI解决一个任务的难易程度,与该任务的可验证性成正比。所有可解且易于验证的任务,终将被AI解决。

换句话说,AI最擅长在有明确、快速反馈的环境中学习。如果一个任务能让我们轻松、快速、大规模地判断AI做得“好”还是“不好”,那AI就能以惊人的速度迭代和进步。

一个任务的可验证性高低,通常取决于以下五个关键特性:

  1. 客观真理(Objective truth):是否存在公认的正确答案?(比如,棋类游戏的输赢,代码是否通过测试)
  2. 快速验证(Fast to verify):检查一个答案是否正确,是不是几秒钟就能搞定?
  3. 可规模化验证(Scalable to verify):我们能否同时、自动地验证成千上万个AI的尝试?
  4. 低噪声(Low noise):验证结果是否能精准反映方案的质量?
  5. 连续奖励(Continuous reward):我们能否告诉AI它“离正确答案有多近”,而不仅仅是“对”或“错”?

现在回头看,AI率先攻克的领域——围棋、游戏、竞技编程——无一不完美符合这些特性。游戏有明确的输赢规则,代码有自动化的测试用例,这些都为AI提供了理想的、即时的反馈循环。

AI的能力边界:可验证性就是极限

既然AI的“超能力”源于可验证性,那么它的能力极限自然也受限于此。另一位开发者Alperen Keles在其博客《可验证性是极限》(Verifiability is the Limit)中,将这个观点应用到了软件开发领域,解释了一个有趣的现象:

为什么AI生成前端UI界面看起来比生成后端逻辑更厉害?

一个流行的说法是,因为开源社区的前端代码更多,所以AI学得更好。但这个解释并不充分,因为后端代码也同样海量且结构化。

更深层的原因在于验证的难易度

  • 前端UI验证:几乎是“所见即所得”。我们可以直接用眼睛看,立刻就能判断生成的界面是否符合我们的想法,并给出反馈:“这个按钮太大了”、“颜色不对”。验证过程直观且快速。
  • 后端逻辑验证:要困难得多。我们无法“看”到逻辑是否正确,必须设计复杂的测试用例,准备测试数据,运行程序,再检查抽象的输出结果。这个过程不仅耗时,而且本身就需要专业知识。

这完美解释了AI能力的“锯齿状边界”:AI并非在所有维度上都“聪明”,它只是在那些反馈回路清晰、验证成本低廉的领域表现得像个天才。AI的极限,不在于其自身的“智能”,而在于我们为它提供反馈、定义“正确”的能力。

我们的角色转变:从创造者到验证者

那么,我们该如何推动AI在更复杂的领域取得突破呢?

答案不是坐等一个无所不能的通用人工智能诞生,而是让我们自己成为更好的“验证者”。如果我们能让那些“难以验证”的任务变得“容易验证”,就等于为AI打通了前进的道路。

未来的方向可能包括:

  1. 创造更好的验证工具:比如,开发更智能的测试框架,自动生成更全面的测试用例,将复杂的代码逻辑可视化,让我们能更直观地判断其正确性。
  2. 重新定义“正确”:除了“功能正确”(输入输出符合预期),我们还需要建立衡量“性能”、“安全性”、“可维护性”等非功能性质量的标准和验证方法。

对普通人的启示 - 重新定义“安全”的工作

传统上我们认为需要高学历、高技能的工作更安全,不容易被AI替代,但“验证不对称性”告诉我们,关键不在于工作的复杂程度,而在于结果是否容易验证

为了更全面地评估,我们可以引入Jason Wei的另一个判断框架 - “描述-执行差距”。这个概念指的是:“描述怎么做”与“实际执行”之间的难度差异。差距越大,即“描述”起来越简单而“执行”起来越繁琐的工作,就越容易被AI取代。比如,“帮我把这篇文章里的错别字都改掉”这句话描述起来很简单,但自己执行却很麻烦,这也是AI的优势区。

当我们把这两个概念结合起来,就能得到一个更强大的工作安全评估模型。我们可以得出一个简单的“工作安全系数”公式:

工作安全系数 = 验证难度 × 描述复杂度

那些既难以验证最终结果好坏,又难以用语言清晰描述所有需求和背景知识的工作,将是AI时代最坚固的“安全区”。

例如这些职业:

  • 战略顾问:如何向AI“描述”清楚一个公司面临的复杂市场竞争、内部文化和未来愿景?最终给出的战略是好是坏,也极难用客观标准“验证”。
  • 心理治疗师:治疗的核心在于共情、建立信任和理解那些难以言喻的情感。这些都极难“描述”,治疗效果的好坏也无法量化“验证”。
  • 顶尖科学家:探索未知是其核心。你无法“描述”一个尚未被发现的科学理论,其验证过程本身就是漫长而复杂的科学实践。

相反,像常规的报表生成、初级代码编写等工作,其需求容易“描述”(“给我一份上个月的销售报表”),结果也容易“验证”(数据是否准确),因此更容易被自动化。

因此,对我们个人而言,提升未来竞争力的关键,就在于有意识地培养自己在这两个维度上的能力:处理模糊、复杂、难以言传需求的能力,以及在没有明确“标准答案”的领域做出高质量判断的能力。

对于我们每个人来说,这或许预示着角色的转变。在未来,我们的核心价值可能不再是亲手编写每一行代码,而是成为一个“需求定义者”和“最终验证者”。我们负责提出构想,定义何为“优秀”,并设计出检验AI工作的“完美标尺”,然后利用AI的强大生成能力,去探索和实现那些曾经因工程浩大而不敢想象的宏伟蓝图。

这并非一个“被取代”的未来,而是一个“人机协作”的新时代。在这个新时代中,人类的智慧将更多地体现在提出正确的问题,和定义最终的答案上。