Chatbot Arena的偏见与透明性困境：AI评测体系的反思

发表于 2024-09-09 更新于 2025-07-17 分类于 AI

在4月底的时候我简单写过Ben Thompson与Nat Friedman/Daniel Gross的一次访谈。其中有一段特别印象深刻:

“许多公司的CEO都在炫耀他们在MMLU(大规模多任务语言理解基准)上的表现。有趣的是,MMLU实际上是由Dan Hendrycks在他大学本科期间开发的评估工具。换言之,这些市值万亿美元公司的CEO们正在讨论他们在一个本科生创建的测试中的得分。尽管如此,MMLU确实是目前最重要的AI推理能力评估方法之一…

当前AI领域面临的一大挑战是缺乏优质的公开评估体系。在这种情况下,观察模型发布几周后用户在Twitter上的反馈,反而可能是一种更为有效的评估方式…”

前两天又看到一篇TechCrunch的文章提到另外一个广泛被引用的大模型排行榜 - Chatbot Arena受到的质疑，再次深感到大模型性能评测这个方面还有很大空间可以挖掘。其中的一些重点整理如下：

阅读全文 »

引言

本文是一系列的大模型科普内容中的第一篇，旨在通过用“说人话”的方法来解释一些大模型的特性，使得非技术背景的朋友们能更好地使用AI来提升自己的工作效率。

这期先从这个案例开始：你是否曾在与ChatGPT对话时遇到过它突然开始胡言乱语的情况？例如，当你问它”strawberry”这个词中有几个”r”，然后不管它回答什么你都说它错了，ChatGPT就会变得越来越混乱（如下图）。

这种现象其实与大语言模型（LLMs）的一个核心特性有关：它们的迭代生成过程，经常被称为”自回归”（Auto regression）。

阅读全文 »

Anthropic官方提示词优化指南更新稿重点详解

发表于 2024-09-06 更新于 2025-07-17 分类于 AI

在Anthropic最初发布这套官方提示词优化指南的时候我做过一轮全文翻译，现在看到官方又更新了一稿，我做了一下对比，发现确实同比第一稿更完善和清晰了。特别将我觉得新版中值得重新阅读的几个重点说明一下：

如何创建有效的实证评估（Empirical Evaluations）

在定义好你的成功标准之后，下一步是设计Eval来评估LLM对这些标准的性能表现。这是提示工程循环（prompt engineering cycle）中的关键环节[1]。

注1：这次的更新流程图中额外添加了“test against held-out evals”这个步骤，是指要使用留出集进行评估才能更公正。

Eval/测试集这两点一直是在让大模型应用落地时很容易被忽视的一环，建议一定要重视，方法论就显得格外重要了；

阅读全文 »

苹果的创新秘诀：专家驱动的职能型组织

发表于 2024-09-05 更新于 2025-07-17 分类于 readings

什么是“由专家来领导专家”？

苹果的创新秘诀：专家驱动的职能型组织

How Apple Is Organized for Innovation

译者注：最近Paul Graham提出的全新管理模式 - “创始人模式 Founder Mode”获得了很多关注，不过仔细阅读会发现他的原文中对于具体什么是创始人模式只提了寥寥几句，所以我专项针对他提到的案例（AirBnB和Apple）做了跟踪研究，才读到了这篇2020年底发布在哈佛商业评论上的文章，作者是苹果大学校长兼副总裁Joel Podolny。我读了后觉得写得非常不错，其中的一些观点确实和传统的管理理念很不同，例如“只有业务部门主导的组织架构才能保证执行力”和“领导不必要过多关注细节”是否总是正确？这个全新视角的思考在今天依然有一定参考意义，尤其是针对面对快速变化环境的科技公司。查了一下这篇文章虽然有一个官方的繁体译文版，但是很多用词习惯和简中差异太大，所以就自己重新翻译了一次。

不过正如下文中提到的种种限制条件，很难说直接照搬这样的组织架构。我认为至少需要满足三点前提条件，而其中每一点都很不容易：1、清晰、统一的公司级战略目标；2、高人才密度（尤其是专家，还有愿意做管理的专家）；3、支持协作性辩论的企业文化。

摘要：1997 年，当乔布斯重返苹果公司时，公司拥有一个符合其规模和业务范围的传统结构 - 公司被划分为多个业务部门，每个部门都有自己的损益责任。Jobs 认为传统的管理方式扼杀了创新，于是在一天内裁撤了所有业务部门的总经理，将整个公司纳入一个统一的损益管理体系，并将各业务部门中分散的职能部门合并成为一个职能型组织，让专业与决策权协调一致。虽然这种纯职能型结构常见于小型初创公司，但值得注意的是，苹果至今仍然保留了这一结构，即使公司的收入规模已经是1997年的近 40 倍，复杂程度也远远超过了那时。本文作者探讨了苹果这一独特且不断发展的组织模式所带来的创新优势和领导挑战，并认为这可能对在快速变化环境中竞争的其他公司有所启发。

阅读全文 »

创始人模式 - Paul Graham Essay系列

发表于 2024-09-03 更新于 2025-07-17 分类于 readings

译者注：TL;DR：有两种管理模式，创始人模式和经理人模式。传统认知下，当一家公司规模变大后，必须要开始采用正统的职业经理人管理模式才合适 - 例如管理者不应该过多干预下属的具体工作细节。但实际上这个认知也未必完全正确，很多创始人在公司规模扩大后依然保留了创始人管理模式并获得了成功。

上周在一次 YC 活动中，Brian Chesky （Airbnb的创始人兼CEO）发表了一场让所有在场的人都难以忘怀的演讲。我事后与大多数创始人交谈时，他们都表示这是他们听过的最好的演讲。Ron Conway（硅谷最知名的天使投资人之一）甚至生平第一次忘记了做笔记。我不会尝试在这里重现这个演讲。相反，我想谈谈它引发的一个问题。

Brian 演讲的主题是：关于如何管理大型公司的传统观念是错误的。当 Airbnb 发展壮大时，一些好心人士建议他必须以某种特定方式管理公司，才能让其顺利扩张。他们的建议可以乐观地总结为“雇用优秀的人，并给他们足够的空间去完成他们的工作”。他遵循了这些建议，结果简直是一场灾难。因此，他不得不自己想出更好的方法，而部分灵感来自于他研究了 Steve Jobs 是如何运营苹果公司的。到目前为止，这种方法似乎奏效了。Airbnb 的现金流、利润率现已跻身硅谷顶尖行列。

阅读全文 »

Richard老师推荐的AI产品集 – 进阶多媒体版V1

发表于 2024-09-01 更新于 2025-07-17 分类于 AI

目前已经在维护一个针对AI初学者的推荐产品集，但最近因为有朋友问到专门针对AI做多媒体相关内容方面的产品推荐，因此在这里继续整理一份我自己用过并推荐的音频、图片、视频相关的AI产品集，偏进阶使用场景，但标准依然是求精不求多，并且将其中对国内使用友好的产品做了特殊标注，可以收藏本文后优先考虑试用这些绿色标注的产品。

图片生成AI推荐（能让人人都会画画）

Mid Journey - https://www.midjourney.com/
- MJ曾经几乎是图片生成AI的代名词之一，如果不介意较麻烦的使用方式而且愿意去折腾提示词的话，整体图片效果是相当优秀的。由于最近受到了激烈的竞争，重新开放新用户能免费生成25张图片的福利；
Freepik - https://www.freepik.com/pikaso/ai-image-generator
- 在Freepik这边一方面能很方便地使用最新的flux文生图模型，以及自研的Mystic文生图模型；另一方面还整合了收购的Magnific来提供不错的AI图片增强工具；
Ideogram - https://ideogram.ai/t/explore
- 这款文生图产品主要的强项在图文混搭的图片生成上，基本能直接生成常用的图文海报了；
（友好产品）腾讯元宝、通义千问、文心一言或者豆包都整合了图片生成能力到其中，可以写出自己想要的图片描述直接生成，例如“请画一只在太阳下喝牛奶的猫”；
（友好产品）即梦AI - https://jimeng.jianying.com/ai-tool/home
- 剪映旗下的文生图产品，现在也支持了视频生成，虽然都不够出色但也能用…
  阅读全文 »

Claude的行为蓝图：Anthropic系统提示的深度剖析

发表于 2024-08-28 更新于 2025-07-17 分类于 AI

引言

近日，Anthropic公开了其AI助手Claude的系统提示，为我们提供了一个难得的机会，深入了解顶级AI公司如何设计和控制其大语言模型的行为。本文将分析Claude的系统提示，探讨其中的prompt engineering见解，并比较不同版本Claude模型的差异。

1. Prompt Engineering层面的关键洞察

1.1 明确定义模型身份和能力范围

Claude的系统提示首先明确定义了其身份、知识更新时间和当前日期。此外，提示中明确指出Claude无法打开URL、链接或视频，避免了用户的误解和不必要的尝试。

1.2 设定行为准则和伦理边界

阅读全文 »

Richard老师推荐的AI产品集 V2 20240828更新

发表于 2024-08-28 更新于 2025-07-17 分类于 AI

之前在很多个场合做过AI主题分享，针对应该如何应对这波AI大潮带来的影响，我给出建议中的第一点就是鼓励大家多尝试新一代的各种AI产品，无论是在工作中提效还是生活中for fun。很多时候我发现大家对于有哪些常用的AI工具并不熟悉，因此在这里整理一份我自己用过并推荐的一个AI产品集，标准是求精不求多，并且将其中对国内使用友好的产品做了特殊标注，可以收藏本文后优先考虑试用这些加粗标注的产品。

文本生成AI推荐（顾名思义，能帮你写各种文章，回答各种问题的通用型AI）

ChatGPT - https://chat.openai.com/
- 最知名的AI，“GPT”已经一定意义上成为了新一代AI的代名词，不过使用起来门槛比较高；
Claude - https://claude.ai/
- 个人目前最常使用的AI，在长文本任务和复杂任务上的表现很多时候会比GPT更好，使用门槛较高；
（友好产品）腾讯元宝 - https://yuanbao.tencent.com/chat
- 除了网页版和app版，还可以很方便地通过微信小程序使用；
（友好产品）通义千问 - https://tongyi.aliyun.com/qianwen/
- 来自阿里的AI产品，值得提出的一点是，通义千问也是唯一能从全球大模型排行榜上看到名字的国内大厂产品；
（友好产品）文心一言 - https://yiyan.baidu.com/
- 来自百度；
（友好产品）抖音豆包 - https://www.doubao.com/chat/
- 字节旗下的AI产品；
（友好产品）Kimi - https://kimi.moonshot.cn/
- 月之暗面的产品，近期做了大量广告投放… 估计还会继续免费一段时间；
  阅读全文 »

AI论文速读 - LLM幻觉问题仍严重，且将长期存在

发表于 2024-08-25 更新于 2025-07-17 分类于 AI

最近的一项研究对十多个流行的AI模型从幻觉问题方面进行了评估，引入了一套名为WildHallucinations事实性评估基准来更全面地涵盖多样化领域。

主要观点总结如下：

幻觉普遍存在：即使是最先进的模型，也只能在约35%的时间内生成完全无幻觉的文本！这意味着在使用AI生成的内容时，用户需要保持警惕并进行事实核查；
批注：“幻觉”其实可以看成是LLM的天然特性，因为正是靠幻想，LLM才能产生这些全新的文章，所以我也觉得没有必要对大模型幻觉过于苛刻。同时，正如最近看到的一段Aidan Gomez（Transformer作者之一）的采访所说 - “But we exist in a world with humans and humans hallucinate constantly. We get stuff wrong, we misremember things. And so we exist in a world that’s robust to error.”

阅读全文 »

Netflix文化备忘录更新：变革中的坚持与创新

发表于 2024-08-21 更新于 2025-07-17 分类于 readings

提起企业文化，Netflix无疑是许多人会首先想到的公司典范。近日，Netflix 再次更新了其著名的企业文化备忘录。这次更新不仅反映了公司的成长，也彰显了其对核心价值观的坚持与创新。本文将深入解析此次更新的主要变化及其背后的深意。特别推荐已读过《奈飞文化手册》的朋友们再次温故知新。

背景介绍

Netflix的文化理念首次公开于2009年，公司联合创始人兼首席执行官里德·哈斯廷斯通过一份名为《Netflix文化：自由与责任》的125页幻灯片，阐述了公司的企业精神，提出了“超级棒的同事”、“留人测试”和“Context, not Control”等新颖概念。许多人认为，这份极为坦率且独特的企业文化观是Netflix在激烈竞争中脱颖而出的关键因素。许多企业高管和HR从业者都在研究Netflix的文化，例如字节跳动明确引用过“Context, not Control”，而心动/TapTap更是曾全方位借鉴过Netflix的文化和激励制度。

阅读全文 »

RichChat

Chatbot Arena的偏见与透明性困境：AI评测体系的反思

大语言模型特性科普系列：从ChatGPT的"迷惑行为"说起

引言

Anthropic官方提示词优化指南更新稿重点详解

如何创建有效的实证评估（Empirical Evaluations）

苹果的创新秘诀：专家驱动的职能型组织

苹果的创新秘诀：专家驱动的职能型组织

创始人模式 - Paul Graham Essay系列

Richard老师推荐的AI产品集 – 进阶多媒体版V1

图片生成AI推荐（能让人人都会画画）

Claude的行为蓝图：Anthropic系统提示的深度剖析

引言

1. Prompt Engineering层面的关键洞察

1.1 明确定义模型身份和能力范围

1.2 设定行为准则和伦理边界

Richard老师推荐的AI产品集 V2 20240828更新

文本生成AI推荐（顾名思义，能帮你写各种文章，回答各种问题的通用型AI）

AI论文速读 - LLM幻觉问题仍严重，且将长期存在

Netflix文化备忘录更新：变革中的坚持与创新

背景介绍