文章
不融资、不烧钱、不扩团队,华裔 CEO 创办的AI独角兽打入谷歌、Anthropic核心供应链,如今营收近百亿

不融资、不烧钱、不扩团队,华裔 CEO 创办的AI独角兽打入谷歌、Anthropic核心供应链,如今营收近百亿

2025年12月10日 17:07·36kr

在 Meta 豪掷 143 亿美元入股竞争对手 Scale AI 时,这家由谷歌前工程师创立、员工仅为对手十分之一的公司,已悄然实现了年营收超 10 亿美元的业绩,且从未接受外部投资。

AI 竞技场上,聚光灯总在追逐着 OpenAI、Google 等发布下一个万亿参数模型的明星。而决定模型“思维”与“品格”的训练数据,则像被遗忘的地基。

硅谷正上演一幕对比鲜明的戏剧:一边是 Meta 豪掷 143 亿美元收购数据标注公司 Scale AI 近半股份,使其创始人亚历山大·王成为硅谷红人。

另一边,是其低调的对手 Surge AI:成立近五年没有任何融资、过去两年几乎不发新闻稿、员工仅为对手十分之一,却悄悄实现了超过 10 亿美元的营收,在财务上已超越获得巨资的 Scale AI。

这次故事的主角轮到了 Edwin Chen。

Surge AI 的创始人兼 CEO Edwin Chen 是一位美籍华裔,曾在 Massachusetts Institute of Technology(MIT)学习数学与语言学。毕业后,Edwin 踏入职场 —— 他曾在包括 Google、 Meta Platforms(前身 Facebook)以及 Twitter 等科技公司工作,负责机器学习、人类计算与内容审核等项目。通过这些经历,他亲眼见到一个严峻问题:即便是资源雄厚的大厂,在把海量原始数据转化为高质量、“适合用于训练 AI 模型”的数据时,也常因标注粗糙、质量参差不齐而失败。

有一次,他参与的一个项目需要人工标注五万条信息流,然而外包结果令他震惊——俚语、梗图、社交语境、歧义表达……这些“低级错误”层出不穷,使得输出数据几乎无法用于高质量模型训练。正是这个经历,让 Edwin 意识到:整个行业,哪怕是顶级公司,也严重低估了“数据质量”对未来 AI 的关键性。

于是,在 2020 年,他做出了一个大胆决定:离开舒适安稳的工作,创立一家专注“高质量、高复杂度、人类标注 + AI 训练基础设施”的公司。Surge AI 由此诞生。

为了保证数据质量,Surge AI 构建了一套复杂的技术和筛选体系。

公司组建了一个名为“Surge Force”的精英标注员网络,准入门槛极高。申请者除了需要过硬的专业背景,还需提交 5 道试写题目,经另一名资深标注员审核通过后才可加入。

该网络不仅包括来自全球的专业人士,甚至聘请了斯坦福、普林斯顿和哈佛的教授来参与训练 AI,旨在将人类的专业知识、创造力和价值观编码进数据。

更重要的是,Surge AI 开发了先进的人机协同系统和算法来保障质量。系统精细追踪每一位标注者的数千个行为信号,并用机器学习反向分析,以检测和对抗低质量标注行为。

他们发现,即使是麻省理工学院的毕业生也可能试图用各种方式“欺骗”系统。因此,单纯依赖“聪明人”无法保证质量,必须依靠技术体系。

这样可靠的数据支持,为 Surge AI 赢得了最顶尖的客户群和极高的议价能力。

公司的客户名单几乎囊括了所有 AI 巨头:OpenAI、Anthropic、谷歌、微软、Meta。仅 Meta 的生成式 AI 部门,2024 年在 Surge AI 的服务上支出就超过 1.5 亿美元。

凭借扎实的技术和高门槛的服务,Surge AI 在成立第一年就实现了盈利。

在这样一家几乎以不可能速度增长的公司背后,人们最好奇的往往不是商业数字本身,而是推动这一切的第一性原理:Surge 是如何构建出业内最可靠的数据质量体系?为什么 Edwin 坚持在没有外部资本加持的前提下,将公司推向十亿美元规模?在模型能力指数级攀升的当下,数据、评价与训练环境究竟扮演着怎样的战略角色?

近日,Edwin 做客《Lenny's Podcast》,与 Lenny 展开了一场深入的对话。在对话中,Edwin 以他一贯的清晰逻辑和务实风格,讲述了 Surge 的起点、它如何服务未来的 AI 基础设施,以及为何数据公司有机会成为下一个时代真正的“基础设施级企业”。

以下内容为 InfoQ 翻译整理,经编辑:

成立四年 0 融资,如今营收破 10 亿美元

Lenny:我想先从你们的成绩有多“夸张”说起。很多人、很多公司都在谈论——借助 AI,通过极少的人手把业务规模做到巨大。而你们是第一次真正把这件事做到如此“前无古人”的程度。你们在不到 4 年时间里做到 10 亿美元营收,员工也就 60~70 人的样子,而且完全没有融资、没有 VC。我相信没人做到过这一点。你们真正实现了外界口中“AI 时代企业的梦想”。我很好奇:你觉得未来是否会出现越来越多这种情况?另外,AI 在哪里最帮你们实现了这种杠杆效应? 

Edwin: 我们去年营收超过 10 亿美元时,公司还不到 100 人。我认为未来几年会出现更极端的公司,例如“每位员工贡献 1 亿美元营收”这种情况一定会发生。AI 会越来越强、越来越高效,这个比例是不可避免的。

我以前在多家大型科技公司工作时就感觉,其实裁掉 90% 的人,公司反而会更快,因为真正厉害的人经常被各种无关事务拖累。我们创办 Surge 时,就决定完全用不一样的方式做公司——一个极小、极精英的团队。最疯狂的是,我们真的做到了。

我觉得现在有两个趋势正在碰撞:大家开始意识到,企业并不需要庞大组织来成功。此外,AI 带来的效率会彻底改变公司构建方式。 最让我兴奋的是:未来公司不仅变“更小”,类型也会变得“根本不同”。团队越小,需要的资本越少也就意味着不需要融资。

没有融资,就不需要靠能讲故事、善于 pitch 的创始人,而是给真正懂技术、懂产品的人更多机会。

产品也会从过去那种“为了营收、为了 VC 喜好”设计,转向真正有意思、由一群痴迷的小团队打造的东西。大家会去做自己真正关心的东西,做真正的技术创新。我真心希望硅谷能回到“黑客创造时代”。

Lenny:你们做了很多“反传统”的事情,比如几乎没人看到你们在 LinkedIn、Twitter 上宣传。很多人甚至直到最近才知道 Surge,然后你们就突然宣布营收 10 亿、增长最快的公司。为什么要这么做?我猜这是很刻意的选择? 

Edwin: 我们从一开始就不想玩硅谷那套游戏。想想看:你小时候梦想做什么?是为了每天写代码、做产品,还是为了向 VC 解释你的每一个决策、跳上公关与融资的“仓鼠轮”?不融资确实让一切更难,因为只要你融资了,你自然会被纳入硅谷产业链:VC 会帮你发推文,媒体会报道你,他们会因为你的估值写文章。

我们没做这些,所以我们唯一能成功的方式,就是打造比别人好 10 倍的产品,让最懂数据的研究者通过口碑发现我们。

虽然这么做并不容易,但这也带来好处:我们的早期客户是那些真正理解数据质量、真正关心 AI 模型效果的人。他们会给我们最有价值的反馈,和我们在同一使命上。所以虽然更难,但这是“对的困难”。

Surge AI 到底做什么? 

Lenny:为了不太了解 Surge 的听众,你能快速解释一下你们是做什么的吗? 

Edwin: 我们本质上是在“教 AI 模型什么是好、什么是坏”。我们用真人数据训练模型 —— 包括 SFT、RHF、Rubrics、Verifiers、R 环境等等各种系统。我们也测量模型在训练后进步了多少。所以,我们是一家“数据公司”。

Lenny:你们成功的最大原因之一,是数据质量远高于别人。但什么叫更高质量的数据?你们到底做了哪些不一样的事情?大多数人忽略了什么? 

Edwin: 很多人甚至不知道“质量”是什么意思。他们以为多找点人干活就能得到好数据,这是完全错误的。举个例子:假设你要训练模型写一首关于“月亮”的诗。低质量的理解方式是:是不是诗?有没有 8 行?有没有“月亮”这个词?符合这些勾选项,他们就说“合格”。

但我们想要的,是“诺贝尔文学奖级别”的诗。我们要的是:是否独特?意象是否细腻?是否能触动情感、引发思考?是否教会你关于月光的新东西?这种“质量”高度主观、复杂,难以衡量,需要大量技术来测量。

我们必须收集数千个信号:每个标注者的背景与擅长领域、他们写诗 vs 写论文 vs 写技术文档的表现、键盘输入节奏、回答速度、其他人对他们内容的评价、模型在使用他们的数据后是否变得更好。

就像 Google 搜索:第一层:把最差的内容过滤掉;第二层:找到最好的内容;Surge 做的是第二层,也是最难的一层。

Lenny:听起来你们做的不是简单的标注,而是深入理解每个垂直领域中的“好是什么”。这是通过雇佣专家吗?还是靠你们定义的评估体系?具体怎么运作? 

Edwin: 我们会收集你在平台上所有行为的“上千个信号”,例如:键盘输入、回答速度、代码规范、同行评价,我们训练的模型对你产出的内容的判断,然后我们会判断你是否真正能提升模型性能。

就像 Google 用各种信号决定一个网页是否优秀一样,我们也用信号决定哪些标注者是“最好的”,哪些项目适合哪些人,哪些内容能够真正提升模型能力,最终它其实是一个复杂的机器学习问题。

为什么 Claude 的代码能力领先那么久?

Lenny:过去几年我一直很好奇一件事:Claude 在写代码与写作上长期领先其他模型,而经济价值又这么大,但其他公司花了非常久才追上来。所有 AI 编码产品都建立在 Claude 上,因为它实在太强了。为什么 Claude 这么强?只是数据质量好吗? 

Edwin: 数据当然是非常重要的因素,但还有其他部分。一个模型的数据选择是无限维度的,比如:人类数据 vs 合成数据的比例,在代码领域,是更重视前端还是后端?是重视前端的视觉设计,还是代码效率?要不要为了 PR 去优化那些学术基准?目标函数到底是什么?最关键的是:

后训练是一门“艺术”,不是纯科学。

不同团队“品味”不同,导致有的模型写出的 UI 更简洁,有的模型逻辑性更强,有的模型更偏向于“工程师口味”。这种“品味”影响你要的数据类型,最终影响模型能力。Anthropic 靠“更好的数据”获得巨大增长是事实。

Lenny:现在所有模型发布都会说“我们在各大基准上超过人类、排名第一”,但普通人感觉模型并没有那么大突破。你怎么看基准测试?它们和真实 AI 进步的相关性如何? 

Edwin: 坦白说,我完全不相信这些基准。理由有两个:第一,基准本身经常是错误的,它 里面有错误答案,题目混乱且结构不严谨,即便研究人员自己也没意识到问题有多大。

第二,基准太“客观”,太容易被模型刷分。 模型能拿到 IMO(国际数学奥林匹克)金牌,但仍然无法稳定解析 PDF。为什么?因为 IMO 题目是“客观答案”,而解析 PDF 是混乱的真实世界问题,所以模型“爬分”很容易,但解决真实世界问题很难。

Lenny:听起来这些基准更多是营销工具。比如 Gemini 3 发布时就会说:“我们在所有基准中第一!”是不是因为公司会刻意训练模型去刷这些题? 

Edwin: 是的,情况可以分为两种:一种是有些基准会意外泄露,另一种是实验室会调整系统提示词、运行次数等方式,优化到更高分。

Lenny:我们换个稍微不同的方向,聊聊另一个可能有些反主流叙事的观点。我猜你看过《Lex Fridman Podcast》采访 Richard Sutton 的那期节目吧?即使没看过,他们基本上聊了这样一个话题:Richard Sutton,那位著名的人工智能研究员,提出了著名的“苦涩的教训”这个梗。他谈到语言模型几乎像是一条死胡同,他认为由于它们的学习方式,我们会在语言模型上真正遇到瓶颈。你怎么看?你认为语言模型会把我们带到通用人工智能(AGI)甚至更远吗?还是认为我们需要一些新的东西或重大突破才能到达那里? 

Edwin:我属于相信需要新东西的那一阵营。我是这么想的:当我思考训练时,我持一种——不知道是否该说是生物学观点——但我相信,正如人类有无数种不同的学习方式一样,我们也需要构建能够模仿所有这些方式的模型。

也许它们各自关注的重点分布会不同,我知道对你来说也会不同。但我们希望能够模仿人类的学习能力,并确保我们拥有相应的算法和数据,让模型能以同样的方式学习。所以,就语言模型与人类学习方式不同这一点而言,我认为需要一些新的东西。

强化学习为什么越来越重要? 

Lenny:这联系到了强化学习。这是你非常看重的领域,而且我听到越来越多的声音说,它在模型训练后阶段正变得越来越重要。你能帮大家理解一下什么是强化学习以及强化学习环境吗?为什么它们在未来会越来越重要? 

Edwin:强化学习本质上是训练你的模型以达到某个特定的奖励。让我解释一下什么是强化学习环境。强化学习环境本质上是对现实世界的模拟。可以把它想象成构建一个拥有完整宇宙的视频游戏。每个角色都有真实的故事。每家企业都有你可以调用的工具和数据。所有这些不同的实体相互交互。

例如,我们可能构建这样一个世界:你有一家初创公司,里面有 G 邮件、Slack 线程、Jira 工单、Git PR 和整个代码库,然后突然 AWS 宕机了,Slack 也挂了。那么,模型,你该怎么办?模型需要想办法解决。所以,我们在这些环境中给模型分配任务。

我们为它们设计有趣的挑战,然后运行它们看其表现如何,接着教导它们。当它们做得好或不好时,我们给予奖励。我认为有趣的一点是,这些环境真正展示了模型在现实世界端到端任务中的薄弱环节。有很多模型在孤立的基准测试中看起来非常聪明,比如它们擅长单步工具调用,擅长单步指令遵循。

但突然之间,你把它们丢进这些混乱的世界里:有令人困惑的 Slack 消息、它们从未见过的工具,它们需要执行正确的操作、修改数据库,并在更长的时间跨度内进行交互——它们在第一步的行为会影响第 50 步的决策。这与它们之前所处的那些学术性的单步环境非常非常不同,所以模型会以各种灾难性的方式失败。因此,我认为这些强化学习环境将成为模型学习的非常有趣的“游乐场”,它们本质上是现实世界的模拟和模仿,所以希望相比这些人为设计的环境,模型在真实任务上能表现得越来越好。

Lenny:我在试着想象这具体是什么样子。本质上,它就像一个虚拟机,里面可能有浏览器或电子表格之类的东西,比如说 surge.com……那是你们的网站吗?我们确认一下,是 surge.com 吗? 

Edwin:我们实际上是 surgehq.ai。

Lenny:好的。那么,假设这是 surgehq.ai。你的工作,作为一个智能体,是确保网站正常运行,然后突然它宕机了。目标函数是……找出原因。是这样吗? 

Edwin: 是的。所以目标函数可能是……或者说任务的目标可能是:去弄清楚原因并修复它。因此,目标函数可能是通过一系列单元测试,也可能是撰写一份文档——比如一份复盘报告,其中包含与实际情况完全吻合的特定信息。我们可能会给它各种各样的不同奖励,以确定它是否成功。所以,我们基本上是在教导模型去达成那个奖励。

本质上,这就像让它放手去干:“这是你的目标,找出网站宕机的原因并修复它。”然后它就开始利用它所有的智能尝试各种事情。它会犯错,你在过程中帮助它,如果它做对了方向就给予奖励。

Lenny:那么你所描述的,这就是模型变得更智能的下一阶段。更多的强化学习环境专注于……我猜是经济价值很高的特定任务? 

Edwin: 是的,没错。就像过去模型学习有各种不同的方法一样——最初我们有 SFT(监督微调)和 RLHF(基于人类反馈的强化学习),然后有了评估标准和验证器——这是下一个阶段。而且,并不是说以前的方法过时了。这只是另一种学习形式,是对之前所有类型的补充。就像模型学习的一种不同技能。

在这种情况下,它不再是某个物理学博士坐着跟模型对话、纠正它、给它评估“正确答案是什么”、创建评估标准等等。更多的是这个人现在在设计一个环境

Lenny:我听到的另一个例子是,就像一个财务分析师:“这是一个 Excel 电子表格,你的目标是弄清楚我们的利润和亏损情况。”那么现在,这位专家不再是坐着写评估标准,而是在设计这个强化学习环境。 

Edwin:对,正是如此。所以那个财务分析师可能会创建一个电子表格。他们可能会创建一些模型需要调用的工具来帮助填写表格。比如,模型可能需要访问彭博终端,它需要学习如何使用它,需要学习如何使用这个计算器,还需要学习如何进行这个计算。所以它有所有这些可以访问的工具。然后奖励可能是:“好的,也许我会下载那个电子表格,我想看看 B22 单元格是否包含正确的利润亏损数字”,或者“第二个标签页是否包含这条信息”。有趣的是,这更接近人类的学习方式:我们只是尝试各种东西,弄明白什么行得通,什么行不通。

Lenny:你提到在这个过程中“轨迹”非常重要。不仅仅是“这是目标,这是终点”,而是过程中的每一步。你能谈谈什么是“轨迹”,以及为什么它对此很重要吗? 

Edwin:我认为人们没有意识到的一点是,有时即使模型得到了正确答案,它也是以各种疯狂的方式达成的。在中间过程中,它可能尝试了 50 次都失败了,但最终只是碰巧随机地得到了一个正确的数字。或者,有时它的做法非常低效,或者它几乎是“奖励破解”式地找到了正确答案。所以我认为关注轨迹实际上非常重要。

同时,也因为其中一些轨迹可能非常长。如果你只检查模型是否得到了最终答案,那么就缺失了关于模型在中间步骤如何行为的大量信息。有时你希望模型通过反思其行为来得到正确答案,有时你希望它能一次性直接得到正确答案。如果你忽略所有这些,就像是在教导它时缺失了大量本可以教授的信息。

Lenny:我喜欢这个说法。它尝试了一大堆东西最终才做对,你肯定不希望它学会“这就是达到目标的方法”,因为往往有更高效的方法。你提到了在帮助模型变得更智能的旅程中我们所采取的种种步骤。由于你如此近距离地接触这件事这么久,我认为这对大家会很有帮助。从最早的后训练开始,哪些步骤最有助于模型的进步?比如评估(eval)如何融入其中?强化学习环境又是怎样的?有哪些步骤?现在我们正朝着强化学习环境前进。 

Edwin: 最初,模型开始进行后训练的方式纯粹是通过 SFT。SFT 代表什么?SFT 代表监督微调。这很像……我经常用人类学习来类比。SFT 很像模仿大师并复制他们的行为。然后 RLHF 变得非常主流,那个类比就像是:有时你通过写 55 篇不同的文章来学习,然后有人告诉你他们最喜欢哪一篇。过去一年左右,评估标准和验证器变得非常重要,它们就像是“通过被评分来学习”,得到关于你哪里出错的详细反馈。“评估”(eval)是另一个说法。

我认为“评估”通常涵盖两个层面。一是你使用评估来进行训练,因为你是在评估模型是否做得好,当它做得好时你就奖励它。另一个概念是,你在试图衡量模型的进展,比如:“我有五个不同的候选模型检查点,我想选出最好的一个发布给公众。”所以对这五个不同的检查点进行所有这些评估,以决定哪一个最好。

Lenny:我们有了强化学习环境。这算是当前的新热点。对吧? 

Edwin: 是的,现在我们有强化学习环境了。它有点像现在的新热门事物。我认为我们需要构建一套产品,来反映人类学习的无数种不同方式。举个例子,想想如何成为一名伟大的作家。你不是通过死记硬背一堆语法规则而变得伟大的。你是通过阅读伟大的书籍、练习写作、从老师和书店买你书并留下评论的人那里获得反馈而变得伟大的。

你注意到什么有效,什么无效。你通过接触所有这些杰作以及糟糕的作品来培养品味。所以,你是通过这种无尽的实践和反思循环来学习的。你拥有的每一种学习类型——这些对于成为伟大作家来说,都是非常不同的学习方法。同样地,正如伟大作家可以通过一千种不同的方式变得伟大,我认为模型也需要通过一千种不同的方式学习。

这就像最终目标就是把你扔进环境里,看你怎么演化。但在那种演化中,有所有这些不同的子学习机制。

“我关心的不仅仅是公司营收” 

Lenny:这正是我们现在在做的事情。所以这真的很有趣。这可能是我们达到 AGI 之前的最后一步。沿着这个思路,Surge 有一点非常独特,我了解到你们有自己的研究团队,我认为这相当罕见。谈谈为什么你们要在这方面投资,以及这项投资带来了什么? 

Edwin: 是的,我认为这源于我自己的背景。我自己的背景就是一名研究员,所以我从根本上一直关心的是推动行业和研究社区的发展,而不仅仅是收入。

我认为研究团队的作用有几个方面。我们公司几乎有两种类型的研究员:一种是“前沿部署研究员”,他们通常与我们的客户密切合作,帮助他们理解自己的模型。我们会与客户非常紧密地合作,帮助他们理解:“这是你的模型目前的水平。这是你落后于所有竞争对手的地方。根据你的目标,这些是未来可能改进的方向。”

然后我们会设计这些数据集、这些评估方法、这些训练技术来让他们的模型变得更好。这是一种非常协作的概念,与我们的客户——他们自己也是研究员,只是更侧重于数据方面——携手合作,竭尽全力让他们成为最好的。

另一种就是我们还有内部研究员。他们专注于稍微不同的领域。他们专注于构建更好的基准测试和排行榜。我谈了很多关于我担心当今的排行榜和基准测试正在将模型引向错误方向的问题。所以,问题是我们如何解决这个问题?这正是我们的研究团队目前非常非常专注的领域。

他们在这方面投入了大量精力。他们也在研究其他方面,比如我们需要训练自己的模型,看看哪种类型的数据表现最好,哪种类型的人员表现最好。所以他们也在研究所有这些训练技术,以及对我们自己的数据集进行评估,以改进我们的数据运营和内部数据产品,从而决定什么才是高质量的东西。

Lenny:这真是太酷了,因为我想基本上各大 AI 实验室都有自己的研究员来帮助他们推进 AI。我猜像你们这样的公司拥有真正从事 AI 基础研究的研究员,应该是相当罕见的。对吗? 

Edwin:是的。我认为这只是因为我从根本上一直关心这件事。我经常更多地认为我们更像一个研究实验室,而不是一家初创公司,因为那就是我的目标。有点好笑,但我总是说,我宁愿成为陶哲轩,而不是沃伦·巴菲特。那种创造能够推动前沿的研究,而不仅仅是获得某些评估结果的理念,一直是驱使我前进的动力,而且效果很好。

Lenny:这就是这件事美妙的地方。你提到你们正在招聘研究员。在这方面有什么想分享的吗?你们在寻找什么样的人? 

Edwin:我们寻找那些从根本上对数据整天感兴趣的人。就是那种真的可以花 10 个小时钻研数据集、摆弄模型、思考“我认为模型在这里失败了,这是我希望模型具备的行为”的人。就是那种非常动手、思考模型的定性方面而不仅仅是定量部分的能力。所以,再次强调,就是这种动手处理数据的态度,而不仅仅是关心那些抽象的算法。

Vibe Coding 被过渡炒作了 

Lenny:太棒了。我想问几个关于 AI 市场和行业的宏观一点的问题。你认为未来几年还会发生什么人们可能想得不够多、或没有预料到的事情?AI 将走向何方?什么会变得重要? 

Edwin: 我认为未来几年会发生的一件事是,由于不同实验室的“个性”和“行为”,以及他们优化模型的目标函数不同,模型实际上会变得越来越差异化。

大约一年前,我还没意识到这一点。那时我以为所有的 AI 模型基本上都会变得非常同质化,它们的行为会彼此相似。当然,今天可能有一个模型在某个方面稍微更聪明一点,但其他的肯定会在几个月内赶上。

但过去一年我意识到,公司所秉持的价值观会塑造模型。

让我举个例子。前几天,我让 Claude 帮我起草一封邮件,它帮我弄了 30 个不同的版本,30 分钟后,我觉得它确实帮我精心打造了一封完美的邮件,然后我发出去了。但之后我意识到,我花了 30 分钟做了一件根本无关紧要的事。当然,现在我有了完美的邮件,但我花了 30 分钟做了一件以前完全不会担心的事。而且这封邮件可能对任何事情都没有任何实质影响。

所以,这里有一个深刻的问题:如果你可以选择完美的模型行为,你想要哪种模型?你是想要一个说“你说得对,这封邮件肯定还有 20 种改进方法”,然后继续迭代 50 次,吸走你所有时间和注意力的模型?还是想要一个为你的时间和生产力优化的模型,它会说:“不,你需要停下来。你的邮件已经很好了,发出去然后继续你的一天吧。”

同样地,就像在这个问题上,你可以选择模型如何行为一样,对于模型需要回答的每一个其他问题,你希望模型具备的行为方式将从根本上影响它。这几乎就像谷歌构建搜索引擎的方式与 Facebook 或苹果构建搜索引擎的方式会非常非常不同一样。他们都有自己遵循的原则、价值观和想在世界上实现的目标,这些塑造了他们将要构建的所有产品。同样地,我认为所有的语言模型也将开始表现得非常不同

Lenny:这非常有趣。你已经从 Grok 上看到了这一点。它有一种非常不同的个性和回答问题的方式。所以我听出来,未来我们会看到更多这种差异化。 

Edwin: 是的。

Lenny:沿着这个思路,再问一个问题。你认为 AI 领域最被低估的是什么?你觉得人们谈论得不够多但真的很酷的东西是什么?还有,什么是被过度炒作的? 

Edwin: 我认为被低估的一点是,所有聊天机器人将开始内置各种功能。我一直是“可执行文件 / 成果物”的忠实粉丝,我认为它效果非常好。

实际上,前几天,我不知道这是不是新功能,但它问我是否需要帮助创建一封邮件,然后它创建了……它没能完全工作,因为它不允许我发送邮件,但它创建了一个小盒子,我可以点击它,然后直接给某人发送这条消息。我认为将这种“成果物”概念提升到下一个层次,就在聊天界面本身内置这些小应用、小 UI,我觉得人们谈论得还不够多。所以我认为这是一个被低估的领域。

至于过度炒作的领域,我绝对认为“Vibe Coding”(凭感觉 / 模糊需求生成代码)被过度炒作了。我认为人们没有意识到,如果他们现在就把这些似乎能运行的代码直接丢进他们的代码库,长期来看会让他们的系统变得多么难以维护。所以……我对未来的编码工作有点担心。这种事只会不断发生。

Lenny:这些都是非常精彩的回答。关于第一点,这其实是我问过 Anthropic 和 OpenAI 的首席产品官 Kevin 和 Mike(注:指 Mike Greger)的问题。我问他们,作为一个产品团队,既然你们现在拥有这种千亿级大脑般的智能,你们到底还需要产品团队多久?你们觉得 AI 会直接为你创造产品吗?就像“告诉我你想要什么”,它就开始构建产品,并在你使用过程中不断演化产品?感觉你描述的就是我们可能前进的方向。 

Edwin:是的,我认为有一个非常强大的概念,它能帮助人们以一种更强大的方式实现他们的想法。

创建 Surge AI 的心路历程 

Lenny:有件事我们还没深入聊,但我觉得非常有趣,就是你创立 Surge 的故事。你的背景非常独特。我总想起 Coinbase 创始人 Brian Armstrong 有一次做的一个演讲,让我印象深刻,他谈到自己非常独特的背景如何让他创立了 Coinbase。他有经济学背景,有密码学经验,然后他还是工程师,这就像是一个完美的交集,让他创立了 Coinbase。我觉得你与 Surge 的故事非常相似。聊聊你的背景,以及那如何引领你创立了 Surge? 

Edwin:那要从 很早以前开始聊起。我从小就对数学和语言非常着迷。我去 MIT,一方面因为那里显然是数学和计算机科学最好的地方之一,另一方面也因为乔姆斯基在那里。我上学时的梦想实际上是找到一种连接所有这些不同领域的底层理论。

后来我在谷歌、Facebook 和 Twitter 做过研究员。我一次又一次地遇到同样的问题:我们不可能获得训练模型所需的数据。所以我一直坚信高质量数据的必要性。

然后,2020 年 GPT-3 发布了,我意识到,是的,如果我们想将事情提升到下一个水平,构建能够编码、使用工具、讲笑话、写诗、解决黎曼猜想并治愈癌症的模型,那么,我们将需要一个全新的解决方案。我在所有这些公司时,一直让我抓狂的是:我们面前拥有全人类的智慧力量,而所有数据标注公司却都在专注于图像标注这样非常简单的事情。所以我想构建一些专注于所有这些高级复杂用例的东西,真正帮助我们构建下一代模型。我认为我跨数学、计算机科学和语言学的背景,真的深刻地影响了我一直想做的事情。所以,我在 GPT-3 发布一个月后创立了 Surge,我们的唯一使命就是构建我认为推动 AI 前沿所需要的那种用例。

Lenny:除了你们正在取得的巨大成功之外,是什么在驱动你继续构建这个事业,在这个领域不断建设? 

Edwin:我认为我本质上是个科学家。我一直以为自己会成为数学或计算机科学教授,致力于理解宇宙、语言和通信的本质。有点好笑,但我一直有个天真的梦想:如果有外星人来访地球,我们需要弄清楚如何与它们沟通,我想成为那个和它们一起去的人,用所有这些花哨的数学、计算机科学和语言学知识来破译。

所以即使在今天,我最喜欢做的事仍然是,每当有新模型发布,我们都会对它进行一次非常深入的研究。我会试用它,运行评估,比较它在哪些方面改进了,哪些方面退步了。我会创建这种非常深入的分析报告发送给我们的客户。

这其实有点好笑,因为很多时候我们会说这是数据科学团队做的,但通常其实就是我自己做的。我想我可以一整天都做这个。我很难忍受整天开会。我不擅长销售,也不擅长做人们期望 CEO 做的那些典型事情。但我喜欢写这些分析报告,喜欢和研究团队一起头脑风暴。

有时候我会和别人在电话上聊到凌晨三点,就为了深入研究某个模型。所以,最重要的是,我仍然能够整天亲身参与数据和科学研究。我认为驱使我前进的是,我希望 Surge 在 AI 的未来——我认为这也是人类的未来——中扮演关键角色。

我们对数据、语言、质量以及如何衡量这一切、如何确保它走在正确的道路上,有着非常独特的视角。我认为我们独特地不受那些有时会将公司引向负面方向的种种影响所束缚。就像我之前说的,我们把 Surge 更多地建设成一个研究实验室,而不是典型的初创公司。

所以我们关心好奇心、长期激励和学术严谨性,而不太关心季度指标或者在董事会报告中看起来好不好。所以我的目标是,利用我们公司所有这些独特之处,来确保我们正在以一种对人类物种长期真正有益的方式塑造 AI。

Lenny:在这次对话中,我意识到你们这样的公司对 AI 的发展方向有多么大的影响力。事实上,你们帮助实验室理解它们的差距在哪里,需要改进什么。不仅仅是每个人都在关注 OpenAI 等公司的负责人,认为他们是引领 AI 的人。但我在这里听到的是,你对事情的发展方向有很大的影响力。 

Edwin: 是的。我认为这里有一个非常强大的生态系统。老实说,人们还不知道模型将走向何方,他们想要如何塑造它们,以及他们希望人类在这一切的未来中扮演什么角色。所以我认为有很多机会可以继续塑造这场讨论。

Lenny:你分享的这些让我对构建 AI、训练 AI 的细微之处,以及你们所做的工作,有了更深的理解。从外部看,人们可能只把 Surge 和这个领域的公司看作是在创造所有这些数据来喂养 AI。但显然,这其中有很多人们没有意识到的东西。我很欣慰像你这样深思熟虑的人在主导这件事。也许最后一个问题:在创立 Surge 之前,你希望自己当时知道些什么?很多人创业时并不知道自己要面对什么。有没有什么你想告诉过去的自己的事? 

Edwin:是的。我绝对希望自己早知道,你可以通过埋头苦干、做好研究和简单地打造出卓越的产品来建立一家公司,而不是通过不断发推文、制造声势和融资。这有点好笑,但我从没想过自己会开公司。我喜欢做研究,实际上我一直是 DeepMind 的忠实粉丝,因为它是一家了不起的研究公司,被收购后仍然继续做着惊人的科学研究。

但我一直以为他们是那种神奇而罕见的独角兽。所以我认为如果我开公司,我就得变成一个整天看财务报表、整天开会、做所有这些听起来极其无聊而我总是讨厌的事情的商人。所以,我认为疯狂的是,结果完全不是这样。我每天仍然深入数据之中,而且我喜欢这样。我喜欢我能做所有这些分析,与研究团队交流。这

基本上是应用研究,我们在构建所有这些真正推动 AI 前沿的惊人数据系统。我希望我知道你不必把所有时间都花在融资上,你不必不断制造声势,你不必变成不是你的人。你实际上可以通过打造一个优秀到足以穿透所有噪音的产品来建立一家成功的公司。我想,如果我知道这是可能的,我会更早开始。

Lenny:你有什么喜欢的人生格言,在工作和生活中经常回想起来吗? 

Edwin: 我想我提到过这个理念:创始人应该建立一家只有他们才能建立的公司,这几乎像是他们的整个生命、经历和兴趣将他们塑造成此的宿命。所以我认为这个原则适用得很广,不仅对创始人,对任何创造事物的人也是如此。

所以,我想总的原则就是真正追随你的兴趣,做你热爱的事。这几乎就像我做关于 Surge 的很多决定一样。有几年前我没想过,但后来有人对我说的话:公司在某种意义上,是其 CEO 的化身。这有点好笑,我以前没想过,因为我一直不太清楚 CEO 到底做什么。我总以为 CEO 很普通,就是做你的副总裁们、董事会等等告诉你要做的事,你只是对决策说“是”。但实际上不是这样,而是当我思考某些我们必须做出的重大艰难决定时,我不会想“公司会怎么做”,不会想“我们要优化什么指标”,我只是想“我个人关心什么?我的价值观是什么?我想看到世界上发生什么?”所以,我认为遵循那个理念——问问自己:你关心什么价值观?你想塑造什么?而不是什么会让仪表盘好看——我想这会带来相当重要的结果。

参考链接:https://www.youtube.com/watch?v=dduQeaqmpnI&t=346s

本文来自微信公众号“InfoQ”,编辑:冬梅,36氪经授权发布。