AI被严重低估，AlphaGo缔造者罕见发声：2026年AI自主上岗8小时

2025年11月4日 20:09·36kr

Automation

2026

AI发展真相：公众认知落后一个世代，2026年或成关键转折点

当大众还在嘲笑AI写错代码时，科学家们已看到它能独立完成数小时复杂任务。AlphaGo核心作者Julian罕见发声：公众对AI的认知至少落后一个世代。最新数据显示，AI正以指数速度逼近专家水准，2026年或将成为关键转折点。

认知鸿沟：我们严重低估了AI

AlphaGo、AlphaZero核心作者Julian提出尖锐比喻。

他认为人们对AI的态度，很像疫情初期的反应。

我们正在严重低估AI的真实进展。

大众关注AI犯错细节，断言它无法替代人类。

实验室里，研究者看到AI独立完成数小时复杂任务。

更关键的是，AI正以指数速度持续进化。

这就是Julian决定发声的原因。

公众认知与前沿现实存在世代级落差。

科学家为何不再沉默？

Julian Schrittwieser在AI圈内声名显赫。

他亲历了AI从围棋科幻到现实碾压的全过程。

他在个人博客中写道：

人们看到AI犯错就急于下结论。但几年前，AI写程序还完全是科幻！

今天的舆论氛围相当荒谬。

大众盯着模型错误，记者觉得进步停滞。

政策讨论中，AI被当成遥远泡沫。

实验室里，AI能力正以指数型跃升。

公众认知至少滞后一个世代。

忽视这一趋势，临界点到来时将毫无准备。

指数增长：AI独立工作时间翻倍

METR机构提供关键证据。

他们衡量AI自主完成真实任务的时长。

Claude 3.7 Sonnet能在1小时任务中保持50%成功率。

这意味着AI已具备实际工作能力。

更令人震惊的是增长趋势。

这条曲线每7个月翻一倍。

Sonnet 3.7已是7个月前模型，正好对应翻倍周期。

最新图表显示Grok 4、Claude Opus 4.1、GPT-5位列右上角。

这些模型已突破2小时任务大关。

指数增长略超预期，并未放缓。

趋势外推显示重要时间点：

2026年中：模型连续完成8小时工作
2027年：复杂任务超越人类专家

忽视这一预测的代价极高。

跨行业评测：AI逼近人类专家

OpenAI的GDPval研究将趋势带入现实经济。

研究覆盖44个职业、9大行业、1320项任务。

任务由14年经验专家设计，盲评打分。

Julian在博文中写道：

GPT-5接近人类水准。Claude Opus 4.1表现更优，几乎追平行业专家。

这不是孤立测试，而是真实行业检验。

法律、金融、工程、医疗、创意等行业均包括在内。

GPT-5已逼近行业专家水平线。

OpenAI坦诚承认友商表现更好。

Julian称赞这是罕见的科研诚信。

追求安全有益结果时，比拼输赢不是最重要的。

尽管任务设计不够复杂，趋势已足够明显。

AI正一步步靠近甚至超越人类专家。

质疑与回应：趋势是否可靠？

读者Atharva Raykar提出尖锐质疑。

将AI进展类比指数曲线很危险。疫情传播有明确机制，AI提升并非必然。

他认为AI进步更像摩尔定律。

需要行业持续创新和工程突破。

没有关键突破，能力曲线可能撞墙。

单纯外推不能保证未来加速。

另一个问题是评测任务不够复杂。

现实项目远比基准测试混乱。

可能高估AI在真实世界的适用性。

Julian承认提醒的合理性，但强调：

重点不是必然加速，而是公众忽视已发生的增长。

短期趋势依然清晰，外推比专家预测更靠谱。

关键不是曲线是否拐弯。

而是趋势继续时，社会若无准备代价沉重。

未来展望：替代还是百倍协作？

Julian给出最具冲击力的预测。

2026年中：顶级模型连续自主工作8小时。

不再是对话工具，而是全职员工。

2026年底：多个行业达到人类专家平均水平。

2027年后：垂直任务频繁超越专家。

逐步成为生产力主力。

这不是科幻，而是保守外推。

忽视趋势比过度担忧更危险。

但AI未来不一定是替代。

人类仍是指挥者，拥有几十上百个超强助手。

人机协作效率提升10倍、100倍。

这种模式避免失业恐慌。

释放前所未有的创造力。

几乎所有行业都将重组。

Julian称之为更安全有益的道路。

让AI成为工具，而非对手。

未来或许带着AI团队上班。