AI被严重低估,AlphaGo缔造者罕见发声:2026年AI自主上岗8小时
2025年11月4日 20:09·36kr
当大众还在嘲笑AI写错代码时,科学家们已看到它能独立完成数小时复杂任务。AlphaGo核心作者Julian罕见发声:公众对AI的认知至少落后一个世代。最新数据显示,AI正以指数速度逼近专家水准,2026年或将成为关键转折点。
认知鸿沟:我们严重低估了AI
AlphaGo、AlphaZero核心作者Julian提出尖锐比喻。
他认为人们对AI的态度,很像疫情初期的反应。
我们正在严重低估AI的真实进展。
大众关注AI犯错细节,断言它无法替代人类。
实验室里,研究者看到AI独立完成数小时复杂任务。
更关键的是,AI正以指数速度持续进化。
这就是Julian决定发声的原因。
公众认知与前沿现实存在世代级落差。
科学家为何不再沉默?
Julian Schrittwieser在AI圈内声名显赫。
他亲历了AI从围棋科幻到现实碾压的全过程。
他在个人博客中写道:
人们看到AI犯错就急于下结论。但几年前,AI写程序还完全是科幻!
今天的舆论氛围相当荒谬。
大众盯着模型错误,记者觉得进步停滞。
政策讨论中,AI被当成遥远泡沫。
实验室里,AI能力正以指数型跃升。
公众认知至少滞后一个世代。
忽视这一趋势,临界点到来时将毫无准备。
指数增长:AI独立工作时间翻倍
METR机构提供关键证据。
他们衡量AI自主完成真实任务的时长。
Claude 3.7 Sonnet能在1小时任务中保持50%成功率。
这意味着AI已具备实际工作能力。
更令人震惊的是增长趋势。
这条曲线每7个月翻一倍。
Sonnet 3.7已是7个月前模型,正好对应翻倍周期。
最新图表显示Grok 4、Claude Opus 4.1、GPT-5位列右上角。
这些模型已突破2小时任务大关。
指数增长略超预期,并未放缓。
趋势外推显示重要时间点:
- 2026年中:模型连续完成8小时工作
- 2027年:复杂任务超越人类专家
忽视这一预测的代价极高。
跨行业评测:AI逼近人类专家
OpenAI的GDPval研究将趋势带入现实经济。
研究覆盖44个职业、9大行业、1320项任务。
任务由14年经验专家设计,盲评打分。
Julian在博文中写道:
GPT-5接近人类水准。Claude Opus 4.1表现更优,几乎追平行业专家。
这不是孤立测试,而是真实行业检验。
法律、金融、工程、医疗、创意等行业均包括在内。
GPT-5已逼近行业专家水平线。
OpenAI坦诚承认友商表现更好。
Julian称赞这是罕见的科研诚信。
追求安全有益结果时,比拼输赢不是最重要的。
尽管任务设计不够复杂,趋势已足够明显。
AI正一步步靠近甚至超越人类专家。
质疑与回应:趋势是否可靠?
读者Atharva Raykar提出尖锐质疑。
将AI进展类比指数曲线很危险。疫情传播有明确机制,AI提升并非必然。
他认为AI进步更像摩尔定律。
需要行业持续创新和工程突破。
没有关键突破,能力曲线可能撞墙。
单纯外推不能保证未来加速。
另一个问题是评测任务不够复杂。
现实项目远比基准测试混乱。
可能高估AI在真实世界的适用性。
Julian承认提醒的合理性,但强调:
重点不是必然加速,而是公众忽视已发生的增长。
短期趋势依然清晰,外推比专家预测更靠谱。
关键不是曲线是否拐弯。
而是趋势继续时,社会若无准备代价沉重。
未来展望:替代还是百倍协作?
Julian给出最具冲击力的预测。
2026年中:顶级模型连续自主工作8小时。
不再是对话工具,而是全职员工。
2026年底:多个行业达到人类专家平均水平。
2027年后:垂直任务频繁超越专家。
逐步成为生产力主力。
这不是科幻,而是保守外推。
忽视趋势比过度担忧更危险。
但AI未来不一定是替代。
人类仍是指挥者,拥有几十上百个超强助手。
人机协作效率提升10倍、100倍。
这种模式避免失业恐慌。
释放前所未有的创造力。
几乎所有行业都将重组。
Julian称之为更安全有益的道路。
让AI成为工具,而非对手。
未来或许带着AI团队上班。







