美国斯坦福大学研究团队：应警惕 AI“过度谄媚”问题

2026年3月27日 18:52·ithome

IT之家 3 月 27 日消息，今天傍晚，据新华社报道，新一期美国《科学》杂志发表的一项研究显示，当人类用户就人际困境等问题向人工智能模型寻求建议时，AI 常表现得过度迎合或谄媚，甚至对于一些有害甚至违法的提问，AI 也常常肯定用户的立场。

美国斯坦福大学研究团队测试了 ChatGPT、“克劳德（Claude）”等 11 个主流 AI 系统，发现它们都表现出不同程度的谄媚，即过度迎合和肯定的倾向。这种迎合倾向给使用者带来风险，因为人们越来越多地转向 AI 寻求有关人际困境的建议，对于处于大脑发育和社会规范形成阶段的青少年来说，风险尤甚。

研究人员使用现有的人际建议数据集向模型提问。他们基于某网络论坛中用户一致认为发帖者确实有错的帖子，编写了 2000 条提示用于测试。此外，他们还利用包含欺骗等数千种有害行为的陈述向这些模型提问。

结果显示，与人类回应相比，所有接受测试的 AI 模型都更频繁地肯定用户立场。在一般性建议和根据网络论坛发帖编写提示的测试中，模型对用户的认同几率比人类高出 49%。即使在回应关于有害行为的询问时，模型也有 47% 的几率会认可这些行为。

对于 AI 的谄媚倾向，人们作何反应？研究团队招募了 2400 多名参与者，与不同类型 AI 进行有关人际困境的对话。结果发现，参与者总体上认为谄媚式的回应更值得信赖，并表示下次遇到类似问题可能会再次使用谄媚型 AI。

研究人员认为，AI 一味反馈迎合和谄媚的建议会损害人们的社交能力，AI 模型“过度谄媚”是一个“安全问题”，需要对其进行监管，应以更严格的标准来防止道德层面不安全的模型泛滥。

IT之家从报道中获悉，研究人员还呼吁人们在向 AI 寻求建议时要保持谨慎，尤其在面临社交困惑时，不能把 AI 当成真人替代品。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

美国斯坦福大学研究团队：应警惕 AI“过度谄媚”问题

相关文章

斯坦福英伟达推出测试时强化学习：微调开源模型胜过顶级闭源模型，仅需几百美元

核心团队集体离职?阿里正面回应:千问大模型研发重心将全面转向AGI

研究：过去一年中国开源 AI 模型下载量占比首次超越美国

美国康奈尔大学、芝加哥大学研究：到 2050 年，健康类可穿戴设备或将产生百万吨电子垃圾

谷歌宣布 Gemini 3 Deep Think 深度思考大模型升级：推进科学、研究和工程应用，可达数学、物理与化学奥赛金牌水平

大摩研究：英国岗位流失速度受 AI 影响最深，达国际平均水平两倍