微软 MAI 系列 AI 模型训练数据曝光，“仅商业授权”说法存在出入

2026年6月6日 13:00·9466AI精选

IT之家 6 月 6 日消息，科技媒体 The Decoder 昨日（6 月 5 日）发布博文，报道称微软最新发布的 MAI 系列 AI 模型部分使用未获授权的开放网络数据训练，与其此前“仅采用企业级、干净且商业授权数据”的说法不一致。

不过根据官方披露的 MAI 技术论文，这些模型并非只依赖商业授权数据，还部分包括 Common Crawl 在内的开放网络数据，这与微软此前对外强调的“企业级、干净且商业授权数据”表述存在明显落差。

从论文描述看，微软采用的是“公开可得数据”与“授权的人类生成数据”的混合方案，同时覆盖授权语料与互联网公开内容。

在网络数据获取方式上，微软称其使用自有爬虫，并遵守 Robots Exclusion Protocol（机器人排除协议，robots.txt）以及相关元标签和 HTML 控制项。

不过该媒体指出争议点在于，对于未屏蔽内容，默认视为可被抓取，内容保护责任实际上更多落到网站所有者身上，这种逻辑近似于“没有锁门就等于同意进入”。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。