Reports

AI & Web：理解与管理机器学习模型对Web的影响

W3C 对 Web-AI 交叉领域进展的共同理解及标准化路线图

AI 与 Web 的系统性影响？

机器学习模型支撑着新一代 AI 系统，它们使用 Web 内容训练，通过 Web 界面大规模部署，并能以前所未有的速度低成本生成内容。

Web 既是 AI 的训练数据来源，又是 AI 生成内容的分发平台。这种交叉正在对 Web 生态产生潜在的系统性影响。

见：AI & Web 报告

AI 生成内容的透明度问题？

最新的 AI 系统能辅助或替代人类创作文本、图像、音频和视频，且质量可接受、数量远超人类创作。这给消费者带来系统性风险——难以辨别内容的真实性与权威性。

目前没有可行的技术方案（如密码学方法）来验证内容是否由 AI 生成。标准组织可以推动内容标注机制，通过元数据标明内容是否为计算机生成。已有提案包括 C2PA 指南、IPTC 合成媒体标准、HTML 的 AI 生成内容元标签建议。

AI 服务的偏见与透明度？

机器学习模型可能吸收并强化训练数据中的偏见，对训练数据中未被充分代表的用户（非主流语言、外表或行为者）影响更大。由于模型像"黑盒"一样运行，难以审计和纠正。

W3C 建议在模型卡片中公开是否使用机器学习、如何训练和检测偏见，帮助用户做出知情选择。

隐私风险与去中心化存储？

模型训练可能包含个人可识别信息（PII），攻击者可能通过特定提示提取这些隐私数据。这引发对分布式架构的新呼吁，如 Solid（个人数据存储）——清晰区分数据存储与数据处理角色，让用户更细粒度地控制自己的数据。 Web Neural Network API 允许在浏览器本地运行模型，无需上传数据到服务器。

AI 放大的安全与冒充风险？

机器学习模型能以极低成本模仿人类生成逼真的文本和视频，显著放大了网络钓鱼和诈骗风险，提高了在线建立信任的门槛。如果用户对数字媒介中的交际失去安全感，Web 将失去作为交际平台的核心价值。

AI 的环境可持续性？

训练和运行机器学习模型消耗大量电力和水资源。W3C 缺少评估其标准对环境影响的框架，需要主动探索 AI 标准化工作对环境的预期影响及应对方案。

内容创作者权益与搜索引擎契约？

大型机器学习模型常在未获创作者同意的情况下使用 Web 内容训练，引发版权争议。搜索引擎与内容创作者存在隐式契约：爬虫获取内容，同时给来源带来曝光和流量；而 AI 系统缺乏这种系统性等效机制——即使能标注训练数据来源，也难以像搜索引擎那样刺激用户访问原始网站。

robots.txt 基于用户代理的爬虫管理对快速增长的 AI 爬虫列表难以持续维护。早期 Web 的无许可模式是否能满足内容发布的长期可持续性仍是问题。

机器学习对 Web 互用性的挑战？

机器学习模型给 W3C 的互用性目标带来两方面挑战：1）模型通常不是基于明确算法步骤构建的，难以规定标准化行为；2）许多模型具有非确定性——相同输入可能产生不同输出，这与传统确定性算法的互用测试范式冲突。这可能导致基于 AI 实现的标准化特性范围缩小。

发布于2025年12月9日

更新于2026年6月27日

proposal-regexp-v-flag

正则的 v 模式兼容 u 模式并带来了 emoji 多码匹配等改进

Multi-Screen Window Placement