PostsMapsLinks
Reports

AI & Web:理解与管理机器学习模型对Web的影响

W3C 对 Web-AI 交叉领域进展的共同理解及标准化路线图

AI 与 Web 的系统性影响?

机器学习模型支撑着新一代 AI 系统,它们使用 Web 内容训练,通过 Web 界面大规模部署,并能以前所未有的速度低成本生成内容。

Web 既是 AI 的训练数据来源,又是 AI 生成内容的分发平台。这种交叉正在对 Web 生态产生潜在的系统性影响。

见:AI & Web 报告

AI 生成内容的透明度问题?

最新的 AI 系统能辅助或替代人类创作文本、图像、音频和视频,且质量可接受、数量远超人类创作。这给消费者带来系统性风险——难以辨别内容的真实性与权威性。

目前没有可行的技术方案(如密码学方法)来验证内容是否由 AI 生成。标准组织可以推动内容标注机制,通过元数据标明内容是否为计算机生成。已有提案包括 C2PA 指南、IPTC 合成媒体标准、HTML 的 AI 生成内容元标签建议。

AI 服务的偏见与透明度?

机器学习模型可能吸收并强化训练数据中的偏见,对训练数据中未被充分代表的用户(非主流语言、外表或行为者)影响更大。由于模型像"黑盒"一样运行,难以审计和纠正。

W3C 建议在模型卡片中公开是否使用机器学习、如何训练和检测偏见,帮助用户做出知情选择。

隐私风险与去中心化存储?

模型训练可能包含个人可识别信息(PII),攻击者可能通过特定提示提取这些隐私数据。这引发对分布式架构的新呼吁,如 Solid(个人数据存储)——清晰区分数据存储与数据处理角色,让用户更细粒度地控制自己的数据。 Web Neural Network API 允许在浏览器本地运行模型,无需上传数据到服务器。

AI 放大的安全与冒充风险?

机器学习模型能以极低成本模仿人类生成逼真的文本和视频,显著放大了网络钓鱼和诈骗风险,提高了在线建立信任的门槛。如果用户对数字媒介中的交际失去安全感,Web 将失去作为交际平台的核心价值。

AI 的环境可持续性?

训练和运行机器学习模型消耗大量电力和水资源。W3C 缺少评估其标准对环境影响的框架,需要主动探索 AI 标准化工作对环境的预期影响及应对方案。

内容创作者权益与搜索引擎契约?

大型机器学习模型常在未获创作者同意的情况下使用 Web 内容训练,引发版权争议。搜索引擎与内容创作者存在隐式契约:爬虫获取内容,同时给来源带来曝光和流量;而 AI 系统缺乏这种系统性等效机制——即使能标注训练数据来源, 也难以像搜索引擎那样刺激用户访问原始网站。

robots.txt 基于用户代理的爬虫管理对快速增长的 AI 爬虫列表难以持续维护。早期 Web 的无许可模式是否能满足内容发布的长期可持续性仍是问题。

机器学习对 Web 互用性的挑战?

机器学习模型给 W3C 的互用性目标带来两方面挑战:1)模型通常不是基于明确算法步骤构建的,难以规定标准化行为;2)许多模型具有非确定性——相同输入可能产生不同输出,这与传统确定性算法的互用测试范式冲突。 这可能导致基于 AI 实现的标准化特性范围缩小。

Copyright © 2024 Lionad - CC-BY-NC-CD-4.0