Machine Learning
Tour
评论
Anthony Bonkoski 将 GPT 类比为“人类知识的极大似然估计器”,即其知识面广泛覆盖但缺乏深度,能给人提供平均化的标准答案。
见:ChatGPT: A Mental Model,ChatGPT: A Mental Model @MaxAI
数据结构
向量可视化
使用 projector.tensorflow 在低维度空间查看不同向量的某个特征的分布情况。
Vibe
模型搜索
- Ollama Search
- mteb Leaderboard:多语言文本嵌入基准测试排行榜,用于比较各模型在不同任务上的嵌入效果。
NLP
将 LLMs 及 NLP 结合
将传统 NLP 方法如聚类分类、主题识别和 LLMs 结合,以获得 LLMs 的高注意力跨度和记忆力。
LLMs
Agents
RAG(检索增强生成)
MCP
Skills
AI 对前端的影响
- AI 对泛前端领域的影响 - 滴滴技术团队关于 GUI→LUI 迁移、Agent 自动化等思考
Tools
- Browser AI Automation - Opendia、Browser-use、Stagehand、Playwright MCP 等
案例
Framework
Workflow
Training
AI 的下半场
从训练到评估的范式转移
AI 发展进入"下半场",核心特征是从"训练大于评估"转向"评估大于训练"。上半场通过反向传播、AlexNet、DQN、Transformer、GPT-3 等方法创新不断刷分;下半场需要重新定义问题,构建能衡量真实世界效用的评估体系。OpenAI 前研究员姚顺雨(Shunyu Yao)提出这一框架,认为当前 AI 在 MMLU、Codeforces 等基准上达到博士水平,却未能显著改变 GDP——核心矛盾在于评估设定追求"难题",而真实价值在于"实用"。
见:The Second Half - Shunyu Yao
AI 训练的标准配方
强化学习的通用配方由三要素构成:强大的语言先验(LLM)、支持推理的行动空间(将思考作为动作)、简单可扩展的算法。这一配方在数学推理(o1/o3)、计算机操作(Operator)等领域都被验证有效,意味着"创造新基准比解决旧基准更有价值"。
见:ReAct: Synergizing Reasoning and Acting in Language Models
行业动态
科技巨头的 AI 军备竞赛规模有多大?
2026 年,亚马逊、谷歌、微软、Meta 和 Oracle 五大科技巨头的 AI 相关资本支出预计达 7000 亿美元,相当于美国军费的约四分之三。如此巨额投入导致电工人才短缺,部分建筑项目被迫暂停。这一数据直观展示了 AI 热潮对实体经济的资源虹吸效应——AI 竞争已从技术竞争升级为国家级基础设施竞争。
#周刊摘录 见:科技周刊第385期
知识产权的因果循环
OpenAI 长期被指控未经授权使用艺术家和作家的作品训练模型,如今却反过来控诉 DeepSeek 通过「模型蒸馏」技术窃取自己的知识产权。这种「偷数据者抱怨被偷」的戏剧性反转,揭示了科技行业一个古老规律:当技术霸权者打破规则时,往往忘了规则也可能被用来对付自己。讽刺的是,OpenAI 曾游说政府要求版权豁免,如今却成为了自己最痛恨的「免费搭车者」的受害者。
见:OpenAI Alleges China's DeepSeek Stole its Intellectual Property、US authors' copyright lawsuits against OpenAI
远程操作的信任困境
AI 行业将远程操作(teleoperation)包装成"AI"的现象正在侵蚀公众信任:
- Amazon "Just Walk Out":号称 AI 驱动的无人收银,实际是印度团队手动审核监控录像完成结账
- Tesla Optimus:发布会展示机器人端酒、跳舞,Elon Musk 声称全自主 AI,后被揭露为远程操作
- 1X 机器人:$20,000 家用机器人 demo 中,操作者就在隔壁房间
远程操作本身的技术难度被忽视——实时控制双足机器人在人群中行走、完成精细动作需要低延迟通信、精准电机控制和优秀的操作界面,这些都是多年工程积累的成果。然而一旦被贴上"AI"标签,远程操作就变成了"骗局"的同义词,甚至 Waymo 也不得不公开辩护否认使用远程操作员。
远程操作在医疗(跨洲手术)、工业(危险环境作业)等领域本身就是核心价值,而非过渡方案。
见:Teleoperation is Always the Butt of the Joke