Benchmark
CL-Bench
LLM 智能体持续学习基准测试框架
CL-Bench:LLM 智能体持续学习基准
CL-Bench 是由 Arc Computer 开发的基准测试框架,专门用于评估 LLM 智能体在有状态环境中的持续学习能力。与搜索或问答类基准不同,它关注智能体在复杂多轮工作流中的可靠性、适应性和性能表现。
核心测试场景:CRM 工作流
当前实现以企业级 CRM 系统为测试环境,包含:
- 完整实体模型:客户、联系人、商机、报价、合同、文档、笔记
- 严格约束验证:外键关系、枚举约束、业务逻辑守护
- 真实业务规则:重复邮箱拒绝、非负金额、关系完整性校验
数据集规模
| 复杂度 | 轮数 | 占比 | 场景 |
|---|---|---|---|
| 简单 | 1-3 轮 | ~23% | 单实体操作 |
| 中等 | 4-6 轮 | ~52% | 跨实体工作流 |
| 复杂 | 7-10+ 轮 | ~25% | 多步骤状态变更 |
共 1,200+ 多轮对话,其中 400 条为标准化评估子集(seed=42)。
评估维度
- 工具执行验证:正确调用工具及参数
- 响应质量评估:LLM Judge 评判自然语言回复质量
- 状态追踪能力:跨多轮操作追踪持久状态变更
- 实体关系维护:保持外键引用和关联完整性
支持模型
Claude Sonnet 4.5、GPT-4.1、GPT-4.1 Mini,以及自定义 Agent。