CL-Bench - Lionad's Blog and KnowledgeBase

CL-Bench 是由 Arc Computer 开发的基准测试框架，专门用于评估 LLM 智能体在有状态环境中的持续学习能力。与搜索或问答类基准不同，它关注智能体在复杂多轮工作流中的可靠性、适应性和性能表现。

核心测试场景：CRM 工作流

当前实现以企业级 CRM 系统为测试环境，包含：

数据集规模

共 1,200+ 多轮对话，其中 400 条为标准化评估子集（seed=42）。

评估维度

支持模型

Claude Sonnet 4.5、GPT-4.1、GPT-4.1 Mini，以及自定义 Agent。

LLM Benchmark

各类大语言模型的基准测试结果

Simple Benchmark

日常使用的简单基准测试