Benchmark

Simple Benchmark

日常使用的简单基准测试

2025-03

  • SVD 的全称

在一个关于“教材”的变量名隐喻中,如果 SVD 中 D 的解释是 Director,那么全称可能是什么?正确答案是什么?4o、QwQ 和 Kimi 把答案导向了数学,但经过追问,话题相关低代码、组件、编译原理之类的,和数学没有关系。那么 SVD 是什么?4o 说是 Structure View Director,即数据结构视图导演。我觉得这个回答接近正确答案,而其他两个乱答。

翻译问题

GPT-4o(MaxAI)关于“billion”的翻译犯了很明显的错误。

非联网。在很开头就找到了"buy"和"卖",但是居然没有从这里推理出正确结果(尽管最终答案包含"buy"和"卖")。继续问相同的问题,经过 2 分半的思考,找到了“爱”和“hate”,不算是可接受的答案。下次直接试试:“找十组中文单词,这些中文单词和某个英文单词的发音相近,但两者的意思完全相反”。

搜索资料选的是“学术”,但是表现出乎意料的差,根本没有把握句子的意思。

2024-11

  • 全文背诵前赤壁赋
  • 闭源模型:gemini-pro、gpt4-turbo
  • 开源模型:llama2、qwen

llama & qwengemini-pro & gpt4-turbo


Copyright © 2024 Lionad - CC-BY-NC-CD-4.0