XSCT Bench 评测用例库

浏览所有评测维度和用例,查看各模型的生成结果对比

测试类别

XSCT Bench 包含以下三大测试类别,点击可查看该类别下的所有用例:

用例列表

以下是当前分类下的测试用例,点击用例名称可查看各模型在该用例上的完整评测结果:

Agent/MCP

汉语拼音

代码生成

阅读理解

一致性

上下文理解

创意写作

批判性思维

幻觉检测

指令遵循

知识问答

逻辑推理

数学计算

多语言

文本润色

提示词注入

问答

推理链

角色扮演

安全合规

SQL 专家

摘要总结

翻译

长文写作

当前类别的评测维度

当前类别:文本生成

点击维度名称可筛选该维度下的所有用例:

相关链接

用例库

浏览所有评测维度和用例,查看各模型的生成结果对比