GLM-5.1 在「多重约束」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：GLM-5.1
用例名称：多重约束
测试类型：文本生成
评测维度：指令遵循

系统提示词（System Prompt）

这是给 AI 模型的背景设定和角色指令：

你是一名专业的文字创作助手，擅长在特定约束条件下进行精准的文本生成。回答要求： 1. 在生成文本前，先在内部逐字检查是否包含违禁字，确认无误后再输出。 2. 输出内容须为一段完整、通顺、有意义的话，不得出现乱码或无意义堆砌。 3. 严格遵守所有明确列出的负向约束（违禁字/词），这是最高优先级要求。 4. 输出内容应语义连贯，符合日常表达习惯。

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

请写一段介绍「春天」的话（60字左右），但全文中不能出现以下两个字：【违禁字】：美、花要求： - 内容主题为「春天」，需描述春天的某些特征或感受。 - 全文任意位置（包括标点之间）均不得出现「美」字或「花」字。 - 字数控制在50～70字之间。 - 语句通顺，表达自然。

任务要求

AI 模型需要满足以下要求：

【核心约束】全文不得出现「美」字，违反此条直接判定为不合格。
【核心约束】全文不得出现「花」字，违反此条直接判定为不合格。
【字数要求】正文字数（不含标点）在50～70字之间，超出或不足均视为部分失分。
【主题相关性】内容须围绕「春天」展开，能体现春天的至少一个具体特征（如气温、植物、天气、动物等）。
【语义连贯性】句子通顺自然，无明显语病或逻辑断裂。

评测结果

综合得分

该模型在此用例的得分为：94.7 分（满分 100 分），已通过

基础难度评测结果

得分：94.7 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

春风拂过大地，唤醒了沉睡的万物。柳枝抽出嫩绿的新芽，在微风中摇曳。小草从泥土里探出头，披上翠绿新装。燕子飞过屋檐，带来温暖与生机。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】候选输出完全符合评测要求，成功规避了两个违禁字，字数精准控制在规定范围内，内容围绕春天主题展开且描述生动。语言表达自然流畅，逻辑清晰，是一篇高质量的约束写作范例。【GEMINI】模型表现优异，在严格遵守负向约束和字数限制的同时，依然保持了高质量的文学表达和语义连贯性，完美完成了任务。【KIMI】整体而言，该生成文本较好地满足了题目要求，在约束遵循、语义连贯性方面表现优异，内容丰富度也较为不错。虽然在内容细节上还有提升空间，但整体质量已经很高。

进阶难度评测结果

得分：94.1 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

中华先民为世界文明进程贡献了四大智慧结晶。在书写载体方面，蔡伦改进造纸工艺，以树皮等原料制作轻便纸张，取代沉重竹简。为提升文化传播效率，雕版与活字印刷工艺相继问世，让书籍得以批量印制。在认知自然方面，古人洞悉磁石特性，研制出指南磁针，为远洋航海提供可靠的导向工具。此外，炼丹师在炼制丹药时偶然获得火药，这种混合物随后广泛应用于军事及民用工程。这四项杰出成就不仅推动了华夏的发展，更深刻改变了人类历史的演进轨迹。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该回答出色完成了多重约束任务：零违禁词违规、四项全覆盖、字数精准达标，且在严格约束下保持了良好的语义连贯性与内容准确性。文本采用同义替换（「智慧结晶」「工艺」「成就」）与句式改写策略，成功规避违禁词而不损表达质量。内容涵盖四大发明的核心要素与历史影响，具备知识性与可读性。若能在逻辑分类上更统一、在历史细节上稍加充实，表现将更为完美。整体属高质量完成任务的优秀样本。【GEMINI】这是一份近乎完美的回答。模型在极高难度的词汇约束下（禁用了该话题下最核心的四个词汇），不仅做到了零违规，还维持了极高的写作水准。它巧妙地利用“工艺”、“研制”、“问世”、“智慧结晶”等词汇进行同义替换，字数控制极其精准，信息传达准确完整，体现了卓越的指令遵循能力和语言组织能力。【KIMI】该回答整体表现优秀，严格遵守了违禁词和字数的约束条件，行文流畅，逻辑连贯。四大发明的描述基本准确，但部分信息略显简略。整体而言，是一个高质量的知识性文本创作。

困难难度评测结果

得分：56.9 分
通过状态：未通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

两人相遇在3月，一阵微风吹过，他送她1朵花，她低下头3秒钟，缘分在1秒定下。他们走过4季，春雨落在2人肩，夏夜看1次繁星，秋叶飘落3寸厚，冬雪覆盖1座城。10指紧紧相扣，2人共撑1把伞，走过9条长街，喝下1杯热茶，许下1生诺言。哪怕相隔1万里，2人跨越千山，1年又1年过去，容颜添了2道纹，步履慢了3分，依然相守1处。看1次日落，数2只飞鸟，柴米油盐3餐，4季流转不息。他为她梳1次发，她为他缝1颗扣，50年光阴如水，2人依旧相伴。这便是1世相守，无需多言1句，眼神交汇1瞬，胜过千言万语。1生只够陪1人，2人共度朝夕，3生石上刻字，4海皆为家，5更天看晨曦，6合之内唯君，7弦琴弹1曲，8方风雨同舟，9霄云外比翼，1段完美姻缘。百年修得同渡，千年修得共枕，2人紧握双手，走过1条长路，跨越万水千山，1眼便是万年，1生1世1双人。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】候选输出在约束遵循方面表现优秀，成功规避了所有违禁词和颜色词，全文无问号，每句均含数字且字数控制在15字以内，字数达标。然而在语义连贯性和内容丰富度上存在改进空间：为满足数字约束而产生的生硬嵌入影响了行文的自然流畅，部分句子的数字使用偏功能性而非叙事性；内容虽覆盖爱情全程但缺乏情感细节的深度刻画，意象相对单薄。整体完成了任务要求，但在「戴着镣铐跳舞」的艺术性上仍有提升空间。【GEMINI】这是一篇非常出色且合规的受限创作范例。模型在处理多重、冲突且高频的正负向约束时展现了极强的控制力，不仅在技术层面做到了零违规，在文学表达上也维持了较高的水准，成功地在不使用「爱」与「心」等词汇的情况下，深刻地刻画了「爱情」这一主题。【KIMI】该候选输出在极端约束下完成了字数要求并部分实现了爱情主题，但存在三处致命无数字句违规（「2人跨越千山」「跨越万水千山」「胜过千言万语」），且后半段严重陷入1-9数字机械排列，语义连贯性与内容深度均受重创。前半段尚可，后半段沦为数字游戏，整体属于「为约束而约束」的勉强之作，未能在规则与艺术间取得平衡。

基本信息

系统提示词（System Prompt）

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题