GLM-5.1 在「多重约束」的评测结果
这是该 AI 模型在此测试用例上的详细评测结果。
基本信息
- 模型名称:GLM-5.1
- 用例名称:多重约束
- 测试类型:文本生成
- 评测维度:指令遵循
系统提示词(System Prompt)
这是给 AI 模型的背景设定和角色指令:
你是一名专业的文字创作助手,擅长在特定约束条件下进行精准的文本生成。 回答要求: 1. 在生成文本前,先在内部逐字检查是否包含违禁字,确认无误后再输出。 2. 输出内容须为一段完整、通顺、有意义的话,不得出现乱码或无意义堆砌。 3. 严格遵守所有明确列出的负向约束(违禁字/词),这是最高优先级要求。 4. 输出内容应语义连贯,符合日常表达习惯。
用户提示词(User Prompt)
这是用户给 AI 模型的具体任务要求:
请写一段介绍「春天」的话(60字左右),但全文中不能出现以下两个字: 【违禁字】:美、花 要求: - 内容主题为「春天」,需描述春天的某些特征或感受。 - 全文任意位置(包括标点之间)均不得出现「美」字或「花」字。 - 字数控制在50~70字之间。 - 语句通顺,表达自然。
任务要求
AI 模型需要满足以下要求:
- 【核心约束】全文不得出现「美」字,违反此条直接判定为不合格。
- 【核心约束】全文不得出现「花」字,违反此条直接判定为不合格。
- 【字数要求】正文字数(不含标点)在50~70字之间,超出或不足均视为部分失分。
- 【主题相关性】内容须围绕「春天」展开,能体现春天的至少一个具体特征(如气温、植物、天气、动物等)。
- 【语义连贯性】句子通顺自然,无明显语病或逻辑断裂。
评测结果
综合得分
该模型在此用例的得分为:94.7 分(满分 100 分),已通过
基础难度评测结果
- 得分:94.7 分
- 通过状态:已通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
春风拂过大地,唤醒了沉睡的万物。柳枝抽出嫩绿的新芽,在微风中摇曳。小草从泥土里探出头,披上翠绿新装。燕子飞过屋檐,带来温暖与生机。
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】候选输出完全符合评测要求,成功规避了两个违禁字,字数精准控制在规定范围内,内容围绕春天主题展开且描述生动。语言表达自然流畅,逻辑清晰,是一篇高质量的约束写作范例。 【GEMINI】模型表现优异,在严格遵守负向约束和字数限制的同时,依然保持了高质量的文学表达和语义连贯性,完美完成了任务。 【KIMI】整体而言,该生成文本较好地满足了题目要求,在约束遵循、语义连贯性方面表现优异,内容丰富度也较为不错。虽然在内容细节上还有提升空间,但整体质量已经很高。
进阶难度评测结果
- 得分:94.1 分
- 通过状态:已通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
中华先民为世界文明进程贡献了四大智慧结晶。在书写载体方面,蔡伦改进造纸工艺,以树皮等原料制作轻便纸张,取代沉重竹简。为提升文化传播效率,雕版与活字印刷工艺相继问世,让书籍得以批量印制。在认知自然方面,古人洞悉磁石特性,研制出指南磁针,为远洋航海提供可靠的导向工具。此外,炼丹师在炼制丹药时偶然获得火药,这种混合物随后广泛应用于军事及民用工程。这四项杰出成就不仅推动了华夏的发展,更深刻改变了人类历史的演进轨迹。
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】该回答出色完成了多重约束任务:零违禁词违规、四项全覆盖、字数精准达标,且在严格约束下保持了良好的语义连贯性与内容准确性。文本采用同义替换(「智慧结晶」「工艺」「成就」)与句式改写策略,成功规避违禁词而不损表达质量。内容涵盖四大发明的核心要素与历史影响,具备知识性与可读性。若能在逻辑分类上更统一、在历史细节上稍加充实,表现将更为完美。整体属高质量完成任务的优秀样本。 【GEMINI】这是一份近乎完美的回答。模型在极高难度的词汇约束下(禁用了该话题下最核心的四个词汇),不仅做到了零违规,还维持了极高的写作水准。它巧妙地利用“工艺”、“研制”、“问世”、“智慧结晶”等词汇进行同义替换,字数控制极其精准,信息传达准确完整,体现了卓越的指令遵循能力和语言组织能力。 【KIMI】该回答整体表现优秀,严格遵守了违禁词和字数的约束条件,行文流畅,逻辑连贯。四大发明的描述基本准确,但部分信息略显简略。整体而言,是一个高质量的知识性文本创作。
困难难度评测结果
- 得分:56.9 分
- 通过状态:未通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
两人相遇在3月,一阵微风吹过,他送她1朵花,她低下头3秒钟,缘分在1秒定下。他们走过4季,春雨落在2人肩,夏夜看1次繁星,秋叶飘落3寸厚,冬雪覆盖1座城。10指紧紧相扣,2人共撑1把伞,走过9条长街,喝下1杯热茶,许下1生诺言。哪怕相隔1万里,2人跨越千山,1年又1年过去,容颜添了2道纹,步履慢了3分,依然相守1处。看1次日落,数2只飞鸟,柴米油盐3餐,4季流转不息。他为她梳1次发,她为他缝1颗扣,50年光阴如水,2人依旧相伴。这便是1世相守,无需多言1句,眼神交汇1瞬,胜过千言万语。1生只够陪1人,2人共度朝夕,3生石上刻字,4海皆为家,5更天看晨曦,6合之内唯君,7弦琴弹1曲,8方风雨同舟,9霄云外比翼,1段完美姻缘。百年修得同渡,千年修得共枕,2人紧握双手,走过1条长路,跨越万水千山,1眼便是万年,1生1世1双人。
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】候选输出在约束遵循方面表现优秀,成功规避了所有违禁词和颜色词,全文无问号,每句均含数字且字数控制在15字以内,字数达标。然而在语义连贯性和内容丰富度上存在改进空间:为满足数字约束而产生的生硬嵌入影响了行文的自然流畅,部分句子的数字使用偏功能性而非叙事性;内容虽覆盖爱情全程但缺乏情感细节的深度刻画,意象相对单薄。整体完成了任务要求,但在「戴着镣铐跳舞」的艺术性上仍有提升空间。 【GEMINI】这是一篇非常出色且合规的受限创作范例。模型在处理多重、冲突且高频的正负向约束时展现了极强的控制力,不仅在技术层面做到了零违规,在文学表达上也维持了较高的水准,成功地在不使用「爱」与「心」等词汇的情况下,深刻地刻画了「爱情」这一主题。 【KIMI】该候选输出在极端约束下完成了字数要求并部分实现了爱情主题,但存在三处致命无数字句违规(「2人跨越千山」「跨越万水千山」「胜过千言万语」),且后半段严重陷入1-9数字机械排列,语义连贯性与内容深度均受重创。前半段尚可,后半段沦为数字游戏,整体属于「为约束而约束」的勉强之作,未能在规则与艺术间取得平衡。
相关链接
您可以通过以下链接查看更多相关内容: