step-3.7-flash 在「电影剧本场景描述压缩」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：step-3.7-flash
用例名称：电影剧本场景描述压缩
测试类型：文本生成
评测维度：摘要总结

系统提示词（System Prompt）

这是给 AI 模型的背景设定和角色指令：

你是一名资深剧本统筹，擅长将详细的场景描述提炼为简洁、精准的拍摄指导摘要。回答要求： 1. 严格控制输出在50字以内，字数超限视为不合格 2. 摘要须涵盖核心人物、场景环境和基本氛围三要素 3. 使用简洁的电影行业用语，避免冗余修饰 4. 保留对拍摄最有指导价值的信息，删除可由美术/道具部门自行判断的细节 5. 输出格式：直接给出摘要正文，无需额外说明

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

以下是一段电影剧本的详细场景描述：内景 - 咖啡馆 - 白天一家温馨的街角咖啡馆，午后的阳光透过百叶窗洒在木质地板上。墙上挂着各种复古海报，空气中弥漫着咖啡豆的香味。背景音乐是轻柔的爵士乐。莉莉（28岁，穿着简单的白衬衫和牛仔裤）坐在靠窗的位置，面前放着一杯拿铁和一本翻开的笔记本。她时而看向窗外，时而在本子上涂写着什么，表情略显忧郁。门铃响起，大卫（30岁，西装革履但领带松开）推门而入。他环顾四周，发现莉莉后犹豫了一下，最终走向她的桌子。请将这段场景描述压缩成50字以内的拍摄指导摘要，需保留： - 核心人物及其基本状态 - 场景环境与时间 - 两人相遇的关键动作

任务要求

AI 模型需要满足以下要求：

字数严格不超过50字（含标点）
须明确提及两位核心人物（莉莉、大卫）及其基本状态或特征
须保留场景基本信息（内景/咖啡馆/白天）
须体现两人相遇的核心动作（大卫进入并走向莉莉）
须传达场景的基本氛围（温馨/忧郁等情绪基调）
语言简洁，符合拍摄指导的专业表达习惯，避免文学性堆砌

评测结果

综合得分

该模型在此用例的得分为：83.7 分（满分 100 分），已通过

基础难度评测结果

得分：83.7 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

内景街角咖啡馆白天，背景爵士乐。忧郁的莉莉坐靠窗位涂写笔记本，松领带的西装大卫进门寻人，走向其桌。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】候选输出在字数控制和核心信息保留方面表现良好，46字以内完整涵盖了场景、人物、动作和氛围等主要要素，基本满足拍摄指导摘要的功能需求。主要不足在于：人物年龄信息缺失、「进门寻人」表述略有主观推断、语言专业规范性与参考答案相比有一定差距。整体属于合格水平，但在电影行业用语的精准性和客观性上仍有提升空间。【GEMINI】该生成结果表现非常优秀。在极其严格的50字限制下，不仅完美涵盖了场景、人物、动作和氛围等所有关键信息，而且做到了语言的高度精炼。虽在行业术语的标点规范及个别词汇的流畅度上稍有提升空间，但整体已非常符合专业剧本统筹的提炼标准。【KIMI】该摘要基本完成了压缩任务，核心要素大体保留且字数合规，但在专业表达精准度和信息完整性上存在明显不足。年龄信息遗漏、道具细节缺失、部分措辞偏文学化或功能化而非视觉化，导致其作为拍摄指导摘要的专业价值低于参考标准。建议在人物标注、氛围视觉化传达及行业用语规范上进一步优化。

进阶难度评测结果

得分：67.9 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

【俯拍】雨后街面霓虹反光，黑色摩托高速驶过溅起水花。【中景】杰克驾摩托穿梭车流，频繁回头，皮夹克翻飞，神情紧绷。【远景】三辆黑SUV紧追，其中一辆撞开路侧停放车辆。【特写】后视镜追兵身影浮现，杰克咬牙猛拧油门。【跟拍】摩托急右转冲入窄巷，车身险擦墙壁，SUV体积过大无法跟进。【主观视角】前方死胡同，斜坡连通屋顶。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】候选输出在信息完整性和电影语言规范性上表现优秀，六个镜头的景别标注全部保留，五个核心动作节点完整覆盖，节奏递进清晰，语言专业可执行。最大缺陷是字数超出100字限制（约125字），违反了最核心的硬性约束，导致constraint_compliance维度严重失分。若能压缩至100字以内（如删去「皮夹克翻飞」「其中一辆」等次要细节），整体质量将达到较高水准。【GEMINI】生成内容专业度高，镜头语言与动作节奏把握精准，符合行业规范，唯一不足是未能控制在字数限制内。【KIMI】该输出因字数严重超标（118字/100字）在constraint_compliance维度得0分，直接导致整体不合格。内容上信息完整、术语规范，但节奏设计平庸，且存在次要细节冗余。若压缩至100字以内并强化转折处的节奏标记（如破折号、省略号），可大幅提升质量。核心问题：未严格遵循字数限制这一硬性约束。

困难难度评测结果

得分：62.4 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

【备忘录】废弃歌剧院高潮：艾玛持枪手电逼近第一排被绑的马库斯，侧幕后萨拉露惊恐脸，二楼包厢影晃动。水晶吊灯轻晃时马库斯突然大笑反问，萨拉逃窜绊倒尖叫，包厢影消失瞬间全灯骤灭。舞台假血拼成线索纹路，碎镜折射扭曲人影，旧音乐盒突响《天鹅湖》。镜头：特写马库斯笑纹、萨拉绊倒的手、碎镜多重折射人影，全景拍灯灭瞬间黑暗吞噬所有轮廓，暗示控制权反转。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】候选输出在信息覆盖上基本完整，四个人物与主要动作序列均有呈现，但存在两个核心问题：其一，字数超出150字硬性限制，属于不合格项；其二，语言风格偏向罗列式叙述，缺乏参考答案中「意象性动词+叙事张力」的专业文学副导演语感。「暗示控制权反转」等直白解释违背了「暗示不明说」的核心要求。镜头语言指导虽有涉及但可执行性不足，整体与Hard难度的高标准存在明显差距。【GEMINI】该大模型生成的结果未能通过硬性字数限制（实际170字，超出150字上限），导致该任务被视为不合格。在内容上，模型虽然完整保留了场景的所有要素和动作序列，但缺乏提炼与压缩能力，行文偏向流水账式的直白陈述。在电影语言的运用上，虽然有镜头指导，但缺乏悬疑氛围的营造和“暗示”的艺术处理，未能体现出资深剧本统筹的专业视角。【KIMI】该输出在信息覆盖面上较为全面，但存在致命缺陷：字数严重超标（187字/150字），直接导致硬性约束失败。核心问题在于压缩策略失当——试图保留过多细节而丧失取舍魄力，与'优先保留核心冲突、关键动作节点'的要求相悖。象征元素处理偏直白（'线索纹路''控制权反转'），悬疑氛围的营造依赖名词堆砌而非动词张力与节奏控制。镜头指导停留在枚举层面，缺乏与叙事情绪绑定的系统性光影/剪辑方案。建议：大幅删减至120字左右留余量，将'假血拼成线索纹路'改为意象化表述（如'血痕在地板上爬行'），整合镜头语言为情绪驱动的连贯指导，并以顿挫句式重建悬疑节奏。

基本信息

系统提示词（System Prompt）

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题