GLM-5.1 在「迷宫寻宝探险家」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：GLM-5.1
用例名称：迷宫寻宝探险家
测试类型：网页生成
评测维度：游戏开发

系统提示词（System Prompt）

这是给 AI 模型的背景设定和角色指令：

你是一名资深前端开发工程师，擅长使用原生 HTML、CSS 和 JavaScript 构建交互式 Web 小游戏。回答要求： 1. 所有代码必须整合在单个 HTML 文件中，无需任何外部依赖，可直接在浏览器中运行。 2. 优先保证核心逻辑的正确性：迷宫结构合法（存在从起点到终点的通路）、碰撞检测准确、胜负判定可靠。 3. 代码结构清晰，HTML/CSS/JS 各司其职，关键逻辑需有简短注释。 4. 界面简洁直观，玩家无需说明即可理解操作方式，游戏状态（步数、胜利提示）需实时可见。 5. 直接输出完整可运行的 HTML 代码，不附加任何解释性文字。

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

请创建一个简单的迷宫寻宝游戏，所有代码（HTML、CSS、JavaScript）写在一个 HTML 文件中，可直接在浏览器运行。 ## 迷宫地图 - 生成一个 10×10 的网格迷宫 - 迷宫必须保证从起点到宝藏存在至少一条可通行路径（可使用预设地图或深度优先搜索算法生成） - 地图元素包括：墙壁、通道、玩家起始位置、宝藏位置 ## 游戏操作 - 玩家通过键盘方向键（↑ ↓ ← →）或 WASD 键控制角色移动 - 角色不能穿越墙壁，碰墙时位置保持不变 - 角色移动到宝藏所在格子时，触发胜利 ## 界面显示 - 使用不同颜色的方块区分：墙壁（深色）、通道（浅色）、玩家（醒目色）、宝藏（金色/黄色） - 页面顶部或底部实时显示当前移动步数 - 胜利时显示明显的胜利提示（如弹窗或页面内提示），并展示最终步数 - 提供「重新开始」按钮，点击后重置地图、玩家位置和步数 ## 技术要求 - 迷宫数据使用二维数组存储，0 表示通道，1 表示墙壁 - 玩家位置用行列坐标记录，每次移动前校验目标格子是否为通道 - 禁止使用任何外部库或 CDN 资源

任务要求

AI 模型需要满足以下要求：

迷宫地图为 10×10 网格，使用二维数组表示，且从玩家起点到宝藏位置存在合法通路（不能是全通道或无解地图）
方向键（或 WASD）控制玩家移动，碰撞检测正确：玩家无法穿越墙壁，位置边界合法
玩家、墙壁、通道、宝藏在视觉上有明显区分，界面无需说明即可理解
步数计数器实时更新，每次合法移动（未碰墙）步数加一
玩家到达宝藏格子时触发胜利判定，显示胜利提示及最终步数
「重新开始」按钮功能正常，可完整重置游戏状态（地图、玩家位置、步数）

评测结果

综合得分

该模型在此用例的得分为：91.0 分（满分 100 分），已通过

基础难度评测结果

得分：91.0 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

```html 迷宫寻宝 :root { --bg-color: #f4f6f7; --container-bg: #ffffff; --wall-color: #2c3e50; --path-color: #ecf0f1; --player-color: #e74c3c; --treasure-color: #f1c40f; --text-color: #333333; --accent-color: #3498db; } body { margin: 0; padding: 0; background-color: var(--bg-color); font-family: 'Segoe UI', Tahoma, Geneva, Verdana, sans-serif; display: flex; justify-content: center; align-items: center; min-height: 100vh; color: var(--text-color); } #game-container { background-color: var(--container-bg); padding: 30px; border-radius: 12px; box-shadow: 0 8px 20px rgba(0, 0, 0, 0.15); text-align: center; } h1 { margin: 0 0 20px 0; font-size: 28px; color: var(--wall-color); } #info { font-size: 18px; margin-bottom: 20px; font-weight: 600; } #steps { color: var(--accent-color); font-size: 22px; } #maze { display: grid; grid-template-columns: repeat(10, 40px); grid-template-rows: repeat(10, 40px); gap: 2px; background-color: #bdc3c7; padding: 2px; border-radius: 6px; margin: 0 auto; box-shadow: inset 0 0 10px rgba(0,0,0,0.1); } .cell { width: 40px; height: 40px; background-color: var(--path-color); position: relative; border-radius: 2px; } .wall { background-color: var(--wall-color); } .player { background-color: var(--path-color); } .player::after { content: ''; position: absolute; top: 15%; left: 15%; width: 70%; height: 70%; background-color: var(--player-color); border-radius: 50%; box-shadow: 0 0 8px rgba(231, 76, 60, 0.6); } .treasure { background-color: var(--path-color); } .treasure::after { content: ''; position: absolute; top: 20%; left: 20%; width: 60%; height: 60%; background-color: var(--treasure-color); transform: rotate(45deg); box-shadow: 0 0 10px rgba(241, 196, 15, 0.8); border-radius: 3px; } #message { margin-top: 20px; font-size: 20px; font-weight: bold; color: #27ae60; min-height: 30px; line-height: 30px; } #restart-btn { margin-top: 20px; padding: 10px 24px; font-size: 16px; font-weight: 600; background-color: var(--accent-color); color: white;...

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】这是一个高质量的迷宫寻宝游戏实现。代码结构清晰，HTML/CSS/JS职责分明，关键逻辑配有注释。迷宫生成算法采用DFS确保可解性，碰撞检测和胜利判定逻辑准确可靠。所有功能要求均已完整实现且运行稳定。界面设计现代美观，视觉元素区分度高，交互体验流畅。唯一可优化之处是玩家到达宝藏位置时的视觉反馈（当前玩家图标会覆盖宝藏），以及可增加简短的游戏目标说明。整体而言，这是一个完全符合需求且质量优秀的单文件网页游戏。【GEMINI】这是一份高质量的实现方案。代码结构清晰，注释到位，算法选择合理且针对题目要求做了适配。游戏运行稳定，视觉反馈明确，完全符合资深前端开发工程师的角色设定。【KIMI】该实现是一个功能完整、代码结构清晰的基础迷宫游戏，满足了用户的核心需求。采用DFS算法生成迷宫保证了通路存在性，但迷宫结构的规则性（5×5节点映射）限制了随机性和复杂度。代码组织良好，HTML/CSS/JS分离明确，注释简洁。主要改进空间在于：实现更标准的完整网格迷宫生成算法（如递归回溯直接在10×10单元格上操作）、添加陷阱和道具系统以匹配任务描述的完整要求、修复玩家与宝藏同格时的显示优先级问题。

进阶难度评测结果

得分：95.0 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

```html 迷宫寻宝探险家 *{margin:0;padding:0;box-sizing:border-box;-webkit-tap-highlight-color:transparent} :root{--bg:#0a0a0f;--fg:#e8dcc8;--muted:#7a6e60;--accent:#ff6b35;--card:#13100d;--border:#3d2b1f;--wall:#5c3d2e} body{background:var(--bg);color:var(--fg);font-family:'Courier New',monospace;display:flex;justify-content:center;min-height:100vh;padding:10px;overflow-x:hidden; background-image:radial-gradient(ellipse at 20% 30%,rgba(255,107,53,.04) 0%,transparent 50%),radial-gradient(ellipse at 80% 70%,rgba(255,215,0,.03) 0%,transparent 50%)} #game-container{max-width:920px;width:100%;display:flex;flex-direction:column;align-items:center;gap:10px} header{text-align:center;width:100%} h1{font-size:1.5rem;font-weight:900;color:var(--accent);letter-spacing:3px;margin-bottom:6px;text-shadow:0 0 24px rgba(255,107,53,.35)} #stats{display:flex;justify-content:center;gap:10px;flex-wrap:wrap;font-size:.82rem;color:var(--muted)} #stats span{background:var(--card);padding:4px 12px;border-radius:4px;border:1px solid var(--border)} #game-area{display:flex;gap:14px;align-items:flex-start;flex-wrap:wrap;justify-content:center} #canvas-wrap{position:relative;border:2px solid var(--border);border-radius:8px;overflow:hidden;box-shadow:0 0 40px rgba(0,0,0,.8),0 0 80px rgba(255,107,53,.06)} #mainCanvas{display:block} #sidebar{display:flex;flex-direction:column;gap:10px;min-width:150px} .panel{background:var(--card);border:1px solid var(--border);border-radius:8px;padding:10px} .panel h3{font-size:.7rem;color:var(--muted);text-transform:uppercase;letter-spacing:1.5px;margin-bottom:6px;border-bottom:1px solid var(--border);padding-bottom:4px} #minimapCanvas{display:block;border-radius:3px;border:1px solid var(--border)} .inv{display:flex;flex-wrap:wrap;gap:4px} .inv-item{display:inline-flex;align-items:center;gap:3px;padding:2px 8px;border-radius:4px;font-size:.78rem;font-weight:700} .c-red{background:rgba(255,68,68,.15);color:#ff4444;border:1px solid rgba(255,68,68,.35)}...

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】这是一个完成度极高的迷宫探索游戏实现。代码严格遵循单文件 HTML 要求，不依赖任何外部资源。迷宫生成算法正确且保证有解，战争迷雾系统逻辑严谨，钥匙宝箱关联机制完整，陷阱与道具功能均准确实现。所有指定功能模块（小地图/计时/最佳成绩持久化/HUD/音效/触屏操作）均已完整实现。视觉风格统一且富有沉浸感，操作流畅，信息反馈及时清晰。代码结构清晰，关键逻辑有注释，核心玩法健壮且可玩性强。唯一可优化之处是陷阱触发的视觉反馈和小地图的终点标识，但不影响整体质量。该实现完全满足需求文档的所有要求，且在细节打磨（地面噪点/脉冲动画/光晕效果/响应式布局）上超出预期。

困难难度评测结果

得分：91.5 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

这是一个非常庞大的迷宫冒险游戏系统，包含多层迷宫、敌人AI、背包道具、技能系统、战争迷雾、存档、成就、排行榜和迷宫编辑器。下面是完整的单文件实现： ```html 迷宫冒险 *{margin:0;padding:0;box-sizing:border-box} :root{--bg:#0a0e14;--panel:#131920;--border:#1e2a36;--text:#c5d1de;--muted:#5a6a7a;--accent:#e8a027;--accent2:#00e88a;--danger:#e84040;--success:#40e870;--info:#40a0e8;--card:#172030} html,body{width:100%;height:100%;overflow:hidden;background:var(--bg);color:var(--text);font-family:'Segoe UI',system-ui,sans-serif} .screen{display:none;width:100%;height:100%;position:absolute;top:0;left:0} .screen.active{display:flex} /* 主菜单 */ #menu-screen{flex-direction:column;align-items:center;justify-content:center;background:radial-gradient(ellipse at 50% 30%,#1a2535 0%,var(--bg) 70%)} #menu-screen h1{font-size:3rem;font-weight:900;letter-spacing:4px;color:var(--accent);text-shadow:0 0 30px rgba(232,160,39,.3);margin-bottom:8px} #menu-screen .sub{color:var(--muted);font-size:.9rem;margin-bottom:40px;letter-spacing:2px} .menu-btn{display:block;width:240px;padding:14px 0;margin:8px auto;background:var(--card);border:1px solid var(--border);border-radius:8px;color:var(--text);font-size:1rem;cursor:pointer;transition:all .2s;text-align:center} .menu-btn:hover{background:var(--accent);color:#000;border-color:var(--accent);transform:translateY(-2px);box-shadow:0 4px 20px rgba(232,160,39,.3)} /* 游戏界面 */ #game-screen{flex-direction:column;background:var(--bg)} #game-layout{display:flex;flex:1;overflow:hidden;min-height:0} #game-canvas-wrap{flex:1;position:relative;overflow:hidden;display:flex;align-items:center;justify-content:center} #game-canvas{display:block;image-rendering:pixelated} #side-panel{width:220px;background:var(--panel);border-left:1px solid var(--border);padding:10px;overflow-y:auto;display:flex;flex-direction:column;gap:8px;font-size:.8rem} .panel-section{background:var(--card);border:1px solid var(--border);border-radius:6px;padding:8px}...

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】这是一个完成度极高的 Hard 级别迷宫冒险游戏实现。代码架构清晰，算法实现正确（DFS 迷宫生成+BFS 寻路），功能完备（多层迷宫/敌人 AI/道具技能/战争迷雾/存档成就/编辑器等 10+ 个系统全部实现且可用），用户体验优秀（双操作模式/音效反馈/粒子效果/响应式布局）。代码注释简洁但关键算法有说明，localStorage 操作有 try-catch 保护，无外部依赖，符合单文件自包含要求。唯一可改进之处：传送技能的路径验证可更严格，触屏布局在极小屏幕上可优化，但这些不影响核心玩法和整体质量。总体而言，这是一个功能完整、逻辑严谨、体验流畅的高质量 Web 游戏实现，完全满足 Hard 级别要求并有超出预期的细节打磨（粒子系统/屏幕震动/皮肤系统等）。【GEMINI】这是一份极高质量的 AI 生成结果。模型不仅完美理解了所有复杂的业务需求，而且在单文件内构建了一个架构清晰、功能闭环的游戏系统。算法实现（DFS/BFS）标准且高效，功能模块（编辑器、存档、成就皮系统）完整度极高，音效与视觉反馈的结合展示了其作为资深 Web 游戏开发专家的专业性。代码注释清晰，鲁棒性强，可直接作为生产级别的 Demo 运行。【KIMI】该实现是一个功能丰富、结构完整的迷宫冒险游戏，成功将大量系统整合在单个HTML文件中。核心算法（DFS迷宫生成、BFS寻路）实现正确，游戏系统（多层迷宫、敌人AI、道具技能、战争迷雾、存档成就排行榜、编辑器）基本可用。主要扣分点在于：dist函数的低级错误、传送穿墙漏洞、部分UI提示逻辑混乱、编辑器交互体验欠佳。代码结构清晰，注释恰当，自包含性良好，无外部依赖。作为Hard级别任务，整体完成度较高，但在算法严谨性和边缘情况处理上仍有提升空间。

基本信息

系统提示词（System Prompt）

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题