step-3.7-flash 在「慢查询诊断与索引优化建议」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：step-3.7-flash
用例名称：慢查询诊断与索引优化建议
测试类型：文本生成
评测维度：SQL 专家

系统提示词（System Prompt）

这是给 AI 模型的背景设定和角色指令：

你是一名资深数据库工程师，擅长 MySQL 性能优化。回答要求： 1. 清晰指出 SQL 语句存在的性能问题 2. 给出具体的索引创建语句 3. 用简洁的语言解释优化原因

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

有如下一张用户表和一条查询语句： ```sql -- 表结构（约 500 万行数据） CREATE TABLE users ( id INT PRIMARY KEY AUTO_INCREMENT, username VARCHAR(64), email VARCHAR(128), status TINYINT, created_at DATETIME ); -- 慢查询 SELECT id, username, email FROM users WHERE status = 1 ORDER BY created_at DESC LIMIT 20; ``` 请回答： 1. 该查询为什么会慢？ 2. 应该为哪些字段创建索引？请写出具体的 CREATE INDEX 语句。

任务要求

AI 模型需要满足以下要求：

正确识别出缺少索引导致全表扫描的问题
指出 ORDER BY 在无索引情况下需要额外排序（filesort）
给出合理的索引建议，至少包含 status 和 created_at 字段
写出语法正确的 CREATE INDEX 语句
简要说明索引如何改善该查询性能

评测结果

综合得分

该模型在此用例的得分为：94.4 分（满分 100 分），已通过

基础难度评测结果

得分：94.4 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

### 1. 该查询慢的原因核心是**缺少适配的索引导致全表扫描+额外排序开销**，具体拆解为三点： - 无索引过滤全表扫描：`WHERE status = 1` 的过滤字段无索引，MySQL需要遍历全部500万行数据筛选符合条件的记录，I/O和CPU开销极高； - 额外排序成本：筛选出的满足条件的记录需要执行`filesort`排序来满足`ORDER BY created_at DESC`的要求，若`status=1`的记录量较大，排序会成为主要瓶颈； - 潜在回表开销：若走不匹配的索引，还需要回表查询聚簇索引获取`username`、`email`字段，进一步增加查询耗时。 --- ### 2. 索引创建语句 ```sql CREATE INDEX idx_status_created_at_cover ON users (status, created_at DESC, username, email); ``` --- ### 3. 优化原因该索引设计遵循「等值条件优先、排序字段匹配、覆盖查询需求」的原则： 1. **避免全表扫描**：索引最左列`status`匹配`WHERE`等值查询条件，可快速定位到所有`status=1`的索引记录，无需遍历全表； 2. **避免额外排序**：索引第二列`created_at`与`ORDER BY`字段一致，且索引天然有序，满足条件的记录在索引中已按`created_at`降序排列，无需执行`filesort`排序； 3. **避免回表开销**：索引末尾包含查询需要的`username`、`email`字段，结合InnoDB二级索引默认携带主键`id`的特性，构成**覆盖索引**，查询可直接从索引中获取所有返回字段，无需回表查询聚簇索引，大幅降低I/O开销； 4. **LIMIT场景性能优势**：即使`status=1`的记录量较大，由于存在`LIMIT 20`，利用该索引可直接按顺序取前20条记录，无需扫描所有满足条件的行，性能远高于全表扫描+排序的方案。 > 注：`created_at`后加`DESC`是MySQL 8.0+的规范写法，低版本MySQL不写也能利用索引倒序扫描实现排序，仅存储顺序不同，不影响功能。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【GEMINI】候选模型的回答表现极其优秀。在问题分析上切中要害；在索引设计上，给出了比参考答案推荐方案更优的“联合覆盖索引”方案，并完美解释了该索引在过滤、排序、回表及 LIMIT 场景下的多重优势，展现了极高的数据库优化专业水平。【KIMI】该候选输出展现了扎实的MySQL优化功底，问题识别全面准确，表达专业清晰。主要扣分点在于索引方案设计过于激进：将覆盖索引作为首选推荐而非补充方案，对于500万行且包含较长VARCHAR字段的表，存储成本和写入开销的权衡不足。此外created_at DESC的写法存在版本兼容性问题未充分警示。整体而言是高质量的优化方案，但工程实践中的取舍意识稍逊于参考答案。

进阶难度评测结果

得分：80.2 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

### 1. EXPLAIN 输出关键字段解读本次查询的性能瓶颈核心体现在 `type`、`rows`、`Extra` 三个字段，具体分析如下： | 字段 | 取值 | 解读 | |------|------|------| | type | ref | 属于索引等值查找类型，说明查询使用了`idx_user_id`单列索引通过`user_id=10086`定位数据，避免了全表扫描，但仅依赖单列索引无法满足后续过滤和排序需求，过滤能力不足。 | | rows | 850000 | 优化器估算本次查询需要扫描约85万条索引记录，说明`user_id=10086`的订单数据量极大（占总数据量2000万的4.25%），当前索引仅能过滤`user_id`，无法进一步缩小数据范围。 | | Extra | Using where; Using filesort | 两个标记直接指向核心性能瓶颈：① `Using where`：`product_name LIKE '%手机%'`条件无法通过现有索引过滤，存储引擎返回85万条记录后，服务层仍需逐条判断是否匹配，是主要过滤开销来源；② `Using filesort`：排序无法利用索引有序性，需要额外执行排序操作（内存或磁盘临时表排序）。当前索引没有`created_at`字段，无法支撑`ORDER BY created_at DESC`的需求，需要对过滤后的结果集重新排序，结果集越大排序开销越高。 | --- ### 2. `LIKE '%手机%'` 是核心瓶颈的原因及改进思路 #### 核心瓶颈原因 MySQL 的 B+ 树索引遵循**最左前缀匹配**原则，索引的排序规则由索引字段从左到右的顺序决定。当 `LIKE` 模式以通配符 `%` 开头时（即 `%xxx`），表示匹配任意前缀的字符串，无法利用 B+ 树的已有排序规则定位数据起始位置，因此该条件无法被任何普通 B+ 树索引（单列/复合索引）用于快速过滤。当前查询被迫执行「全量 `user_id` 索引扫描 → 回表查询完整数据 → 逐条过滤 `product_name` → 排序 → 取前10条」的流程：如果符合 `LIKE` 条件的记录仅有10条，前面扫描的85万条记录完全是无效开销，这是查询耗时高达8秒的核心原因。 #### 改进思路根据业务场景可选择两类方案： 1. **业务可调整场景**：如果业务允许将模糊匹配改为前缀匹配（即 `LIKE '手机%'`），此时可以利用 B+ 树索引的最左前缀匹配规则，将 `product_name` 的过滤条件下推到索引层，大幅减少扫描和回表的记录数。 2. **必须中间/后缀匹配场景**：使用 MySQL `FULLTEXT` 全文索引替代 `LIKE '%xxx%'` 查询。全文索引基于倒排索引实现，专门用于文本内容的快速匹配，中文场景需配合 `ngram` 分词器使用，性能比 `LIKE` 模糊匹配高1~2个数量级。若业务场景固定，也可将 `product_name` 的模糊匹配转化为标签关联查询，通过关联预处理的标签表过滤，避免全量扫描。 --- ### 3. 复合索引方案设计 #### CREATE INDEX 语句 ```sql CREATE INDEX idx_user_created_product_cover ON orders (user_id, created_at DESC, product_name, id, order_no, amount); ``` #### 字段顺序选择依据遵循「**等值过滤字段 → 排序字段 → 覆盖字段**」的复合索引设计黄金原则，具体依据如下： 1. **第一字段放置 `user_id`**：该字段是等值查询条件（`user_id = 10086`），过滤性极强，能快速将数据范围缩小到单个用户的所有订单，是索引过滤的最高优先级，符合最左前缀匹配的最优实践。 2. **第二字段放置 `created_at DESC`**：该字段是 `ORDER BY` 的排序字段，放在 `user_id` 之后可以利用 B+ 树索引的有序性，完全避免 `Using filesort` 的额外排序开销；同时配合查询的 `LIMIT 10` 特性，引擎可以按 `created_at` 从新到旧扫描索引，找到10条符合 `product_name` 条件的记录后立即终止扫描，无需遍历该用户的全量85万条记录，最大程度降低扫描行数。 3. **第三字段放置 `product_name`**：虽然 `LIKE '%手机%'` 无法直接利用索引的有序性过滤，但将其加入索引后，查询所需的 `product_name`...

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】候选答案整体质量较好，对 EXPLAIN 输出的解读准确，性能瓶颈分析逻辑清晰，对 LIKE '%手机%' 问题的根因解释到位，改进思路也较为实用。主要扣分点在于复合索引设计：将 VARCHAR(128) 的 product_name 和冗余的主键 id 纳入覆盖索引，导致索引体积过大，这是一个较明显的设计缺陷；同时未提及 Elasticsearch 等外部搜索引擎方案，优化思路的广度略有欠缺。建议在索引设计时更注重字段长度对索引性能的影响，覆盖索引应权衡存储成本与查询收益。【GEMINI】候选模型的表现非常优秀。在性能瓶颈分析上，对 EXPLAIN 关键字段的解读极其精准且深入；在优化思路上，不仅指出了 B+ 树的索引失效原理，还给出了包括全文索引在内的多种行之有效的重写方案；在复合索引设计上，字段顺序完全符合最左前缀和消除排序的原则，并提出了覆盖索引的设计，虽然将大字段纳入索引在存储上略有权衡，但整体分析逻辑严密、专业术语使用准确，是一份质量极高的数据库调优答卷。【KIMI】候选输出在EXPLAIN解读和问题识别方面表现良好，能够准确理解性能瓶颈链条。但在最核心的复合索引设计环节出现严重失误，将无法利用索引的product_name字段加入复合索引，违背了B+Tree索引的基本原理，与参考答案的设计方向完全相反。优化思路方面覆盖了主要方案但缺乏生产环境最佳实践（如ES）。整体而言，该输出展示了一定的数据库优化知识，但在索引设计的核心原则上存在根本性错误，导致优化方案无法达到预期效果甚至可能适得其反。

困难难度评测结果

得分：81.7 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

--- ## 电商商品慢查询全面诊断与优化方案 ### 1. 执行计划深度解读先逐字段拆解当前EXPLAIN输出的含义，再估算I/O开销： #### 逐字段解释 | 字段 | 值 | 含义说明 | |------|----|----------| | id | 1 | 单表查询，无子查询/UNION，执行顺序唯一 | | select_type | SIMPLE | 简单查询，无嵌套逻辑 | | table | products | 访问的目标表 | | type | ref | 索引等值查找类型，效率高于range/ALL，说明通过索引完成了等值匹配 | | possible_keys | idx_shop | 优化器识别到的可用索引仅为shop_id单列索引 | | key | idx_shop | 实际选用的索引为idx_shop | | key_len | 4 | 索引记录使用的字节数，shop_id为INT类型占4字节，符合预期 | | ref | const | 索引匹配的是常量值888，即`shop_id=888`的等值匹配 | | rows | 1200000 | 优化器估算的索引扫描行数，即全表中`shop_id=888`的总商品数，未考虑后续status、title的过滤（因这两个字段不在idx_shop中，优化器无法基于索引统计信息估算过滤后行数） | | Extra | Using index condition; Using where; Using filesort | 三个提示的含义：1. `Using index condition`：开启索引下推（ICP），但idx_shop仅包含shop_id，status/title不在索引中，因此ICP无法在索引层过滤这两个条件，该提示无实际优化效果；2. `Using where`：Server层仍需额外过滤status和title，说明索引无法覆盖所有过滤条件；3. `Using filesort`：无法利用索引顺序完成排序，需在Server层执行外部排序，是核心瓶颈之一 | #### I/O开销估算（基于5000万行数据、16KB页大小、3层B+树高度、1000 IOPS磁盘） 1. **索引扫描开销**：idx_shop为二级索引，120万条索引记录约需扫描750个页（每页可存1600条索引记录），若热点数据被Buffer Pool缓存则为内存开销，磁盘顺序I/O可忽略。 2. **回表开销**：假设`shop_id=888`的商品中80%为status=1（96万条），其中1%的标题包含“无线耳机”（9600条），则需回表96万次；每次回表需访问聚簇索引的2个页（内节点+叶子节点），总随机I/O为192万次，若未命中缓存则需1920秒，实际15秒的差异主要来自热点数据缓存。 3. **排序开销**：若过滤后结果集小于`sort_buffer_size`（默认256KB），内存排序开销可忽略；若匹配率高于10%（9.6万条结果），则退化为外部排序，需创建临时表写磁盘，开销提升10倍以上。 4. **深分页开销**：`OFFSET 200`需跳过前200条结果，filesort必须生成完整有序结果集后才能取到目标数据，offset每增加1000，需多处理1000条无效数据，性能随页码指数级下降。 --- ### 2. 多维度瓶颈定位本次慢查询存在5个核心瓶颈，根本原因如下： #### 瓶颈1：索引设计单一，仅能利用单字段等值匹配当前仅对`shop_id`建单列索引，过滤条件中的`status`、`title`，以及排序字段`sales_count`、`created_at`均未纳入索引，仅能通过shop_id定位到120万条候选记录，其余过滤、排序逻辑均需在Server层完成，90%以上的无效数据被处理。 #### 瓶颈2：左模糊匹配导致索引无法用于标题过滤 `title LIKE '%无线耳机%'`为左模糊匹配，B+树索引按列值从左到右有序存储，左模糊条件无法确定索引的扫描起始位置，因此无法利用任何B+树索引过滤title，必须全量扫描候选记录后逐行判断。即使后续将title加入索引，左模糊仍无法利用索引范围扫描，仅能通过索引下推（ICP）在索引层过滤，无法减少索引扫描的行数。 #### 瓶颈3：多字段排序无法利用索引，触发filesort 排序字段为`sales_count DESC`、`created_at...

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】候选答案整体质量较高，结构清晰，覆盖了题目要求的所有五个分析维度，SQL均完整可执行，具备一定的工程实践深度。主要不足在于：1）对ICP（索引下推）机制的理解存在偏差；2）覆盖索引设计中将VARCHAR(256)的title字段纳入索引是工程上的重大失误，与自身副作用分析矛盾；3）执行计划改善预期中「Using where消失」的预测有误；4）对高并发场景的量化分析不足，缺少雪崩效应的具体推导。与参考答案相比，候选答案在深度和严谨性上略有差距，但已能覆盖核心优化思路，具备实际落地价值。【GEMINI】该模型表现出资深数据库架构师的专业水准。诊断过程严谨，不仅指出了表层问题，还深入探讨了 B+ 树索引在左模糊和深分页场景下的物理局限。提出的复合索引虽然较为宽大（包含 title 字段），但在副作用评估中明确指出了其对存储和写入的影响并给出了平衡建议。整体方案逻辑闭环，术语使用精确，是极佳的性能调优范本。【KIMI】候选人具备基本的SQL优化知识体系，能够识别核心瓶颈并提供多种重写方案，但在关键的技术深度和工程权衡上存在明显不足：索引设计过于理想化（强行覆盖大字段title），未充分考虑5000万行数据量下的实际存储与缓存效率；I/O估算和并发分析缺乏严谨性；对MySQL优化器机制（如ICP、降序索引）的理解存在偏差；方案间的自洽性不足（如设计覆盖索引后又建议移除覆盖字段）。与参考答案相比，在'索引选择性分析的严谨性'、'高并发雪崩效应'、'sales_count高频更新的特殊处理'、'架构层面的长期解耦方案'等维度差距显著。整体达到可落地的及格水平，但距离资深架构师要求的深度和周全性有较大距离。

基本信息

系统提示词（System Prompt）

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题