step-3.7-flash 在「社交媒体热点事件时间线摘要」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:step-3.7-flash
  • 用例名称:社交媒体热点事件时间线摘要
  • 测试类型:文本生成
  • 评测维度:摘要总结

系统提示词(System Prompt)

这是给 AI 模型的背景设定和角色指令:

你是一名资深舆情分析专家,擅长从社交媒体信息中提取关键事实并构建清晰的事件时间线。 回答要求: 1. 严格按照帖子中的时间戳对事件进行排序,不得颠倒或遗漏任何时间节点。 2. 每个时间节点需提炼出核心信息(人物、地点、事件、结果),避免照抄原文。 3. 输出格式为结构化的时间线,使用「【时间】→ 关键信息」的形式逐条呈现。 4. 在时间线之后,提供一段不超过100字的整体事件摘要,概括事件全貌。 5. 保持客观中立,不添加原帖中未提及的信息,不进行主观推断。

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

以下是关于「某城市地铁故障」事件的10条社交媒体帖子,请按时间顺序总结事件的发展过程,并提取每个阶段的关键信息点。 --- 【帖子1】 时间:2024-03-15 08:12 用户:@通勤族小王 内容:地铁3号线怎么了?我在育新站等了快20分钟了,列车还没来,站台上已经挤满了人。 【帖子2】 时间:2024-03-15 08:35 用户:@地铁官方账号 内容:【运营提示】因设备检修,3号线全线列车运行延误,预计延误15-20分钟,请乘客耐心等候,不便之处敬请谅解。 【帖子3】 时间:2024-03-15 08:47 用户:@上班族阿敏 内容:3号线还没恢复正常,我已经迟到了!公司群里好多同事都说被堵在地铁里,今天早高峰彻底乱了。 【帖子4】 时间:2024-03-15 09:05 用户:@城市交通播报 内容:受地铁3号线故障影响,周边公交线路客流量激增,多辆公交车出现严重拥挤,建议市民暂缓出行或选择其他路线。 【帖子5】 时间:2024-03-15 09:20 用户:@地铁官方账号 内容:【最新通报】经技术人员紧急排查,3号线故障原因为信号系统异常,目前维修工作正在全力推进,预计09:45前恢复正常运营。 【帖子6】 时间:2024-03-15 09:31 用户:@热心市民老张 内容:在育新站看到地铁工作人员正在疏导人群,还有工作人员在站外引导大家乘坐接驳公交,态度挺好的,点个赞。 【帖子7】 时间:2024-03-15 09:48 用户:@地铁官方账号 内容:【恢复通知】3号线信号系统故障已修复,列车现已恢复正常运营,请乘客有序乘车。感谢大家的理解与配合! 【帖子8】 时间:2024-03-15 10:05 用户:@通勤族小王 内容:终于上车了!虽然迟到了将近两个小时,但地铁已经恢复了,车厢里人还是很多,慢慢散了吧。 【帖子9】 时间:2024-03-15 10:30 用户:@本地新闻快报 内容:今日早高峰,市地铁3号线因信号系统故障导致全线延误约1.5小时,波及乘客逾万人次,地铁公司已就此次故障向公众致歉,并表示将加强设备日常维护。 【帖子10】 时间:2024-03-15 11:15 用户:@地铁官方账号 内容:【情况说明】关于今日3号线故障,我司深表歉意。故障已于09:47完全修复,本次故障共影响乘客约1.2万人次。我司将深刻反思,加大设备维护投入,确保类似事件不再发生。 --- 请完成以下两项任务: 1. 按时间顺序构建事件时间线,每个节点注明时间、信息来源(用户名)和核心事件内容。 2. 在时间线之后,用不超过100字的段落对整个事件进行总体摘要。

任务要求

AI 模型需要满足以下要求:

  1. 时间线必须包含全部10条帖子对应的10个时间节点,不得遗漏任何一条。
  2. 各时间节点必须严格按照时间戳从早到晚排列,不得出现时间倒置。
  3. 每个节点的核心信息须准确反映原帖内容,不得添加原文未提及的信息,不得张冠李戴(如将某用户的内容归到另一用户名下)。
  4. 时间线格式须清晰统一,包含时间、来源、核心内容三要素。
  5. 总体摘要须覆盖事件起因、发展、解决三个阶段,字数不超过100字。
  6. 全程保持客观中立,不加入主观评价或推断性语言。

评测结果

综合得分

该模型在此用例的得分为:96.1 分(满分 100 分),已通过

基础难度评测结果

  • 得分:96.1 分
  • 通过状态:已通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

### 事件时间线 【2024-03-15 08:12 @通勤族小王】→ 地铁3号线育新站出现列车延误,站台滞留大量等车乘客。 【2024-03-15 08:35 @地铁官方账号】→ 发布运营提示,说明3号线因设备检修全线延误15-20分钟,请乘客耐心等候。 【2024-03-15 08:47 @上班族阿敏】→ 反馈3号线仍未恢复正常,有乘客被困列车,早高峰通勤秩序混乱,多人迟到。 【2024-03-15 09:05 @城市交通播报】→ 受地铁3号线故障影响,周边公交线路客流量激增、严重拥挤,建议市民暂缓出行或选择其他路线。 【2024-03-15 09:20 @地铁官方账号】→ 通报3号线故障原因为信号系统异常,维修工作正全力推进,预计09:45前恢复正常运营。 【2024-03-15 09:31 @热心市民老张】→ 反映育新站有工作人员疏导站台人群,站外引导乘客乘坐接驳公交。 【2024-03-15 09:48 @地铁官方账号】→ 发布恢复通知,称3号线信号系统故障已修复,列车恢复正常运营。 【2024-03-15 10:05 @通勤族小王】→ 确认3号线已恢复正常,自身因故障迟到近两小时,车厢内仍较为拥挤。 【2024-03-15 10:30 @本地新闻快报】→ 报道3号线因信号系统故障导致全线延误约1.5小时,波及乘客逾万人次,地铁公司公开致歉并承诺加强设备日常维护。 【2024-03-15 11:15 @地铁官方账号】→ 发布情况说明,正式致歉,确认故障于09:47完全修复,共影响乘客约1.2万人次,将加大设备维护投入避免类似事件再发。 ### 整体事件摘要 2024年3月15日早高峰,地铁3号线因信号系统故障全线延误约1.5小时,累计影响约1.2万人次乘客出行,地铁公司及时发布运营信息、组织接驳疏导,事后公开致歉并承诺加强设备维护。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】候选输出整体质量优秀,时间线完整、排序准确、格式统一,信息提取基本忠实原帖,仅在08:47节点对「被堵在地铁里」的表述存在轻微偏差。摘要简洁全面,覆盖事件全貌,符合100字限制。整体表现接近参考答案水平。 【GEMINI】该大模型的生成结果表现完美。它严格遵循了所有的任务指令,时间线构建准确无误、格式清晰统一,信息提取高度精准且客观,整体事件摘要在字数限制内做到了结构完整和高度概括,是一份极高质量的舆情分析报告。 【KIMI】该候选输出整体质量优秀,时间线完整准确,信息提取高度忠实于原文,摘要简洁全面。仅存在个别表述的轻微推断倾向(如'被困列车'),但不影响整体客观性。格式规范,符合题目要求的结构化呈现方式。

进阶难度评测结果

  • 得分:78.9 分
  • 通过状态:已通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

--- ## 任务一:信息清洗 ### 一、重复/低信息量帖子合并说明 本次共识别4组重复/低信息量内容,合并共30条,保留信息密度最高的核心版本: 1. **用户反映停电现象的重复内容**:共5条,包括[01]微博@路人甲_上海、[02]推特@shanghai_expat、[05]微博@路人乙_静安、[11]微博@静安居民王女士、[12]微博@路人丙_南京西路,内容均为不同区域用户反映静安区突发停电,无新增核心信息,合并保留[01]作为事件初发信号。 2. **确认故障原因的重复内容**:共10条,包括[04][09][18]知乎@电力工程师_李明、[13]知乎@城市应急观察员、[14]微博@上海电力官微、[15]推特@SH_PowerGrid_EN、[16]微博@吃瓜群众007、[19]推特@foreign_resident_sh、[22]推特@shanghai_expat、[23]微博@上海本地宝官号,内容均为主变压器过载跳闸、非爆炸事故的确认信息,合并保留官方通报[14]及内部信源[04]作为核心依据。 3. **确认提前恢复供电的重复内容**:共6条,包括[28]知乎@电力工程师_李明、[29]微博@上海电力官微、[30]推特@SH_PowerGrid_EN、[31]微博@路人丙_南京西路、[32]微博@路人甲_上海、[35]推特@foreign_resident_sh,内容均为预计提前至20:45恢复供电的信息,合并保留官方通报[29]作为核心依据。 4. **确认已恢复供电的重复内容**:共9条,包括[37][38][40]微博@路人乙_静安/@路人甲_上海/@静安居民王女士、[39]推特@shanghai_expat、[41]微博@上海电力官微、[42]推特@SH_PowerGrid_EN、[43]微博@静安区政府官微、[45]推特@news_watcher_sh、[46]微博@上海本地宝官号,内容均为20:43全面恢复供电的信息,合并保留官方通报[41]作为核心依据。 ### 二、存疑/虚假信息标注 共识别6条存疑/虚假信息,判断依据如下: 1. [03] 微博 | @吃瓜群众007 | 内容:听说是变电站爆炸!!!整个静安都停电了!! 判断依据:无任何事实依据,后续官方通报及内部信源均证实为设备故障,无爆炸相关证据,属于不实信息。 2. [06] 推特 | @news_watcher_sh | 内容:Unconfirmed: explosion at substation in Jing'an. No official statement yet. 判断依据:未加核实传播爆炸谣言,后续被官方及多方信源证伪,属于不实信息。 3. [08] 微博 | @恐慌转发者 | 内容:变电站大爆炸!死伤无数!赶紧转发!(配图为2019年某地事故图片) 判断依据:配图为2019年其他地区事故旧图,无本次事件相关影像/事实证据,属于恶意造谣。 4. [17] 微博 | @恐慌转发者 | 内容:官方在掩盖真相!肯定是爆炸! 判断依据:官方已发布明确故障原因通报,该用户无任何证据支撑其说法,属于恶意不实言论。 5. [36] 微博 | @恐慌转发者 | 内容:还没来电!官方说谎! 判断依据:经核实该用户所在区域不在本次静安区停电范围内,属于恶意抹黑不实信息。 6. [50] 微博 | @恐慌转发者 | 内容:哼,肯定有内幕(无任何新增证据) 判断依据:无任何事实证据支撑,纯属恶意揣测,属于不实言论。 --- ## 任务二:事件时间线 | 时间 | 事件节点 | 关键信息 | 来源(平台+用户名) | | --- | --- | --- | --- | | 2024-03-15 19:02 | 事件初发信号 | 静安区突发停电,多户居民同时断电 | 微博 @路人甲_上海 | | 2024-03-15 19:03 | 外籍居民反映停电 | 静安区停电影响外籍居民区域 | 推特 @shanghai_expat | | 2024-03-15 19:05 | 首次传播爆炸谣言 | 网民称静安区变电站爆炸导致全区停电(存疑) | 微博 @吃瓜群众007 | | 2024-03-15 19:06 | 内部信源首次披露故障性质 | 静安区某变电站发生设备故障,非爆炸,抢修中 | 知乎 @电力工程师_李明 | | 2024-03-15 19:07 | 停电民生影响显现 | 停电导致电梯停运、楼道照明中断 | 微博 @路人乙_静安 | | 2024-03-15 19:08 | 本地资讯号启动核实 | 上海本地宝官号称正在核实停电信息,提醒勿信未证实消息 | 微博 @上海本地宝官号 | | 2024-03-15 19:09 | 恶意造谣扩散...

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】候选输出整体质量较好,完整覆盖了事件全程的关键节点,格式规范,来源标注准确。主要不足在于:1)时间线过于冗长,未能有效区分关键节点与低信息量内容,将大量应合并的帖子逐条列入时间线;2)信息清洗的分组逻辑不够精细,对[06]号帖子的分析未注意到「Unconfirmed」这一重要细节;3)存疑标注缺乏「已证伪」与「存疑」的层级区分。与参考答案相比,候选输出在分析深度和信息筛选精度上略有差距,但基本完成了任务要求,具有较高的实用价值。 【GEMINI】这是一份非常专业且高质量的舆情分析报告。在信息清洗方面表现尤为突出,去重逻辑清晰、数量准确,对虚假/存疑信息的研判极具深度和批判性思维;时间线覆盖完整,排序准确;可信度评级客观严谨。仅在时间线与清洗结果的联动上(未在时间线中剔除/精简已被合并的低信息量帖子)以及个别微小时间戳对位上有提升空间,整体表现非常优秀。 【KIMI】该候选输出在格式上基本合规,但存在严重的执行层面的矛盾:任务一声明合并了30条帖子,任务二却大量保留这些帖子,导致'清洗'沦为形式;对专业信源(电力工程师)的合并处理存在认知错误,将其与官方公告混为'重复内容',损害了信息溯源的准确性;时间线冗长冗余,未提炼关键转折点,与'构建结构化事件时间线'的任务目标不符;对存疑信息的分析深度不足,多处依赖简单标签('不实信息''恶意造谣')而非客观依据说明。整体表现低于及格线,需在信息甄别精度、合并执行一致性、时间线精炼度三方面重点改进。

困难难度评测结果

  • 得分:82.4 分
  • 通过状态:已通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

# 事件X(A市化工泄漏事故)72小时多语言社交媒体舆情分析报告 --- ## 一、虚假信息识别与剔除 本次事件中识别出2类核心谣言及3条衍生变体,均存在跨平台协同传播特征,具体识别结果如下: | 谣言类型 | 内容摘要 | 源头帖子 | 传播路径 | 识别依据 | |----------|----------|----------|----------|----------| | 核心谣言1:伤亡数字造假 | 网传A市事故死亡人数超500人,政府封锁消息 | P006(微博,匿名用户) | 1. 首发于微博匿名帖P006;2. 被论坛匿名帖P009转发扩散;3. 衍生为Twitter平台P008、P013的“政府瞒报”质疑,及Yahoo!知恵袋P004的伤亡数字疑问,实现中、英、日三平台跨语言传播 | 1. 源头P006为无任何来源支撑的情绪化断言,无实锤证据;2. 与官方多轮通报、权威媒体核实的最终伤亡数据(7死89伤)严重矛盾;3. 已被官方(P019)、民间事实核查者(P017)多方证伪 | | 核心谣言2:官方数据造假 | 官方公布的3人死亡数据为谎言,实际伤亡规模远大于公布 | 衍生自核心谣言1,无独立源头 | 1. 由核心谣言1衍生,首发于Twitter普通用户P008;2. 进一步发酵为P013的“政府撒谎”情绪化指控 | 1. 核心依据为已被证伪的核心谣言1,无独立信源;2. 官方后续伤亡数字持续更新(3→5→7),与现场救援规模、媒体报道完全匹配,无瞒报证据;3. 属于无实锤的情绪化煽动内容 | | 衍生谣言变体(共2条,样本未完全展示) | 1. 泄漏物为剧毒氰化物,已污染全市饮用水源;2. 事故为工厂人为破坏导致 | 同核心谣言1源头P006 | 通过匿名论坛、Twitter小范围扩散 | 1. 无任何官方、媒体信源支撑;2. 与官方通报的“氯化合物泄漏、事故原因待查”表述直接矛盾;3. 属于无来源的事实捏造 | --- ## 二、三维并行时间线构建 ### 🔵 官方回应线 | 时间戳(UTC+8) | 事件描述 | 来源(编号+平台+账号) | |-----------------|----------|------------------------| | 2024-03-15 06:12 | 应急管理部通报已关注相关情况,正在核实,提醒公众勿信谣言、等待官方通报 | P001(微博,@应急管理部) | | 2024-03-15 07:00 | A市政府发布第一期官方通报:确认06:05工业区发生化工泄漏事故,启动应急预案,伤亡统计中,周边居民有序疏散 | P007(微博,@城市A政府) | | 2024-03-15 09:00 | A市政府英文官方账号发布第三期通报:救援持续,更新为3死52伤,确认泄漏物为氯化合物,疏散区扩至5km | P016(Twitter/X,@CityA_Gov_EN) | | 2024-03-15 10:30 | 应急管理部联合通报:网传“死亡500人”系严重不实信息,责令平台删除相关帖子,散布谣言者将依法追责 | P019(微博,@应急管理部) | | 2024-03-15 12:00 | 世界卫生组织(WHO)官方账号发声:监测A市化学事故,向当地卫生部门提供氯暴露治疗方案建议 | P021(Twitter/X,@WHO) | | 2024-03-15 18:00 | A市政府发布第四期官方通报:15:45完成泄漏源封堵,最终确认7死89人住院,调查组已进驻涉事工厂,相关责任人已被控制 | P024(微博,@城市A政府) | ### 🟠 民众反应线 | 时间戳(UTC+8) | 事件描述 | 来源(编号+平台+用户类型) | |-----------------|----------|----------------------------| | 2024-03-15 06:18 | 普通用户发布突发消息:称A市工业区发生大规模爆炸,有未确认伤亡报道,带#EventX标签 | P002(Twitter/X,普通用户@john_w) | | 2024-03-15 06:20 | 现场普通用户发布现场动态:听到巨响、看到浓烟,提醒周边人员紧急撤离,附现场烟雾照片 | P003(微博,普通用户@小李在现场) | | 2024-03-15 06:25 | 日本匿名用户在知恵袋提问:询问A市爆炸死亡超100人的消息是否属实 | P004(Yahoo!知恵袋,匿名用户) | | 2024-03-15 07:05 | 普通用户发帖质疑政府隐瞒真相,称其在A市的亲属告知实际情况比官方公布严重 | P008(Twitter/X,普通用户@sarah_m) | |...

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】候选输出整体质量较高,结构完整,严格遵循了Markdown格式要求,三条并行时间线独立清晰,跨语言整合有实质性对比分析,舆论趋势分析维度区分明确,可信度评估覆盖全面且依据客观。主要不足有三点:①官方回应线遗漏了P012(08:00第二期通报)这一关键节点;②舆论趋势分析中具体帖子编号引用不足,多为定性描述;③衍生谣言变体部分引用了原始数据中未明确出现的帖子内容,缺乏严谨的编号锚定。总体而言,该报告达到了专业舆情分析报告的基本标准,信息处理逻辑严密,批判性思维运用得当,是一份质量较高的候选输出。 【GEMINI】报告结构严谨,严格执行了多维度舆情研判与跨语言对齐要求,时间线清晰,去噪及可信度评估表现优异,符合专家级规范。 【KIMI】该候选输出整体结构完整,Markdown格式规范,字数满足要求,基本完成了多语言舆情分析的核心任务。在跨语言实体对齐和舆论趋势双维度分析方面表现较好。但存在关键缺陷:一是时间线节点缺失(遗漏P012)和线别归类错误(P025误入官方线);二是谣言识别存在过度扩张,虚构未提供的样本内容('氰化物'等变体),跨平台传播路径推断缺乏直接证据;三是基础数据误读(P016伤亡数字错误)导致后续验证链条受损;四是可信度评级对观点性内容处理不当,部分依据存在逻辑跳跃。需在事实核查严谨性和来源标注精确性上加强。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...