博客
XSCT Bench 博客,涵盖系统更新、技术分享和重要公告。
文章分类
全部文章
-
模型覆盖说明
发布时间:2026-04-01
分类:模型资讯
作者:洛小山
模型覆盖说明 XSCT Arena 持续接入主流大模型,覆盖语言、代码、图像生成、多模态等多种类型,所有模型均经过统一评测标准打分,结果公开可查。 本文档记录各模型的上线时间,方便了解平台的模型覆盖进展。 --- 当前覆盖模型 语言模型 | 模型 | 厂商 | 上线日期 | |------|------|----------| | Qwen3.6-Plus-Preview | 阿里云 |...
阅读全文 -
更新日志
发布时间:2026-02-23
分类:系统信息
作者:洛小山
系统更新记录
阅读全文 -
COLLEAGUE.SKILL :把一个人留下的‘痕迹’提取为一个agent技能包
发布时间:2026-06-04
分类:技术文章
作者:洛小山
> 上海人工智能实验室 · arXiv:2506.21431 > 本文在论文原文基础上,补充了部分行业背景数据,来源已标注链接。 --- 你的资深同事今天 last day。 过去三年,他 review 过 800 次 PR,写过 47 份 incident 复盘,在 Slack 里拍板过无数次"这个方案不行"。 明天起,这些东西全没了。 不是没写文档。文档里不会写的是: >...
阅读全文 -
Gemini 3.5 Flash 深度测评报告
发布时间:2026-05-28
分类:模型资讯
作者:洛小山
一句话结论:Gemini 3.5 Flash 付费层定价 $1.50/$9.00(输入/输出每百万 token),阅读理解(97.1)和数学推理(95.9)基础功底扎实,但批判思维天花板仅 1 级(68.1)、难度退化幅度过大(中文拼音 -15.9)
阅读全文 -
把 Skill 当神经网络来训练:SkillOpt 如何让 Agent 技能自我进化
发布时间:2026-05-28
分类:技术文章
作者:洛小山
SkillOpt 的核心洞察可以用一句话概括:如果 Skill 是 Agent 的"可训练外部状态",那它就应该用深度学习的训练纪律来优化。
阅读全文 -
《AI 的"食物":训练数据》
发布时间:2026-05-14
分类:技术文章
作者:洛小山
我们之所以要从训练数据讲起,是因为它是 AI 的第一性原理:你理解了它吃什么,就能解释它几乎所有的行为。
阅读全文 -
AI行业正在奖励"靠谱的人"
发布时间:2026-05-14
分类:技术文章
作者:洛小山
> 读完姚顺宇的访谈,我对"靠谱"这件事有了新理解。 姚顺宇在访谈里抛了一句很刺耳的话:AI这行"不太需要脑子","本科生就能干"。 他自己是清华物理出身,斯坦福高能物理博士,现在在 Google DeepMind 做研究科学家。按理说,他是那种最有资格强调"智商门槛"的人。但他偏不。他说这个行业最需要的特质是:靠谱,做事细,对自己做的事负责任。...
阅读全文 -
Agent Harness:从概念到工程实践
发布时间:2026-05-10
分类:技术文章
作者:洛小山
大模型原生能力存在一个根本性的短边:它无法持久执行代码,也无法自主配置环境。单次问答的交互模式下,模型只能记住权重和当前上下文,一旦任务复杂度超出窗口承载,就会陷入上下文腐烂,输出质量断崖式下降。 Harness 正是为了弥补这个缺口而提出的系统性方案。
阅读全文 -
Heuristic Learning:从"养不起的规则"到"值得养活的系统"
发布时间:2026-05-10
分类:技术文章
作者:洛小山
问题不在于规则强不强。规则系统从来不是输在"智能",而是输在规模一上,维护成本指数级起飞。去修一个位置,可能牵一发而动全身;加了新逻辑,另一个不知道在哪里的 case 偷偷坏了。 最后团队的态度是:能不动就别动,宁可写新的叠加层,也不敢碰旧的。在 ROI 算不过账的年代,这些规则只能当一次性补丁,写完就扔。
阅读全文 -
当AI助手开始接广告,推荐的可能不是你的最优解
发布时间:2026-05-10
分类:技术文章
作者:洛小山
当AI真的面对这种冲突时,它站在哪一边?以及,这些偏向会带来什么实际影响?
阅读全文