Frank Ye Portfolio

本文聚焦三项内容：发布时间线、任务边界、可核验 benchmark 数据。

1. 发布时间线与版本确认

按官方与可追溯来源整理到 2026-02-11：

时间线上，GPT-5.3-Codex 与 Claude Opus 4.6 同处 2026-02-05 这一发布窗口；截至 2026-02-11，Anthropic 官方公开的 Sonnet 代际仍为 4.5。

模型	核心任务	输入/交互范式	主评测生态
Seedance 2.0	视频生成与编辑	文本 + 图像 + 视频 + 音频（多模态参考）	T2V/I2V 主观评测、内容一致性/运动质量
Claude Sonnet 4.5	编码与代理执行	长上下文 + 工具调用 + 电脑操作	SWE-bench Verified、OSWorld
GPT-5.3-Codex	端到端 agentic coding	终端/文件/浏览器任务链 + 高推理预算	SWE-Bench Pro、Terminal-Bench、OSWorld

三者对应不同任务空间，不适合直接在单一分数轴上横向排序。

Benchmark	GPT-5.3-Codex (xhigh)	GPT-5.2-Codex (xhigh)	GPT-5.2 (xhigh)
SWE-Bench Pro (Public)	56.8%	56.4%	55.6%
Terminal-Bench 2.0	77.3%	64.0%	62.2%
OSWorld-Verified	64.7%	38.2%	37.9%
GDPval (wins or ties)	70.9%	-	70.9% (high)
Cybersecurity CTF	77.6%	67.4%	67.7%
SWE-Lancer IC Diamond	81.4%	76.0%	74.6%

官方还给了一个关键运行指标：相较 GPT-5.2-Codex，推理与系统栈综合后约 25% 更快。

当前官方可核验的 Sonnet 版本是 4.5，核心数据：

Benchmark	Claude Sonnet 4.5
SWE-bench Verified	77.2%
SWE-bench Verified（1M context 配置）	78.2%
SWE-bench Verified（高算力配置）	82.0%
OSWorld	61.4%

注：Anthropic 方法学说明里，77.2%是 500 题、10 次试验平均、200K thinking budget 的设定。

当前可确认的信息分两层：

GPT-5.3-Codex 的变化重点不只是代码生成质量，还包括对终端、文件、网页任务链的连续执行能力。
Terminal-Bench 和 OSWorld 的提升，显示其在真实工具环境任务中的能力增强。

Sonnet 4.5 在 SWE-bench Verified 的结果体现了其在代码正确性与工程约束遵循方面的稳定表现。
OSWorld 61.4% 反映其在操作型代理任务上的能力覆盖。

Seedance 2.0 的重点在于多模态参考条件下的可控生成能力：

这类能力对应的应用场景包括短视频素材生产、广告内容生成与分镜预演。

三条产品线反映的共同趋势是：模型能力评估正在从静态问答转向真实环境任务完成度；其落地方向分别在代码代理与视频创作。