下一代AI Benchmark,不应该再是“题目”


过去几年,整个AI行业几乎陷入了一种奇怪的路径依赖:我们不断制造新的benchmark,再不断让模型去突破这些benchmark。从最早的语言理解,到后来的数学推理、代码生成、科学问答,再到如今越来越复杂的agent benchmark,本质上大家做的事情其实没有变化——我们仍然在试图用“标准化题目”去测量智能。但问题在于,真实世界里的困难问题,从来就不是以“题目”的形式存在的。
今天几乎所有主流benchmark都有一个共同特点:它们本质上仍然属于一种“压缩后的学术智力测试”。这些系统默认问题边界已经被定义,规则已经固定,参数已经给定,目标函数已经明确,甚至连“正确答案”都已经存在。模型真正需要做的,只是在一个封闭空间里进行搜索。这也是为什么今天的大模型越来越像一种“高维压缩搜索器”——它们当然很强,但它们真正擅长的,其实仍然是:在一个已经定义好的世界里寻找答案。
但现实世界真正困难的问题,并不是这样的。
现实中的问题几乎从来没有明确边界。你不知道哪些变量重要,不知道哪些信息缺失,不知道哪些约束会突然出现,也不知道目标函数是否会在过程中发生漂移。更重要的是,现实问题往往不存在唯一正确答案。设计一种癌症治疗方案,并不存在标准答案;设计聚变反应堆材料,也不存在标准答案;管理一家企业,更不存在标准答案。现实系统中的“最优”,本质上只是某个时间窗口下、多目标约束中的局部稳定状态,而不是数学意义上的全局最优。
这意味着,现实世界的问题结构,其实和今天的benchmark有本质区别。
今天的benchmark,本质上是“静态问题”。而真实世界的问题,本质上是“动态系统”。今天的benchmark测试的是:模型能否在固定规则下完成局部推理;而真实世界真正需要的是:模型是否能够在一个持续变化、信息不完备、反馈高度延迟、代价不可逆的复杂系统中长期优化未来状态。
这是两个完全不同层级的问题。
我越来越觉得,未来真正的AGI benchmark,不应该再是benchmark,而应该是一种Reality Benchmark。它不再是一个dataset,而是一整个可运行的世界。AI不再只是回答问题,而是需要长期生存在这个系统中,持续观察、持续建模、持续决策、持续修正,并最终对整个系统的长期状态负责。它需要处理的不再是“正确答案”,而是不同目标之间永远无法消除的冲突:成本与性能、效率与安全、长期与短期、局部最优与全局稳定、探索与收敛、风险与收益。
真正困难的问题,几乎都属于这种类型。
例如,一个真正有意义的药物发现benchmark,不应该只是预测binding affinity,更不应该只是回答某种化学问答。AI必须同时面对:化学空间、ADMET、毒性、晶型、合成路线、长期代谢、专利空间、生产成本、临床试验路径、监管风险等一整套耦合系统。它最终优化的也不再是单一指标,而是在有限时间、有限预算、有限实验次数下,找到长期综合收益最大的药物路径。这种问题已经不再是“做题”,而是真正意义上的世界优化问题。
聚变材料同样如此。今天很多所谓材料benchmark,本质上仍然只是参数预测。但真正的聚变第一壁问题,需要同时处理热管理、中子辐照、氦泡形成、蠕变、疲劳、制造约束、维护周期、长期可靠性、经济成本等多个相互冲突的尺度系统。真正困难的地方,并不是某一个物理公式不会算,而是不同尺度之间的理论根本无法自然闭合:原子尺度优化得到的结构,可能在系统尺度完全失效;局部最优材料,可能导致整体维护成本爆炸;某种极端高性能设计,可能因为寿命尾部风险而无法工业化。真正的难点从来都不是“计算”,而是“多尺度现实优化”。
企业管理其实更是这样。未来真正有价值的企业benchmark,不应该是“AI帮你写PPT”或者“AI自动回复邮件”,而是让AI真正管理一家虚拟公司数年时间。它需要处理招聘、组织结构、沟通效率、研发、市场、财务、战略、冲突、长期文化、内部记忆、知识传递等复杂动态系统。最后评估的,也不再是某一个局部指标,而是:这家公司是否真的活下来了,是否真的长期增长了,是否真的在复杂环境中维持了组织稳定性。
而这些问题有一个共同特点:它们全部是“可计算”的,但搜索空间远远超出了人类认知带宽。
这一点非常重要。很多人误以为,真正困难的问题一定是“不可计算”的。但现实恰恰相反。真正推动文明进步的问题,几乎全部是可计算的,只是它们同时包含了超大规模状态空间、多目标冲突、长期反馈、多尺度耦合和高度动态环境,人类无法在有限认知资源下完成全局优化。这其实才是未来AGI真正应该解决的问题。
因此,我越来越觉得,未来最强的AI公司,未必拥有最大的模型,而更可能拥有最大的Reality Simulation Infrastructure。因为真正重要的,不再是模型会不会回答问题,而是模型是否能够长期优化真实世界。今天的大模型,本质上仍然更接近Text Prediction Engine,而未来真正重要的系统,会变成World Optimization Engine。前者的核心是语言压缩,后者的核心则是长期因果优化、世界建模、记忆累积、多尺度推理与动态反馈控制。
而这也意味着,AI benchmark的未来,不再是考试,而是世界本身。




