「科研品味」不再是人类专利？创智&复旦让 AI 学到科研品味

转载自：上海创智学院

引言

顶尖科学家与普通研究者之间的差距，往往不在于谁更会跑实验，而在于一种难以言喻的“科研品味”——一种精准判断什么研究值得做、什么方向能出大成果的前瞻力。

本研究发现，ai 也能学到科研品味！

利用大规模科研社区的反馈信号进行训练，模型不仅能判断研究的潜在影响力，还能提出更有影响力的科研思路，让 ai 向人类级别科学家迈出关键一步。

图1：研究训练的scientific judge科研判断力超过sota模型（左图）；scientific thinker训练后，科研想法构思能力有了大幅提升（右图）。

论文标题：ai can learn scientific taste

：https://arxiv.org/abs/2603.14473

：https://tongjingqi.github.io/ai-can-learn-scientific-taste

代码仓库：https://github.com/tongjingqi/ai-can-learn-scientific-taste

数据和模型：https://huggingface.co/collections/openmoss-team/ai-can-learn-scientific-taste

科研品味：ai 科学家缺失的重要能力

科研品味并不是主观任性的。正如哲学家休谟所言，品味的标准建立在“合格评判者的共同裁决”之上；康德也认为品味包含着某种广泛的共识。在科学研究中，这种共同裁决本质上是学术共同体长期互动的结果：被广泛复用、持续延伸的研究，因契合了科研共同体的集体判断而产生了高影响力。基于此，研究将科研品味定义为：判断和构思高影响力研究想法的能力。

目前，ai 科学家虽能检索文献、编写代码、运行实验，却恰恰在判断 “什么值得研究” 以及 “构思高影响力研究”方面有明显不足。为填补这一空白，本研究设计了科研判断与科研构思这两个任务：

科研判断（scientific judgement）：给两篇论文（标题+摘要），通过推理判断哪篇有更高的影响力（图2）。

图2：scientific judgement 任务示例，对应研究训练的 scientific judge 模型

科研构思（scientific ideation）：给一篇论文（标题+摘要），构思一个高潜力的后续科研思路，输出标题+摘要（图3）。

图3：scientific ideation任务示例，对应研究训练的scientific thinker模型

rlcf 范式：基于社区反馈的强化学习

科研构思并无标准答案，rlvr 不适用；而 rlhf 也存在局限：人工标注昂贵，且难以体现社区层面的集体偏好。

研究因此提出了新范式：reinforcement learning from community feedback（rlcf）。核心思想在于，有影响力的工作被广泛复用、跟进与延伸，形成海量科研社区的反馈信号（如引用数），天然可以用于训练。

图4：rlcf 范式的三个步骤。(1) 收集社区反馈（如引用数）；(2) grpo 训练 judge；(3) grpo 训练 thinker，用 judge 对一组想法排序从而确定奖励。

rlcf 分为三步（图4）：

step 1：收集社区反馈，构建偏好对：对于同领域、同年份论文，有明显引用差异的两篇论文配对。

step 2：训练 judge：学会正确判断两篇论文哪篇更有影响力。

step 3：训练 thinker：基于所给论文构思后续研究思路，用 judge 作为奖励模型进行优化。

scientific judge：学会判断什么研究更有影响力

研究构建了scijudgebench 这一大规模数据集：70万对 arxiv 论文（领域&年份严格匹配，引用数差异显著），为 judge 的训练与评测提供坚实基础。

训练后的 scientific judge 表现出三个显著特点：

扩展效应明显

数据量越大、模型参数越多，性能越强（如图5），证明了学习可扩展。

图5：scientific judge 训练的 scaling effect，两种颜色对应 4b 和 30b 的模型

超越sota

30b 的 judge 超越 gemini 3 pro、glm-5 等顶尖模型，如表1。

表1：域内评测结果，测试和训练数据所处时间一致，均为 2024 年及之前

三重域外泛化（图6）

时间域外泛化：准确判断 2025 年（训练数据之后）的论文。

不同领域泛化：只训练 cs 领域论文，能泛化到数学、物理、生物等领域。

同行审稿标准：仅基于引用数训练后，比较 iclr 得分也更加准确。

图6：三方面域外测试评测结果。上方：时间域外；中间：领域域外；下方：指标域外（iclr 得分比较）。

由此可知，judge 模型并不只是 “记忆”，而是学习到了一种通用的、可迁移的科研判断力，不受时间、具体领域或特定指标的限制。

scientific thinker：学会构思更有影响力的科研想法

科研构思能力实现显著提升。30b 和 4b 的 thinker 模型构思的想法，对基座模型的胜率达到 75~80%，并泛化到“未来”论文（晚于训练数据）的研究主题上（图7上方）。

scientific judge 是更好的生成式奖励模型。以 judge 作为奖励模型训练得到的 thinker，表现远超使用基线奖励模型的版本（图7的上下对比）。

图7：scientific thinker相对训前模型的胜率。左、右分别是 30b 和 4b 的策略模型。第一行使用 scientific judge 作为奖励模型，第二行使用基线奖励模型。“out-of-domain” 指测试数据所处时间晚于训练数据。

与 sota 模型相媲美。30b 的 thinker 与三个顶尖模型进行科研想法对决，也有出色表现（表2）。

表2：30b 的 scientific thinker 对战三个 sota 模型的胜率

至此，科研品味学习完美闭环：scientific judge 精准判断，并促成 scientific thinker 优秀构思。

总结

“科研品味” 并非人类科学家的专属天赋。通过从大量科研社区的反馈中学习，ai 也能学到科研品味，“从不可能到可能”，迈向人类水平的 ai 科学家。

欢迎转发，但请注明出处“上海经信委”

上观号作者：上海经信委