转载自:上海创智学院
引言
顶尖科学家与普通研究者之间的差距,往往不在于谁更会跑实验,而在于一种难以言喻的“科研品味”——一种精准判断什么研究值得做、什么方向能出大成果的前瞻力。
本研究发现,ai 也能学到科研品味!
利用大规模科研社区的反馈信号进行训练,模型不仅能判断研究的潜在影响力,还能提出更有影响力的科研思路,让 ai 向人类级别科学家迈出关键一步。
图1:研究训练的scientific judge科研判断力超过sota模型(左图);scientific thinker训练后,科研想法构思能力有了大幅提升(右图)。
论文标题:ai can learn scientific taste
:https://arxiv.org/abs/2603.14473
:https://tongjingqi.github.io/ai-can-learn-scientific-taste
代码仓库:https://github.com/tongjingqi/ai-can-learn-scientific-taste
数据和模型:https://huggingface.co/collections/openmoss-team/ai-can-learn-scientific-taste
科研品味:ai 科学家缺失的重要能力
科研品味并不是主观任性的。正如哲学家休谟所言,品味的标准建立在“合格评判者的共同裁决”之上;康德也认为品味包含着某种广泛的共识。在科学研究中,这种共同裁决本质上是学术共同体长期互动的结果:被广泛复用、持续延伸的研究,因契合了科研共同体的集体判断而产生了高影响力。基于此,研究将科研品味定义为:判断和构思高影响力研究想法的能力。
目前,ai 科学家虽能检索文献、编写代码、运行实验,却恰恰在判断 “什么值得研究” 以及 “构思高影响力研究”方面有明显不足。为填补这一空白,本研究设计了科研判断与科研构思这两个任务:
科研判断(scientific judgement):给两篇论文(标题+摘要),通过推理判断哪篇有更高的影响力(图2)。
图2:scientific judgement 任务示例,对应研究训练的 scientific judge 模型
科研构思(scientific ideation):给一篇论文(标题+摘要),构思一个高潜力的后续科研思路,输出标题+摘要(图3)。
图3:scientific ideation任务示例,对应研究训练的scientific thinker模型
rlcf 范式:基于社区反馈的强化学习
科研构思并无标准答案,rlvr 不适用;而 rlhf 也存在局限:人工标注昂贵,且难以体现社区层面的集体偏好。
研究因此提出了新范式:reinforcement learning from community feedback(rlcf)。核心思想在于,有影响力的工作被广泛复用、跟进与延伸,形成海量科研社区的反馈信号(如引用数),天然可以用于训练。
图4:rlcf 范式的三个步骤。(1) 收集社区反馈(如引用数);(2) grpo 训练 judge;(3) grpo 训练 thinker,用 judge 对一组想法排序从而确定奖励。
rlcf 分为三步(图4):
step 1:收集社区反馈,构建偏好对:对于同领域、同年份论文,有明显引用差异的两篇论文配对。
step 2:训练 judge:学会正确判断两篇论文哪篇更有影响力。
step 3:训练 thinker:基于所给论文构思后续研究思路,用 judge 作为奖励模型进行优化。
scientific judge:学会判断什么研究更有影响力
研究构建了scijudgebench 这一大规模数据集 :70万对 arxiv 论文(领域&年份严格匹配,引用数差异显著),为 judge 的训练与评测提供坚实基础。
训练后的 scientific judge 表现出三个显著特点:
扩展效应明显
数据量越大、模型参数越多,性能越强(如图5),证明了学习可扩展。
图5:scientific judge 训练的 scaling effect,两种颜色对应 4b 和 30b 的模型
超越sota
30b 的 judge 超越 gemini 3 pro、glm-5 等顶尖模型,如表1。
表1:域内评测结果,测试和训练数据所处时间一致,均为 2024 年及之前
三重域外泛化(图6)
时间域外泛化:准确判断 2025 年(训练数据之后)的论文。
不同领域泛化:只训练 cs 领域论文,能泛化到数学、物理、生物等领域。
同行审稿标准:仅基于引用数训练后,比较 iclr 得分也更加准确。
图6:三方面域外测试评测结果。上方:时间域外;中间:领域域外;下方:指标域外(iclr 得分比较)。
由此可知,judge 模型并不只是 “记忆”,而是学习到了一种通用的、可迁移的科研判断力,不受时间、具体领域或特定指标的限制。
scientific thinker:学会构思更有影响力的科研想法
科研构思能力实现显著提升。30b 和 4b 的 thinker 模型构思的想法,对基座模型的胜率达到 75~80%,并泛化到“未来”论文(晚于训练数据)的研究主题上(图7上方)。
scientific judge 是更好的生成式奖励模型。以 judge 作为奖励模型训练得到的 thinker,表现远超使用基线奖励模型的版本(图7的上下对比)。
图7:scientific thinker相对训前模型的胜率。左、右分别是 30b 和 4b 的策略模型。第一行使用 scientific judge 作为奖励模型,第二行使用基线奖励模型。“out-of-domain” 指测试数据所处时间晚于训练数据。
与 sota 模型相媲美。30b 的 thinker 与三个顶尖模型进行科研想法对决,也有出色表现(表2)。
表2:30b 的 scientific thinker 对战三个 sota 模型的胜率
至此,科研品味学习完美闭环:scientific judge 精准判断,并促成 scientific thinker 优秀构思。
总结
“科研品味” 并非人类科学家的专属天赋。通过从大量科研社区的反馈中学习,ai 也能学到科研品味,“从不可能到可能”,迈向人类水平的 ai 科学家。
欢迎转发,但请注明出处“上海经信委”
上观号作者:上海经信委