DeepMind用AI重构科研流程, Kaggle竞赛击败84%选手
近日,谷歌DeepMind联合MIT、哈佛发布了一篇长达71页的论文,提出了一项突破性成果:他们开发了一种能帮助科学家自动生成“专家级科研实证软件”的AI系统。该系统结合大语言模型(LLM)与树搜索(treesearch),首先通过LLM生成代码,再利用树搜索在巨大的解空间中系统地探索与改进,能在数小时至数天内完成人类需要数月才能完成的科研编程任务。
这一方法已在多个科学领域展现出“专家级成果”,包括生物信息学、流行病学、地理空间分析、神经科学、时间序列预测和数值分析,且往往优于现有人类顶尖方案。论文强调,AI通过主动检索并整合外部复杂的研究思想,实现了“超人表现”,为加速科学发现提供了一条通用路径。
现代科研越来越依赖软件,从化学模型、天气模拟、流体力学建模,到社会系统预测,背后都是复杂的代码。然而开发适用于特定领域的代码通常需要长达几年繁琐的工作,且过程极其依赖研究者的直觉和经验,漫长的耗时极大限制了科学探索的效率。
研究团队将这些科学难题称为“可评分任务”(scorabletasks),定义为可通过“实证软件”(empiricalsoftware)解决的科学问题,而“实证软件”就是科研中所有为了最大化特定评估指标而设计的软件(例如对已有观测的拟合程度)。
该研究开发的AI系统旨在系统并且自动地生成可以解决“可评分任务”的“实证软件”,结合大语言模型与树搜索算法来更新迭代软件以提高软件的质量评分。
首先,用户提供具体的问题描述、评价指标以及相关数据,接下来LLM根据这些线索生成候选Python代码,而候选程序都会在沙盒环境中运行并得到一个质量评分。接着树搜索程序会参考每个方案的得分,不断选择哪些候选解法值得进一步改进和扩展。
研究团队提出了PUCT(Predictor+UpperConfidenceboundappliedtoTrees)树搜索算法,收到AlphaZero的上置信界(UpperConfidenceBoundUCB)启发,通过平衡开发和探索来选择新的候选程序。该系统的另一大关键是能够探索并整合来自外部来源的研究想法。这些想法可能来自科学论文、教材或搜索引擎(包括GeminiDeepResearch和AIco-scientist等LLM工具),会被注入LLM提示以指导代码生成。
研究团队通过2023年的16场Kaggle比赛来开发和完善AI代码变异系统,并且与排行榜上的人类参赛者进行对照校准以取得高分。
上图展示了AI系统在这16场比赛中的平均公共排行榜百分位数表现:树搜索(TS)方法的表现显著优于单次LLM调用,甚至优于1000次LLM调用中最好的结果。在树搜索过程中,AI会不断发现新的策略,使得分数出现“跳跃式”提升,而这些累积的跃升最终带来了最高质量的解决方案。
实验也说明在提示中加入针对具体问题的建议,能大幅提升表现。在“TS+专家建议”实验中,研究员向模型提供了赢得Kaggle比赛的常见经验性指导;在“TS+BoostedDecisionTree(BDT)”实验中,模型被要求从零开始实现一个决策树库,而不使用现成的标准包。
研究团队在六个不同的科学领域基准任务评估该方法,并且得到超过人类最新方法的表现。
在基因组学领域,这一系统在单细胞RNA测序(scRNA-seq)的批次效应消除任务中表现突出,研究员使用了OpenProblems批次整合基准来测量模型表现。面对高维且稀疏的数据,该系统不仅成功去除了混杂的批次效应,同时还保留了生物学信号。
系统共提出了87种全新的单细胞数据分析方法,其中40种都在OpenProblems排行榜上超越了人类专家开发的最佳模型。最具代表性的成果之一是BBKNN(TS),它通过对现有方法ComBat与BBKNN的重新组合,实现了“理念重组”的突破,使整体表现比最佳已发表方法提升了14%。