点击右上角
微信好友
朋友圈

请使用浏览器分享功能进行分享

![]()
回到2026年的春天,上海交通大学联合SII实验室和GAIR研究院的科学家们发布了一项令人震撼的研究成果。这项发表于arXiv预印本平台(编号:arXiv:2603.29640v1)的研究,首次展示了AI系统如何通过自主学习和实验来加速自身的发展进程。
在人工智能发展的历史长河中,AI系统一直依赖人类科学家来设计新的架构、策划训练数据、改进学习算法。但现在,研究团队提出了一个颠覆性的问题:AI能否自己设计和改进AI呢?他们开发的ASI-EVOLVE系统就像一个永不疲倦的AI科学家,能够自主进行从假设提出到实验验证的完整科研循环。
这套系统的工作方式类似一个经验丰富的厨师在不断改进菜谱。当一位厨师要创造新菜品时,他会先回顾以往的烹饪知识和经验,然后构思新的配料组合,接着进入厨房实际操作,最后品尝结果并总结经验。ASI-EVOLVE也遵循相似的流程:学习已有知识、设计新方案、执行实验、分析结果,然后将经验存储起来指导下一轮改进。
研究团队在三个关键领域验证了这套系统的能力。首先是模型架构设计,系统自主发现了105种超越人类设计基准的新型注意力机制,最佳设计的性能提升达到0.97分,这个提升幅度是近期人类专家改进效果的三倍。其次是训练数据优化,进化后的数据处理流程让模型在各种测试中平均提升3.96分,在知识密集型任务中提升超过18分。最后是强化学习算法设计,发现的新算法在数学推理任务中显著超越了现有最佳方法。
更令人惊讶的是,这套AI研发系统的应用范围远超AI领域本身。研究团队将其应用到药物分子与蛋白质相互作用预测这一生物医学问题上,结果显示AI设计的架构在冷启动场景下取得了6.94分的显著提升,证明了AI自主研发的成果可以推广到其他科学领域。
一、从手工作坊到自动化工厂:AI研发面临的挑战
传统的AI研发过程就像手工作坊里的工匠制作精美工艺品。每当科学家要设计新的AI模型时,他们需要凭借个人经验和直觉,花费大量时间在浩如烟海的可能性中寻找最佳方案。这个过程不仅耗时费力,而且严重依赖研究者的专业水平和创造力。
考虑这样一个场景:一位AI研究者想要改进语言模型的注意力机制。他首先需要阅读大量相关论文,理解各种设计思路,然后凭借经验提出新的想法,接着编写复杂的代码实现这个想法,运行可能需要数十个GPU小时的训练实验,最后分析结果判断改进是否有效。整个过程可能需要数周甚至数月时间,而且很大程度上依赖于研究者的个人判断。
更麻烦的是,即使一个研究团队积累了丰富经验,这些经验往往难以系统化地传承和利用。不同研究者的经验是分散的,成功和失败的案例缺乏结构化的记录和分析。当面对新的研究问题时,团队常常需要从零开始探索,无法充分利用过往的知识积累。
这种传统模式还存在另一个根本性限制:人类能够同时处理的假设数量和实验规模都是有限的。一个研究团队在同一时间内只能测试少数几种设计方案,而AI系统的设计空间是极其庞大的。这就像用手工方式在巨大的迷宫中寻找出口,效率必然很低。
现有的一些自动化AI研发尝试虽然取得了一定进展,但都存在明显的局限性。有些系统专注于解决特定的、边界清晰的优化问题,比如神经网络架构搜索,但缺乏处理开放性研究问题的能力。有些系统能够自动化研究过程的某些环节,比如实验执行或结果分析,但无法完成从问题定义到解决方案验证的完整循环。还有一些系统试图模拟完整的科研流程,但只能处理相对简单的任务,面对真正的AI研发挑战时力不从心。
正是在这样的背景下,上海交大团队意识到需要一个根本性的突破。他们提出的核心问题是:能否构建一个系统,让AI自己承担起AI研发的重任,从而突破人类认知和时间的限制,实现真正的规模化、系统化AI研究?
二、AI科学家的诞生:ASI-EVOLVE系统架构
ASI-EVOLVE系统就像一个配备了完整实验室的AI科学家,具备从文献调研到实验验证的全套研发能力。整个系统围绕一个核心循环运转:学习-设计-实验-分析,这个循环模仿了人类科学家进行研究的基本流程。
系统的第一个核心组件是研究员模块,它扮演着AI科学家中负责创意和设计的角色。这个模块的工作原理类似一位经验丰富的研究者在查阅资料后提出新想法。当面临一个研究任务时,研究员模块首先会从知识库中提取相关的背景信息和以往经验,然后基于这些信息生成新的候选方案。系统支持两种设计模式:完整代码生成和差异化编辑。完整代码生成就像从头编写一个全新的程序,而差异化编辑则像在现有程序基础上进行局部修改,这种方式在处理大型代码库时更加高效。
工程师模块负责将设计方案转化为实际的实验结果。它就像实验室里的技术员,严格按照设计方案执行实验并记录数据。这个模块最重要的特性是能够处理长周期、高成本的实验任务。为了提高效率,系统配备了多种优化机制:早期筛选功能可以通过快速测试过滤掉明显有缺陷的方案,避免浪费计算资源在注定失败的实验上;可配置的时间限制确保实验不会无限期运行下去;多种验证机制保证实验结果的可靠性。
分析师模块是整个系统的智慧核心,负责从复杂的实验结果中提炼出有价值的洞察。这个过程就像一位资深专家在仔细研究实验数据后撰写分析报告。在AI研发中,单个实验往往会产生大量多维度的数据:训练过程中的损失曲线、在各种测试基准上的表现、计算效率指标、错误日志等等。分析师模块需要综合所有这些信息,判断实验的成功程度,识别失败的原因,并总结出指导后续实验的经验教训。
认知库是系统的知识储备中心,相当于一个专门为AI研发整理的图书馆。与传统的静态资料库不同,认知库中存储的是经过精心筛选和结构化处理的领域知识。这些知识来源于相关学术文献、专家经验和以往实验的总结。当系统开始新的研究任务时,认知库通过语义搜索技术找到最相关的知识条目,为研究员模块提供灵感和指导。这种设计使得系统能够站在前人的肩膀上开始研究,而不是盲目地从零探索。
数据库模块承担着系统记忆的功能,记录着每一轮实验的完整历程。这个数据库不仅存储原始的实验数据,还保存着研究动机、设计思路、实验结果和分析结论的完整记录。更重要的是,数据库支持多种智能采样策略来选择参考案例。这些策略包括基于置信区间上界的UCB1算法,它会优先选择那些表现好但尝试次数还不够多的方案;随机采样策略保证了探索的多样性;MAP-Elites岛屿算法则通过维护多个并行的进化分支来防止系统过早收敛到局部最优解。
整个系统的工作流程呈现出一种自然的节奏感。每一轮迭代都从学习阶段开始,系统回顾相关知识和历史经验,就像人类研究者在开始新工作前先查阅文献一样。接着进入设计阶段,基于积累的知识提出新的候选方案。然后是实验阶段,将设计方案付诸实践,获得客观的实验数据。最后是分析阶段,深入分析实验结果,总结经验教训,为下一轮迭代做准备。
这种循环式的工作模式使得系统具备了持续学习和改进的能力。每完成一轮迭代,系统的知识储备就会增加一分,对问题的理解就会加深一层。随着实验轮数的增加,系统不仅能够找到更好的解决方案,还能够更高效地进行搜索,避免重复犯错。
三、验证之路:三大核心领域的突破性进展
为了证明ASI-EVOLVE系统的实际效果,研究团队选择了AI开发中最核心的三个领域进行验证:模型架构设计、训练数据处理和学习算法优化。这三个领域就像建造房屋时的地基、建材和施工工艺,是决定AI系统性能的根本要素。
在模型架构设计验证中,研究团队将重点放在了线性注意力机制的改进上。传统的Transformer注意力机制虽然效果出色,但存在一个致命缺陷:计算复杂度随输入序列长度呈二次方增长,这就像处理的文档越长,所需时间不只是成比例增加,而是呈爆炸式增长。线性注意力机制试图解决这个问题,但在保持计算效率的同时维持模型能力一直是个难题。
ASI-EVOLVE系统接受这个挑战后,开始了一场前所未有的大规模架构探索。系统首先从约150篇相关学术论文中提取知识,建立起对线性注意力机制的全面认知。然后在1773轮探索中生成了1350个候选架构,每个架构都是系统基于积累经验设计的原创方案。
为了确保实验的严谨性,团队设计了三阶段验证流程。在探索阶段,小规模模型快速验证设计理念的可行性。在验证阶段,表现优异的架构被放大到中等规模进行更全面的测试。最终,顶尖架构会被扩展到大规模进行严格验证。这个过程就像选拔优秀运动员:先进行初选筛除明显不合格的候选者,然后进行复赛选出佼佼者,最后进行决赛确定最终优胜者。
实验结果令人振奋。105个架构在验证阶段超越了人类设计的DeltaNet基准,最优秀的设计取得了0.97分的性能提升。这个数字看似不大,但在AI领域具有重要意义——它几乎是近期人类专家手动改进效果的三倍。更重要的是,这种提升不仅在训练数据上有效,在完全未见过的测试数据上同样保持了优势,证明了改进的普适性。
深入分析这些优秀架构,研究团队发现了一个有趣的共同特征:它们都摒弃了固定的计算资源分配方式,转而采用自适应的多尺度路由机制。这就像传统方法是让所有工人按照固定分工作业,而新方法则是根据具体任务动态调整人员配置,让合适的人做合适的事。例如,PathGateFusionNet架构采用了层级化路由,先在本地处理和上下文处理之间分配计算预算,然后在上下文处理内部进一步细分为短程、长程和增量更新路径。这种精细的资源管理使得模型能够根据输入内容的特点自适应地调整计算重点。
在数据处理验证中,ASI-EVOLVE系统面临的挑战完全不同。现代AI模型的训练需要海量数据,而这些数据往往来源复杂、质量参差不齐。就像一位厨师需要从各种来源采购食材,然后进行清洗、分拣、预处理,最终才能用于烹饪一样,AI训练数据也需要经过精心的策划和处理。
系统需要为不同类别的数据设计专门的处理策略。每种数据都有其特有的质量问题:网页数据可能包含HTML标签和广告内容,学术文献可能存在格式不一致问题,社交媒体数据可能包含大量噪音信息。传统上,这种策略设计完全依赖人类专家的经验和判断,是一个非常耗时且容易出错的过程。
ASI-EVOLVE系统通过自动化这个过程展示了其强大能力。系统首先通过分析数据样本识别各种质量问题,然后设计相应的处理策略,在样本数据上测试效果,最后通过分析反馈不断优化策略。这个过程就像训练一个专业的数据质量检查员,让他逐渐学会识别和处理各种数据问题。
经过优化的数据处理流程效果显著。使用处理后数据训练的模型在平均基准测试中提升了3.96分,在知识密集型任务中的改进更加明显:MMLU基准提升18.64分,CSQA提升18.80分,医学问答MedQA提升13.48分。这些提升表明,高质量的数据确实是AI模型性能的关键基础。
在算法优化验证中,系统接受了设计新型强化学习算法的挑战。强化学习是训练AI系统进行复杂决策的重要技术,但现有算法在处理大型语言模型时仍存在诸多问题:训练不稳定、收敛速度慢、对超参数敏感等。这些问题就像汽车发动机的各种小毛病,虽然不会导致完全无法使用,但会严重影响性能和可靠性。
ASI-EVOLVE系统从GRPO算法出发,通过300轮进化实验探索算法改进的可能性。系统不仅要理解复杂的数学原理,还要能够从多维度的训练指标中判断算法的优劣。这个任务的难度相当于要求系统不仅学会使用复杂的工具,还要能够改进工具本身的设计。
最终,系统成功设计出了多个超越基准的算法变体。最优秀的算法在数学推理任务中表现出色:AMC32提升12.5分,AIME24提升11.67分,OlympiadBench提升5.04分。这些改进不是偶然的数值波动,而是源于算法设计上的创新突破。
以两个代表性算法为例,研究团队深入分析了系统的创新思路。第一个算法采用成对非对称优化策略,它不再使用传统的组平均值来计算优势函数,而是通过比较每个样本与组内其他样本的表现来确定优势。这种方法就像评价学生成绩时不只看班级平均分,而是看每个学生相对于其他同学的表现。算法还引入了非对称剪裁机制和高影响梯度丢弃技术,进一步提升了训练的稳定性。
第二个算法采用预算约束动态半径策略,它为每个训练步骤设定总的更新预算,然后根据各部分的重要性动态分配这个预算。这种设计就像家庭理财时先确定总支出,然后根据各项支出的优先级合理分配资金。算法通过数学约束确保总的策略更新幅度始终在安全范围内,从而避免训练过程中的不稳定性。
四、能力边界的探索:从圆形装箱到药物发现
为了更全面地评估ASI-EVOLVE系统的能力,研究团队进行了一系列对比实验和拓展验证。这些实验就像对一个新发明的工具进行各种测试,既要验证它在标准任务上的表现,也要探索它在新领域的潜力。
圆形装箱问题成为了一个重要的基准测试。这个问题要求在单位正方形内放置26个圆形,使得圆形半径之和最大化,同时圆形之间不能重叠。虽然听起来简单,但这实际上是一个极其复杂的优化问题,需要在巨大的搜索空间中找到最优解。这个问题被多个进化计算框架采用作为标准测试,为不同系统的能力比较提供了公平的平台。
ASI-EVOLVE在这个任务上的表现令人印象深刻。系统仅用17轮迭代就达到了2.63597的得分,这个速度明显超越了其他框架。更重要的是,系统的最终得分2.635983与目前已知的最佳结果相当,证明了其在全局优化能力上的优秀表现。
通过与OpenEvolve和GEPA等代表性框架的详细对比,研究团队发现了ASI-EVOLVE的独特优势。OpenEvolve在整个运行过程中持续进化,但表现出较大的波动性,最终收敛到的解决方案质量有限。GEPA能够达到相对较好的结果,收敛到2.630左右的得分范围,体现了结构化进化设计的价值。而ASI-EVOLVE不仅能够快速脱离冷启动阶段,还能在整个运行过程中持续稳定改进,最终可靠地达到最先进水平。
系统组件的作用机制通过仔细的消融实验得到了验证。当移除分析师模块时,系统虽然仍能保持相对较高的起始性能(这归功于认知库提供的领域知识),但后续的持续改进能力明显减弱。系统会进入长期的性能平台期,难以实现进一步突破。这说明结构化的反馈分析对于长期进化至关重要。
当移除认知库时,系统表现出明显的冷启动困难,早期改进缓慢且不稳定。但有趣的是,经过足够长时间的自主探索后,系统仍然能够逐渐积累经验并最终达到较好的性能水平。这表明ASI-EVOLVE的核心进化机制具有真正的自主学习能力,即使在缺乏先验知识的情况下也能通过试错学习取得进展。
数据库采样策略的影响也得到了深入研究。MAP-Elites算法通过维护质量-多样性档案来防止过早收敛,鼓励在解空间中进行广泛探索。UCB1算法则基于置信区间上界进行选择,平衡探索和利用。随机采样提供了基础的对照基准。
实验结果显示,在配备了完善认知库的情况下,UCB1策略表现最佳,能够快速收敛到高质量解。这个结果看似违反直觉,因为UCB1的利用倾向可能导致过早收敛。但研究团队分析认为,当系统已经具备良好的初始知识和结构化反馈时,多样性保持机制的重要性相对降低,而价值导向的选择反而能够更高效地利用积累的经验。
为了验证ASI-EVOLVE的通用性,研究团队将其应用到了完全不同的领域:药物-靶标相互作用预测。这个生物医学问题要求系统设计能够准确预测药物分子与蛋白质靶标之间结合可能性的模型。这个任务的挑战在于需要同时处理两种完全不同类型的数据:药物的分子结构和蛋白质的序列信息,然后建模它们之间复杂的相互作用模式。
系统从约80篇相关论文中构建认知库,学习图神经网络、注意力机制和药物-靶标建模的专业知识。经过100多轮进化,系统成功设计出了性能优异的架构变体。在标准基准测试中,最佳架构相比基准模型取得了显著改进:BindingDB开发集上AUROC提升1.91分,F1分数提升2.95分。
更重要的是,这些改进在冷启动场景中表现更加出色。当模型需要预测涉及全新药物或全新蛋白质的相互作用时(这在实际药物发现中非常常见),AI设计的架构显示出了强大的泛化能力:未见药物场景下AUROC提升6.94分,未见蛋白质场景下提升3.56分,未见药物和蛋白质的双重冷启动场景下提升4.36分。
深入分析最佳架构的设计特点,研究团队发现了三个关键创新。第一个是Sinkhorn注意力机制,它基于最优传输理论设计,通过双随机约束确保注意力分配的平衡性,避免注意力崩塌问题。第二个是领域特定边缘化策略,针对药物分子子结构和蛋白质功能域的不同特性分别设计聚合方式,实现更好的组合建模。第三个是Top-k稀疏门控机制,通过学习选择最相关的相互作用模式,降低不相关分子特征的干扰。
这些设计选择不是随意的技术堆叠,而是体现了对问题本质的深入理解。最优传输理论在生物分子结合建模中有坚实的理论基础,组合推理符合药物化学的基本原理,稀疏注意力则解决了分子特征复杂性带来的噪音问题。
五、深入机制:系统如何实现持续进化
ASI-EVOLVE系统的成功不是偶然的,而是基于一系列精心设计的机制协同工作的结果。理解这些机制的工作原理,就像理解一台精密仪器的内部构造,有助于我们把握系统的本质能力和适用边界。
认知库的构建和使用体现了系统从人类知识中学习的能力。这个知识库不是简单的文档存储,而是经过精心筛选和结构化处理的智慧精华。以线性注意力任务为例,150个知识条目覆盖了几何学原理、优化方法论、工程实践指南和故障排除经验四个主要类别。几何学原理告诉系统理论上的最优解是什么样的,优化方法论指导系统如何高效搜索解空间,工程实践提供了实现细节的经验,故障排除帮助系统避免常见陷阱。
知识的检索和应用采用了语义搜索技术。当系统开始新的设计时,它不是随机地从知识库中提取信息,而是根据当前任务的特点和历史经验找到最相关的知识条目。这个过程就像一个经验丰富的研究者在面对新问题时自然地想起相关的理论和经验。随着实验的进行,知识的使用模式也会发生变化:早期阶段主要依赖认知库中的先验知识,而后期则更多地利用系统自身积累的实验经验。
数据库的设计反映了系统对经验积累和利用的深刻理解。每个实验节点不仅存储了结果数据,还完整记录了产生这个结果的整个思维过程:研究动机、设计理念、实现细节、实验过程、结果分析和经验总结。这种全面的记录使得系统能够从成功和失败中同等程度地学习。
采样策略的选择体现了探索与利用之间的平衡艺术。UCB1算法通过置信区间上界的计算,既考虑了已知的性能表现,也考虑了不确定性带来的潜在收益。当一个设计方案表现很好但尝试次数不多时,它会获得更高的选择优先级,因为进一步探索可能带来更大的惊喜。MAP-Elites算法则通过维护多个并行的进化分支,确保系统在不同的设计方向上都有所探索,避免过早地将所有注意力集中在单一的有希望的方向上。
分析师模块的工作机制最为复杂,它需要从多维度的实验数据中提炼出有价值的洞察。在神经架构设计任务中,单个实验可能产生数十个不同的性能指标、完整的训练动态曲线、内存使用情况、计算效率数据等。分析师需要综合所有这些信息,不仅要判断当前方案的优劣,还要识别改进的方向和潜在的问题。
这个分析过程采用了多层次的结构。首先是量化分析,通过统计方法分析各种数值指标的分布和趋势。然后是模式识别,寻找不同指标之间的关联关系和异常情况。最后是因果推理,尝试理解观察到的现象背后的原因机制。分析的结果被整理成结构化的报告,包含性能评估、问题诊断、改进建议等内容,为后续迭代提供明确的指导。
系统的进化动态呈现出有趣的阶段性特征。在早期阶段,认知库中的先验知识发挥主导作用,系统能够快速达到相对较好的性能基线。这个阶段的改进主要来自于对现有知识的有效利用和组合。随着实验的进行,系统开始积累任务特定的经验,自主发现的模式逐渐增多。在后期阶段,系统主要依赖自身的实验历史进行改进,能够发现超越人类预设知识的创新解决方案。
不同任务类型对系统各组件的依赖程度也不相同。对于有丰富先验知识的任务,认知库的价值更加突出,能够显著加速收敛。对于探索性更强的任务,分析师模块的作用更为关键,需要从复杂的实验反馈中提取指导信息。对于需要长期持续改进的任务,数据库的设计和采样策略变得特别重要,决定了系统能否保持持续的进化动力。
六、展望未来:AI加速AI的广阔前景
ASI-EVOLVE系统的成功验证了AI自主研发的可行性,但这仅仅是一个开始。从更广阔的视角来看,这项研究为AI领域的未来发展描绘了一幅激动人心的图景。
当前的成果主要集中在AI开发的核心技术环节,但AI自主研发的潜在应用范围远不止于此。整个AI开发栈包含了从底层硬件优化、系统软件设计、分布式训练协调到上层应用开发的各个层面。每个层面都存在大量需要专业知识和经验的优化问题,都有可能通过类似ASI-EVOLVE的系统来加速改进。
在基础设施层面,AI系统可以自主优化计算资源的分配和调度,设计更高效的并行训练策略,甚至参与硬件架构的改进设计。在算法层面,系统可以探索全新的学习范式,发现更好的优化算法,设计针对特定任务类型的专用架构。在应用层面,AI可以自主学习如何将通用能力适配到具体的行业问题,自动化模型部署和维护的整个流程。
这种全栈式的AI自主研发将带来研发效率的根本性提升。传统上需要人类专家数月完成的研发任务,可能在AI系统的帮助下缩短到数天甚至数小时。更重要的是,AI系统不会疲劳,可以7天24小时不间断地进行探索和优化,其搜索规模和持续性都是人类团队无法比拟的。
然而,这种变革也带来了新的思考。当AI能够自主设计和改进AI时,人类研究者的角色将如何演变?研究团队认为,人类专家不会被替代,而是会从繁重的实现和调试工作中解放出来,专注于更高层次的问题定义和方向把握。人类的创造力、直觉和价值判断仍然是不可替代的,AI自主研发系统更像是一个强大的助手,帮助人类专家实现更宏大的研究目标。
在实际应用中,AI自主研发也面临着一些需要谨慎处理的挑战。首先是可控性问题:如何确保AI系统的自主探索始终在预期的范围内,不会产生不可预测的风险?其次是可解释性问题:当AI设计的解决方案超越人类理解时,如何评估其安全性和可靠性?最后是公平性问题:AI自主研发的能力差异是否会加剧不同机构之间的技术差距?
这些挑战的解决需要技术进步和制度创新的共同努力。在技术方面,需要开发更好的AI行为监控和控制机制,提升AI决策过程的透明度和可解释性。在制度方面,需要建立相应的规范和标准,确保AI自主研发技术的负责任发展和应用。
从更长远的角度看,AI自主研发可能催生科学研究方法的根本性变革。传统的科研模式基于人类的认知能力和时间尺度,而AI系统能够在更大的假设空间中进行搜索,在更短的时间内完成更多轮次的试验验证。这种能力差异可能导致全新的科学发现模式的出现,产生人类单独研究难以企及的突破性成果。
药物发现领域的验证已经展示了这种可能性的一个早期例子。传统的药物设计需要化学家、生物学家、计算机专家等多领域专家的密切合作,耗时数年甚至数十年。而AI自主研发系统有潜力在数周内探索vast的分子设计空间,发现全新的药物-靶标相互作用模式,极大加速新药开发的进程。
ASI-EVOLVE的成功还为其他科学领域的自动化研究提供了有价值的参考。物理学中的材料设计、化学中的催化剂优化、生物学中的蛋白质工程等问题,都具有类似的特征:巨大的搜索空间、复杂的评估函数、需要大量专业知识的指导。这些领域都有可能通过类似的自主研发系统实现突破性进展。
说到底,ASI-EVOLVE所代表的不仅仅是一个技术工具的进步,更是科学研究范式的一次深刻变革。它展示了AI不仅可以应用科学知识解决问题,还可以自主产生新的科学知识,成为科学发现过程的积极参与者。这种转变的深远影响还需要时间来充分显现,但可以确信的是,AI自主研发将成为推动科技进步的重要力量,为人类社会带来前所未有的创新机遇。
研究团队已将ASI-EVOLVE系统完全开源,这个决定体现了科学研究开放合作的精神,也为全球研究者提供了参与这一前沿技术发展的机会。通过开源社区的共同努力,这项技术有望得到更快的完善和推广,早日造福更多的研究领域和实际应用。有兴趣深入了解技术细节的读者可以通过arXiv:2603.29640v1查询完整论文,或访问GitHub上的开源项目获取系统代码和文档。
Q&A
Q1:ASI-EVOLVE系统是什么?
A:ASI-EVOLVE是由上海交大等机构开发的AI自主研发系统,它能够像人类科学家一样进行完整的研究循环:学习知识、设计方案、执行实验、分析结果。系统通过认知库存储专业知识,用研究员模块生成创新设计,通过工程师模块执行实验,用分析师模块总结经验,实现AI自己设计和改进AI的目标。
Q2:ASI-EVOLVE在哪些方面取得了突破?
A:系统在三个AI核心领域都实现了重大突破:在神经架构设计中发现了105个超越基准的新架构,最佳设计性能提升0.97分;在数据处理优化中实现平均3.96分提升,知识任务提升超过18分;在强化学习算法设计中,新算法在数学推理任务上比基准提升最高12.5分。系统还在药物分子研究中取得6.94分的显著改进。
Q3:这项技术会改变AI研发方式吗?
A:会的,但不是完全取代人类。ASI-EVOLVE展示了AI可以承担大部分繁重的实验和优化工作,让人类研究者从重复性劳动中解放出来,专注于更高层次的问题定义和方向把握。这种变化类似于从手工制造到自动化生产的转变,大大提高效率的同时,人类的创造力和判断力仍然不可替代。
