午夜激情影院国产_久久毛片免费播放_国产成人综合在线95精品_精品视频在线观自拍自拍_无码粉嫩小泬抽搐白浆免费_在线观看麻豆国产传媒61_黄色视频无码亚洲啊v在线_国产成人精品免费久亚洲高清不卡_先锋无码午夜资源网站_2021自拍视频亚洲国产第一区

  • 橫行不法網(wǎng)橫行不法網(wǎng)

    只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文

    不圆 发自 凹非寺量子位 | 公众号 QbitAI

    只要科学任务可以评分,AI就能找到超越人类专家的方法,实现SOTA结果?

    这是谷歌一篇最新论文里的内容:

    使用大模型+树搜索,让AI大海捞针就行。

    他们还开发了一个帮助科学家编写专家级实证软件的AI系统。

    该系统在生物信息学、流行病学、地理空间分析等领域发明的新方法,都达到了SOTA的水平。

    网友表示:任何可量化的东西都将被AI征服。

    这篇论文目前在X上获得𱄾.6K赞,引发了广泛的讨论。

    让我们一起看看。

    可评分任务在科学中无处不在

    实证软件指的是以最大化可定义或可度量的质量指标(通常指对现有观测数据的拟合度)为设计目标的软件。

    如果一个任务可以用实证软件解决,就可以被称为可评分任务。

    论文表示,他们构建这个系统主要是基于两个原因:

    一方面,可评分任务在科学界无处不在。如今几乎每个科学子领域、应用数学和工程领域都依赖软件,其中大部分软件都是解决可量化任务的实证软件。

    另一方面,科学实证软件的开发过程缓慢且艰难。特定领域的实证软件需要繁琐的工作,通常需要数年才能完成。

    而这个新系统能够系统地自动创建实证软件,以解决可评分任务。

    简单地说,该方法基于大语言模型(LLM),通过让LLM重写代码来提升软件的质量评分。系统首先生成大量的候选软件解决方案,然后运用树搜索算法筛选值得进一步优化的候选方案。

    虽然代码变异系统的设计方式多样,但研究人员通过设计基于基础Kaggle竞赛基准的对抗测试,持续改进了该方法。

    研究人员通过注入研究思想来增强代码变异能力——这些思想来源广泛,涵盖从高被引论文、专业教科书到搜索引擎结果等多个渠道。

    在实际应用中,用户既可直接注入这些思想,也可通过搜索引擎自动获取文献研究成果。

    LLMs在代码编写过程中会充分利用这些注入的指导信息。

    结果显示,该系统可广泛应用于科学领域的各类可评分任务,生成的软件性能超越了科学家开发的最先进水平。

    这种超人类性能的实现,源于系统能够在前所未有的规模上、彻底且不知疲倦地进行解决方案搜索,从而发现“沧海遗珠”式的高质量解决方案。

    在生物信息学领域,这个新系统发现�种用于单细胞数据分析的新方法,在公开排行榜上超越了人类专家开发的最顶尖方法。

    在地理空间分析方法上,系统开发出的三个新方法在DLRSD基准测试上显著优于近期学术论文报道的结果,mIoU指标均突񋈈.80大关。

    在神经科学领域,斑马鱼活动预测基准(ZAPBench)上,该系统的解决方案有效地利用了跨神经元信息来生成预测,虽然没有超过表现最好的视频模型,但它与时序基线模型相比仍然具有竞争力,并且在训练速度上比表现最佳的视频模型快几个数量级。

    (这个基准Y轴越低越好)

    此外,在流行病学、时间序列预测、数值分析领域,新系统都能取得和人类顶级方法相当、甚至超越人类的结果。

    总而言之,研究团队开发了一种新方法:把基于树搜索的代码变异系统和整合复杂研究思路的能力相结合。

    这些研究思路可以来自已发表的论文、研究智能体,也可以是LLM已有思路和方案的组合。

    网友评价:这种新方法正在为未来的AI创造更好的算法。

    但同样的,问题也随之而来:把科学研究的权限交给AI真的合适么?

    顶尖的AI研究员也像我们一样使用提示

    有细心的网友发现,在这篇论文里,研究人员使用的提示词和我们也没什么差别:

    请创建一个算法,利用两种策略的优点,创建一个真正出色的混合策略,并且得分要高于任何一种单独的策略!!

    全都用的都是大写字母,和中文里疯狂敲感叹号没什么差别。

    网友笑评:就像答辩的前一周,简直火烧眉毛了。

    也有网友表示这是一个很好的现象。它证明好结果并不总是需要复杂的指令,能够清晰表达需求就足够有效。

    创造力才是进步的核心。

    参考链接:[1]https://x.com/arankomatsuzaki/status/1965253577221587218[2]https://x.com/deedydas/status/1965468238483235015[3]https://google-research.github.io/score/

    贊(7639)
    未經允許不得轉載:>橫行不法網(wǎng)»只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文