搜索优化
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
房地产
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
时间不限
过去 1 小时
过去 24 小时
过去 7 天
过去 30 天
按相关度排序
按时间排序
20 小时
OpenAI发布MLE-Bench:是AGI奇点的先兆还是炒作?
1、OpenAI 在 MLE-bench 论文的「Impact on AGI Preparedness」章节提到,「如果我们的 AI ...
9 天
首个AI Kaggle特级大师诞生,o1夺7金封王!OpenAI放出AGI大招:L3级智能 ...
而评估结果中,把的头筹最佳智能体是——o1-preview。它在与专为Kaggle竞赛构建的框架AIDE结合时,平均在16.9%的竞赛中获得奖牌。
8 天
奥特曼准备用o1来训练AI了?OpenAI最新论文验证该方法可行性!
先说个结果,AI训练自己很有可能:OpenAI最先进的模型o1-preview与一种名为AIDE的框架(编者注:专为Kaggle竞赛设计的框架,它允许AI ...
腾讯网
9 天
OpenAI 推出 MLE-bench:o1 狂揽 7 枚金牌,超越人类 Kaggle 大师
OpenAI 今天发布了一个名为 MLE-bench 的基准测试,专门用来测试 AI Agent 的机器学习工程能力!这是要让 AI 自己训练模型、准备数据集、跑实验的节奏吗?!MLE-bench 是什么?MLE-bench 是一个离线的 ...
8 天
OpenAI发布AI智能体的评测集:MLE-bench
这项研究的推出,标志着机器学习领域的一次重要进展,特别是在如何评估和提升 AI 智能体的工程能力方面。科学家们希望,通过 MLE-bench,可以为 AI 技术的发展提供更科学的评估标准和实践依据。
8 天
奥特曼和OpenAI:AI自我训练的时代来临?MLE-BENCH的最新突破解读
在人工智能技术迅猛发展的今天,AI是否能够训练自己这一问题再度被提上日程。最近,奥特曼的发言引发了广泛关注,他提到如果能够开发出一个在人工智能研究方面比OpenAI的所有系统都更出色的AI,将会是一个重要的技术奇点。与此同时,OpenAI推出的最新论 ...
8 天
OpenAI推出名为MLE-bench的新基准,用于评估AI代理开发机器学习解决 ...
PANews 10月12日消息,据The ...
2 小时
哈工大发布“珠算”代码大模型
目前,主流代码大模型的构建方式大体分为从头预训练与基于通用大模型继续预训练两种。相比之下,后者收敛速度更快且可以较大程度保留通用语言能力,因此,珠算大模型采取继续预训练范式构建,所基于的通用大模型选取为面壁智能的MiniCPM-2B,其具备优异的通用 ...
2 天
卷起来!让智能体评估智能体,Meta发布Agent-as-a-Judge
近日,Meta 提出了 Agent-as-a-Judge 的概念,被视为智能体优化方面的又一重要成果。传统的智能体评估方式往往只关注最终结果,忽略了执行过程中的关键细节,或依赖大量人力进行评估。为了解决这一痛点,Meta ...
红板报 on MSN
9 天
OpenAI 推出MLE-bench 新基准
品玩10月12日讯,据 The Decoder 报道, OpenAI 公司推出 MLE-bench 新基准,旨在评估 AI 智能体在开发机器学习解决方案方面的能力。 该基准包括 75 个 Kaggle 竞赛,旨在衡量自主 AI ...
3 天
英伟达开源模型 Nemotron-70B 超越 GPT-4o 和 Claude 3.5,仅次于 OpenAI o1
在多个基准测试中,它一举超越多个最先进的 AI 模型,包括 OpenAI 的 GPT-4、GPT-4 Turbo 以及 Anthropic 的 Claude 3.5 Sonnet 等 140 多个开闭源模型。并且仅次于 OpenAI 最新模型 o1。
3 天
英伟达开源最新大模型Nemotron 70B后,只有OpenAI o1一个对手了
今天,英伟达又开源了一个性能超级强大的模型 —— Llama-3.1-Nemotron-70B-Instruct,它击败了 OpenAI 的 GPT-4o 等闭源模型和 Anthropic 的 Claude-3.5 sonnet 等开源模型。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈