李飞飞「具身智能」又出新研究了。「机器人学习领域中的一个『圣杯』级挑战是执行通用的日常家庭移动操作任务。借助一款新型双臂移动机器人,我们的最新成果 ——BEHAVIOR Robot Suite(简称 BRS)正在尝试攻克这一极为困难且尚未解决的难题!」在日常生活中,你有没有想过这样一个问题,即机器人究竟需要具备哪些能力才能真正帮助人类完成家务任务?BRS 就是为了解决这项任务而诞生的 —— 简单来讲,BRS 就是一个综合性框架,用于掌握机器人多样化家庭任务中移动全身操作。无论是倒垃圾、摆放衣物还是清洁马桶,BRS 都能让机器人应对这些日常实用活动。例如,基于 BRS 的机器人可以帮助用户捡垃圾:将扔在地上的物体重新放在架子上:还能帮你清洁马桶,看起来是一个任劳任怨的机器人:Party 过后帮你收拾桌子:还能帮你去衣柜拿衣服:这么全能的机器人是如何实现的呢?我们接着往下看。方法介绍论文主页:https://behavior-robot-suite.github.io/机器人需要具备哪些关键能力才能有效执行日常家务?通过分析,研究团队确定了成功执行这些任务所必需的三项全身控制能力:双手协调 ...
编辑 | Sia「盘腿」的机器人见过不少:履带、两轮、四轮、四条腿、两条腿……盘「脸+人设」的,还真是头回见。它不仅连续两年成为 CES 消费电子展最受欢迎的 AI 机器人。更让英伟达 CEO 黄仁勋在 Keynote 上留白数秒。它叫 Mirokaï 。严格说来,它们是 Mirokaï 族人——一个距离地球数百万光年的外星人族群,拥有先进的魔法和技术。为了让地球人活得轻松快乐,碍于无法亲临现场,一对 Mirokaï 姐弟决定将意识投射到地球上,透过机器人身体与我们相遇。男孩叫 Miroki ,女孩叫 Miroka ,长着一张精致的 3D 脸。别小看这张脸 —— 人设、动画建模全由法国知名动画公司 Gaumont 操刀,外加英伟达 GPU 实时渲染。各种表情就像放电影一样,被打到一层「毛玻璃」上,呈现出悬浮在空中的全息效果。由 Nvidia 的 GPU 驱动的 3D 动画脸部,从内部投射到半透明表面上。配上一对狐狸耳朵,真有点像索尼出品的电子游戏《瑞奇与叮当 裂隙》里的主角。为了顺利和人类幼崽交上朋友,Mirokaï 的外形也经过了精心设计:身高 1.30 米,可以和 10 岁 ...
编辑 | ScienceAI在追求更强大 AI 系统的道路上,大语言模型处理长上下文的能力始终是制约其发展的关键瓶颈。尽管 DeepSeek、GPT-4、LLaMA-3 等顶尖模型已能处理数万 token 的文本,但学界对「模型究竟需要何种能力才能有效理解长文本」这一根本问题仍缺乏理论指导。近日,麻省理工学院 Zhuo Chen、Oriol Mayn ́e i Comas 、Zhuotao Jin 、Di Luo 、Marin Soljači 领衔的研究团队提出自然语言中隐藏的互信息缩放定律(Mutual Information Scaling Law),并由此提出长上下文语言建模的 L²M 条件(Long-context Language Modeling condition),为理解大语言模型的长文本处理能力建立了首个系统化理论框架。这项研究不仅完善了神经缩放定律(neural scaling laws)体系,更揭示了语言模型能力增长的隐藏维度。图1一、长文本建模的本质挑战:超越传统认知的依赖关系传统观点认为,自然语言的长程依赖关系可以通过「两点互信息」(即相隔 d 个 token ...
编辑丨&非靶向代谢组学在推进精准医学和生物标志物发现方面前景广阔。由于谱图参比库的不完整,从串联质谱中鉴定化合物在当前仍是一项颇有挑战的任务。为了应对这项挑战,德国联邦材料研究与测试研究所(BAM)与柏林自由大学的一支团队提出了 FIORA,这是一种旨在模拟串联质谱的开源图神经网络。利用键的分子邻域,该模型可以学习断裂模式并推导出碎离子概率。FIORA 不仅在预测质量上超越了最先进的碎裂算法 ICEBERG 和 CFM-ID,而且还有助于预测其他特征,例如保留时间和碰撞截面。利用 GPU 加速,FIORA 能够快速验证推定的化合物注释,并通过高质量预测大规模扩展光谱参考库。这项研究以「FIORA: Local neighborhood-based prediction of compound mass spectra from single fragmentation events」为题,于 2025 年 3 月 7 日刊登于《Nature Communications》。FIORA在过去的十多年中,非靶向代谢组学的进展受到高质量参考光谱稀缺的限制。2016 年的 CASMI ...
前段时间,幻方科技、DeepSeek 创始人梁文锋亲自挂名的一篇论文传遍了全球互联网。论文地址:https://arxiv.org/pdf/2502.11089从论文的署名信息来看,十五位作者分属三家机构,大部分来自 DeepSeek,也有几位是在读博士生、以实习生的身份参与研究:一位来自华盛顿大学,一作和另外两位作者来自国内的「北大 - 安克大模型联合实验室」。这引起了我们的关注:原来在 DeepSeek 之外,北京大学与安克创新这家消费电子巨头也有校企合作关系。那么,双方究竟在大模型领域合作什么内容?跟安克创新的消费电子本业又有什么联系呢?带着这些问题,我们专访了安克创新高级副总裁 & 智能家庭业务总裁 Frank Zhu,对安克创新的大模型和机器人业务策略有了更为深入的了解。「看十年,想三年,做一年」安克创新对机器人的战略布局Frank 表示:“前一段安克有几个火出圈的新闻,首先需打破一个误区,安克创新绝非是一家‘充电宝公司’,而是一家致力于拥有硬核技术实力的智能硬件公司。”据悉,安克旗下的智能家庭品牌 eufy 已跻身欧美高端智能家居领域的领导品牌之列,在美、欧、日、澳 ...
自 OpenAI 发布 Sora 以来,视频生成领域迎来爆发式增长,AI 赋能内容创作的时代已然来临。去年 4 月,生数科技联合清华大学基于团队提出的首个扩散 Transformer 融合架构 U-ViT,发布了首个国产全自研视频大模型 Vidu,打破国外技术垄断,支持一键生成 16 秒高清视频,展现出中国科技企业的创新实力。Vidu 自去年 7 月上线以来,已服务数千万用户,极大促进了视频内容的智能创作。近期,腾讯混元、阿里通义万相等开源视频生成模型相继亮相,可生成 5-6 秒视频,进一步降低了视频创作门槛。尽管如此,海内外社区仍有不少用户抱怨现有开源模型受限于生成 5-6 秒的短视频,时长不够用。今天,Vidu 团队带来了一个简洁优雅的解决方案 ——RIFLEx。新方案仅需一行代码、无需额外训练即可突破视频生成模型现有长度限制,打破「短视频魔咒」。目前该项目已经开源,体现了团队对开源社区的积极回馈和贡献。项目地址:https://riflex-video.github.io/代码地址: https://github.com/thu-ml/RIFLExRIFLEx适用于基于RoPE的 ...
「Agent/智能体」可说是当今 AI 领域最炙手可热的话题。今天凌晨,OpenAI 发布了一系列可让开发者通过 API 构建智能体的新工具,其中最大的看点便是 Responses API,这是对之前的 Chat Completions API 的一轮大升级,使其获得了 Assistants API 般使用工具的能力,从而可以帮助开发者构建智能体。目前,Responses API 已经内置了网络搜索、文件搜索和计算机使用(computer use)能力。 OpenAI CEO Sam Altman 表示 Chat Completions API 是有史以来设计最完善、最实用的 API 之一。熟悉大模型应用开发的人都知道,当今不少大模型提供商的服务都兼容 OpenAI 之前提出的 Chat Completions API,其对行业标准化做出了非常大的贡献。而今发布的 Responses API 或许也将成为智能体响应标准化的重要组成部分。 Chat Comple ...
在 AIGC 持续突破视频生成边界的当下,音效制作仍是制约行业发展的瓶颈。字节跳动豆包大模型语音团队最新提出的 SeedFoley 模型,通过端到端架构实现了视频音效的智能生成,将 AI 视频创作带入「有声时代」。相关功能「AI 音效」已在即梦上线,用户使用即梦生成视频后,选择「AI 音效」功能,即可生成 3 个专业级音效方案。 App 端 Web 端效果展示先「听」为快,这里展示了一些 SeedFoley 生成的视频音效效果。技术方案SeedFoley 是一种端到端的视频音效生成架构,通过融合时空视频特征与扩散生成模型,实现了音效和视频的高度同步。首先,用固定的视频帧率对视频序列进行抽帧提取,然后使用一个视频编码器提取视频的表征信息,并通过多层线形变换将视频表征投射到条件空间,在改进的扩散模型框架中构建音效生成路径。在训练过程,提取语音和音乐相关标签,作为 multi conditions 的形式输入,可以将音效和非音效进行解耦。SeedFoley 能支持可变长度的视 ...
3月11日,通义实验室团队宣布开源R1-Omni模型,为全模态模型的发展带来了新的突破。该模型结合了强化学习与可验证奖励(RLVR)方法,专注于提升多模态情感识别任务中的推理能力和泛化性能。R1-Omni的训练分为两个阶段。在冷启动阶段,团队使用包含580条视频数据的组合数据集进行微调,这些数据来自Explainable Multimodal Emotion Reasoning(EMER)数据集和HumanOmni数据集。这一阶段旨在为模型奠定基础推理能力,确保其在进入RLVR阶段前具备一定的多模态情感识别能力,从而保障后续训练的平稳性、效率与稳定性。随后,在RLVR阶段,模型通过强化学习与可验证奖励机制进一步优化。该阶段的关键在于策略模型和奖励函数。策略模型处理视频帧和音频流组成的多模态输入数据,生成带有详细推理过程的候选响应,展示模型如何整合视觉和听觉信息以得出预测。奖励函数则受DeepSeek R1启发,分为精确率奖励和格式奖励两部分,共同形成最终奖励,既鼓励模型生成正确预测,又保证输出结构化且符合预设格式。实验结果显示,R1-Omni在同分布测试集DFEW和MAFW上,相较于原 ...
3月11日,百度AI宣布开源新一代表格识别解决方案PP-TableMagic,为表格结构化信息提取领域带来重大突破。PP-TableMagic旨在解决传统表格识别技术在复杂场景下的局限性,通过创新的多模型组网架构,实现了高精度的端到端表格识别,并支持全场景高定制化的模型微调。在当今数字化时代,大量重要表格数据仍以非结构化形式存在,如扫描文档中的统计表图片和PDF文件中的金融财报数据。这些数据无法直接进行自动化处理,而表格识别技术成为文档智能理解和数据分析的关键。然而,传统通用表格识别模型在面对复杂表格格式时往往表现不佳,难以满足不同应用场景的需求。为此,百度飞桨团队推出了PP-TableMagic,采用“表格分类+表格结构识别+单元格检测”的多模型串联组网方案,显著提升了表格识别的精度和适应性。PP-TableMagic的核心优势在于其创新的架构设计。该方案采用双流架构,将表格分为有线表和无线表两大类,然后将端到端表格识别任务拆解为单元格检测和表格结构识别两个子任务,最后通过自优化结果融合算法生成完整的HTML表格预测结果。其中,飞桨团队自研的轻量级表格分类模型PP-LCNet_x1_ ...