「国产大模型 + 国产引擎 + 国产芯片」的完整技术闭环正在加速形成。随着 DeepSeek 引燃市场对于大模型私有化部署的热情,模型部署的效率与成本成为企业 AI 落地的关键瓶颈。今天,清华系科创企业清程极智与清华大学翟季冬教授团队联合宣布开源大模型推理引擎「赤兔」(Chitu),率先实现了非 H 卡设备(英伟达 Hopper 架构之前的 GPU 卡及各类国产卡)运行原生 FP8 模型的突破。在 A800 集群上的实测数据显示,用赤兔引擎部署 DeepSeek-671B 满血版推理服务,相比于 vLLM 部署方案,不仅使用的 GPU 数量减少了 50%,而且输出速度还提升了 3.15 倍。赤兔引擎代码已发布至 GitHub 开源社区:https://github.com/thu-pacman/chitu赤兔 (Chitu) 开源:国产大模型基础设施又一里程碑当前,拥有完整自主可控的 AI 技术栈已成为国家战略性需求。DeepSeek、QwQ 等优秀的国产开源大模型正在重塑全球科技产业格局,但在大模型推理部署领域,业界仍高度依赖国外开源工具。 赤兔引擎的开源为业界提供了国产开源新选择, ...
何恺明又双叒叕发新作了,这次还是与图灵奖得主 Yann LeCun 合作。这项研究的主题是没有归一化层的 Transformer(Transformers without Normalization),并已被 CVPR 2025 会议接收。 Meta FAIR 研究科学家刘壮的推文过去十年,归一化层已经巩固了其作为现代神经网络最基本组件之一的地位。这一切可以追溯到 2015 年批归一化(batch normalization)的发明,它使视觉识别模型的收敛速度变得更快、更好,并在随后几年中获得迅速发展。从那时起,研究人员针对不同的网络架构或领域提出了许多归一化层的变体。如今,几乎所有现代网络都在使用归一化层,其中层归一化(Layer Norm,LN)是最受欢迎之一,特别是在占主导地位的 Transformer 架构中。归一化层的广泛应用很大程度上得益于它们在优化方面的实证优势。除了实现更好的结果之外,归一化层还有助于加速和稳定收敛。随着神经网络变得越来越宽、越来越深,归一化层 ...
编辑 | ScienceAI过渡态(Transition State, TS)是化学反应的「关键帧」,就像群山中的最低隘口,决定了分子翻山越岭所需的能量和路径。然而,TS 的寿命仅有飞秒级(10⁻¹⁵ 秒),实验观测如同捕捉闪电一瞬——目前只能依赖量子化学计算来寻找。传统的密度泛函理论(DFT)虽能提供高精度结果,但单次 TS 搜索可能消耗数十至数千 CPU 时,面对成百上千反应节点的复杂网络,计算成本高得难以承受。近年来,机器学习(ML)为 TS 搜索开辟了两条新路径:机器学习原子间势(MLIPs)—— 通过神经网络学习势能面,将单点能量计算速度提升千倍,但依赖传统 TS 搜索框架;生成模型——直接「脑补」TS 的 3D 结构,跳过路径搜索步骤,类似 AlphaFold 颠覆蛋白质结构预测。尽管 MLIPs 在常见的能量与力误差等评价指标上不断刷新排名,这些模型在端到端 TS 搜索任务上的真实表现仍缺乏系统评估。为了解各类 ML 模型在 TS 搜索中的实际表现,深度原理(Deep Principle)联合深势科技,清华大学,加州大学伯克利分校等机构开发了基于过渡态搜索框架 Yet A ...
现在是 2025 年,新论文要以博客形式出现。还有人沉浸在阅读论文的苦恼吗?面对 arXiv 上浩如烟海的学术论文,你是否也曾感到无从下手?复杂的术语、冗长的段落、晦涩的图表,仿佛一道道高墙,将知识与理解隔离开来。对于科研爱好者、学生甚至专业人士来说,读懂一篇论文往往意味着数小时的专注投入,甚至可能还需要反复查阅资料才能勉强理解其核心内容。但这一切,即将成为过去!由 alphaXiv 推出的一款新工具 —— 结合了 Mistral OCR 和 Claude 3.7 的强大能力,为 arXiv 论文自动生成博客风格的概述。只需单击一下,你就能获得一篇结构清晰、内容丰富的文章,不仅提炼出论文的核心见解,还配以精美的图表和通俗易懂的解释。无论你是想快速了解论文的要点,还是希望深入挖掘其中的细节,这款工具都能为你提供高效的支持。下面我们就来亲自体验一下这一款新工具,首先我们点开需要了解的论文。接下来是最关键的一步,只需找到 arXiv 论文的链接,将链接中的「arxiv」替换成「alphaxiv」。替换完成后,用户只需在网页下方找到「blog」按钮并点击,便进入了博客生成界面。到这一步,我们就 ...
本文的主要作者来自 VAST、北京航空航天大学、清华大学和香港大学。本文的第一作者为北京航空航天大学硕士生黄泽桓,主要研究方向为生成式人工智能和三维视觉。本文的通讯作者为 VAST 首席科学家曹炎培和北京航空航天大学副教授盛律。在 Sora 引爆世界模型技术革命的当下,3D 场景作为物理世界的数字基座,正成为构建动态可交互 AI 系统的关键基础设施。当前,单张图像生成三维资产的技术突破,已为三维内容生产提供了 “从想象到三维” 的原子能力。然而,当技术演进到组合式场景生成维度时,单物体生成范式的局限性开始凸显:现有方法生成的 3D 资产如同散落的 “数字原子”,难以自组织成具有合理空间关系的 “分子结构”。这导致几个核心挑战:① 实例分离困境(如何从单视图准确解耦交叠物体)② 物理约束建模(如何避免穿模的不合理交互)③ 场景级语义理解(如何保持物体功能与空间布局的一致性)。这些瓶颈严重制约着从 “数字原子” 到 “可交互世界” 的构建效率。最近,来自北航、VAST 等机构的研究团队推出了全新的模型 —— MIDI,它能够从单张图像生成高几何质量、实例可分离的 3D 组合场景,在单视图 ...
3月12日,北京人形机器人创新中心(国家地方共建具身智能机器人创新中心)在京发布了全球首个“一脑多能”、“一脑多机”的通用具身智能平台“慧思开物”。“慧思开物”的应用是对基于单一场景单一任务做专项开发这一传统机器人应用开发模式的颠覆,同时也填补了具身智能领域在通用软件系统方面的空白,真正推动智能机器人从单一任务执行向复杂环境下的自主决策与执行能力跃升。创新中心总经理熊友军在现场发言时表示,具身智能在“智能化”方面仍处于初级阶段,行业亟需一个具备多本体兼容性、多场景适应性和强大泛化能力的通用智能平台。为了替具身智能产业补上通用软件系统这块重要拼图,创新中心研发了全球首个支持多本体多场景应用的通用具身智能平台“慧思开物”,熊友军同时提到,在“慧思开物”的支持下,优必选在全球范围内首次把群脑网络(BrainNet)用于人形机器人执行整条产线的工业级任务。“慧思开物”能够实现从任务理解到执行的全流程智能化,具备处理多场景复杂任务的泛化能力,首次实现了单个软件系统在机械臂、轮式机器人、人形机器人等多构型本体上的兼容,能够适应多样化的应用场景和任务,为具身智能机器人提供强大的感知、决策与执行能力。 ...
尽管 DeepSeek-R1 在单模态推理中取得了显著成功,但已有的多模态尝试(如 R1-V、R1-Multimodal-Journey、LMM-R1)尚未完全复现其核心特征。例如,R1-V 仅在简单计数任务上表现出进步,未能实现回答长度的增长和顿悟时刻;R1-Multimodal-Journey 则在训练过程中回答长度反而降低;LMM-R1 虽然有所进步,但尚未在大规模图文数据训练中得到验证。而 Kimi 1.5 尽管表现突出,但并未开源其模型或数据。论文标题:MM-EUREKA:EXPLORING VISUAL AHA MOMENT WITH RULE-BASED LARGE-SCALE REINFORCEMENT LEARNING代码地址:https://github.com/ModalMinds/MM-EUREKA技术报告:https://arxiv.org/pdf/2503.07365模型地址:https://huggingface.co/FanqingM/MM-Eureka-Zero-38Bhttps://huggingface.co/FanqingM/MM-Eureka- ...
给大模型落地,加入极致的务实主义。DeepSeek 引领的新一轮 AI 技术爆发才刚开始,激烈的应用侧竞争也进入了正在进行时。由于官方服务器经常遭遇繁忙、限流等问题,各家云厂商的 MaaS 服务正在解决开发者们的燃眉之急。自 2 月份以来,各家云科技大厂纷纷上线满血版 DeepSeek V3、R1 大模型。它们不仅卷算力,也竞相提供更便捷的部署方案(从 API 到应用开发能力),甚至连价格也卷了起来。3 月 11 日,亚马逊云科技宣布 DeepSeek-R1 正式作为全托管的无服务器模型提供,成为了第一家以全托管通用模型形式提供 DeepSeek-R1 的国际云服务提供商。 亚马逊 CEO 安迪・贾西宣布 Amazon Bedrock 提供全托管式 DeepSeek-R1 的贴文。也就是说,无需配置硬件资源,无需设置软件环境,一个 API 就能直接调用满血版 DeepSeek-R1。 使用 Amazon Bedro ...
本文来自港科与 MIT 教授团队。本文有两个共同一作:张鉴殊为武汉大学本科四年级,本篇为其在港科大访问期间完成,将于 2025 秋季前往美国西北大学攻读 CS PhD。姚栋宇目前就读于 CMU CS 系下的 MSCV 项目。论文链接:https://arxiv.org/pdf/2502.12084项目主页:https://vlm2-bench.github.io/当前,视觉语言模型(VLMs)的能力边界不断被突破,但大多数评测基准仍聚焦于复杂知识推理或专业场景。本文提出全新视角:如果一项能力对人类而言是 “无需思考” 的本能,但对 AI 却是巨大挑战,它是否才是 VLMs 亟待突破的核心瓶颈?基于此,该团队推出 VLM²-Bench 来系统探究模型在 “人类级基础视觉线索关联能力” 上的表现。本文将如下的两点作为本工作的出发点:什么能力对于人类来说是在日常生活中非常重要,且这种能力还得是对人们来说非常容易的,不需要庞大的知识储备也能完成。我们在浏览不同的照片时可以找到出现在多张照片的同一个人,但是我们并不需要在之前就见过这个人,叫得出名字或者对这个人很了解,而是简单的在不同的图片间通过 ...
系列文章目录3FS系列(一):存储新纪元的开篇——3FS编译调优与部署的工程实践引言2月24日,重磅存储系统3FS(Fire-Flyer File System) 在 DeepSeek 轰轰烈烈的开源周压轴登场,补齐了计算、网络以外的另一块拼图——存储。区别于过往巧妙算法的开源库,3FS 是完整的涉及多种节点、结合多种外部节点的高速并行文件系统,其代码结构清晰、模块间解耦程度高,充分展现了 DeepSeek 工程师对复杂工程的驾驭能力。作为 DeepSeek 开源生态的一部分,3FS 于 2025 年 2 月 27 日在 GitHub 上正式开源,一经发布热度值瞬间爆表,引发业界关注。3FS 提供了几个关键特性,使其极其适合 AI 工作负载:分离式架构强一致性保护标准的文件接口支持多样化文件负载尽管官方已提供 3FS 详尽的设计文档,其复杂程度对于想要学习 3FS 系统的爱好者仍然提出了不小的挑战。作为人工智能基础软件方向的前沿力量,九章云极的研发大咖们近期也都在热议3FS,但我们今天不讨论3FS本身的产品设计,而是尝试借助我们存储方向的专业知识一步步抽丝剥茧、为大家手把手教学AGI时 ...