近日,中国人民大学 STILL 项目团队、北京智源研究院团队联合九章云极 DataCanvas 公司在大模型慢思考推理技术上形成系列技术成果,初步复现类 R1 推理模型,完整开源了类 R1 类的实现细节以及训练技巧。进一步,创新性提出使用代码工具来增强模型推理性能,在 AIME 数学推理测试中超越 DeepSeek-R1 的模型性能。相关成果已经形成论文《An Empirical Study on Eliciting and Improving R1-like Reasoning Models》,在预印版论文网站 arXiv 上公开发表。九章云极 DataCanvas 联合研究团队公布了复现 DeepSeek- R1 全参数微调开源方案,并发布了全新的强化学习训练模型 STILL-3-Tool-32B。这个方案完整开放了从模型训练到推理部署的全链路工程代码,同步公开实践验证过的技术经验与调优策略,为开发者提供可直接部署的工业化级大模型训练框架。研究成果显示,该模型在 AIME 2024 基准上取得了 81.70% 准确率(采样),超越了 DeepSeek-R1 满血版。该成果在 Git ...
上周,微软宣布推出一款新的 AI 聊天网页应用模板,目前处于预览阶段,旨在简化.NET 开发中的 AI 应用开发。此模板是微软在推动 AI 技术普及方面的又一重要举措,提供了在 Visual Studio、Visual Studio Code 以及.NET CLI 中使用的脚手架和指导。图源备注:图片由AI生成,图片授权服务商Midjourney根据微软的介绍,这款.NET AI 聊天模板帮助开发者迅速构建智能聊天应用。模板基于 Blazor 框架,利用了 Microsoft.Extensions.AI 和 Microsoft.Extensions.VectorData 抽象,遵循了聊天应用中常用的检索增强生成(RAG)模式。其主要特点是能够创建与自定义数据(如示例 PDF 文件或用户数据)交互的聊天界面。开发者可以选择在本地或 Azure 进行集成,模板支持本地向量存储以便于原型设计,以及 Azure AI 搜索以支持更高级的设置。生成的代码包含用于聊天交互的 UI 组件、引用追踪和后续建议,开发者可根据需求进行自定义或删除。为开始使用该模板,开发者只需在命令行输入以下命令进行安装: ...
谷歌最新宣布,Android Studio中的Gemini助手已升级支持多模态输入功能,开发者现在可以直接将图像附加到提示中,以获取应用程序开发过程中的视觉辅助。这项多模态功能最初在I/O2024大会上亮相,升级后的Gemini现能够”理解简单的线框,并将其转换为可用的Jetpack Compose代码”。在Android Studio Narwal的Canary版本中,Ask Gemini字段新增了”附加图像文件”(支持JPEG或PNG格式)选项。谷歌建议用户使用具有”强烈色彩对比”的图像并提供”清晰的提示”以获得最佳效果。开发者可以上传从简单线框到高保真模型的各类屏幕截图和用户界面,并能指定预期功能。例如,在计算器设计示例中,可以要求”使交互和计算按预期工作”。将视觉设计转化为功能性UI代码的典型提示包括:1.”针对所提供的此图像,编写Android Jetpack Compose代码以制作尽可能接近此图像的屏幕。确保包含导入、使用Material3并记录代码。”2.”对于提供的这张图片,编写Android Jetpack Compose代码以制作尽可能接近此图片的屏幕, ...
国家互联网信息办公室、工业和信息化部、公安部和国家广播电视总局联合制定了《人工智能生成合成内容标识办法》。这一新规的发布,旨在应对当前 AI 生成内容泛滥带来的社会问题,特别是一些不实信息的传播,影响到公众的知情权和合法权益。该办法明确规定,所有 AI 生成的文本、音频、图片和视频等合成内容,必须在适当位置进行显著标识。这一措施将有效保护公民、法人及其他组织的合法权益,并维护社会的公共利益。具体要求如下:人工智能生成合成内容标识办法第一条 为了促进人工智能健康发展,规范人工智能生成合成内容标识,保护公民、法人和其他组织合法权益,维护社会公共利益,根据《中华人民共和国网络安全法》、《互联网信息服务算法推荐管理规定》、《互联网信息服务深度合成管理规定》、《生成式人工智能服务管理暂行办法》等法律、行政法规和部门规章,制定本办法。第二条 符合《互联网信息服务算法推荐管理规定》、《互联网信息服务深度合成管理规定》、《生成式人工智能服务管理暂行办法》规定情形的网络信息服务提供者(以下简称“服务提供者”)开展人工智能生成合成内容标识活动,适用本办法。第三条 人工智能生成合成内容是指利用人工智能技术生 ...
根据安永(EY)发布的一份报告,生成式人工智能(GenAI)正在重新塑造印度的金融服务行业,推动客户参与、运营效率和风险评估的显著提升。这份名为《生成式人工智能在印度能释放多少生产力?印度的 AI 思维:2025》的报告指出,预计到2030年,印度金融服务行业的生产力水平将提高34% 至38%,而银行业的提升幅度更是达到46%。 报告显示,74% 的金融机构已经启动了概念验证项目,其中11% 的机构已进入生产级部署阶段。对于生成式人工智能的投资也在逐步增加,目前有42% 的组织正积极为人工智能项目分配预算。这些机构在语音机器人、电子邮件自动化、商业智能和工作流自动化等关键领域迅速采用 GenAI。在这些投资中,客户服务成为首要优先事项,68% 的公司将其列为生成式人工智能实施的重中之重,其次是运营(47%)、承保(32%)、销售(26%)和信息技术(21%)。这些投资已经取得了可观的成效:63% 的公司表示客户满意度有所提高,而58% 的公司则报告成本降低。安永印度金融服务部门的合伙人兼全国领导人普拉蒂克・沙(Pratik Shah)表示:“金融服务行业已从创新试点阶段转向2024-2 ...
谁说玩具只是冰冷的塑料?趣巢玩具重磅推出颠覆性新品——“Ai抱抱喵”,这款萌力爆棚的毛绒玩具,竟然搭载了黑科技满满的AI大脑!它不仅能和你像老朋友一样自然流畅地聊天,更能通过多重感官“读懂”你的情绪,带来前所未有的智能陪伴体验!想象一下,你怀里抱着的不再只是一个填充物,而是一个真正“懂你”的智能伙伴!“Ai抱抱喵”之所以如此神奇,秘密就在于其内置的“AI对话系统”。这套系统可不是简单的语音识别,它拥有强大的多模态交互引擎和感知能力,就像给喵咪装上了“顺风耳”和“千里眼”,能听懂你的话语,更能“看”到你的表情,甚至“感知”你的情绪波动!图源备注:图片由AI生成,图片授权服务商Midjourney更令人惊叹的是,“Ai抱抱喵”还配备了“多感官认知阵列”,这意味着它不仅仅是“听”和“看”,更能通过触摸、气味等多种感官维度与你互动,带来更丰富、更立体的陪伴感受。而这一切的幕后功臣,正是其强大的AI大脑—— 这套系统基于底层的通用大模型构建,并在上层自建了领域认知和情绪感知小模型,以及独特的记忆共生体系。 简单来说,它就像一个拥有“超级大脑”和“细腻情感”的智能体,不仅知识渊博,更能理解人类的情 ...
基于逐步生成解决方案的大语言模型(LLMs)训练范式在人工智能领域获得了广泛关注,并已发展成为行业内的主流方法之一。例如,OpenAI 在其「12 Days of OpenAI」直播系列的第二日推出了针对 O1 模型的强化微调(Reinforcement Fine-Tuning,RFT),进一步推动了 AI 定制化的发展[1]。RFT/ReFT[2] 的一个关键组成部分是使用思维链(Chain-of-Thought,CoT)注释[3] 进行监督微调(Supervised Fine-Tuning,SFT)。在 DeepSeek-R1 模型[4] 中,引入了少量长 CoT 冷启动数据,以调整模型作为初始强化学习的代理。然而,为了全面理解采用 CoT 训练的策略,需要解决两个关键问题:Q1:与无 CoT 训练相比,采用 CoT 训练有哪些优势?Q2:如果存在优势,显式 CoT 训练的潜在机制是什么?由于实际训练过程中涉及众多因素,分析显式 CoT 训练的优势及其潜在机制面临显著挑战。为此,我们利用清晰且可控的数据分布进行了详细分析,并揭示了以下有趣现象:CoT 训练的优势(i)与无 ...
没有任何冷启动数据,7B 参数模型能单纯通过强化学习学会玩数独吗?近日,技术博主 Hrishbh Dalal 的实践表明,这个问题的答案是肯定的。并且他在这个过程中用到了 DeepSeek 开发的 GRPO 算法,最终他「成功在一个小型数独数据集上实现了高奖励和解答」。下面我们就来具体看看他的博客文章,了解一番他的开发思路。原文地址:https://hrishbh.com/teaching-language-models-to-solve-sudoku-through-reinforcement-learning/现在的语言模型已经能完成很多任务了,包括写论文、生成代码和解答复杂问题。但是,如何让它们学会解答需要结构化思维、空间推理和逻辑推理的难题呢?这就是我最近的实验的切入点 —— 通过强化学习教语言模型解决数独问题。教语言模型玩数独的难点对语言模型来说,数独有自己独特的难点。不同于开放式的文本生成,玩数独需要:遵循严格的规则(每行、每列和每框必须包含数字 1-9,且不能重复)保持一致的网格格式应用逐步的逻辑推理理解网格元素之间的空间关系得出一个正确的解答有趣的是,语言模型并不是为结 ...
目前的视频编辑算法主要分为两种:一种是利用 DDIM-Inversion 完成视频编辑,另一种是利用训练好的编辑模型。然而,前者在视频的一致性和文本对齐方面存在较大缺陷;后者由于缺乏高质量的视频编辑对,难以获得理想的编辑模型。为了解决视频编辑模型缺乏训练数据的问题,本文作者(来自香港中文大学、香港理工大学、清华大学等高校和云天励飞)提出了一个名为 Señorita-2M 的数据集。该数据集包含 200 万高质量的视频编辑对,囊括了 18 种视频编辑任务。数据集中所有编辑视频都是由经过训练的专家模型生成,其中最关键的部分由作者提出的视频编辑专家模型完成,其余部分则由一些计算机视觉模型标注,例如 Grounded-SAM2 和深度图检测模型等。论文标题:Señorita-2M: A High-Quality Instruction-based Dataset for General Video Editing by Video Specialists论文地址: https://arxiv.org/abs/2502.06734项目地址: https://senorita-2m-dataset ...
在 ChatGPT 爆火两年多的时间里,大语言模型的上下文窗口长度基准线被拉升,以此为基础所构建的长 CoT 推理、多 Agent 协作等类型的高级应用也逐渐增多。随之而来的是,长文本推理速度被提出更高要求,而基于现有 Transformer 架构的模型受限于注意力机制的二次方复杂度,难以在较短时延内处理超长文本请求。针对这一痛点,清华大学 NLP 实验室联手中南大学、北京邮电大学以及腾讯微信 AI 实验室取得了突破,共同提出了 APB 框架 —— 其核心是一个整合了稀疏注意力机制的序列并行推理框架,通过整合局部 KV 缓存压缩方式以及精简的跨 GPU 通信机制,解决了长上下文远距离语义依赖问题,在无性能损失的前提下大幅度提升超长文本预填充的效率。在 128K 文本上,APB 能够出色地平衡性能与速度,达到相较于传统 Flash Attention 约 10 倍的加速比,在多种任务上甚至具有超越完整 Attention 计算的性能;与英伟达提出的同为分布式设定下的 Star Attention 相比,APB 也能达到 1.6 倍加速比,在性能、速度以及整体计算量上均优于 Star At ...