Nvidia 近日宣布,其全新的 Vera Rubin 微架构正处于研发阶段,计划于2026年正式推出。该架构下的 Rubin CPX 变体将专注于满足那些需要处理海量上下文窗口的人工智能工作负载。Nvidia 首席执行官黄仁勋在新闻发布会上表示:“Vera Rubin 平台将标志着人工智能计算的新飞跃,推出下一代 Rubin GPU 和名为 CPX 的新类别处理器。”Rubin CPX 特别适用于需要处理超过一百万个 token 的应用场景,例如复杂的软件开发和高清晰度视频生成。根据 Nvidia 的计划,Vera Rubin NDL144CPX 类 GPU 将于2026年底上市。CPX 模型是针对需要长上下文窗口的应用而特别设计的,能够提供8exaflops 的人工智能性能、30PF NVFP4的上下文计算能力,以及相较于 Nvidia GB300NVL72系统提升了三倍的指数运算能力。此外,CPX 模型还配备了128GB GDDR7内存、4个编码器和4个解码器,专为生成视频而设计,并提供100TB 的快速内存。Nvidia 的高管表示,Vera Rubin NDL144CPX 可 ...
腾讯混元团队近日正式开源HunyuanImage2.1,这一高效文本到图像生成模型,支持原生2K(2048×2048)分辨率图像输出,标志着开源AI在高分辨率创作领域的重大进步。该模型已在Hugging Face和GitHub平台全面开放,开发者可轻松集成使用。HunyuanImage2.1通过大规模数据集和多专家模型优化结构化描述,大幅提升文本-图像对齐能力,生成速度与1K图像相当,预计将加速AI在设计、广告和内容创作中的应用。核心功能升级:原生2K与复杂提示支持HunyuanImage2.1的最大亮点在于其高效生成2K高清图像的能力,用户只需输入文本提示,即可输出细节丰富、语义一致的视觉内容。该模型支持最长1000token的复杂提示词,能精准控制单图中多个主体的姿势、表情和场景布局,避免传统AI常见的漂移问题。例如,通过描述“一个穿着古装的男子在夕阳下骑马,旁边伴随一位舞剑女子”,模型能生成高度协调的多主体画面,适用于插画、海报或封面设计。此外,模型原生支持中英文混合提示词,并内置提示词增强机制,进一步提升生成的一致性和创意性。在跨场景泛化上,它表现出色,能处理物理规律、三维空间 ...
近日,硅谷公司 Fellou 推出了一款名为 Fellou CE(概念版)的 AI 浏览器,标志着数字工作方式的一次重大转型。该浏览器并不仅仅是一个信息获取工具,而是一个可以执行复杂任务的智能助手,旨在提升用户的工作效率和创造力。Fellou 的创始人兼 CEO Dominic Xie 指出,现今科技界普遍关注 AI 节省时间的能力,但他认为这种思维是有误的。他表示,AI 的真正价值在于它能作为 “认知杠杆”,帮助人们更好地思考、创造和解决复杂问题。Fellou 的设计理念是希望用户从繁重的手动操作中解放出来,将工作流程自动化,转而专注于更高层次的创造性思维。比如,用户只需告诉 Fellou:“请分析我的 LinkedIn 个人资料,并找出10个适合我的产品负责人职位,然后用我桌面上的定制简历申请。”Fellou 会自动完成这一过程,包括浏览多个网站、分析职位要求,并将用户的简历发送出去。用户在此过程中仍可保持对每一步操作的实时控制。Fellou 的创新在于其 “无缝体验连续体” 的构建,涵盖三个主要方面:交互连续体、任务连续体和记忆连续体。通过自然对话的方式,Fellou 能够理解用 ...
据TechCrunch获得的营销文件和两名知情人士透露,专注于为OpenAI、Meta等科技公司提供AI模型训练专家的初创公司Mercor正在与投资者就C轮融资进行谈判。该公司目前寻求 100 亿美元或更高的估值,较几个月前讨论的 80 亿美元目标估值有所上升。据两名消息人士透露,此前投资过Mercor的风投公司Felicis正在考虑在C轮融资中继续加码投资。不过Felicis拒绝对此发表评论。知情人士表示,最终交易条款仍可能发生变化。Mercor向潜在投资者表示,公司已经收到了多份投资意向。据The Information此前报道,风投公司一直主动联系Mercor,提出高达 100 亿美元的估值投资意向。TechCrunch了解到,该公司已经引入了至少两家新投资者,通过特殊目的载体为这笔潜在交易筹集资金。该公司上一轮融资是今年 2 月宣布的 1 亿美元B轮融资,估值 20 亿美元,由Felicis领投。成立于 2022 年的Mercor目前年化收入已接近4. 5 亿美元。该公司今年 2 月告诉TechCrunch,其年收入已达到 7500 万美元。今年 3 月,Mercor首席执行官 ...
腾讯混元发布了其最新的生图模型 “混元图像2.1(HunyuanImage2.1)”。这一全新的开源文生图模型在多个方面进行了重要升级,支持原生2K 分辨率图像生成,旨在为设计师和视觉创作者提供更高效、更便捷的创作工具。在这次更新中,混元图像2.1在性能与生成效果之间找到了更好的平衡。它不仅支持中英文原生输入,还能生成高质量的复杂语义文本。这一特性让创作者能够轻松生成多样化的图像作品,无论是精美的插画、富有创意的海报,还是多样的漫画形式,都能快速实现。混元图像2.1的升级还得益于其庞大的图文对齐数据集,使得模型在复杂语义理解和跨领域泛化能力上有了显著提升。它支持最长1000个 tokens 的提示词,可以精准生成场景细节、人物表情和动作,允许对多物体进行分别描述和控制。此外,新模型在处理图像中的文字信息方面也表现出色,能够自然地将文字与画面相融合,提升了作品的整体美感。作为一款开源模型,混元图像2.1的代码和权重已经在 Hugging Face 和 GitHub 等平台上发布。个人和企业开发者都可以基于这一基础模型进行进一步的研究和开发,满足不同的衍生需求。未来,腾讯还透露了一款原生多 ...
苹果公司周二在新品发布会上正式推出了iPhone17系列产品线,包括iPhone17、17Pro、17Pro Max以及全新的超薄版本iPhone Air。这款采用”Air”命名的新机型延续了苹果在MacBook Air和iPad Air产品上的轻薄设计理念,同时也回应了智能手机行业此前对超薄设计的追求。iPhone Air的命名策略旨在强调产品的轻薄特性,并与苹果其他”Air”系列产品形成呼应,这些产品通常以轻便和相对较低的价格定位著称。然而,在当前的人工智能时代,设备的物理尺寸已不再是最关键的竞争要素,软件功能和AI能力才是消费者更加关注的焦点。在AI技术应用方面,苹果在此次发布会上的表现相对有限。公司仅在少数几个场合提及AI技术,主要是重申了今年6月在全球开发者大会上已经发布的功能更新,如Visual Intelligence和设备端AI模型,以及在摄像头升级中的部分AI应用,比如iPhone17前置摄像头的Center Stage功能。值得注意的是,发布会上最引人注目的AI应用并非手机功能升级,而是即将应用于AirPods3的AI驱动实时翻译功能。更令人意外的是,苹果在整场发布 ...
近日,上海交通大学的 IPADS 实验室团队推出了一款名为 MobiAgent 的全新移动端智能体工具链,打破了个人化智能助手的开发壁垒,声称其真实场景表现优于 GPT-5和其他顶级闭源模型。MobiAgent 的推出让每个人都有机会培养属于自己的 AI 助手。这个工具链支持用户从零开始构建移动端智能体,包括从收集操作数据到训练模型,再到将模型部署到手机上的完整流程。MobiAgent 的开源性质,意味着用户可以自主获取数据、训练模型,并在个人设备上实现智能助手的应用。为了验证 MobiAgent 的实际能力,研究团队在国内20款热门应用中进行了测试,结果显示,7B 规模的 MobiAgent 模型在任务完成评分上,不仅超越了多款知名闭源大模型,甚至在同规模的开源 GUI 智能体中也处于领先地位。MobiAgent 独特的 “潜记忆加速器” 能够通过学习历史操作,帮助智能体快速完成重复任务,性能提升达到2-3倍。MobiAgent 的核心在于其高效的数据收集和智能训练流程。它通过轻量级工具记录用户的手机操作,然后利用通用 VLM 模型生成高质量的训练数据。这些数据经过精炼调整,确保训练 ...
马斯克最近爆料称,他所创立的 xAI 公司的整个代码库遭到窃取。这一消息震惊了科技界,xAI 已经对一名前员工提起诉讼,指控他窃取了公司的商业机密,且此人已跳槽至竞争对手 OpenAI。据悉,涉事的前员工名叫 Xuechen Li,他曾是 xAI 的核心成员之一。根据 xAI 向加州北区联邦地方法院递交的起诉书,Li 面临四项指控,涉及违反保密协议、侵犯商业秘密、违反加州计算机数据法规以及欺诈。xAI 要求法院对 Li 实施禁令,禁止其在 OpenAI 等竞争对手工作,并要求其归还所有被盗取的数据。事件的起因追溯到 Li 于7月28日从 xAI 辞职,辞职前的三天,他便已将大量公司的数据上传至个人系统。令人瞩目的是,在辞职前夕,Li 还将手中的 xAI 股份套现,获得了近700万美元的收益。虽然 Li 在离职时签署了相关文件,承诺归还公司财产和删除所有副本,但他仍然采取了一系列手段来掩盖其窃密行为。根据 xAI 的调查,8月11日,公司的安全软件检测到数据外泄的迹象,随即向 Li 发函要求他归还被盗信息。可 Li 不但没有配合,反而更改了存储盗取数据的账户密码,试图阻止公司的访问和恢复 ...
近日,阿里巴巴 Qwen 团队推出了两款革命性的产品 ——Mobile-Agent-v3和 GUI-Owl,这些工具旨在解决图形用户界面(GUI)自动化中的一系列挑战。现代计算设备普遍采用图形用户界面,然而,以往的自动化方法往往依赖于复杂的脚本和手工规则,效果并不理想。GUI-Owl 作为一种新型的多模态代理模型,构建于 Qwen2.5-VL 之上,并在大量 GUI 交互数据上进行了后续训练,旨在提升任务理解和执行的能力。GUI-Owl 的设计初衷是处理真实世界中 GUI 环境的多样性和动态性。它通过整合感知、推理、规划和执行能力,提供了一个统一的政策网络。这种设计使得它能够在复杂的任务中进行多轮决策,同时实现清晰的推理过程,适应实际使用中的变化。为了确保高质量的数据支持,团队开发了一个自我演化的数据生产管道。该管道生成真实应用程序导航流程,并通过人类注释进行验证,确保了生成数据的真实性和有效性。此外,团队还使用了多种数据合成策略,以丰富模型的学习内容,使其在任务执行时具备更强的适应性和灵活性。Mobile-Agent-v3框架则侧重于多代理的协作,它将复杂任务分解为子目标,通过动态更 ...
9月1日,阶跃星辰正式发布最强开源端到端语音大模型Step-Audio2mini。该模型在多个国际基准测试集上取得了SOTA(State-of-the-Art)成绩,将语音理解、音频推理与生成统一建模,在音频理解、语音识别、跨语种翻译、情感与副语言解析、语音对话等任务中表现突出,并率先支持语音原生的Tool Calling能力,可实现联网搜索等操作。Step-Audio2mini被形容为“听得清楚、想得明白、说得自然”,其模型现已上线GitHub、Hugging Face等平台,供用户下载、试用并反馈。Step-Audio2mini在多个关键基准测试中取得SOTA成绩,在音频理解、语音识别、翻译和对话场景中表现卓越,综合性能超越Qwen-Omni、Kimi-Audio等所有开源端到端语音模型,并在大部分任务上超越GPT-4o Audio。在通用多模态音频理解测试集MMAU上,Step-Audio2mini以73.2的得分位列开源端到端语音模型榜首;在衡量口语对话能力的URO Bench上,Step-Audio2mini在基础与专业赛道均拿下开源端到端语音模型最高分;在中英互译任务上,S ...