据TechCrunch获得的营销文件和两名知情人士透露,专注于为OpenAI、Meta等科技公司提供AI模型训练专家的初创公司Mercor正在与投资者就C轮融资进行谈判。该公司目前寻求 100 亿美元或更高的估值,较几个月前讨论的 80 亿美元目标估值有所上升。据两名消息人士透露,此前投资过Mercor的风投公司Felicis正在考虑在C轮融资中继续加码投资。不过Felicis拒绝对此发表评论。知情人士表示,最终交易条款仍可能发生变化。Mercor向潜在投资者表示,公司已经收到了多份投资意向。据The Information此前报道,风投公司一直主动联系Mercor,提出高达 100 亿美元的估值投资意向。TechCrunch了解到,该公司已经引入了至少两家新投资者,通过特殊目的载体为这笔潜在交易筹集资金。该公司上一轮融资是今年 2 月宣布的 1 亿美元B轮融资,估值 20 亿美元,由Felicis领投。成立于 2022 年的Mercor目前年化收入已接近4. 5 亿美元。该公司今年 2 月告诉TechCrunch,其年收入已达到 7500 万美元。今年 3 月,Mercor首席执行官 ...
腾讯混元发布了其最新的生图模型 “混元图像2.1(HunyuanImage2.1)”。这一全新的开源文生图模型在多个方面进行了重要升级,支持原生2K 分辨率图像生成,旨在为设计师和视觉创作者提供更高效、更便捷的创作工具。在这次更新中,混元图像2.1在性能与生成效果之间找到了更好的平衡。它不仅支持中英文原生输入,还能生成高质量的复杂语义文本。这一特性让创作者能够轻松生成多样化的图像作品,无论是精美的插画、富有创意的海报,还是多样的漫画形式,都能快速实现。混元图像2.1的升级还得益于其庞大的图文对齐数据集,使得模型在复杂语义理解和跨领域泛化能力上有了显著提升。它支持最长1000个 tokens 的提示词,可以精准生成场景细节、人物表情和动作,允许对多物体进行分别描述和控制。此外,新模型在处理图像中的文字信息方面也表现出色,能够自然地将文字与画面相融合,提升了作品的整体美感。作为一款开源模型,混元图像2.1的代码和权重已经在 Hugging Face 和 GitHub 等平台上发布。个人和企业开发者都可以基于这一基础模型进行进一步的研究和开发,满足不同的衍生需求。未来,腾讯还透露了一款原生多 ...
苹果公司周二在新品发布会上正式推出了iPhone17系列产品线,包括iPhone17、17Pro、17Pro Max以及全新的超薄版本iPhone Air。这款采用”Air”命名的新机型延续了苹果在MacBook Air和iPad Air产品上的轻薄设计理念,同时也回应了智能手机行业此前对超薄设计的追求。iPhone Air的命名策略旨在强调产品的轻薄特性,并与苹果其他”Air”系列产品形成呼应,这些产品通常以轻便和相对较低的价格定位著称。然而,在当前的人工智能时代,设备的物理尺寸已不再是最关键的竞争要素,软件功能和AI能力才是消费者更加关注的焦点。在AI技术应用方面,苹果在此次发布会上的表现相对有限。公司仅在少数几个场合提及AI技术,主要是重申了今年6月在全球开发者大会上已经发布的功能更新,如Visual Intelligence和设备端AI模型,以及在摄像头升级中的部分AI应用,比如iPhone17前置摄像头的Center Stage功能。值得注意的是,发布会上最引人注目的AI应用并非手机功能升级,而是即将应用于AirPods3的AI驱动实时翻译功能。更令人意外的是,苹果在整场发布 ...
近日,上海交通大学的 IPADS 实验室团队推出了一款名为 MobiAgent 的全新移动端智能体工具链,打破了个人化智能助手的开发壁垒,声称其真实场景表现优于 GPT-5和其他顶级闭源模型。MobiAgent 的推出让每个人都有机会培养属于自己的 AI 助手。这个工具链支持用户从零开始构建移动端智能体,包括从收集操作数据到训练模型,再到将模型部署到手机上的完整流程。MobiAgent 的开源性质,意味着用户可以自主获取数据、训练模型,并在个人设备上实现智能助手的应用。为了验证 MobiAgent 的实际能力,研究团队在国内20款热门应用中进行了测试,结果显示,7B 规模的 MobiAgent 模型在任务完成评分上,不仅超越了多款知名闭源大模型,甚至在同规模的开源 GUI 智能体中也处于领先地位。MobiAgent 独特的 “潜记忆加速器” 能够通过学习历史操作,帮助智能体快速完成重复任务,性能提升达到2-3倍。MobiAgent 的核心在于其高效的数据收集和智能训练流程。它通过轻量级工具记录用户的手机操作,然后利用通用 VLM 模型生成高质量的训练数据。这些数据经过精炼调整,确保训练 ...
马斯克最近爆料称,他所创立的 xAI 公司的整个代码库遭到窃取。这一消息震惊了科技界,xAI 已经对一名前员工提起诉讼,指控他窃取了公司的商业机密,且此人已跳槽至竞争对手 OpenAI。据悉,涉事的前员工名叫 Xuechen Li,他曾是 xAI 的核心成员之一。根据 xAI 向加州北区联邦地方法院递交的起诉书,Li 面临四项指控,涉及违反保密协议、侵犯商业秘密、违反加州计算机数据法规以及欺诈。xAI 要求法院对 Li 实施禁令,禁止其在 OpenAI 等竞争对手工作,并要求其归还所有被盗取的数据。事件的起因追溯到 Li 于7月28日从 xAI 辞职,辞职前的三天,他便已将大量公司的数据上传至个人系统。令人瞩目的是,在辞职前夕,Li 还将手中的 xAI 股份套现,获得了近700万美元的收益。虽然 Li 在离职时签署了相关文件,承诺归还公司财产和删除所有副本,但他仍然采取了一系列手段来掩盖其窃密行为。根据 xAI 的调查,8月11日,公司的安全软件检测到数据外泄的迹象,随即向 Li 发函要求他归还被盗信息。可 Li 不但没有配合,反而更改了存储盗取数据的账户密码,试图阻止公司的访问和恢复 ...
近日,阿里巴巴 Qwen 团队推出了两款革命性的产品 ——Mobile-Agent-v3和 GUI-Owl,这些工具旨在解决图形用户界面(GUI)自动化中的一系列挑战。现代计算设备普遍采用图形用户界面,然而,以往的自动化方法往往依赖于复杂的脚本和手工规则,效果并不理想。GUI-Owl 作为一种新型的多模态代理模型,构建于 Qwen2.5-VL 之上,并在大量 GUI 交互数据上进行了后续训练,旨在提升任务理解和执行的能力。GUI-Owl 的设计初衷是处理真实世界中 GUI 环境的多样性和动态性。它通过整合感知、推理、规划和执行能力,提供了一个统一的政策网络。这种设计使得它能够在复杂的任务中进行多轮决策,同时实现清晰的推理过程,适应实际使用中的变化。为了确保高质量的数据支持,团队开发了一个自我演化的数据生产管道。该管道生成真实应用程序导航流程,并通过人类注释进行验证,确保了生成数据的真实性和有效性。此外,团队还使用了多种数据合成策略,以丰富模型的学习内容,使其在任务执行时具备更强的适应性和灵活性。Mobile-Agent-v3框架则侧重于多代理的协作,它将复杂任务分解为子目标,通过动态更 ...
9月1日,阶跃星辰正式发布最强开源端到端语音大模型Step-Audio2mini。该模型在多个国际基准测试集上取得了SOTA(State-of-the-Art)成绩,将语音理解、音频推理与生成统一建模,在音频理解、语音识别、跨语种翻译、情感与副语言解析、语音对话等任务中表现突出,并率先支持语音原生的Tool Calling能力,可实现联网搜索等操作。Step-Audio2mini被形容为“听得清楚、想得明白、说得自然”,其模型现已上线GitHub、Hugging Face等平台,供用户下载、试用并反馈。Step-Audio2mini在多个关键基准测试中取得SOTA成绩,在音频理解、语音识别、翻译和对话场景中表现卓越,综合性能超越Qwen-Omni、Kimi-Audio等所有开源端到端语音模型,并在大部分任务上超越GPT-4o Audio。在通用多模态音频理解测试集MMAU上,Step-Audio2mini以73.2的得分位列开源端到端语音模型榜首;在衡量口语对话能力的URO Bench上,Step-Audio2mini在基础与专业赛道均拿下开源端到端语音模型最高分;在中英互译任务上,S ...
自今年6月以来,尽管Meta向数据标注公司Scale AI投资了高达143亿美元,并聘请其首席执行官Alexandr Wang等高管加盟Meta Superintelligence Labs (MSL),但双方的关系似乎正面临挑战。核心问题源于数据质量的争议。尽管进行了巨额投资,但消息人士透露,Meta核心AI部门TBD Labs的研究人员普遍认为Scale AI的数据质量不佳,更倾向于与Scale AI的主要竞争对手Mercor和Surge合作。Meta的TBD Labs在成立前就已与这两家公司有合作,但向一家数据供应商投入如此巨资后,仍然依赖其竞争对手的情况十分罕见。这种现象背后反映出数据标注行业的变化。早期,Scale AI的众包模式依赖低成本劳动力处理简单任务,但随着AI模型复杂化,需要医生、律师等高技能领域专家来提供高质量数据。尽管Scale AI推出了Outlier平台,但像Mercor和Surge这样从一开始就建立在高薪人才模式上的竞争对手正迅速崛起。除了商业合作上的紧张,双方的人事整合也遭遇挫折。Scale AI前高管Ruben Mayer在加入Meta仅两个月后便离职 ...
在人工智能的快速发展中,Meta 与加州大学圣地亚哥分校(UCSD)合作,推出了一项名为 “DeepConf” 的创新技术。这项新技术在高难度推理题的准确性和计算成本方面取得了突破性的进展,成为业界关注的焦点。DeepConf 解决了长期以来困扰人工智能领域的一个核心问题:如何在进行复杂推理时保持高准确率的同时,降低计算资源的消耗。此次技术的推出,尤其是在 AIME2025数学竞赛中的表现,更是让人惊叹。DeepConf 与开源的 GPT-OSS-120B 模型结合,取得了高达99.9% 的准确率,并成功将计算资源的使用减少了84.7%。传统的推理方法往往依赖于生成大量不同解题思路,然后进行投票选出最佳答案。然而,这种方法在准确性和计算开销上面临重大挑战。Meta 与 UCSD 的研究团队指出,过多的解题路径可能导致效益递减,甚至可能由于低质量答案影响最终结果。此外,传统方法还需要消耗大量计算资源,这在经济上并不可行。DeepConf 通过引入 “置信度” 机制,改变了传统的推理模式。AI 在解题过程中会对每一步的信心进行评估,如果发现某一步骤的信心不足,就会及时停止并调整解题策略。这 ...
AI语音交互的天花板被彻底突破了!OpenAI刚刚正式发布的GPT-realtime语音模型,以其前所未有的自然流畅度和情感表达力,瞬间引爆了整个科技圈。这不再是那种机械化的合成语音,而是一个能够精准模拟人类语调、情感波动和语速变化的超级语音大脑。GPT-realtime的核心突破在于它对人类语音细节的极致还原。传统的AI语音系统往往听起来生硬僵化,缺乏人类交流中那种自然的韵律感和情感色彩。而GPT-realtime却能够捕捉到语音交流中最微妙的元素,从轻快的笑声到深沉的思考停顿,从激动的语速飙升到温和的音调转换,每一个细节都被精准地融入到语音生成中。这款多模态语音模型的能力远超单纯的语音合成。它不仅能够处理语音对话,还具备强大的图像理解能力,可以同时结合视觉信息和语音交流进行综合分析和响应。这种多维度的信息处理能力,为构建更加智能化的AI助手奠定了坚实基础。在复杂指令执行方面,GPT-realtime展现出了令人惊叹的精准度。它能够完美处理那些对传统语音系统极具挑战性的任务,比如逐字母拼读复杂单词、按照特定节奏朗读数字序列、在句子中间无缝切换不同语言等。这种精细化的控制能力,让AI语 ...