在开源大模型的竞争中,阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。这款模型的显著特点是显存使用减少了50%,在同等处理能力下,更加适合普通消费者的 GPU 设备。这一创新标志着阿里在多模态人工智能领域的进一步突破。Qwen2.5-Omni 是一款端到端的多模态模型,能够同时处理文本、图像、音频和视频等多种信息类型。得益于其独特的 “Thinker-Talker” 架构,模型能够在实时互动中灵活运用多种输入,生成相应的文本和自然语音回应。这种设计使得用户在与系统的互动中,能够获得更流畅、更自然的体验。显存优化,兼容性增强与 Qwen2.5-Omni-7B 模型相比,3B 版本在处理长上下文序列时,显存显著降低,使得其在24GB 的消费级 GPU 上仍能支持长达30秒的音视频交互。这一优化不仅提升了模型的适用性,也让更多用户能够在个人计算机上实现高效的多模态处理,解决了以往因显存不足导致的使用障碍。实时语音与视频聊天功能Qwen2.5-Omni 的核心优势之一是其支持完全实时的语音和视频聊天功能。该模型能够处理分块输入并即时输出响应,展现出卓越的鲁棒性和自然度。这种技 ...
在人工智能领域,最近一项重磅技术发布引发广泛关注 ——DeepSeek-Prover-V2。这一模型不仅在推理性能上取得了显著提升,还被誉为通向人工通用智能(AGI)的关键一步。DeepSeek-Prover-V2在推理能力和训练效率上都进行了革命性的创新,给数学推理研究带来了新的希望。DeepSeek-Prover-V2提供了两种不同规模的模型:671B 和7B 参数。特别是671B 参数的版本,其推理性能在 DeepSeek-V3-Base 的基础上得到了显著增强,适用于更复杂的数学问题。而7B 版本则基于 DeepSeek-Prover-V1.5-Base 构建,支持高达32K 的上下文长度,能够处理更为复杂的推理任务。DeepSeek-Prover-V2的核心在于其训练方法 —— 递归与强化学习的结合。该模型能够将复杂的数学定理拆解为一系列子目标,并通过智能算法选择最优解。在冷启动阶段,DeepSeek-V3会首先提示模型将复杂问题分解为可管理的小目标,随后利用强化学习整合这些小目标的证明,从而形成一个完整的思维链。该技术不仅提高了数学证明的效率,还揭示了 AI “黑盒” 行为 ...
根据最近解封的法庭文件,Meta 公司对其生成式人工智能产品的营收进行了大胆预测。公司预计在2025年,这些产品的营收将达到20亿到30亿美元,而到2035年,这一数字可能会飙升至4600亿到1.4万亿美元。这些文件是针对一宗诉讼而提交的,书籍作者们控告 Meta 未授权使用他们的作品进行人工智能的训练。然而,文件中并没有明确说明 Meta 所称的 “生成式人工智能产品” 具体包括哪些内容。尽管如此,公众已知 Meta 通过多种方式从生成式人工智能中获利,并且未来有望获得更多收入。Meta 与一些公司达成了收入分享协议,这些公司托管其开放的 Llama 模型集合。公司最近还推出了一个 API,允许用户自定义和评估 Llama 模型。此外,Meta 的人工智能助手 Meta AI 在未来可能会显示广告,并提供额外功能的订阅选项。Meta 的首席执行官马克・扎克伯格在公司第一季度财报电话会议上提到这一点。此外,法庭文件还透露 Meta 在其人工智能产品组方面投入了巨额资金。2024年,该公司的 “生成式人工智能” 预算超过了9亿美元,而在2025年,这一预算可能会超过10亿美元。这些支出不 ...
Anthropic周四发布重大更新,为旗下AI聊天机器人Claude引入全新的应用连接方式“Integrations”,并扩展了“深度研究”功能至“Advanced Research”,使Claude能够搜索网络、企业账户等更广泛的数据源。“Integrations”和“Advanced Research”目前面向Claude Max、Team和Enterprise计划用户开放Beta测试,Pro版用户也将很快体验到。此外,Anthropic还提高了其AI驱动的编码工具Claude Code的Max用户使用频率限制。这两项新功能是Anthropic追赶谷歌Gemini和OpenAI ChatGPT等竞争对手的关键举措。据报道,Anthropic的目标是在 2027 年实现 345 亿美元的营收,尽管目前进展良好,但仍有提升空间。“Integrations”基于Anthropic的MCP协议,该协议允许AI模型从业务工具、内容存储库和应用开发环境等来源获取数据以完成任务。通过MCP,“Integrations”允许开发者创建和托管应用服务器,增强Claude的功能,并方便用户发现和连接这 ...
人工智能领域知名的公共基准测试平台LMArena近日遭遇信任危机。一项新的研究指出,该平台的排名系统存在偏袒OpenAI、谷歌和Meta等大型供应商的结构性问题,其不透明的流程和头部企业的固有优势可能导致排名失真。然而,LMArena运营团队已公开否认这些指控。LMArena通过向用户展示不同大型语言模型(LLM)的回复对比,并由用户投票选出更优者,最终形成广泛被行业引用的模型性能排行榜。企业常借此展示自身模型的优越性。但由Cohere Labs、普林斯顿大学和麻省理工学院的研究人员联合进行的一项分析,基于2024年1月至2025年4月期间收集的超过280万条模型比较记录,揭示了LMArena排名可能存在的偏差。研究人员认为,Meta、谷歌和OpenAI等公司能够私下测试其模型的多个版本,并仅选择性能最佳的版本公开展示在排行榜上,其余版本则被移除。这种被称为“分数游戏”的做法,使得最终发布的模型往往是经过精心挑选的“尖子生”。例如,Meta在发布Llama4之前至少测试了27个内部版本。Meta随后也承认,在用户批评后,他们部署了专门针对基准测试优化的Llama4聊天机器人,而其未经 ...
工智能公司Anthropic向白宫发出呼吁,要求进一步加强针对人工智能扩散的出口管制。这些出口管制自今年五月中旬起,将限制或禁止将高端 GPU 及加速器出售给中国及部分国家。Anthropic表示,现有的出口管制措施仍不足以遏制走私芯片流入中国,从而推动其人工智能的持续进步。Anthropic在一份简报中指出,中国在一月份发布的免费大型语言模型(LLM)已经在某些基准测试中超越了美国公司的模型,这让许多西方人工智能公司感到担忧。针对美国政府发布的三层次出口管制方案,Anthropic希望对第二层次国家的技术购买限制进一步收紧,目前这些国家可以在无需政府批准的情况下购买价值约4000万美元的 Nvidia H100先进芯片。Anthropic建议特朗普政府调整出口管制的层级,并希望能够增加对第二层次国家的分配条件,但要求这些国家必须具备 “强有力” 的数据中心安全措施,并与美国政府达成防止走私的协议。同时,Anthropic还提到需要增加对出口执法的资金支持,以提高管制的有效性。然而,Anthropic的呼吁与美国芯片设计公司,特别是 Nvidia 的立场形成鲜明对比。Nvidia 首席 ...
在图像生成领域,Midjourney 近期推出了一项名为 “Omni-Reference”(全向参考)的新功能,为用户带来了更大的创作自由。这一全新图像引用系统不仅是 V6版本中 “角色参考” 功能的升级版,更是赋予用户在创作过程中对图像元素的精准控制。核心功能:全向参考与多元素支持Omni-Reference通过先进的图像参考系统,为用户提供了前所未有的创作控制力。AIbase梳理了其主要亮点: 精准元素指定:用户可上传参考图像(如人物、动物、武器或车辆),通过提示明确要求“将此元素放入图像”,生成结果高度匹配参考特征。 多样化支持:支持人物、动物、非人类生物、道具、车辆、物体,甚至整套角色造型或风格元素,适用范围远超V6的角色参考。 多对象生成:支持单张图像包含多个对象(如两个角色)或上传多张参考图像,提示中明确描述即可生成复杂场景。 灵活权重调整:通过“全向权重”(–ow)参数(范围0-1000,默认100)控制参考图像的影响强度,低权重(如–ow25)适合风格转换(如照片转动漫),高权重(如–ow400)确保面部或服装细节高度一致。 生态兼容性:无缝集成个性化(Per ...
微软正积极扩展其Phi系列紧凑型语言模型,最新发布了三款专为高级推理任务设计的新变体:Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning。这些模型旨在通过结构化推理和内部反思处理复杂的问答,同时保持轻量级特性,使其能够在包括移动设备在内的低端硬件上高效运行,延续了微软Phi系列在资源受限设备上实现强大AI功能的愿景。Phi-4-reasoning 拥有140亿个参数,并借鉴OpenAI o3-mini的推理路径,通过监督微调进行训练。更高级的Phi-4-reasoning-plus在此基础上增加了强化学习机制,处理的token数量是基础模型的1.5倍,从而提升了准确率,但同时也增加了响应时间和计算成本。令人瞩目的是,尽管参数量仅为140亿,Phi-4推理模型的性能却能匹敌甚至超越参数量高达700亿的DeepSeek-R1-Distill-Llama等大型模型。在著名的美国数学奥林匹克预选赛AIME-2025基准测试中,Phi模型甚至超越了拥有6710亿参数的DeepSeek-R1。微软表示,这些模型在编程、算法问题解决 ...
在人工智能领域,Meta 公司最近推出了 WebSSL 系列模型,这一系列模型的参数规模从3亿到70亿不等,基于纯图像数据进行训练,旨在探索无语言监督的视觉自监督学习(SSL)的巨大潜力。这一新研究为未来的多模态任务带来了新的可能性,也为我们理解视觉表征的学习方式提供了新的视角。过去,OpenAI 的 CLIP 模型因其在视觉问答(VQA)和文档理解等多模态任务中的优异表现而备受关注。然而,由于数据集的获取复杂性及其规模限制,基于语言的学习方法面临诸多挑战。为了应对这一问题,Meta 决定利用自身的 MetaCLIP 数据集(MC-2B)中的20亿张图像进行训练,完全排除了语言监督的影响。这一策略让研究者们能够深入评估纯视觉自监督学习的表现,而不被数据和模型规模所限制。WebSSL 模型采用了两种主要的视觉自监督学习范式:联合嵌入学习(DINOv2)和掩码建模(MAE)。所有模型均使用224×224分辨率的图像进行训练,同时冻结视觉编码器,从而确保结果的差异仅源于预训练策略。这一系列模型在五个容量层级(ViT-1B 至 ViT-7B)上进行训练,并通过 Cambrian-1基准测试进行 ...
4月25日,字节跳动旗下的火山引擎宣布,其最新发布的豆包1.5·深度思考模型已全面上线边缘大模型网关,并为用户提供高达500万tokens的免费使用额度,这一举措在AI领域引起了广泛关注。豆包1.5·深度思考模型是火山引擎推出的高性能AI模型,它在数学、代码和科学等专业领域的推理任务中表现卓越,已达到或接近全球顶尖水平。该模型不仅在推理任务中表现出色,在创意写作等非推理任务中也展现出强大的泛化能力,能够应对更广泛和复杂的使用场景。此次发布的豆包1.5包含两个版本:一个是推理能力更强的大语言模型Doubao-1.5-thinking-pro,另一个是支持视觉推理的多模态版本。火山引擎边缘大模型网关为豆包1.5·深度思考模型提供了强大的支持。用户现在可以在边缘大模型网关上使用豆包全系列模型,并享受200万tokens的免费额度。此外,如果用户在网关访问密钥中使用了新增的豆包大模型,还可以申请将免费额度提升至500万tokens。边缘大模型网关通过一个API接口,使用户能够访问多家大模型提供商的模型与智能体。它利用遍布全球的边缘计算节点,实现就近调用,从而提高模型访问速度,为终端用户提供更快 ...