人工智能领域知名的公共基准测试平台LMArena近日遭遇信任危机。一项新的研究指出,该平台的排名系统存在偏袒OpenAI、谷歌和Meta等大型供应商的结构性问题,其不透明的流程和头部企业的固有优势可能导致排名失真。然而,LMArena运营团队已公开否认这些指控。LMArena通过向用户展示不同大型语言模型(LLM)的回复对比,并由用户投票选出更优者,最终形成广泛被行业引用的模型性能排行榜。企业常借此展示自身模型的优越性。但由Cohere Labs、普林斯顿大学和麻省理工学院的研究人员联合进行的一项分析,基于2024年1月至2025年4月期间收集的超过280万条模型比较记录,揭示了LMArena排名可能存在的偏差。研究人员认为,Meta、谷歌和OpenAI等公司能够私下测试其模型的多个版本,并仅选择性能最佳的版本公开展示在排行榜上,其余版本则被移除。这种被称为“分数游戏”的做法,使得最终发布的模型往往是经过精心挑选的“尖子生”。例如,Meta在发布Llama4之前至少测试了27个内部版本。Meta随后也承认,在用户批评后,他们部署了专门针对基准测试优化的Llama4聊天机器人,而其未经 ...
工智能公司Anthropic向白宫发出呼吁,要求进一步加强针对人工智能扩散的出口管制。这些出口管制自今年五月中旬起,将限制或禁止将高端 GPU 及加速器出售给中国及部分国家。Anthropic表示,现有的出口管制措施仍不足以遏制走私芯片流入中国,从而推动其人工智能的持续进步。Anthropic在一份简报中指出,中国在一月份发布的免费大型语言模型(LLM)已经在某些基准测试中超越了美国公司的模型,这让许多西方人工智能公司感到担忧。针对美国政府发布的三层次出口管制方案,Anthropic希望对第二层次国家的技术购买限制进一步收紧,目前这些国家可以在无需政府批准的情况下购买价值约4000万美元的 Nvidia H100先进芯片。Anthropic建议特朗普政府调整出口管制的层级,并希望能够增加对第二层次国家的分配条件,但要求这些国家必须具备 “强有力” 的数据中心安全措施,并与美国政府达成防止走私的协议。同时,Anthropic还提到需要增加对出口执法的资金支持,以提高管制的有效性。然而,Anthropic的呼吁与美国芯片设计公司,特别是 Nvidia 的立场形成鲜明对比。Nvidia 首席 ...
在图像生成领域,Midjourney 近期推出了一项名为 “Omni-Reference”(全向参考)的新功能,为用户带来了更大的创作自由。这一全新图像引用系统不仅是 V6版本中 “角色参考” 功能的升级版,更是赋予用户在创作过程中对图像元素的精准控制。核心功能:全向参考与多元素支持Omni-Reference通过先进的图像参考系统,为用户提供了前所未有的创作控制力。AIbase梳理了其主要亮点: 精准元素指定:用户可上传参考图像(如人物、动物、武器或车辆),通过提示明确要求“将此元素放入图像”,生成结果高度匹配参考特征。 多样化支持:支持人物、动物、非人类生物、道具、车辆、物体,甚至整套角色造型或风格元素,适用范围远超V6的角色参考。 多对象生成:支持单张图像包含多个对象(如两个角色)或上传多张参考图像,提示中明确描述即可生成复杂场景。 灵活权重调整:通过“全向权重”(–ow)参数(范围0-1000,默认100)控制参考图像的影响强度,低权重(如–ow25)适合风格转换(如照片转动漫),高权重(如–ow400)确保面部或服装细节高度一致。 生态兼容性:无缝集成个性化(Per ...
微软正积极扩展其Phi系列紧凑型语言模型,最新发布了三款专为高级推理任务设计的新变体:Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning。这些模型旨在通过结构化推理和内部反思处理复杂的问答,同时保持轻量级特性,使其能够在包括移动设备在内的低端硬件上高效运行,延续了微软Phi系列在资源受限设备上实现强大AI功能的愿景。Phi-4-reasoning 拥有140亿个参数,并借鉴OpenAI o3-mini的推理路径,通过监督微调进行训练。更高级的Phi-4-reasoning-plus在此基础上增加了强化学习机制,处理的token数量是基础模型的1.5倍,从而提升了准确率,但同时也增加了响应时间和计算成本。令人瞩目的是,尽管参数量仅为140亿,Phi-4推理模型的性能却能匹敌甚至超越参数量高达700亿的DeepSeek-R1-Distill-Llama等大型模型。在著名的美国数学奥林匹克预选赛AIME-2025基准测试中,Phi模型甚至超越了拥有6710亿参数的DeepSeek-R1。微软表示,这些模型在编程、算法问题解决 ...
在人工智能领域,Meta 公司最近推出了 WebSSL 系列模型,这一系列模型的参数规模从3亿到70亿不等,基于纯图像数据进行训练,旨在探索无语言监督的视觉自监督学习(SSL)的巨大潜力。这一新研究为未来的多模态任务带来了新的可能性,也为我们理解视觉表征的学习方式提供了新的视角。过去,OpenAI 的 CLIP 模型因其在视觉问答(VQA)和文档理解等多模态任务中的优异表现而备受关注。然而,由于数据集的获取复杂性及其规模限制,基于语言的学习方法面临诸多挑战。为了应对这一问题,Meta 决定利用自身的 MetaCLIP 数据集(MC-2B)中的20亿张图像进行训练,完全排除了语言监督的影响。这一策略让研究者们能够深入评估纯视觉自监督学习的表现,而不被数据和模型规模所限制。WebSSL 模型采用了两种主要的视觉自监督学习范式:联合嵌入学习(DINOv2)和掩码建模(MAE)。所有模型均使用224×224分辨率的图像进行训练,同时冻结视觉编码器,从而确保结果的差异仅源于预训练策略。这一系列模型在五个容量层级(ViT-1B 至 ViT-7B)上进行训练,并通过 Cambrian-1基准测试进行 ...
4月25日,字节跳动旗下的火山引擎宣布,其最新发布的豆包1.5·深度思考模型已全面上线边缘大模型网关,并为用户提供高达500万tokens的免费使用额度,这一举措在AI领域引起了广泛关注。豆包1.5·深度思考模型是火山引擎推出的高性能AI模型,它在数学、代码和科学等专业领域的推理任务中表现卓越,已达到或接近全球顶尖水平。该模型不仅在推理任务中表现出色,在创意写作等非推理任务中也展现出强大的泛化能力,能够应对更广泛和复杂的使用场景。此次发布的豆包1.5包含两个版本:一个是推理能力更强的大语言模型Doubao-1.5-thinking-pro,另一个是支持视觉推理的多模态版本。火山引擎边缘大模型网关为豆包1.5·深度思考模型提供了强大的支持。用户现在可以在边缘大模型网关上使用豆包全系列模型,并享受200万tokens的免费额度。此外,如果用户在网关访问密钥中使用了新增的豆包大模型,还可以申请将免费额度提升至500万tokens。边缘大模型网关通过一个API接口,使用户能够访问多家大模型提供商的模型与智能体。它利用遍布全球的边缘计算节点,实现就近调用,从而提高模型访问速度,为终端用户提供更快 ...
一款名为3DV-TON(Textured3D-Guided Consistent Video Try-on via Diffusion Models)的创新技术正式亮相,通过扩散模型实现纹理3D引导的视频试穿体验。据AIbase了解,3DV-TON利用先进的3D几何与纹理建模,结合视频扩散模型,确保服装在动态视频中的一致性与真实感,为电商、时尚和虚拟现实领域带来突破性应用。相关细节已通过学术平台与社交媒体公开。核心功能:3D纹理引导与视频一致性3DV-TON通过整合3D建模与视频生成技术,解决了传统虚拟试穿中动态不一致与纹理失真的难题。AIbase梳理了其主要亮点: 纹理3D引导:基于高分辨率3D人体模型,结合扩散模型生成服装纹理,确保服装贴合身体的几何细节,如褶边与光影效果。 视频一致性保障:利用视频扩散模型(如HunyuanVideo或Stable Video Diffusion),在多帧动态场景中保持服装的时空一致性,避免闪烁或形变。 高保真视觉效果:支持4K分辨率输出,服装纹理细节(如织物材质、图案)逼真,适配复杂动作与多视角展示。 多场景适配:支持从单张服装图像生成动 ...
Google DeepMind正式发布其最新音乐生成模型Lyria2,标志着人工智能在音乐创作领域的又一重大突破。这一全新模型通过高保真音频生成和专业级音质,为音乐家、制作人和创作者提供了更强大的创作工具。Lyria2:高保真音质,捕捉音乐细微之美Lyria2是DeepMind在音乐生成技术上的最新成果,相较于前代模型,它在音质和创作灵活性上实现了显著提升。据DeepMind官方介绍,Lyria2能够生成高保真音乐和专业级音频,覆盖多种音乐风格和复杂编曲,精准捕捉不同乐器和演奏风格的细微差别。无论是古典乐的优雅旋律,还是电子音乐的动感节奏,Lyria2都能通过简单的文本提示生成富有层次感的音乐作品。此外,Lyria2允许用户通过文本输入控制音乐的关键参数,如音调、节拍每分钟(BPM)等,为创作者提供了更高的创作自由度。例如,音乐家可以通过描述“欢快的爵士钢琴曲”或“史诗般的交响乐”来快速生成符合需求的音乐片段,极大地降低了创作门槛。Lyria RealTime:实时音乐生成新体验DeepMind此次还推出了Lyria RealTime,这是一项基于Lyria2的创新功能,支持用户进行实 ...
在最近的 Alphabet Q12025财报电话会议上,谷歌 CEO 皮查伊透露,谷歌目前超过30% 的代码是借助人工智能(AI)生成的。这意味着开发者在每三次代码更改中,就有一次是接受了 AI 的建议。皮查伊指出,随着更强大的模型和主动工作流程的引入,AI 辅助编程在各个团队中的应用势头强劲。主动工作流程是指能够规划和执行多步骤任务的 AI 系统。他表示:“我们正在公司各个部门推广这些更深层次的工作流程,” 并特别提到客户服务团队在应用 AI 方面的进展领先。Alphabet 于4月24日发布了2025年第一季度的财务结果,显示公司整体收入同比增长12%,达到了902亿美元,但与上一季度的965亿美元相比下降了6.5%。净收入上涨了46%,达到345亿美元,稀释每股收益上升了49%,至2.81美元。季度营业收入达到了306亿美元,较去年同期的255亿美元有所增长,营业利润率也从32% 扩大至34%。谷歌的核心广告业务仍然是主要驱动力,其中 Google 搜索和其他收入增长至507亿美元,较去年同期的462亿美元有所提升。YouTube 广告收入增加至89亿美元,而谷歌的订阅、平台和设 ...
在 4 月 25 日举行的 Create2025 百度 AI 开发者大会上,百度文库与百度网盘联合推出了两款行业领先的 AI 工具 ——“GenFlow 超能搭子” 和 “AI 笔记”。这两款产品旨在提升用户的工作和学习效率,实现更智能的生产力。“GenFlow 超能搭子” 是一个针对工作流的全面升级工具。用户只需输入简单的指令,AI 就会通过深度思考,自动规划每一步的任务,调用各种模型和工具,最终输出包括文案、PPT、图片等多种形式的内容。这款工具的独特之处在于它可以快速生成高质量的结果,并且所有使用的 AI 工具都经过数亿用户的验证,确保其稳定性和质量。此外,百度网盘推出的 “AI 笔记” 也是一个独特的产品,它在业内首创了一站式多模态 AI 笔记功能。用户在观看学习视频时,点击侧边栏的 “笔记” 按钮,就能自动生成全面、清晰、结构化的多模态笔记,内容包括大纲、解析、知识点对比、数学公式及图表小结等。这一功能极大地方便了用户在学习过程中的信息记录与整理,用户还可以一键生成思维导图和视频结构概览,以及基于视频内容出题,测试知识掌握情况。百度文库和百度网盘通过大模型技术实现了全面融合, ...