一款名为3DV-TON(Textured3D-Guided Consistent Video Try-on via Diffusion Models)的创新技术正式亮相,通过扩散模型实现纹理3D引导的视频试穿体验。据AIbase了解,3DV-TON利用先进的3D几何与纹理建模,结合视频扩散模型,确保服装在动态视频中的一致性与真实感,为电商、时尚和虚拟现实领域带来突破性应用。相关细节已通过学术平台与社交媒体公开。核心功能:3D纹理引导与视频一致性3DV-TON通过整合3D建模与视频生成技术,解决了传统虚拟试穿中动态不一致与纹理失真的难题。AIbase梳理了其主要亮点: 纹理3D引导:基于高分辨率3D人体模型,结合扩散模型生成服装纹理,确保服装贴合身体的几何细节,如褶边与光影效果。 视频一致性保障:利用视频扩散模型(如HunyuanVideo或Stable Video Diffusion),在多帧动态场景中保持服装的时空一致性,避免闪烁或形变。 高保真视觉效果:支持4K分辨率输出,服装纹理细节(如织物材质、图案)逼真,适配复杂动作与多视角展示。 多场景适配:支持从单张服装图像生成动 ...
Google DeepMind正式发布其最新音乐生成模型Lyria2,标志着人工智能在音乐创作领域的又一重大突破。这一全新模型通过高保真音频生成和专业级音质,为音乐家、制作人和创作者提供了更强大的创作工具。Lyria2:高保真音质,捕捉音乐细微之美Lyria2是DeepMind在音乐生成技术上的最新成果,相较于前代模型,它在音质和创作灵活性上实现了显著提升。据DeepMind官方介绍,Lyria2能够生成高保真音乐和专业级音频,覆盖多种音乐风格和复杂编曲,精准捕捉不同乐器和演奏风格的细微差别。无论是古典乐的优雅旋律,还是电子音乐的动感节奏,Lyria2都能通过简单的文本提示生成富有层次感的音乐作品。此外,Lyria2允许用户通过文本输入控制音乐的关键参数,如音调、节拍每分钟(BPM)等,为创作者提供了更高的创作自由度。例如,音乐家可以通过描述“欢快的爵士钢琴曲”或“史诗般的交响乐”来快速生成符合需求的音乐片段,极大地降低了创作门槛。Lyria RealTime:实时音乐生成新体验DeepMind此次还推出了Lyria RealTime,这是一项基于Lyria2的创新功能,支持用户进行实 ...
在最近的 Alphabet Q12025财报电话会议上,谷歌 CEO 皮查伊透露,谷歌目前超过30% 的代码是借助人工智能(AI)生成的。这意味着开发者在每三次代码更改中,就有一次是接受了 AI 的建议。皮查伊指出,随着更强大的模型和主动工作流程的引入,AI 辅助编程在各个团队中的应用势头强劲。主动工作流程是指能够规划和执行多步骤任务的 AI 系统。他表示:“我们正在公司各个部门推广这些更深层次的工作流程,” 并特别提到客户服务团队在应用 AI 方面的进展领先。Alphabet 于4月24日发布了2025年第一季度的财务结果,显示公司整体收入同比增长12%,达到了902亿美元,但与上一季度的965亿美元相比下降了6.5%。净收入上涨了46%,达到345亿美元,稀释每股收益上升了49%,至2.81美元。季度营业收入达到了306亿美元,较去年同期的255亿美元有所增长,营业利润率也从32% 扩大至34%。谷歌的核心广告业务仍然是主要驱动力,其中 Google 搜索和其他收入增长至507亿美元,较去年同期的462亿美元有所提升。YouTube 广告收入增加至89亿美元,而谷歌的订阅、平台和设 ...
在 4 月 25 日举行的 Create2025 百度 AI 开发者大会上,百度文库与百度网盘联合推出了两款行业领先的 AI 工具 ——“GenFlow 超能搭子” 和 “AI 笔记”。这两款产品旨在提升用户的工作和学习效率,实现更智能的生产力。“GenFlow 超能搭子” 是一个针对工作流的全面升级工具。用户只需输入简单的指令,AI 就会通过深度思考,自动规划每一步的任务,调用各种模型和工具,最终输出包括文案、PPT、图片等多种形式的内容。这款工具的独特之处在于它可以快速生成高质量的结果,并且所有使用的 AI 工具都经过数亿用户的验证,确保其稳定性和质量。此外,百度网盘推出的 “AI 笔记” 也是一个独特的产品,它在业内首创了一站式多模态 AI 笔记功能。用户在观看学习视频时,点击侧边栏的 “笔记” 按钮,就能自动生成全面、清晰、结构化的多模态笔记,内容包括大纲、解析、知识点对比、数学公式及图表小结等。这一功能极大地方便了用户在学习过程中的信息记录与整理,用户还可以一键生成思维导图和视频结构概览,以及基于视频内容出题,测试知识掌握情况。百度文库和百度网盘通过大模型技术实现了全面融合, ...
Gradio团队宣布ImageSlider2.0即将作为核心产品线的一部分正式推出,为图像生成爱好者和开发者带来一系列全新功能与性能增强。据AIbase了解,这一更新通过优化用户体验、扩展创作选项和提升生成效率,旨在重新定义AI驱动的图像滑动与展示体验。相关细节已在社交平台与Gradio官网公布,引发社区热烈反响。核心功能:多场景优化与创作自由度提升ImageSlider2.0通过技术革新与功能扩展,为用户提供了更灵活的图像生成与展示解决方案。AIbase梳理了其主要亮点: 增强型图像滑动体验:新增动态过渡效果与交互式导航,支持箭头、缩略图和触摸滑动,优化移动端与桌面端的用户体验。 多样化布局选项:提供滑块、网格、轮播等多种展示模式,用户可根据需求定制图像排列方式,如产品展示、艺术画廊或社交媒体内容。 高分辨率与视频支持:支持2K分辨率图像生成,新增视频播放与3D模型展示功能,适合电商、数字艺术与增强现实(AR)场景。 智能变体切换:自动适配产品变体图像(如颜色、尺寸),确保用户选择变体时仅显示相关图像,提升购物与浏览效率。 自定义样式与主题:允许调整颜色、字体、按钮形状与背 ...
今日,百度在武汉举办的Create2025AI开发者大会上,创始人李彦宏以“模型的世界,应用的天下”为主题发表近60分钟演讲,正式发布文心大模型4.5Turbo与X1Turbo版本,并披露DeepSeek模型在百度生态中的落地进展与现存挑战。李彦宏透露,百度旗下文小言、百度搜索、百度地图等核心产品已接入DeepSeek满血版模型,在智能客服、搜索增强等场景实现效率提升。但他同时坦言,DeepSeek目前仍存在技术局限:“该模型仅支持文本处理,无法完成图片、音频、视频的多模态内容生成,而百度智能云超六成企业客户对多模态能力有明确需求。”他以电商直播场景为例指出,DeepSeek因幻觉率偏高(即生成错误信息),在金融、医疗等高风险领域难以直接应用,“若在直播中错误推送‘买一送十’优惠,商家将面临不可控的损失”。此外,其响应速度较慢、调用成本偏高的问题也限制了规模化落地——当前中国市场多数大模型API调用成本低于DeepSeek满血版,且响应速度更快。针对上述痛点,百度此次发布的文心大模型双版本提出三大升级方向:多模态、强推理、低成本。李彦宏强调,多模态已成为下一代AI模型的“入场券”,“纯 ...
本文第一作者为陈宇辉,中科院自动化所直博三年级;通讯作者为李浩然,中科院自动化所副研;研究方向为强化学习、机器人学习、具身智能。视觉-语言-动作模型在真实世界的机器人操作任务中显示出巨大的潜力,但是其性能依赖于大量的高质量人类演示数据。由于人类演示十分稀缺且展现出行为的不一致性,通过监督学习的方式对 VLA 模型在下游任务上进行微调难以实现较高的性能,尤其是面向要求精细控制的任务。为此,中科院自动化所深度强化学习团队提出了一种面向 VLA 模型后训练的强化微调方法 ConRFT(Consistency-based Reinforced Fine-tuning)。其由离线和在线微调两阶段组成,并具有统一的基于一致性策略的训练目标。这项工作凸显了使用强化学习进行后训练以增强视觉-语言-动作模型在真实世界机器人应用中的潜力。目前,该论文已被机器人领域顶级会议 Robotics: Science and Systems XXI(RSS 2025)接收。论文标题:ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consiste ...
你想要的机会,可能在新加坡。今年的 ICLR 大会将于 4 月 24 日在新加坡开幕,想必很多从业者将前往现场参会。如果你也是其中之一,不妨关注一下另一份邀请 ——「云帆・ICLR 2025 AI Talent Meetup」。这是机器之心与上海人工智能实验室、东方菁汇、 黄大年茶思屋科技网站、蚂蚁技术研究院、全球高校人工智能学术联盟共同攒的饭局,旨在为企业和人才搭建沟通桥梁。在晚宴开始前,你可以在我们设置的企业岗位 poster 专区转上几圈,和感兴趣的机构、高校及企业深入交谈。无论你的目标是高校教职,还是大厂算法工程师,这场晚宴都能让你找到合适的机会。活动开始后,你可以听到有价值的技术分享,与演讲嘉宾产生思想碰撞。4 月 24 日,来「云帆・ICLR 2025 AI Talent Meetup」晚宴,一起来见见老朋友,结识新朋友,机会在等你。Meetup 日程活动时间签到 & 企业岗位 poster 交流:新加坡时间 4 月 24 日 16:00-17:30内场晚宴:新加坡时间 4 月 24 日 17:30-20:30活动地点新加坡・市中心活动规模200 人为了与众多青年才 ...
当AGI向着PhysicalAI物理具⾝智能时代演进,⼀场重塑未来认知的⻛暴正在悄然兴起。在2025SENSETIMETECHDAY商汤技术交流⽇上,灵宇宙创始⼈兼⾸席执⾏官顾嘉唯做了分享。他认为在当下AI技术从“⼯具属性”向“伙伴属性”跃迁,⼈机交互范式正在经历从“⼈适应机器”到“机器理解世界”的根本性变⾰。⼈们和世界的交互会随之发⽣巨变。下⼀代年轻⼈会开启全新的个性化教育模式,摆脱填鸭式教学让快乐学习成为⽇常。灵宇宙推出的新款AI终端(灵感源⾃电影《Her》),通过重塑⼈与物理世界的交互逻辑,重新定义学习⽅式让“世界即课堂,万物皆教材”成为现实。在这个背景下,灵宇宙开发出⼀款新产品「Ling!灵宇宙AI学伴(昵称:⼩⽅机)」(以下简称:Ling!),它是⼀个随⾝的AI助理和伙伴,搭载的⼀套物理世界的AI-OS,叫做LingOS,让学习的对象从⼀平⽶书桌来到更⼴域的整个物理空间,给孩⼦构建了⼀个专属的4D空间交互智能的“世界模型”,让他们在学习认知的成⻓的过程中获得更好的体验。灵宇宙是⼀家专注空间交互智能的创新公司,致⼒于构建新⼀代物理世界AI-OS,赋予机器⼈“灵魂”,让万物在AI ...
Llama 4 或许只是冰山一角。「AI 大模型自去年 8 月以来就没有太大进步」。这是一位 AI 创业者在近期的一篇博客中发表的观点。他在创业过程中发现,自去年 8 月以来,AI 大模型(如 Claude 3.7 等)在官方发布的基准测试上声称的巨大进步与实际应用场景中的有限提升之间存在明显脱节。这导致他们无法借助模型能力来提升产品体验。很多 YC 创业者也有类似的体验。作者认为,这其中可能的原因包括基准测试作弊、基准无法衡量实用性或模型实际很聪明但对齐存在瓶颈。如果不解决这些基础问题,AI 系统可能会在表面上显得很聪明,但在组合成社会系统时会出现根本问题。以下是博客原文: 模型得分与消费者体验脱节大约九个月前,我和三个朋友认为人工智能已经足够好,可以自主监控大型代码库的安全问题了。我们围绕这个任务成立了一家公司,试图利用最新的大模型能力来创建一种工具,用以取代至少很大一部分渗透测试人员的价值。我们从 2024 年 6 月开始从事这个项目。在公司成立后的头三个月内,Anthropic 的 Claude 3.5 sonnet 就发布了。只需切换在 GPT-4o 上运行的服务部分,我 ...