Gradio团队宣布ImageSlider2.0即将作为核心产品线的一部分正式推出,为图像生成爱好者和开发者带来一系列全新功能与性能增强。据AIbase了解,这一更新通过优化用户体验、扩展创作选项和提升生成效率,旨在重新定义AI驱动的图像滑动与展示体验。相关细节已在社交平台与Gradio官网公布,引发社区热烈反响。核心功能:多场景优化与创作自由度提升ImageSlider2.0通过技术革新与功能扩展,为用户提供了更灵活的图像生成与展示解决方案。AIbase梳理了其主要亮点: 增强型图像滑动体验:新增动态过渡效果与交互式导航,支持箭头、缩略图和触摸滑动,优化移动端与桌面端的用户体验。 多样化布局选项:提供滑块、网格、轮播等多种展示模式,用户可根据需求定制图像排列方式,如产品展示、艺术画廊或社交媒体内容。 高分辨率与视频支持:支持2K分辨率图像生成,新增视频播放与3D模型展示功能,适合电商、数字艺术与增强现实(AR)场景。 智能变体切换:自动适配产品变体图像(如颜色、尺寸),确保用户选择变体时仅显示相关图像,提升购物与浏览效率。 自定义样式与主题:允许调整颜色、字体、按钮形状与背 ...
今日,百度在武汉举办的Create2025AI开发者大会上,创始人李彦宏以“模型的世界,应用的天下”为主题发表近60分钟演讲,正式发布文心大模型4.5Turbo与X1Turbo版本,并披露DeepSeek模型在百度生态中的落地进展与现存挑战。李彦宏透露,百度旗下文小言、百度搜索、百度地图等核心产品已接入DeepSeek满血版模型,在智能客服、搜索增强等场景实现效率提升。但他同时坦言,DeepSeek目前仍存在技术局限:“该模型仅支持文本处理,无法完成图片、音频、视频的多模态内容生成,而百度智能云超六成企业客户对多模态能力有明确需求。”他以电商直播场景为例指出,DeepSeek因幻觉率偏高(即生成错误信息),在金融、医疗等高风险领域难以直接应用,“若在直播中错误推送‘买一送十’优惠,商家将面临不可控的损失”。此外,其响应速度较慢、调用成本偏高的问题也限制了规模化落地——当前中国市场多数大模型API调用成本低于DeepSeek满血版,且响应速度更快。针对上述痛点,百度此次发布的文心大模型双版本提出三大升级方向:多模态、强推理、低成本。李彦宏强调,多模态已成为下一代AI模型的“入场券”,“纯 ...
本文第一作者为陈宇辉,中科院自动化所直博三年级;通讯作者为李浩然,中科院自动化所副研;研究方向为强化学习、机器人学习、具身智能。视觉-语言-动作模型在真实世界的机器人操作任务中显示出巨大的潜力,但是其性能依赖于大量的高质量人类演示数据。由于人类演示十分稀缺且展现出行为的不一致性,通过监督学习的方式对 VLA 模型在下游任务上进行微调难以实现较高的性能,尤其是面向要求精细控制的任务。为此,中科院自动化所深度强化学习团队提出了一种面向 VLA 模型后训练的强化微调方法 ConRFT(Consistency-based Reinforced Fine-tuning)。其由离线和在线微调两阶段组成,并具有统一的基于一致性策略的训练目标。这项工作凸显了使用强化学习进行后训练以增强视觉-语言-动作模型在真实世界机器人应用中的潜力。目前,该论文已被机器人领域顶级会议 Robotics: Science and Systems XXI(RSS 2025)接收。论文标题:ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consiste ...
你想要的机会,可能在新加坡。今年的 ICLR 大会将于 4 月 24 日在新加坡开幕,想必很多从业者将前往现场参会。如果你也是其中之一,不妨关注一下另一份邀请 ——「云帆・ICLR 2025 AI Talent Meetup」。这是机器之心与上海人工智能实验室、东方菁汇、 黄大年茶思屋科技网站、蚂蚁技术研究院、全球高校人工智能学术联盟共同攒的饭局,旨在为企业和人才搭建沟通桥梁。在晚宴开始前,你可以在我们设置的企业岗位 poster 专区转上几圈,和感兴趣的机构、高校及企业深入交谈。无论你的目标是高校教职,还是大厂算法工程师,这场晚宴都能让你找到合适的机会。活动开始后,你可以听到有价值的技术分享,与演讲嘉宾产生思想碰撞。4 月 24 日,来「云帆・ICLR 2025 AI Talent Meetup」晚宴,一起来见见老朋友,结识新朋友,机会在等你。Meetup 日程活动时间签到 & 企业岗位 poster 交流:新加坡时间 4 月 24 日 16:00-17:30内场晚宴:新加坡时间 4 月 24 日 17:30-20:30活动地点新加坡・市中心活动规模200 人为了与众多青年才 ...
当AGI向着PhysicalAI物理具⾝智能时代演进,⼀场重塑未来认知的⻛暴正在悄然兴起。在2025SENSETIMETECHDAY商汤技术交流⽇上,灵宇宙创始⼈兼⾸席执⾏官顾嘉唯做了分享。他认为在当下AI技术从“⼯具属性”向“伙伴属性”跃迁,⼈机交互范式正在经历从“⼈适应机器”到“机器理解世界”的根本性变⾰。⼈们和世界的交互会随之发⽣巨变。下⼀代年轻⼈会开启全新的个性化教育模式,摆脱填鸭式教学让快乐学习成为⽇常。灵宇宙推出的新款AI终端(灵感源⾃电影《Her》),通过重塑⼈与物理世界的交互逻辑,重新定义学习⽅式让“世界即课堂,万物皆教材”成为现实。在这个背景下,灵宇宙开发出⼀款新产品「Ling!灵宇宙AI学伴(昵称:⼩⽅机)」(以下简称:Ling!),它是⼀个随⾝的AI助理和伙伴,搭载的⼀套物理世界的AI-OS,叫做LingOS,让学习的对象从⼀平⽶书桌来到更⼴域的整个物理空间,给孩⼦构建了⼀个专属的4D空间交互智能的“世界模型”,让他们在学习认知的成⻓的过程中获得更好的体验。灵宇宙是⼀家专注空间交互智能的创新公司,致⼒于构建新⼀代物理世界AI-OS,赋予机器⼈“灵魂”,让万物在AI ...
Llama 4 或许只是冰山一角。「AI 大模型自去年 8 月以来就没有太大进步」。这是一位 AI 创业者在近期的一篇博客中发表的观点。他在创业过程中发现,自去年 8 月以来,AI 大模型(如 Claude 3.7 等)在官方发布的基准测试上声称的巨大进步与实际应用场景中的有限提升之间存在明显脱节。这导致他们无法借助模型能力来提升产品体验。很多 YC 创业者也有类似的体验。作者认为,这其中可能的原因包括基准测试作弊、基准无法衡量实用性或模型实际很聪明但对齐存在瓶颈。如果不解决这些基础问题,AI 系统可能会在表面上显得很聪明,但在组合成社会系统时会出现根本问题。以下是博客原文: 模型得分与消费者体验脱节大约九个月前,我和三个朋友认为人工智能已经足够好,可以自主监控大型代码库的安全问题了。我们围绕这个任务成立了一家公司,试图利用最新的大模型能力来创建一种工具,用以取代至少很大一部分渗透测试人员的价值。我们从 2024 年 6 月开始从事这个项目。在公司成立后的头三个月内,Anthropic 的 Claude 3.5 sonnet 就发布了。只需切换在 GPT-4o 上运行的服务部分,我 ...
这份工作的魅力之一,就是能第一时间体验到最新、最前沿的大模型。当然,发布初期难免有些社死时刻,但这次,例外。就在前天深夜,OpenAI 重磅空降 o 系列模型的最新成员:o3 与 o4-mini,也是迄今为止他们最聪明的模型。人类的进化,始于制造和使用工具。o3 和 o4-mini 也是如此,他们的「聪明」源于学会了使用工具。模型能自主调用联网搜索、记忆系统、代码解释器等 ChatGPT 原生工具,实现任务闭环处理。你只需要布置任务,然后可以放心起身去倒杯咖啡——回来时,高质量结果已在屏幕上静候。而且,它们还有一个关键升级:视觉思维能力上线。不仅能看图识物,更能像刑侦人员一样,从图像中分析、推理、挖掘信息。要说差异,o3 是满血旗舰,性能拉满;o4-mini 是高性价比小钢炮( GPT-o4 的小型化版本),体积更小、价格更优,但性能不打折——尤其在数学和编程任务上,表现出乎意料的强劲。网友直呼:一周之内,它就成了我处理绝大多数任务的首选模型!写作时,我依旧用 GPT-4.5;编程时,还在用 3.7 Sonnet;但除此之外,我一直在用 o3。免费用户,每天至少有一次体验o3机会,记得 ...
编辑 | 菠菜还记得预测所有生物大分子的 AlphaFold3(AF3)吗?距离它的发布已经过去了接近一年的时间。在这一年里,有百余篇研究论文提及或引用了 AF3。它切切实实促进了生物大分子研究、药物发现、疾病研究等多个领域的发展。最近,澳门理工大学姚小军、浙江大学侯廷军团队推出了 PepPCBench,这是一个专门为评估 AF3 预测蛋白质-肽复合物能力而开发的综合基准框架。该团队使用精心挑选的数据集 PepPCSet,该数据集包含 261 个蛋白质-肽复合物,肽长度从 5 到 30 个残基不等(不包含 AF3 的训练集或验证集中的数据)。基准测试结果表明,AF3 在预测准确度和结构验证方面优于其他 PFNN。然而,其性能对于实际的肽类药物研发而言仍然不足,仍有改进空间。研究人员表示,PepPCBench 有望为增强蛋白质-肽复合物结构预测和肽类药物研发提供重要见解。该研究以「PepPCBench is a Comprehensive Benchmark for Protein-Peptide Complex Structure Prediction with AlphaFold3」 ...
在全球 AI 创新格局加速重塑之际,2025 WAIC 云帆奖已开启全球报名,期待汇聚更多有志于推动 AI 发展的青年力量。从基础理论突破到产业实践创新,从跨学科交叉到开源生态建设,我们寻找能够在通往 AGI 的征途上贡献中国智慧的青年才俊。下面,三位重量级奖项召集人向你发出诚挚邀请:WAIC 云帆奖得主赋能计划赋能计划学术影响力跃升:在 WAIC 揭晓获奖名单并颁发证书,提升获奖者国际知名度与学术影响力。为有意愿者向知名高校、科研机构推荐工作;提供与国际顶尖学术机构、学者交流合作机会,如受邀参加国际会议作汇报。百万级科研加速:联合科研机构提供重点科研项目资助内推,资助金额最高可达数百万;提供算力资源,助力突破算力瓶颈;多渠道推广研究成果,提升影响力与应用价值。产业生态赋能:组织与知名企业、科研机构对接,提供项目实践机会,推动产学研融合。为有创业意愿者提供创业培训、资金及上下游企业对接等全方位支持。2025 WAIC 云帆奖「聚智·共进」评选流程报名及推荐截止:6月16日初审:6月17日 - 6月30日终审:7月1日 - 7月10日颁奖典礼:WAIC 大会期间奖项设置璀璨明星面向 35 ...
在大规模催化剂筛选中,快速评估催化剂表面与吸附质之间的全局最低吸附能(Global Minimum Adsorption Energy, GMAE)是一项关键任务。然而,由于每种表面/吸附质组合往往对应多个吸附位点与复杂构型,传统基于密度泛函理论(DFT)的计算方法面临高昂的时间和资源成本。为应对这一挑战,来自洛桑联邦理工学院(EPFL)的 Philippe Schwaller 教授团队与上海交通大学(SJTU)贺玉莲教授团队联合提出了一种多模态 Transformer 框架 AdsMT,该研究的共同一作为陈俊武(现 EPFL 博士生)和黄旭(现 UC Berkeley 博士生)。在不依赖具体吸附位点信息的前提下,AdsMT 可高效预测 GMAE。该方法以催化剂表面的图结构和吸附质的特征向量为输入,通过引入跨模态注意力机制(cross-attention),有效捕捉吸附质与表面原子之间的复杂交互,从而避免了对所有可能吸附构型的穷举计算。该研究以「A multi-modal transformer for predicting global minimum adsorption ...