2025年9月19日,阿里云宣布通义万相全新动作生成模型 Wan2.2-Animate 正式开源。该模型能够驱动人物、动漫形象和动物照片,广泛应用于短视频创作、舞蹈模板生成、动漫制作等领域。用户可以在 GitHub、HuggingFace 和魔搭社区下载模型和代码,也可以通过阿里云百炼平台调用 API 或在通义万相官网直接体验。Wan2.2-Animate 模型是基于此前开源的 Animate Anyone 模型全面升级的成果,在人物一致性、生成质量等指标上大幅提升,同时支持动作模仿和角色扮演两种模式。在角色模仿模式下,输入一张角色图片和一段参考视频,模型可以将视频角色的动作和表情迁移到图片角色中,赋予图片角色动态表现力。而在角色扮演模式下,模型可以在保留原始视频的动作、表情及环境的基础上,将视频中的角色替换为图片中的角色。通义万相团队构建了一个涵盖说话、面部表情和身体动作的大规模人物视频数据集,并基于通义万相图生视频模型进行后训练。Wan2.2-Animate 将角色信息、环境信息和动作等规范到统一的表示格式,实现了单一模型同时兼容两种推理模式。针对身体运动和脸部表情,模型分别使用骨 ...
视频生成AI领域迎来里程碑式升级。Luma AI正式发布Ray3模型,这款被称为全球首个”推理视频模型”的产品,通过内置多模态推理系统彻底改变了AI视频生成的游戏规则。Ray3的核心创新在于其智能推理能力。不同于传统的随机生成模式,这个模型能够像真正的创意伙伴一样理解用户意图、规划复杂场景并自我评估输出质量。它会先在”脑海”中构思故事板,然后进行迭代优化,这种类似动画师工作流程的方式显著提升了生成效果的准确性和艺术性。技术规格方面,Ray3支持从草图到4K分辨率的完整创作链条。新增的草稿模式将生成速度提升了约20倍,让创作者能够快速测试多个创意方案。更重要的是,它是首款原生支持10位、12位和16位HDR视频生成的模型,采用ACES EXR格式输出,可直接导入专业后期制作管道。从演示效果来看,Ray3在图像到视频转换方面表现出色,甚至能够解读图片中的涂鸦指令生成连贯的动态序列。物理模拟的真实感和角色一致性都达到了行业先进水平,生成视频的电影级质感令人印象深刻。商业合作方面,Ray3已与Adobe Firefly深度整合,成为其首家第三方合作伙伴。日本数字营销公司Dentsu Digit ...
Mercor 是一家成立仅两年的初创公司,专注于为像 OpenAI 和 Meta 这样的企业提供所需的领域专家,以帮助训练和优化其基础 AI 模型。根据 TechCrunch 获取的一份市场文件和知情人士的说法,Mercor 目前正在与投资者讨论进行第三轮融资(Series C)。该公司目前的目标是将估值提升至100亿美元或以上,较几个月前讨论的80亿美元估值有所上升。尽管最终交易条款仍可能变化,但 Mercor 向潜在投资者透露,他们已经收到多份出价,其中一些的估值甚至高达100亿美元。此外,Mercor 还通过特殊目的工具(SPVs)引入了至少两位新投资者以为潜在交易筹集资金。图源备注:图片由AI生成,图片授权服务商MidjourneyMercor 在2月份宣布的上一轮融资为一轮1亿美元的 B 轮融资,估值为20亿美元。根据知情人士的消息,Mercor 的年化收入(ARR)接近4.5亿美元。早在2月,Mercor 就曾对外宣布其年收入达到7500万美元,而其首席执行官 Brendan Foody 在3月时通过社交媒体表示 ARR 已达1亿美元。该公司表示,预计将比另一家初创公司 A ...
据最新消息,AI公司Anthropic近日为其Claude AI助手推出了文档生成和编辑功能升级,用户现在可以在聊天界面中直接创建和编辑Excel表格、PowerPoint演示文稿、Word文档以及PDF文件。该功能目前作为预览版向付费订阅用户开放,标志着AI工具在办公应用领域的进一步扩展。新功能允许用户通过自然语言描述或文件上传的方式,让Claude生成相应的办公文档。用户可以上传销售数据文档,然后要求Claude分析数据并生成包含图表和分析洞察的报告。系统还支持创建预设公式的财务模型或项目跟踪表格等专业模板。在文档格式转换方面,Claude支持跨格式处理,例如将PDF报告转换为PowerPoint幻灯片,或将发票数据整理为Excel统计表格。这些操作通过对话方式完成,无需用户具备专业的办公软件技能。技术实现方面,Claude通过在私有计算环境中编写和执行代码来生成文档。这种技术架构确保了生成的Excel文件具备正确的公式设置和多工作表结构,用户可以直接下载或保存到Google Drive中使用。目前,该预览功能仅对Claude的Max、Team和Enterprise订阅用户开放,P ...
在数字人领域,清华深研院与国际数字经济研究院的中国团队近日推出了名为 GUAVA 的新技术,标志着数字人制作进入了一个全新的时代。通过仅一张照片,GUAVA 能够在0.1秒内生成一个高质量的3D 高斯化身,并实时驱动,画面流畅度超过50帧每秒。传统上,创建高质量的3D 数字人需要复杂的多视角拍摄,或者耗时耗力的视频数据训练,往往需要几个小时才能完成。而 GUAVA 的出现,无疑是对这一过程的颠覆。与其他方法相比,GUAVA 的重建速度可谓惊人,所需时间仅为0.1秒,而其他算法如 ExAvatar 需要2.4小时,GaussianAvatar 需1.3小时,甚至 GART 也需7分钟。这样的速度让人们惊叹不已。GUAVA 的优越表现得益于其创新的技术架构,主要包含两个关键组件:EHM 模型和3D 高斯泼溅。EHM 模型通过结合 SMPLX 和 FLAME 技术,确保了人脸表情的高保真度和精准控制,而3D 高斯泼溅则通过将场景拆分为数百万个3D 高斯球体,从而实现快速渲染。这种方法使得 GUAVA 在身份一致性上也表现出色,相关指标超过了竞争对手的水平。在实际应用方面,GUAVA 能够为自 ...
甲骨文公司(Oracle)日前公布了其云基础设施部门未来人工智能业务的订单量大幅增长,这一消息推动该公司股票在盘后交易中上涨了27%,创下历史新高。该公司报告称,未完成的业绩承诺 —— 即已签订但尚未实现的收入 —— 激增至4550亿美元,远高于三个月前的1380亿美元。图源备注:图片由AI生成,图片授权服务商Midjourney甲骨文的首席执行官萨夫拉・卡茨(Safra Catz)形容这是一个 “惊人的季度”,并表示公司在最新的三个月内与三家不同客户签署了四份数十亿美元的合同。华尔街对此次订单的增长早有预期,特别是在今年7月甲骨文签署了一份价值300亿美元的年度合同之后,但并没有预料到订单量会有如此大幅的提升。尽管甲骨文在云计算服务领域起步较晚,但随着人工智能初创公司及其他大型科技集团对数据中心基础设施需求的激增,甲骨文逐渐获得了市场的认可。今年早些时候,甲骨文还与 OpenAI 和软银签署了5000亿美元的 “星门计划” 合作协议。该公司股票在盘后交易中的上涨为其市值增加了约1700亿美元,同时也让创始人拉里・埃里森(Larry Ellison)的个人财富增加了约700亿美元,使其 ...
全球知名设计资源平台Freepik近日正式上线字节跳动Seedream4.0图像生成模型,这一升级将AI生图能力无缝集成到其创意工具中,为设计师和创作者带来革命性体验。 作为豆包大模型家族的最新成员,Seedream4.0支持多模态输入输出,生成质量和速度均达业界领先水平。更吸引人的是,Freepik的Premium+会员可享无限生成次数,这一福利被誉为“太香了”,预计将进一步巩固平台在AI设计领域的领先地位。模型升级:多模态生图一站式解决Seedream4.0是字节跳动Seed团队于9月9日发布的图像创作模型,标志着从单一文生图向生成与编辑一体化的跃进。 相较前代,该模型首次支持文生图、图像编辑和组图生成,用户可通过文本描述或上传多张图片进行融合创作。例如,输入“将两张角色照片合影,参考指定姿势”,模型能精确保留人物特征,避免传统AI常见的“形象漂移”问题,输出连贯的故事化图像。在Freepik平台上,这一功能直接嵌入AI图像生成工具,用户无需切换应用,即可实现高清输出。模型支持2K和4K分辨率、任意宽高比,以及最多6张图像参考,适用于海报设计、插画创作和社会媒体内容生成。 专业评测 ...
随着Meta、谷歌和微软等科技巨头纷纷与核电企业达成合作协议,人工智能与核电行业的融合正在加速。在这一趋势下,专注于核电运营AI解决方案的初创公司Nuclearn近日宣布完成1050万美元A轮融资,由Blue Bear Capital领投,AZ-VC、Nucleation Capital和SJF Ventures参投。据该公司透露,其AI工具目前已在全球超过65座核反应堆中投入使用,主要用于优化核电站的业务运营流程。Nuclearn联合创始人兼首席执行官布拉德利·福克斯表示,虽然没有人提议让AI直接控制核反应堆,但电力公司对利用AI技术提升业务运营效率的兴趣日益浓厚。Nuclearn的创立源于两位创始人在凤凰城西部帕洛维德核电站的工作经历。福克斯和联合创始人杰罗德·文森特在该核电站工作期间,开始尝试通过数据科学方法简化各种重复性任务,随后逐步采用了更先进的AI模型。这些实践很快引起了其他核电站的关注。福克斯回忆说,其他反应堆运营商主动联系他们,询问是否可以为他们的电站提供类似的解决方案。这种需求的出现恰好与新冠疫情时期相吻合,两位创始人决定利用业余时间创办这家初创公司。在技术实现方面, ...
据The Information报道,微软公司将付费使用Anthropic的AI技术为Office365应用提供支持,这标志着微软结束了此前在办公套件中完全依赖OpenAI技术的策略。根据两名知情人士透露的消息,Anthropic的AI技术将与OpenAI的技术共同为Word、Excel、Outlook和PowerPoint等应用的新功能提供支持。这一合作决定反映了微软与OpenAI关系的微妙变化。近期,OpenAI在基础设施项目方面推进自主发展,并计划推出与LinkedIn竞争的产品,这导致两家公司之间出现了一定的分歧。微软选择与Anthropic合作,被视为对AI合作伙伴关系进行多元化布局的重要举措。据报道,微软与Anthropic的合作协议是在该公司与OpenAI就新合作协议进行谈判的背景下达成的。OpenAI目前正在进行营利性结构重组,微软需要确保在重组完成后仍能获得OpenAI AI模型的使用权限。不过,The Information指出,微软与Anthropic的合作并非谈判策略,而是基于技术性能的考量。据消息来源透露,微软领导层认为Anthropic的最新模型Claude ...
阿里巴巴通义千问团队刚刚向全球开发者抛出了一枚重磅炸弹,他们即将发布的Qwen3-Next-80B-A3B-Instruct模型彻底颠覆了传统大模型的运行逻辑。这个看似矛盾的数字组合背后,藏着一个令人惊叹的技术突破:总参数高达80亿,但实际激活的参数仅有3亿,就像一台超级跑车只用了十分之一的引擎却跑出了十倍的速度。就在数小时前,Hugging Face Transformers库悄无声息地完成了一次关键合并操作,相关的PR代码已经正式集成到主分支中。这个看似平常的技术动作实际上意味着,全球无数的AI开发者即将获得一个前所未有的计算利器,一场开源AI的效率革命正在拉开序幕。这个全新的模型继承了Qwen3系列标志性的A3B设计哲学,但在规模上实现了质的飞跃。当传统的大模型还在为庞大的参数量和巨额的计算成本头疼时,千问团队选择了一条更加精妙的道路。他们采用了MoE专家混合架构,就像是在模型内部建立了一个高度专业化的团队,每次只激活最合适的专家来处理特定任务,而其他专家则静静待命。这种设计带来的效果是惊人的。在处理超过32K长度的上下文时,新模型的推理吞吐量竟然达到了Qwen3-32B的10倍 ...