在能源AI这个高门槛赛道,中科类脑完成了一场从技术攻坚到商业变现的深度突围。单笔融资破亿,能源 AI 杀出实力派「 AI 的尽头是能源!」马斯克与 Sam Altman 的隔空对话,将能源革命与智能革命的交汇点推向全球视野。当前,这一进程正在中国加速。据统计,2024 年前三季度,能源行业大模型招标项目超 80 个,多数能源企业已建成自有模型,涵盖核电、电网、发电等多个领域。DeepSeek 爆火后,以国家电网、南方电网及五大发电集团为代表的能源央企,正加速推进 AI 融合应用。在智能化转型浪潮中,能源行业 AI 大模型全栈解决方案提供商中科类脑宣布完成亿元级 B 轮融资。此轮融资由中国移动旗下的北京中移数字新经济产业基金独家战略投资,也是该基金在 AI 模型领域的又一重要布局。此前,中科类脑已在 A 轮融资中获得合肥创新投等地方国资支持。此番「国家队」资本强势注入,不仅标志着中科类脑正式跻身「 AI 国家队」行列,更意味着其自主可控的技术体系进一步获得产业界的广泛认可。从顶天到立地,七年锚定能源赛道中科类脑成立于 2017 年,是中国科学技术大学赋权项目之一,也是类脑智能技术及应用国 ...
在日常生活中,SVG(可缩放矢量图形)被广泛应用于网页设计、图标、徽标等领域。SVG 图形因其可缩放性和清晰度,在以下场景中得到了广泛应用:网页设计:用于制作响应式图标、按钮和装饰元素,确保在不同设备上显示清晰。品牌标识:企业徽标、品牌图形等,保持高质量的视觉效果。用户界面设计:应用程序和网站的界面元素,如导航栏、菜单图标等。教育与培训材料:用于制作插图、流程图和示意图,帮助信息传达。然而,创建这些图形通常需要专业的设计技能和工具。对非专业人士而言,存在一定的门槛。因此,开发自动化的 SVG 设计与生成工具显得尤为关键。现有基于优化的方法通过优化可微分的矢量图形光栅化器,迭代地调整 SVG 参数。这些方法在生成 SVG 图标方面有效,但在处理复杂样本时计算开销较大,且生成的输出缺乏结构,存在冗余的锚点。在现有自回归 SVG 生成方法中,存在两个主要局限性:上下文窗口长度限制:由于模型只能处理有限长度的输入序列,这限制了其生成复杂 SVG 内容的能力,现有自回归方法利用 Transformer 模型或预训练的大型语言模型(LLM),直接生成表示 SVG 的 XML 参数或代码,然而复杂 ...
4 月 14 日,谷歌首席科学家 Jeff Dean 在苏黎世联邦理工学院举办的信息学研讨会上发表了一场演讲,主题为「AI 的重要趋势:我们是如何走到今天的,我们现在能做什么,以及我们如何塑造 AI 的未来?」在这场演讲中,Jeff Dean 首先以谷歌多年来的重要研究成果为脉络,展现了 AI 近十五年来的发展轨迹,之后又分享了 Gemini 系列模型的发展历史,最后展望了 AI 将给我们这个世界带来的积极改变。机器之心将在本文中对 Jeff Dean 的演讲内容进行总结性梳理,其中尤其会关注演讲的第一部分,即谷歌过去这些年对 AI 领域做出的奠基性研究贡献。我们将看到,Transformer、蒸馏、MoE 等许多在现代大型语言模型(LLM)和多模态大模型中至关重要的技术都来自谷歌。正如 𝕏 网友 @bruce_x_offi 说的那样,你将在这里看到 AI 的进化史。下面我们就来具体看看 Jeff Dean 的分享。源地址:https://video.ethz.ch/speakers/d-infk/2025/spring/251-0100-00L.html幻灯片:https://dr ...
微软在其官网上正式开源了 DeepSeek-R1的魔改版 ——MAI-DS-R1。这一新模型在保留原有推理性能的基础上,进行了显著的增强,尤其在对敏感话题的响应能力上取得了巨大的突破。MAI-DS-R1的响应能力达到了99.3%,是原版 R1的两倍多。这一进步将对政治学、社会问题以及伦理道德的研究提供极大的支持。尽管其响应了更多的敏感话题,但在安全风险方面,MAI-DS-R1的有害内容降低了50%,展现出良好的安全控制能力。因此,渴望体验 “放飞自我” 版的用户可以尝试这一模型,探索新的可能性。在模型的训练过程中,微软收集了约350,000个被屏蔽的主题示例,并筛选出相关的查询关键词。这些关键词被转化为多个问题并翻译成不同语言,进一步提升了模型的多语言适应性。此外,微软利用 DeepSeek R1及内部模型生成了相关问题的答案和思维链。训练数据还包括来自 Tulu3SFT 数据集的110,000个安全和违规示例,确保了模型在多种情况下的有效性。经过全面评估,MAI-DS-R1在敏感话题的响应能力上表现出色,远超 DeepSeek R1及其衍生版本。在安全性评估中,MAI-DS-R1在 ...
近日,WORLDMEM框架正式在Hugging Face平台开源发布,标志着长期一致性世界模拟技术的重要突破。据AIbase了解,WORLDMEM通过引入记忆机制,解决了传统世界模拟模型在长期一致性与3D空间保持上的难题,为虚拟环境建模与交互预测提供了全新解决方案。项目现已开放源代码,供全球开发者与研究人员免费使用,引发了AI与虚拟现实领域的广泛关注。核心创新:记忆驱动的长期一致性WORLDMEM的核心在于其独特的记忆银行设计,通过存储记忆帧与状态(如姿态、时间戳)增强场景生成能力。AIbase分析,该框架的主要亮点包括: 记忆注意力机制:通过状态信息从记忆帧中提取相关内容,WORLDMEM能够精确重建先前观察的场景,即使在视角或时间跨度较大的情况下也能保持一致性。 动态世界建模:通过时间戳整合,框架不仅能模拟静态环境,还能捕捉世界的动态演变,支持长期交互与感知任务。 3D空间一致性:针对传统模型在长时序3D空间一致性上的不足,WORLDMEM显著提升了空间结构的稳定性。这些特性使WORLDMEM在虚拟环境模拟、机器人导航及游戏开发等场景中展现出巨大潜力。技术架构:模块化与高效性 ...
为了应对开发者在从商业文档中提取可靠数据方面日益增长的压力,ABBYY 于近日推出了 ABB Document AI™,该工具通过自助应用程序接口(API)提供服务。ABBYY Document AI API 的设计旨在提升开发者的使用体验,用户只需通过几行代码即可轻松将非结构化的商业文档转换为结构化的高精度数据,从而简化尝试、集成、学习和购买行业领先的光学字符识别(OCR)及智能文档处理(IDP)解决方案的过程。图源备注:图片由AI生成,图片授权服务商MidjourneyABBYY 的工程研发副总裁 Nick Hyatt 表示:“作为 OCR 领域的先锋,ABBYY 一直以来都拥有一批活跃的开发者社区,他们利用我们先进的文档 AI 创造变革性解决方案。我们正在为他们提供一种新的 API,具有最小的设置要求,提供丰富的社区资源和预训练模型,以帮助他们构建概念验证。ABBYY Document AI API 是开发自动化文档工作流程的重大进展。”根据 IDC 的预测,智能文档处理市场预计将从2023年的24亿美元增长到2028年的105亿美元,年复合增长率达到34.9%。这一增长主要得益 ...
AMD 在 AI 领域的进展值得关注,尤其是其最新发布的针对 Stable Diffusion 模型的优化。近日,Stability AI 推出了基于 ONNX 框架优化的 Stable Diffusion 版本,这意味着 AMD 的 Radeon 显卡和锐龙集显在运行 AI 任务时性能提升显著,最高可达3.8倍。这一进展不仅缩小了与 NVIDIA 在生态系统优化方面的差距,也为 AMD 用户带来了实实在在的好处。过去一年,AMD 与多个合作伙伴,包括操作系统供应商(OSV)、原始设备制造商(OEM)和独立软件开发商(ISV),在硬件设计、驱动程序、编译器和机器学习模型等方面紧密合作,致力于提高 AMD 硬件的 AI 应用性能。根据 AMD 的官方数据,经过一系列优化后,SDXL1.0和 SDXL Turbo 在 AMD 硬件上的推理性能较基础的 PyTorch 模型提升了3.8倍,而 SD3.5的性能提升则达到2.6倍。在实际应用中,运行 SDXL1.0、SDXL Turbo、SD3.5Large 和 SD3.5Large Turbo 模型的 RX9070XT 显卡,其效率分别提升了 ...
近日,腾讯旗下InstantCharacter框架正式开源,为AI驱动的角色定制领域带来突破性进展。据AIbase了解,该框架能够基于单张图像与文本提示生成高一致性的自定义角色,支持多样化的姿势、风格与场景生成。InstantCharacter以其在角色一致性、图像质量及开放域灵活性上的出色平衡,迅速成为开源社区的焦点。项目现已在GitHub与Hugging Face平台上线,供全球开发者免费探索与应用。核心创新:三维平衡与高保真生成InstantCharacter是首个成功平衡角色一致性、图像质量和开放域通用性的框架,其核心优势包括: 单图驱动的高一致性:仅需一张参考图像,结合文本提示,框架即可生成与原角色高度一致的自定义图像,涵盖多种姿势与风格。 开放域灵活性:支持跨领域角色生成,适应多样化的外观、场景与艺术风格,打破传统方法的局限。 高保真输出:通过与Flux.1模型的兼容性,InstantCharacter生成的高清图像在细节与文本控制上媲美行业领先者,如OpenAI的GPT-4o。AIbase分析,其架构基于两大创新:一是可扩展的适配器模块,通过级联变换器编码器有效解析 ...
在 AI 行业快速发展的背景下,Chatbot Arena 这个众包 AI 基准测试项目正在扩展其影响力,正式成立了一家名为 Arena Intelligence Inc. 的新公司。根据彭博社的报道,Chatbot Arena 旨在通过这家新公司获取更多资源,从而显著改善其平台的功能和服务。Chatbot Arena 成立于2023年,主要由加州大学伯克利分校的研究人员主导。该平台为大型 AI 实验室提供了一个共享的测试环境,许多知名企业,如 OpenAI、谷歌和 Anthropic 等,均与 Chatbot Arena 合作,让其旗舰模型在这个社区中进行评估和测试。这个平台的兴起,吸引了众多关注,成为了 AI 行业的重要组成部分。在此之前,Chatbot Arena 的运营资金主要来源于各种资助和捐款,包括谷歌的 Kaggle 数据科学平台、Andreessen Horowitz 和 Together AI 等机构。如今,随着 Arena Intelligence Inc. 的成立,尽管该组织尚未披露新公司的潜在投资者,也未决定未来的商业模式,但他们表示,将继续为 AI 提供一个中 ...
近日,Blender-MCP(Model Context Protocol)正式开源发布,通过将Anthropic的Claude AI与Blender无缝集成,实现了通过自然语言提示词创建复杂3D场景的突破。据AIbase了解,该工具允许用户仅用文字描述即可生成精美3D模型,例如“低多边形龙守护宝藏”场景,极大地降低了3D建模的技术门槛。Blender-MCP现已在GitHub上线,引发了3D艺术家与AI开发者的广泛热议。核心功能:自然语言控制3D创作Blender-MCP通过MCP协议建立Claude AI与Blender的双向通信,赋予用户前所未有的创作自由。AIbase梳理了其主要功能: 场景快速生成:用户可通过简单提示词,如“创建低多边形地牢,龙守护金罐”,即可生成完整3D场景,包括物体、材质与灯光。 资产智能管理:支持直接调用Poly Haven的模型、纹理与HDRI资源,丰富场景细节。 实时反馈与修正:Claude可实时读取Blender场景信息,若生成结果偏差,可自动调整或优化。 Python脚本执行:支持通过Claude运行Blender内的Python脚本,自 ...