劳斯莱斯公司首席执行官图法・埃尔金比尔吉克(Tufan Erginbilgic)近日表示,公司的计划是利用小型模块化核反应堆(SMR)为人工智能(AI)数据中心提供能源。这一战略如果成功,将有可能使劳斯莱斯成为英国市值最高的公司。图源备注:图片由AI生成,图片授权服务商Midjourney人工智能技术的发展如火如荼,但随之而来的能源需求也引发了环保和实际操作上的担忧。埃尔金比尔吉克指出,劳斯莱斯在核能领域具备无与伦比的能力,尤其是在小型核反应堆的市场上。他认为,如果劳斯莱斯无法成为全球市场的领导者,那就是公司的失误。自从2023年1月埃尔金比尔吉克接任以来,劳斯莱斯的股价已经上涨了十倍,显示出强劲的增长潜力。他表示,尽管许多公司正在寻求在美国上市以获得更高估值,但劳斯莱斯并不打算追随这一潮流。他相信,劳斯莱斯可以在英国市场上继续取得成功。劳斯莱斯目前正在为捷克和英国政府开发多个小型模块化核反应堆,以满足日益增长的能源需求。这种新型核反应堆不仅体积小,建设周期短,而且可以降低成本。埃尔金比尔吉克预测,到2050年,全球需要大约400个小型核反应堆,这将成为一个超过万亿美元的市场。除了核能 ...
近日,开源AI领域迎来重磅消息。一款名为Jan-v1的深度研究模型正式发布,基于阿里云Qwen3-4B-Thinking模型精心微调,直接对标商业化产品Perplexity Pro。这款仅有4亿参数的模型凭借91%的SimpleQA准确率、完全本地运行能力以及对推理和工具使用的专项优化,迅速成为AI开发者社区的关注焦点。性能表现超越预期,准确率媲美商业产品Jan-v1在SimpleQA基准测试中取得了91%的准确率,略微超越Perplexity Pro的表现,这一成绩令业界刮目相看。通过对Qwen3-4B-Thinking模型的专项微调,Jan-v1在逻辑推理、工具使用和多步骤任务处理方面展现出卓越性能。该模型支持256K tokens的上下文长度,并可通过YaRN技术扩展至100万tokens,这使其特别适用于长文档分析、学术研究和复杂对话场景。相比许多需要依赖云端算力的大型模型,Jan-v1的这一特性为用户提供了更大的灵活性。本地运行优势突出,隐私保护成核心卖点与依赖云端服务的Perplexity Pro不同,Jan-v1最大的优势在于可完全在本地环境运行。该模型仅需约4GB VR ...
近日,阿里云通义千问正式宣布推出AI编程智能体Qwen Code,为开发者带来重大利好。据AIbase了解,该智能体每天为用户提供2000次免费调用权限,且无token额度限制,为编程领域的AI应用注入新的活力。这一举措不仅降低了开发者使用AI编程工具的成本,还标志着AI技术在软件开发领域的进一步普及和深化。Qwen Code功能亮点:强大且易用 Qwen Code是一款基于命令行界面的AI编程智能体,支持开发者在终端环境中高效完成代码生成、补全、调试和解释等任务。相较于竞品如Google的Gemini CLI,Qwen Code操作更加简便,仅需一行命令即可安装(npx @qwen-code/qwen-code@latest)。此外,其无token限制及每分钟60次API调用的政策,进一步提升了使用灵活性。用户通过Qwen账户验证即可享受免费支持,极大降低了使用门槛。面向中国大陆用户的特别优惠 值得注意的是,Qwen Code的每日2000次免费调用权限目前仅限中国大陆用户,海外用户则可享受1000次调用权限。这一政策显示出阿里云通义千问在本土市场推广AI技术的决心,同时也为全球 ...
Salesforce与南加州大学的研究人员共同开发了一项名为 CoAct-1 的突破性技术,旨在通过结合编码和图形用户界面(GUI)操作的优势,显著提升AI代理在计算机上执行复杂任务的能力。这一混合方法旨在克服传统GUI代理的脆弱性,为更强大、可扩展的自动化铺平道路。传统AI代理的痛点:长任务与误点击现有的计算机AI代理通常依赖视觉语言模型(VLM)来感知屏幕并模拟鼠标键盘操作。虽然这类“点击式”代理能执行各种任务,但在面对办公生产力套件等具有密集菜单和复杂工作流程的应用时,它们往往表现不佳。研究人员指出,在这些场景中,单一的误点击或对UI元素的误解,都可能导致整个任务失败。为了应对这一挑战,研究人员曾尝试利用高级规划器来增强GUI代理,但这种方法依然无法解决那些通过几行代码就能更直接、更可靠地完成的操作。CoAct-1:一个多智能体协作的混合系统为解决这些限制,CoAct-1系统应运而生。其核心理念是“将GUI操作的直观优势与通过代码直接进行系统交互的精确性、可靠性和效率相结合”。该系统由一个由三个专门代理组成的团队协作完成任务:编排器(Orchestrator):作为中央规划器,它 ...
腾讯混元团队近日发布了全新的多模态理解模型——混元Large-Vision,该模型采用腾讯混元擅长的MoE(专家混合)架构,激活参数达到52B规模,在性能与效率之间实现了良好平衡。混元Large-Vision的核心亮点在于其强大的多模态输入支持能力。该模型不仅支持任意分辨率的图像处理,还能处理视频和3D空间输入,为用户提供了全方位的视觉理解体验。这一技术突破意味着用户可以直接输入各种格式和尺寸的视觉内容,无需进行复杂的预处理操作。MoE架构优势凸显,效率与性能并重混元Large-Vision选择MoE架构并非偶然。这种架构通过动态激活部分专家网络来处理不同类型的输入,既保证了模型的强大性能,又避免了全参数激活带来的计算资源浪费。52B的激活参数规模在当前多模态模型中处于先进水平,能够处理复杂的视觉理解任务。该模型还重点提升了多语言场景理解能力,这对于全球化应用具有重要意义。在处理包含多种语言文字的图像或视频时,混元Large-Vision能够准确识别和理解不同语言环境下的视觉内容,为跨语言的多模态应用提供了技术基础。任意分辨率支持开启新应用可能混元Large-Vision支持任意分辨率 ...
近日,微软推出了一款全新的提示编排标记语言(POML,Prompt Orchestration Markup Language),专为大型语言模型(LLMs)的提示工程设计。据AIbase综合整理的网络信息,POML旨在解决传统提示开发中的痛点,通过结构化、可维护的方式提升AI应用的开发效率。然而,这一新语言是否只是XML的“翻版”,以及其复杂性是否会削弱实用性,引发了社区热议。POML核心功能:结构化提示工程 POML采用类似HTML的语法,通过<role>、<task>、<example>等语义组件,将复杂的提示分解为模块化的部分,从而提升提示的可读性、可重用性和可维护性。微软表示,POML解决了传统提示工程中缺乏结构、数据整合复杂、格式敏感以及工具支持不足的问题。开发者可通过POML系统化地组织提示组件,轻松嵌入多种数据类型(如文本、表格、图像),并通过CSS-like的样式系统灵活调整输出格式,减少因格式变化导致的模型不稳定性。强大工具支持:VS Code扩展与SDK POML不仅是一个标记语言,还配备了强大的开发工具生态。其Visual ...
AI陪伴应用正在成为移动应用市场的新风口。应用情报公司Appfigures提供的最新数据显示,除ChatGPT和Grok等知名产品外,专门的AI”陪伴”应用需求正在快速增长。在全球337个活跃且有收入的AI陪伴应用中,仅2025年就有128款新应用上线。根据Appfigures的分析,这一移动AI市场细分领域在2025年上半年已产生8200万美元收入,预计到年底总收入将超过1.2亿美元。陪伴应用重新定义AI交互方式与通用聊天机器人不同,AI陪伴应用通过拟人化的AI交互方式,允许用户与定制角色对话,包括朋友、恋人、男友或女友、幻想角色等。Appfigures将这一市场细分定义为用户可以与预设或用户生成的合成角色互动的应用,这些角色被设计成具有真实个性。该领域的热门应用包括Replika、Character.AI、PolyBuzz、Chai等。下载量与收入双双飙升截至2025年7月,AI陪伴应用在苹果App Store和谷歌Play商店的全球下载量已达2.2亿次。2025年上半年,下载量同比增长88%,达到6000万次。在收入方面,截至2025年7月,AI陪伴应用已在全球范围内带来2.21 ...
在AI技术迅猛发展的今天,如何让AI智能体高效、安全地与数据库交互,成为开发者关注的焦点。2025年7月,谷歌重磅发布了MCP Toolbox for Databases,一款开源工具模块,旨在通过模型上下文协议(Model Context Protocol, MCP)简化AI智能体与SQL数据库的集成流程。图源备注:图片由AI生成 极简集成,10行代码连接数据库MCP Toolbox for Databases是谷歌GenAI Toolbox的最新开源模块,专为AI智能体与数据库的交互设计。传统上,构建AI与数据库的集成需要处理复杂的认证、连接管理和安全控制问题,而MCP Toolbox通过不到10行Python代码即可实现这一目标。开发者只需简单配置,即可让AI智能体高效访问数据库,极大地降低了开发门槛。不仅如此,该工具支持工具在多个AI智能体间复用,显著提升开发效率,为快速迭代和规模化应用提供了可能。 项目地址:https://github.com/googleapis/genai-toolbox内置安全与效率机制MCP Toolbox for Databases通过内置的连接池 ...
随着AI技术的飞速发展,大模型在图像放大领域的表现已令人惊叹,高清化低分辨率图片早已不是难事。然而,在视频超分辨率(RealVSR)领域,如何在保持帧间流畅性的同时大幅提升清晰度,一直是技术难题。近日,由香港理工大学与OPPO研究院联合研发的DLoRAL框架横空出世,以其创新的双LoRA架构和高效的单步生成能力,为视频高清化提供了开源解决方案,引发业界广泛关注。以下,AIbase为您独家解读这一突破性技术的亮点与潜力。项目地址:https://github.com/yjsunnn/DLoRAL创新双LoRA架构,兼顾时间与空间DLoRAL(Dual LoRA Learning)框架基于预训练的扩散模型(Stable Diffusion V2.1),通过独特的双LoRA架构实现了视频超分辨率的革命性突破。其核心在于两个专门设计的LoRA模块: CLoRA:专注于视频帧之间的时间一致性(Temporal Consistency)。通过提取低质量输入视频中的时序特征,CLoRA确保相邻帧之间过渡自然,避免了传统方法中常见的闪烁或跳跃现象。 DLoRA:负责增强视频的空间细节(Spatial ...
苹果公司近期在其机器学习研究中心发布了一篇论文,介绍了一款名为 SceneScout 的人工智能代理。该技术旨在通过分析街景图像,为视障人士提供详细的环境描述,从而帮助他们在前往新的地点之前提前了解周围的地形。目前,许多视障人士在独立出行时常常感到犹豫,因为他们不清楚陌生环境中的具体情况。尽管已有一些工具如微软的 Soundscape 应用,能够提供现场环境的描述,但这些工具主要是在用户现场使用时进行的,而非提前准备。因此,视障人士在出行前所获得的地标和导航信息,往往无法满足他们对环境背景的需求。SceneScout 的诞生正是为了填补这一空白。SceneScout 是一款由多模态大型语言模型驱动的 AI 代理,具有两种主要功能模式。其中,“路线预览” 模式能够提供关于沿途可见元素的详细描述,比如提醒用户在转弯处注意路旁的树木等触觉元素。而 “虚拟探索” 模式则允许用户在街景图像中自由移动,获取更直观的环境信息。在用户研究中,参与者表示 SceneScout 极大提升了他们对环境的认知,因为这款 AI 能够获取他们无法通过现有工具获取的信息。该研究表明,SceneScout 的描述准确 ...