在AI技术迅猛发展的今天,如何让AI智能体高效、安全地与数据库交互,成为开发者关注的焦点。2025年7月,谷歌重磅发布了MCP Toolbox for Databases,一款开源工具模块,旨在通过模型上下文协议(Model Context Protocol, MCP)简化AI智能体与SQL数据库的集成流程。图源备注:图片由AI生成 极简集成,10行代码连接数据库MCP Toolbox for Databases是谷歌GenAI Toolbox的最新开源模块,专为AI智能体与数据库的交互设计。传统上,构建AI与数据库的集成需要处理复杂的认证、连接管理和安全控制问题,而MCP Toolbox通过不到10行Python代码即可实现这一目标。开发者只需简单配置,即可让AI智能体高效访问数据库,极大地降低了开发门槛。不仅如此,该工具支持工具在多个AI智能体间复用,显著提升开发效率,为快速迭代和规模化应用提供了可能。 项目地址:https://github.com/googleapis/genai-toolbox内置安全与效率机制MCP Toolbox for Databases通过内置的连接池 ...
随着AI技术的飞速发展,大模型在图像放大领域的表现已令人惊叹,高清化低分辨率图片早已不是难事。然而,在视频超分辨率(RealVSR)领域,如何在保持帧间流畅性的同时大幅提升清晰度,一直是技术难题。近日,由香港理工大学与OPPO研究院联合研发的DLoRAL框架横空出世,以其创新的双LoRA架构和高效的单步生成能力,为视频高清化提供了开源解决方案,引发业界广泛关注。以下,AIbase为您独家解读这一突破性技术的亮点与潜力。项目地址:https://github.com/yjsunnn/DLoRAL创新双LoRA架构,兼顾时间与空间DLoRAL(Dual LoRA Learning)框架基于预训练的扩散模型(Stable Diffusion V2.1),通过独特的双LoRA架构实现了视频超分辨率的革命性突破。其核心在于两个专门设计的LoRA模块: CLoRA:专注于视频帧之间的时间一致性(Temporal Consistency)。通过提取低质量输入视频中的时序特征,CLoRA确保相邻帧之间过渡自然,避免了传统方法中常见的闪烁或跳跃现象。 DLoRA:负责增强视频的空间细节(Spatial ...
苹果公司近期在其机器学习研究中心发布了一篇论文,介绍了一款名为 SceneScout 的人工智能代理。该技术旨在通过分析街景图像,为视障人士提供详细的环境描述,从而帮助他们在前往新的地点之前提前了解周围的地形。目前,许多视障人士在独立出行时常常感到犹豫,因为他们不清楚陌生环境中的具体情况。尽管已有一些工具如微软的 Soundscape 应用,能够提供现场环境的描述,但这些工具主要是在用户现场使用时进行的,而非提前准备。因此,视障人士在出行前所获得的地标和导航信息,往往无法满足他们对环境背景的需求。SceneScout 的诞生正是为了填补这一空白。SceneScout 是一款由多模态大型语言模型驱动的 AI 代理,具有两种主要功能模式。其中,“路线预览” 模式能够提供关于沿途可见元素的详细描述,比如提醒用户在转弯处注意路旁的树木等触觉元素。而 “虚拟探索” 模式则允许用户在街景图像中自由移动,获取更直观的环境信息。在用户研究中,参与者表示 SceneScout 极大提升了他们对环境的认知,因为这款 AI 能够获取他们无法通过现有工具获取的信息。该研究表明,SceneScout 的描述准确 ...
全球人工智能服务器市场正面临诸多挑战,预计其同比增长率将显著下降。这一现象主要受到美国出口限制的不确定性以及地缘政治紧张局势引发的供应链中断的影响。尽管人工智能的热潮在全球范围内持续升温,尤其是北美的大型科技公司正在加大对人工智能基础设施的投资,但市场预测依然不容乐观。图源备注:图片由AI生成,图片授权服务商Midjourney据 TrendForce 的分析,人工智能服务器的出货量增长预期从28% 降至24.3%。虽然这仍然代表着双位数的增长,但这种下滑反映出当前贸易政策的变化及地区紧张局势对市场的负面影响。在这样的背景下,尽管大型科技公司在人工智能开发方面的资本支出仍未减缓,但未来的增长潜力却面临压力。例如,微软在人工智能服务器方面的投入仍在持续,尤其是在部署 NVIDIA 的新服务器上。当前,Blackwell Ultra GB300系列人工智能服务器在科技巨头中受到广泛欢迎,而 NVIDIA 在过去几个季度中在这一领域的主导地位也未受到挑战。与此同时,微软尝试开发内部人工智能芯片的项目虽然未能按预期推进,但科技巨头对 AI 基础设施的需求依然强劲。此外,Google 和 Met ...
近日,苹果公司与哥伦比亚大学的研究团队共同开发了一款名为 SceneScout 的人工智能原型系统。这一系统旨在为盲人及低视力群体(BLV)提供街景导航的辅助功能,帮助他们更好地进行日常出行。SceneScout 系统通过结合苹果地图(Apple Maps)API 与多模态大语言模型(基于 GPT-4o 内核),生成个性化的环境描述。这一创新的技术使得用户能够获得更加直观和具体的导航信息,从而提升他们的出行体验。相关的研究论文已经在预印平台 arXiv 上发表,尽管尚未经过同行评审。该系统的核心功能包括两大部分:首先是路线预览(Route Preview)。通过这一功能,用户能够预判行程中的道路状况,例如人行道的质量、交叉口的特征以及附近公交站的情况等。这些信息对于盲人用户而言,尤其重要,可以帮助他们在出行时提前了解周围环境。其次是虚拟探索(Virtual Exploration)功能。该功能允许用户根据自己的需求进行开放场景的探索。例如,用户可以询问系统 “临近公园的安静居住区”,系统则会根据用户的需求提供相应的方向指引。SceneScout 通过模拟行人的视角解读可见内容,并生成结 ...
微软近日在其官网上宣布,Azure AI Foundry 中上线了 Deep Research 的公开预览版。这款新产品是一种支持 API 和 SDK 的智能体,类似于 OpenAI 的高级智能体,旨在提升研究与分析的效率。Deep Research 能够像人类分析师一样,将复杂任务分解为可管理的步骤,并在全球范围内进行多轮信息搜索与验证,从而实现研究任务的自动化,最终生成透明且可审计的研究报告。传统的科研工作往往需要耗费大量时间和人力,研究者需要逐步明确研究主题的核心问题,拆解出多个子方向,然后在不同数据库和平台中手动检索相关信息。这一过程既繁琐又容易受限于信息的时效性和准确性,导致科研效率低下。而 Deep Research 的出现,改变了这一局面。该智能体与必应搜索及 OpenAI 的 GPT 系列模型紧密结合,可以自动完成信息收集和分析。用户只需提交研究需求,Deep Research 就能够智能拆解问题,明确研究范围,并精准获取最新、权威的信息,减少了人工干预的需求。Deep Research 不仅限于学术研究,金融和医疗等领域的复杂报告生成也同样适用。它使用 OpenAI ...
近日,微软确认将在全球范围内裁员多达9,000名员工,这一消息令许多员工感到震惊和不安。对此,Xbox Game Studios Publishing 的执行制作人 Matt Turnbull 在 LinkedIn 上发表了一条建议,鼓励被裁员的员工利用人工智能工具来应对失业带来的情绪波动。虽然这条信息随后被删除,但已经被一些媒体和社交平台的用户捕捉并传播开来。图源备注:图片由AI生成,图片授权服务商Midjourney在这条被删除的帖子中,Turnbull 提到可以使用像 ChatGPT 和 Cop ilot 等 AI 工具,帮助人们减轻因失去工作而产生的情感和认知负担。他表示,如果你正在经历裁员,或者正在为可能的裁员做好准备,自己并不孤单,身边还有很多人也在经历相同的困境。尽管他承认 AI 工具可能会引发强烈的情感反应,但他希望在这种情况下能提供一些 “最佳建议”。Turnbull 还分享了他使用大型语言模型(LLM)AI 工具的经验,并列出了一些可以在 AI 软件中输入的提示。这些提示包括职业规划、简历和 LinkedIn 帮助,以及关于情绪清晰度和自信的问题。他希望这些建议能够 ...
近年来,创业热潮愈演愈烈,尤其是在疫情影响下,很多人开始重新审视自己的职业发展。在这样的背景下,亨里克・维尔德林(Henrik Werdelin)创办了名为 Audos 的初创工作室,计划利用人工智能技术帮助普通人实现创业梦想。他的目标是每年孵化10万家新公司,而不再局限于过去在 Prehype 时帮助的几十家。Audos 位于纽约,维尔德林与他的合伙人尼古拉斯・索恩(Nicholas Thorne)希望借助 AI 工具,降低创业的门槛,让那些没有技术背景的创业者也能轻松创建出百万美元的公司。维尔德林指出,许多创业者可能对 AI 的潜力感到好奇,但又不知从何入手,Audos 就是为了帮助这些 “日常创业者”。在 Audos 的平台上,创业者可以通过 AI 代理与系统进行对话,探讨他们想要解决的问题以及服务的客户群体。一旦系统满意,Audos 便会迅速将他们与潜在客户对接。自测试版推出以来,Audos 已帮助数百个创业项目落地,涵盖汽车维修报价评估、身后事务服务、虚拟高尔夫教练等多种业务。Audos 的商业模式与传统创业加速器或风险投资有所不同。该公司不收取股权,而是从每个成功启动的业务 ...
谷歌于本周五凌晨正式发布并开源全新端侧多模态大模型Gemma3n,这一突破性产品为手机、平板、笔记本等端侧设备带来了此前只能在云端体验的强大多模态功能。核心特性:小体积大能力Gemma3n提供E2B和E4B两个版本,虽然原始参数量分别为5B和8B,但通过架构创新,其内存占用仅相当于传统2B和4B模型,分别只需2GB和3GB内存即可运行。该模型原生支持图像、音频、视频和文本的多模态输入处理,支持140种文本语言和35种语言的多模态理解。值得一提的是,E4B版本在LMArena评测中得分超过1300,成为首个达到此基准的100亿参数以下模型,在多语言、数学、编码和推理能力方面均实现显著提升。技术创新:四大突破性架构MatFormer架构:Gemma3n采用全新的Matryoshka Transformer架构,如俄罗斯套娃般实现一个模型包含多种尺寸。训练E4B模型时同步优化E2B子模型,为开发者提供灵活的性能选择。通过Mix-n-Match技术,用户可在E2B和E4B之间创建自定义尺寸模型。每层嵌入(PLE)技术:这项创新允许大部分参数在CPU上加载计算,只有核心Transformer权 ...
OpenAI于2025年6月26日宣布推出两款全新的 Deep Research API模型:o3-deep-research-2025-06-26和 o4-mini-deep-research-2025-06-26,标志着其在自动化研究与复杂任务处理领域的重大突破。这两款模型专为高阶分析和深度信息合成设计,支持开发者通过API实现自动化的网页搜索、数据分析、代码执行等功能,为企业、研究人员和开发者提供了强大的工具。o3与o4-mini:性能与效率的平衡o3-deep-research 是OpenAI目前最强大的深度研究模型,推论能力达到最高等级(5/5),专为需要复杂推理和精准分析的任务打造,例如金融分析、科学研究等。相比之下,o4-mini-deep-research 则注重高效和成本效益,适合快速处理大规模查询,同时保持较高的智能水平。定价方面,o3模型每1000次调用价格为10至40美元,而o4-mini价格更低,为2至8美元,满足不同预算需求。核心功能与应用场景Deep Research API通过结合OpenAI的o3和o4-mini模型,支持多步骤研究、网页搜索 ...