编辑 | 萝卜皮开发一种新的治疗方法风险特别大,过程非常缓慢,而且可能花费数十亿美元。据统计,90% 的候选药物过不了第一阶段的试验。在这里,Google DeepMind 团队发布了 TxGemma,这是一组开源模型,旨在通过利用大型语言模型的强大功能来提高治疗开发的效率。TxGemma 以之前发布的 Gemma(一组轻量级、先进的开源模型)为基础,经过专门训练,可以理解和预测整个发现过程中治疗实体的属性,从确定有希望的目标到帮助预测临床试验结果。这可以缩短从实验室到临床的时间,并降低与传统方法相关的成本。TxGemma 使用 700 万个训练示例从 Gemma 2 进行微调,是专为预测和对话式治疗数据分析而设计的开源模型。这些模型有三种尺寸,每种尺寸都包含一个「预测」版本,专门针对从治疗数据共享中提取的狭窄任务进行量身定制,例如预测分子是否有毒。这些任务包括:分类(例如,该分子是否会穿过血脑屏障)、回归(例如,预测药物的结合亲和力)、生成(例如,给定某些反应的产物,生成反应物集)。开发人员和医学研究者可以根据自己的治疗数据和任务对 TxGemma 进行适配调整。论文链接:https ...
自生成式 AI 爆发以来,很多创业公司开拓出了新的市场,给大量行业带来了变革。由于依托 AI 云计算基础设施,新一代的创业公司发展很快,相比以往呈现出了完全不同的情况。本周,创业公司 Dify.AI 为我们介绍了自己的发展历程。目前,Dify 已是业内知名的开源大模型应用平台,其上汇聚了大量泛开发者,企业在 Dify 上可以获得最先进的生成式 AI 技术栈。这家创业公司刚刚拿到 TechCrunch 全球 20 佳第 3 名。在 GitHub 上,Dify 的项目已经位列全球百大开源项目,在应用开发平台领域与 LangChain 并列为最受欢迎的两个项目之一。Dify 构建了开放的 API 框架和可扩展插件市场,其架构支持即插即用的各类跨系统集成,可将企业 AI 应用的系统整合周期从平均 12 周缩短至 3-4 周,集成效率提升 70%,从而大幅加速从概念到生产的转化速度。对于开发者而言,Dify 的可视化界面降低了操作门槛,使业务人员能够直接参与 AI 应用构建,大幅提升了研发人员调试 AI 应用的效率。「在我们的平台上,企业可以方便地把自有数据、业务进行集成,构建出 AI 应用, ...
近一年以来,AI 视频生成技术发展迅猛。自 2024 年初 Sora 问世后,大家惊喜地发现:原来 AI 可以生成如此逼真的视频,一时间各大高校实验室、互联网巨头 AI Lab 以及创业公司纷纷入局视频生成领域。闭源模型(如 Kling、Gen、Pika)在视觉效果方面令人惊叹,近期也有 HunyuanVideo、Wanx 等完全开源的模型在 VBench 榜单上表现出色,让我们看到了社区在推动技术革新上的无限潜力。然而,当大家都在惊呼「视觉效果太牛了」的同时,难免会产生新的思考:视频生成的下一步究竟该往哪里走?表面逼真度真的就代表一切吗?还能有哪些更深层次的能力值得我们深挖?从「表面真实性」到「内在真实性」初代 VBench 作为业内权威的视频生成评测体系,主要关注视频的视觉观感,例如每一帧的清晰度、帧与帧之间的平滑衔接,以及视频和文本描述间的基本一致性。这些要素也被称为表面真实性(Superficial Faithfulness),它解决了视频「看起来是否逼真」和「好不好看」的问题,并为现阶段模型提供了统一衡量标尺。然而,要让视频生成真正迈向更高层次的应用——例如 AI 辅助电影制 ...
2025年3月25日,九章云极DataCanvas与谷络吉公司KoolLogix在新加坡签署战略合作备忘录 (MoU)。此次合作旨在依托新科研-谷络吉联合实验室的技术底座,结合九章云极DataCanvas在人工智能领域的行业积淀,共同推动AI技术在数据中心和IT运营中的创新应用。九章云极国际业务负责人徐江博士出席签约仪式,联合实验室由C.K. Cheong和James Lim代表出席。九章云极DataCanvas与谷络吉公司KoolLogix在新加坡签署战略合作备忘录 (MoU)新科研-谷络吉联合实验室是新加坡科学技术研究局(Agency for Science, Technology and Research(A*STAR))与谷络吉共同成立的研发机构,致力于通过跨学科研究推动IT基础设施解决方案的创新。作为新加坡国家级科研机构,新科研在科技研发、产业转化和人才培养方面具有全球领先地位。根据备忘录,双方将在五大领域展开合作,其中重点包括:AI服务平台开发:双方将共同开发支持数据中心运维的AI服务平台,该平台将率先在联合实验室内部使用,并逐步推广至全新加坡。研究合作:重点探索AI在IT ...
「仅需一次前向推理,即可预测相机参数、深度图、点云与 3D 轨迹 ——VGGT 如何重新定义 3D 视觉?」3D 视觉领域正迎来新的巨变。牛津大学 VGG (Visual Geometry Group) 与 Meta AI 团队联合发布的最新研究 VGGT(Visual Geometry Grounded Transformer),提出了一种基于纯前馈 Transformer 架构的通用 3D 视觉模型,能够从单张、多张甚至上百张图像中直接推理出相机内参、外参、深度图、点云及 3D 点轨迹等核心几何信息。无需任何后处理优化,该模型已经在多个 3D 任务中性能显著超越传统优化方法与现有 SOTA 模型,推理速度可达秒级。这一研究打破了过去 3D 任务依赖繁琐几何迭代优化的传统范式,展示了 “越简单,越有效” 的强大潜力。论文标题:VGGT: Visual Geometry Grounded Transformer论文链接:https://arxiv.org/abs/2503.11651代码链接:https://github.com/facebookresearch/vggt演示平台:ht ...
2025 开年,DeepSeek-R1 的成功在全球掀起了一股开源风潮,上个月的开源周更是毫无保留地将自己的多项核心技术开放给了全球开发者。这种「完整技术栈」式的开源震撼了整个行业。毫无疑问,开源正成为国内外大模型厂商的「战略共识」。从文本到视觉,从对话到推理,开源生态的繁荣正推动大模型技术快速迭代。在这一波生成式 AI 浪潮中,MiniMax、月之暗面等公司纷纷从应用层回归模型层,聚焦底层架构创新,而非仅依赖上层应用变现。这一趋势表明,模型本身的能力突破,而非单纯的产品包装,正成为行业竞争的核心。在 3D 生成这一尚未被完全定义的领域,VAST 正以开源先锋的姿态重新划定行业标准。这家专注于 3D 生成赛道的公司,正通过自主研发打造面向三维内容创作的开源基础设施。3 月 28 日,专注于构建通用 3D 大模型的 VAST 一口气开源了两个 3D 生成项目 ——TripoSG 和 TripoSF。前者是一款基础 3D 生成模型,在图像到 3D 生成任务上远超所有闭源模型;后者则是 VAST 新一代三维基础模型 TripoSF 能在所有闭源模型中同样取得 SOTA 的基础组件,用于高分辨 ...
编辑 | 2049神经元对相同刺激的反应为什么会表现出显著差异?这种变异性是否仅仅是「噪声」?传统研究往往假设神经活动变异性是静态的,但真实大脑状态在秒级尺度内快速切换,导致编码效率的动态波动。在一项新的研究中,来自艾伦研究所(Allen Institute)和清华大学的联合研究团队揭示了神经元反应变异性背后的动态机制。他们发现,大脑内部状态的波动会显著影响神经编码的效率,不同脑区的神经元根据其在解剖层级中的位置,对感知刺激和行为表现出独特的编码模式。该研究以「Deciphering neuronal variability across states reveals dynamic sensory encoding」为题,发表于 2025 年 2 月 19 日的《Nature Communications》。论文链接:https://www.nature.com/articles/s41467-025-56733-w数据链接:https://portal.brain-map.org/circuits-behavior/visual-coding-neuropixels代码地址:htt ...
「看到人们喜欢 ChatGPT 中的图片功能真是太有趣了,但是我们的 GPU 正在融化。」上线不到 72 小时,OpenAI 的 GPT-4o 原生图像功能终于扛不住了。今天凌晨,OpenAI CEO 山姆・奥特曼在社交平台 X 上宣布 ChatGPT 图像生成功能开始暂时受限。这一次,他没有具体说明次数限制是多少,但表示希望这项保障措施不需要实施很长时间,因为 OpenAI 正在尝试优化效率。随着用户在互联网上发布大量 ChatGPT 生成的图像,传播开来之后再吸引到更多的用户,OpenAI 升级后的图像工具火爆程度远远超出了预期。其实 GPT-4o 生成图像的速度越来越慢,很多用户已经在抱怨了,周四时生成一张图片的速度就长达半个小时。要知道,现在 GPT-4o 生图还是仅限于付费版用户的功能(Plus、Pro 和 Team 用户)。虽然奥特曼仍然许诺免费的 ChatGPT 账户未来每天可以获得三次生成机会,但是照目前的情况来看距离兑现反而还越来越远了。看起来这一回,AI 的图片生成能力终于超过了某个阈值,切实地在重塑着世界。人们从 GPT-4o 生成的图像中会发现一些令人毛骨悚然的 ...
每天,道路智能巡检机器人带着一双“北斗+AI”之眼,在上海市区行进约50公里。车辆所及之处,道路坑槽、裂缝等病害,隔离带损坏等异常情况都摸得一清二楚。2024年11月,隧道股份上海城建城市运营(集团)有限公司(以下简称“城市运营”)与千寻位置网络有限公司(以下简称“千寻位置”)达成战略合作,推动轻量化巡检技术规模化代替传统人工巡检,打造智慧化、标准化、高质量的巡检解决方案。目前,道路巡检机器人集成“千寻驰观+智城云巡”的巡检解决方案,已陆续在上海、成都、珠海、浙江嘉善等省市展开应用。“原来我们是通过人工巡查道路,每天派出三四辆工程车,一人开车,另一名专业养护人员实地检查,肉眼观察问题、下车拍照记录,风险高、效率低。智能巡检机器人上线以后,只需要一辆车一个人,巡检效率提升近一倍。”城市运营巡检项目负责人表示:“发现问题后,智能巡检机器人自动上报至我们研发的“智城云巡”平台,专业技术工程师快速校核后,道路病害通常在3-12小时内将问题修复,让道路行车更加安全。”千寻位置是全球领先的时空智能科技公司,成立于 2015 年 8 月。公司基于北斗卫星系统(兼容 GPS、GLONASS、Galil ...
AI的脑洞日记我们经常听说,AI 就像一个无法破解的黑匣子。语言被输入进来,又被输出出去。没有人知道 AI 为什么会这样做。刚刚,AI 公司 Anthropic 公布了大模型思考过程,他们构建了一种「AI 显微镜」,以识别模型中的活动模式和信息流动。我们都知道,LLM 并不是由人类直接编程,而是通过大量数据进行训练得来的。在训练过程中,它们学会了自己解决问题的策略。对开发者来说,这些策略是难以理解的。这意味着我们并不了解模型是如何完成它们所做的大部分事情的。如果能够了解像 Claude 这样的模型是如何思考的,我们就能更好地理解它们的能力,同时也能帮助我们确保它们按照我们的意图行事。例如:Claude 掌握几十种语言。它在「头脑中」使用的是哪种语言(如果有的话)?Claude 逐词写作。它是否只关注预测下一个词,还是会提前规划?带着这些疑问,Anthropic 从神经科学领域汲取灵感 —— 该学科长期致力于研究思维生物体内复杂的运作机制 —— 并尝试构建一种「AI 显微镜」,用以识别模型活动模式和信息流动轨迹。为了解释这一研究,Anthropic 今天连发了两篇论文。论文标题:Circ ...