上海交通大学与 SII 联合发布了 DeepResearcher,代码训练框架完全开源。这是首个在真实网络环境中通过强化学习训练的 AI 研究模型。随着大型语言模型(LLMs)推理能力的飞速发展,OpenAI、Google 和 XAI 等科技巨头纷纷推出了备受欢迎的 Deep Research 产品。这些工具能帮助用户整合海量网络信息,解决复杂问题,大大提升研究效率。但现有系统存在两大痛点:一方面,商业产品如 OpenAI 的 Deep Research 完全是 “黑盒”,其技术细节不对外公开;另一方面,开源项目往往依赖人工设计的工作流程,导致行为僵化、泛化能力差,在复杂研究场景中表现脆弱。DeepResearcher 通过强化学习扩展(RL scaling)在真实网络环境中训练,自发形成了令人惊叹的研究能力。以图中所示的例子为证:在回答问题时,DeepResearcher 不只是简单搜索信息,而是展现出人类才有的复杂行为模式 —— 自主规划研究步骤、动态调整搜索策略、交叉验证不同来源的信息。特别值得注意的是,当面对 “谁是电影先驱” 这类开放性问题时,DeepResearcher 不 ...
编辑丨coisini机器学习在蛋白质发现领域展现出深远的潜力,相关工具已快速应用于科学流程的辅助与加速。当前,AI 辅助的蛋白质设计主要利用蛋白质的序列和结构信息,而为了描述蛋白质的高级功能,人们以文本形式整理了海量知识,这种文本数据能否助力蛋白质设计任务尚未得到探索。为了填补这一空白,来自加州大学伯克利分校(UC Berkeley)、加州理工学院(California Institute of Technology)等机构的研究者提出了一个利用文本描述进行蛋白质设计的多模态框架 ——ProteinDT。该框架包含三个连续步骤:对齐两种模态表征的 ProteinCLAP、从文本模态生成蛋白质表征的 Facilitator,以及根据表征生成蛋白质序列的解码器。论文地址:https://www.nature.com/articles/s42256-025-01011-z研究概览受基础模型突破的启发,计算化学领域已证明结合药物文本描述与化学结构信息的多模态机制能有效促进小分子药物发现,这为蛋白质领域如何运用多模态机制推动蛋白质工程与生成提出了新命题。为解答这一问题,研究团队开创了利用文本描述 ...
编辑 | 杨文自从 GPT-4o 出了「吉卜力」滤镜后,社交媒体上简直是人均宫崎骏。而这股「吉卜力热」也让 ChatGPT 圈了一大波粉,甚至一小时狂揽百万用户。友商们也坐不住了。Midjourney CEO 跳出来一顿阴阳,还放出自家模型即将更新至 V7 的消息。Ideogram 则直接掏出了最新模型 3.0,并向所有用户免费开放。就在今天,我们发现字节的即梦也在悄咪咪灰测 3.0 模型,号称「影视质感,文字更准,直出 2k 高清图」。接下来,我们就来个一手实测。-1-设计师危矣曾经很长一段时间,AI 能编代码、做文章、搞视频,但就是不会「写字」。只要让它在做图时写个字立马现原形,不是鬼画符就是错字连篇。最近各家 AI 公司都在这块下了功夫,就拿 GPT-4o 来说,现在即使做漫画也不在话下。AI 终于不再是「文盲」了。而即梦 3.0 最拿手的也是「写字」,尤其是中文。提示词:这是一张宠物类平面设计排版海报,扁平化插画,简笔画身体特别长的白色小狗,草地,手写字体标题 “春日好风光”,夸张可爱的风格字体,杂志风格排版,原野哉设计风格,高级,画风可爱,极简,2:3。提示词:蜡笔画风格儿童 ...
编辑 | 杨文这波 GPT-4o 的「吉卜力」狂欢,让 OpenAI 大赚了一笔。昨天,Sam Altman 发帖称,26 个月前 ChatGPT 刚发布时,用户增长速度已经非常快,五天内就新增了一百万用户,这在当时是一个非常「疯狂」的现象。然而,现在的情况更加惊人,仅仅在一个小时之内,就新增了一百万用户。为了「圈粉」,Sam Altman 不惜啪啪打脸。前脚他还在 X 上恳求网友们别再疯狂生成图像了,让他们团队睡个好觉;后脚就宣布 ChatGPT 图像生成功能对所有免费用户开放。据媒体援引 OpenAI 发言人报道称,ChatGPT 的付费用户数量已经突破 2000 万人,去年底时这个数字为 1550 万人。仅仅过了 3 个月,这款 AI 应用的订阅费收入就从 3.33 亿美元飙涨至 4.15 亿美元。不得不说,吉卜力风格实在太火了,网友们将严肃的时政新闻照片换成吉卜力风格,竟有一种世界变得和平温暖了的即视感。由此延伸,我们还发现了一个新思路 —— 用 GPT-4o 制作插画风暖新闻。不知道大家是否刷到过这样的短视频?上一秒还是简单的网友日常随拍,下一秒在博主「画画的邱锦鹏」笔下就成 ...
2025 年开年,以 DeepSeek R1 为代表的推理大模型开启炸场模式。在短短数月内,DeepSeek 凭借其卓越的性能和广泛的适用性,迅速在人工智能领域掀起了一场技术革新的浪潮。而后,国内外各大科技公司、科研机构迅速跟进,新研究、新应用不断涌现。AI 的发展速度似乎已经快进到了以周甚至以天为单位。面对发展如此迅速的 AI 领域,我们不禁发出这样一个疑问:AI 时代如何精准把握航帆,才能以敏锐的洞察力捕捉技术趋势?这时,参加顶会就是一个很好的渠道。作为 AI 领域顶级会议,ICLR 具有极高的含金量,今年 ICLR 2025 共接收 11,565 份投稿,录用率为 32.08%,今年 ICLR 还有不到一个月的时间在新加坡举行。即将相聚在阳光明媚的新加坡,这次机器之心与上海市人工智能实验室、东方菁汇、黄大年茶思屋科技网站、蚂蚁技术研究院、全球高校人工智能学术联盟共同攒个了饭局,诚邀大家参加「云帆・ICLR 2025 AI Talent Meetup」,一起来见见老朋友,结识新朋友,聊聊最近的热点话题 & 研究方向。欢迎大家扫描上方二维码,报名参与!报名审核通过后,活动小助 ...
编辑 | 杨文网友整的花样可真够多的。自打 GPT-4o 上线文生图模型以来,我的朋友圈就被它刷了屏。有人用来搞漫画:有人拿它玩梗图:最最绝的是,有网友直接让它整活影视剧名场面。比如吉卜力风格的《星际穿越》,完美复刻出电影中的玉米地、被海洋覆盖的米勒星球以及那个名叫 TARS 的机器人。视频来自:X 博主 @kb24x7 据作者介绍,他是使用 GPT-4o 和 Morphic 两款工具制作而成。先是截取电影中的经典镜头,然后使用 GPT-4o 将每一帧画面转绘成吉卜力风格,再在 Morphic 这款 AI 视频工具将风格化后的图片变成视频,最后剪辑在一起即可。X 博主 @PJaccetturo 则制作了一版吉卜力风格的《魔戒》预告片,效果也是杠杠滴:他花了整整 9 个小时,费了 250 美元的 Kling 点数才制作出这不到 2 分钟的动画预告片。不过,他并没有使用 GPT-4o,而是用了 OpenAI 的 Sora 工具,将官方预告片中的 102 个镜头转绘成吉卜力动画风格。在转绘风格时,博主输入的提示词:「请以吉卜力工作室的风格重新绘制这张图片,画面精致细腻,并保持原图的构图、色彩 ...
编辑 | 萝卜皮开发一种新的治疗方法风险特别大,过程非常缓慢,而且可能花费数十亿美元。据统计,90% 的候选药物过不了第一阶段的试验。在这里,Google DeepMind 团队发布了 TxGemma,这是一组开源模型,旨在通过利用大型语言模型的强大功能来提高治疗开发的效率。TxGemma 以之前发布的 Gemma(一组轻量级、先进的开源模型)为基础,经过专门训练,可以理解和预测整个发现过程中治疗实体的属性,从确定有希望的目标到帮助预测临床试验结果。这可以缩短从实验室到临床的时间,并降低与传统方法相关的成本。TxGemma 使用 700 万个训练示例从 Gemma 2 进行微调,是专为预测和对话式治疗数据分析而设计的开源模型。这些模型有三种尺寸,每种尺寸都包含一个「预测」版本,专门针对从治疗数据共享中提取的狭窄任务进行量身定制,例如预测分子是否有毒。这些任务包括:分类(例如,该分子是否会穿过血脑屏障)、回归(例如,预测药物的结合亲和力)、生成(例如,给定某些反应的产物,生成反应物集)。开发人员和医学研究者可以根据自己的治疗数据和任务对 TxGemma 进行适配调整。论文链接:https ...
自生成式 AI 爆发以来,很多创业公司开拓出了新的市场,给大量行业带来了变革。由于依托 AI 云计算基础设施,新一代的创业公司发展很快,相比以往呈现出了完全不同的情况。本周,创业公司 Dify.AI 为我们介绍了自己的发展历程。目前,Dify 已是业内知名的开源大模型应用平台,其上汇聚了大量泛开发者,企业在 Dify 上可以获得最先进的生成式 AI 技术栈。这家创业公司刚刚拿到 TechCrunch 全球 20 佳第 3 名。在 GitHub 上,Dify 的项目已经位列全球百大开源项目,在应用开发平台领域与 LangChain 并列为最受欢迎的两个项目之一。Dify 构建了开放的 API 框架和可扩展插件市场,其架构支持即插即用的各类跨系统集成,可将企业 AI 应用的系统整合周期从平均 12 周缩短至 3-4 周,集成效率提升 70%,从而大幅加速从概念到生产的转化速度。对于开发者而言,Dify 的可视化界面降低了操作门槛,使业务人员能够直接参与 AI 应用构建,大幅提升了研发人员调试 AI 应用的效率。「在我们的平台上,企业可以方便地把自有数据、业务进行集成,构建出 AI 应用, ...
近一年以来,AI 视频生成技术发展迅猛。自 2024 年初 Sora 问世后,大家惊喜地发现:原来 AI 可以生成如此逼真的视频,一时间各大高校实验室、互联网巨头 AI Lab 以及创业公司纷纷入局视频生成领域。闭源模型(如 Kling、Gen、Pika)在视觉效果方面令人惊叹,近期也有 HunyuanVideo、Wanx 等完全开源的模型在 VBench 榜单上表现出色,让我们看到了社区在推动技术革新上的无限潜力。然而,当大家都在惊呼「视觉效果太牛了」的同时,难免会产生新的思考:视频生成的下一步究竟该往哪里走?表面逼真度真的就代表一切吗?还能有哪些更深层次的能力值得我们深挖?从「表面真实性」到「内在真实性」初代 VBench 作为业内权威的视频生成评测体系,主要关注视频的视觉观感,例如每一帧的清晰度、帧与帧之间的平滑衔接,以及视频和文本描述间的基本一致性。这些要素也被称为表面真实性(Superficial Faithfulness),它解决了视频「看起来是否逼真」和「好不好看」的问题,并为现阶段模型提供了统一衡量标尺。然而,要让视频生成真正迈向更高层次的应用——例如 AI 辅助电影制 ...
2025年3月25日,九章云极DataCanvas与谷络吉公司KoolLogix在新加坡签署战略合作备忘录 (MoU)。此次合作旨在依托新科研-谷络吉联合实验室的技术底座,结合九章云极DataCanvas在人工智能领域的行业积淀,共同推动AI技术在数据中心和IT运营中的创新应用。九章云极国际业务负责人徐江博士出席签约仪式,联合实验室由C.K. Cheong和James Lim代表出席。九章云极DataCanvas与谷络吉公司KoolLogix在新加坡签署战略合作备忘录 (MoU)新科研-谷络吉联合实验室是新加坡科学技术研究局(Agency for Science, Technology and Research(A*STAR))与谷络吉共同成立的研发机构,致力于通过跨学科研究推动IT基础设施解决方案的创新。作为新加坡国家级科研机构,新科研在科技研发、产业转化和人才培养方面具有全球领先地位。根据备忘录,双方将在五大领域展开合作,其中重点包括:AI服务平台开发:双方将共同开发支持数据中心运维的AI服务平台,该平台将率先在联合实验室内部使用,并逐步推广至全新加坡。研究合作:重点探索AI在IT ...