iDreamer 致力于打造一个激发科研热情的全球中心。我们帮助教授将愿景变为现实,为学生照亮塑造未来的道路。在这里,没有资源的壁垒,没有思想的界限,只有团结一心追求卓越。我们相信,真正的研究应该属于每一个有才华、有梦想的人。通过整合全球资源、优化协作,我们确保每一位科研人员在这里都能找到自己理想的伙伴和方向。生成式人工智能(Generative AI)正在逐渐从单一模型训练的阶段,过渡到更加复杂的系统优化时代。随着大语言模型(LLM)及其相关组件在多种任务中的广泛应用,如何高效地协调并优化这些组件的表现,已成为人工智能领域的重要课题。近年来,针对复杂系统的自动化优化框架的研究逐步增多。然而,传统优化方法往往局限于即时反馈和局部调整,难以有效应对多轮推理和复杂任务中逐步演化的需求。REVOLVE作为一种新的优化框架,提出了一种不同的思路。通过引入历史响应相似度的概念,REVOLVE不仅优化当前的输出,还能在多轮迭代中引导模型实现持续改进。与传统方法依赖即时反馈不同,REVOLVE通过捕捉响应演化的趋势,推动优化过程更加稳定且细致,帮助模型逐步突破局部最优,提升整体性能。通过这种方式,R ...
在 DeepSeek 生成的文本中,有 74.2% 的文本在风格上与 OpenAI 模型具有惊人的相似性?这是一项新研究得出的结论。这项研究来自 Copyleaks—— 一个专注于检测文本中的抄袭和 AI 生成内容的平台。这家平台表示,正如每个人都有独特的指纹一样,人工智能也有自己独特的、可识别的特征。比如 DeepSeek 的文风就有一股强烈的「DS 味」:意象堆得非常满,每句话都有通感、隐喻和互文。和其他人的文字放在一起,我们很容易看出哪段话好像背后必有 DeepSeek 指点。 来源:http://xhslink.com/a/6n6JLYTWrM36因此 Copyleaks 开发了一种精确的方法,能够识别具体是哪种 AI 模型写下了某段文字,即使该 AI 故意模仿另一种写作风格时也是如此。具体来说,他们开发了一个由三个分类器组成的 LLM 检测集成系统,这些分类器具有不同的架构和训练数据。该集成系统经过训练,可以对四大语言模型 ——Claude、Gemini、Llama ...
故事始于 2003 年,一位名叫 Britta Späthen 的德国研究生首次接触到了麦凯猜想(McKay conjecture),这是数学群论中最大的未解难题之一。作为群论的一个著名猜想,麦凯猜想由数学家约翰・麦凯(John McKay)于 1972 年提出,主要涉及有限群的表示论,特别是关于群的不可约特征标的性质。 最开始, Britta Späthen 的目标并没有那么大。她希望证明一两个定理,逐步推进这一猜想的解决,就像她之前许多其他数学家所做的那样。但多年来,她一次又一次地被麦凯猜想吸引。像这样一心一意地追求如此困难的问题可能会伤害她的学术生涯,但 Britta Späthen 还是把所有的时间都投入其中。之后,她认识了巴黎 Jussieu 数学研究所的数学家 Marc Cabanes,后者受到她的启发,也开始对麦凯猜想着迷。在一起工作期间,两人坠入爱河,并最终组建了家庭。数学中充满了极其复杂的抽象对象,不可能完全对它们进行研究。不过,数学家发现,通常只需查看此类对象的一小部分即可了解它们更广泛的属性。因此,当数学家想要理解一个极其复杂的函数时,他们可能只需要查看它的一小部 ...
编辑 | 萝卜皮将功能性磁共振成像 (fMRI) 信号解码为文本一直是神经科学界面临的一项重大挑战,它有望推动脑机接口的发展,并加深对大脑机制的了解。然而,现有的方法往往存在预测性能不佳、任务种类有限以及跨受试者泛化能力较差等问题。针对这一问题,耶鲁大学(Yale University)、达特茅斯学院(Dartmouth College)和剑桥大学(University of Cambridge)的研究人员提出了 MindLLM,一种专为主题无关且用途广泛的 fMRI 到文本解码而设计的模型。此外,研究人员提出了一种新方法——大脑指令调整 (BIT),可增强模型从 fMRI 信号中捕获不同语义表示的能力,从而促进更通用的解码。在全面的 fMRI 到文本基准上的评估中, MindLLM 优于基线,下游任务提高了 12.0%,未知主题泛化提高了 16.4%,新任务适应提高了 25.0%。此外,MindLLM 中的注意力模式为其决策过程提供了可解释的见解。该研究以「MindLLM: A Subject-Agnostic and Versatile Model for fMRI-to-Text ...
编辑 | ScienceAI近期,上海交通大学医学院张海仓课题组联合中原人工智能产业技术研究院与中国科学院计算技术研究所,提出了一项名为AbNovo 的抗体设计新方法。该方法基于强化学习与深度扩散模型,能够在多目标、多约束条件下实现抗体从头设计。该研究以「Multi-objective antibody design with constrained preference optimization」为题发表在国际机器学习顶会ICLR2025上。论文链接:https://openreview.net/forum?id=4ktJJBvvUd背景介绍抗体是免疫系统中的关键蛋白,能与特定靶抗原结合并触发适应性免疫反应,在癌症、自身免疫缺陷及病毒感染等疾病治疗中具有重要地位。目前,全球范围内已批准应用了百余种抗体药物。近年来,借助深度生成模型,计算抗体设计取得了长足进展,尤其在增强抗体-抗原结合亲和力方面成效显著。然而,除了高亲和力之外,抗体还需具备多种理想的生物物理特性,例如稳定性、高靶标特异性以及低自聚合性等,才能实现更优的可开发性与临床安全性。在湿实验中,传统的「后筛选」方法通常先生成一批 ...
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文是北京大学彭宇新教授团队在多轮交互式商品检索的最新研究成果,已被 ICLR 2025 接收并开源。图像检索是计算机视觉的经典任务,近年来在电商等场景中广泛应用。然而,单一图像难以 ...
AI好好用报道编辑:杨文啃了10亿+篇小红书、还接入DeepSeek的AI搜索神器「点点」实力如何?周末在小红书冲浪,刷到一个帖子:小红书旗下独立 AI 搜索 App「点点」上线「深度思考」功能。而且,看样子也是接入了 DeepSeek R1。之前一直传言「小红书即将接入 DeepSeek-R1 开源模型」,这下子有结果了。目前,我们在苹果的 APP Store、安卓应用宝下载「点点」即可体验其深度思考功能。「点点」问世时间并不长,去年 12 月底才推出。它主打生活场景搜索,覆盖交通出行、美食推荐、旅游攻略、购物评价、人际交往等各种生活「疑难杂症」。如今接入了 DeepSeek R1,还啃了 10 亿 + 篇小红书帖子,点点的表现如何呢?我们直接去苹果的 App Store 下载了个,接下来就为大家奉上一手测评。-1-一手实测点点的首页相当简洁。左上角是定位的地址和天气,中间一栏是预设的问答场景,包括「附近吃喝玩乐灵感」、「生活难题速答」、「极速吃瓜」、「出行游玩攻略」、「避坑指南」、「健康随手问」。最下面则是聊天搜索框,内置「深度思考」小图标。吃喝玩乐只要定了位,点击「附近吃喝玩乐 ...
2025年3月4日,北京智谱华章科技有限公司宣布推出首个支持生成汉字的开源文生图模型——CogView4。该模型在DPG-Bench基准测试中综合评分排名第一,成为开源文生图模型中的SOTA(State of the Art),并遵循Apache2.0协议,是首个支持该协议的图像生成模型。CogView4具备强大的复杂语义对齐和指令跟随能力,支持任意长度的中英双语输入,并能生成任意分辨率的图像。它不仅能够生成高质量的图像,还能在画面中自然地融入汉字,满足广告、短视频等领域的创意需求。技术上,CogView4采用了具备双语能力的GLM-4encoder,通过中英双语图文训练,实现了双语提示词输入能力。该模型还支持任意长度的提示词输入,能够生成任意分辨率的图像,极大地提升了创作自由度和训练效率。CogView4采用了二维旋转位置编码(2D RoPE)来建模图像位置信息,并通过内插位置编码支持不同分辨率的图像生成。此外,模型采用Flow-matching方案进行扩散生成建模,结合参数化的线性动态噪声规划,以适应不同分辨率图像的信噪比需求。在架构设计上,CogView4延续了上一代的Share ...
还在苦苦寻觅能听懂中文的开源图片模型?现在,你可以彻底告别英文 prompt 的“束缚”了!国内 AI 巨头智谱 AI 霸气开源了全新文生图模型 CogView4,直接把中文图片生成技术推向了新高度! 这下,设计师们、内容创作者们,甚至是对 AI 绘画感兴趣的 “小白” 们,都能扬眉吐气,用咱自己的母语,玩转 AI 图像生成了!CogView4最大的亮点,就是它对中文的“超强理解力”!你再也不用对着翻译软件吭哧吭哧地把中文 prompt 翻译成英文,直接用最自然的中文 “指令”,就能让 CogView4秒懂你的 “画意”,精准生成你想要的画面! 更让人拍案叫绝的是,它可是首个能直接在画面中 “写” 出汉字的开源模型! 这简直是为中文用户量身打造的 “神笔马良”,让你的创意表达更加 “原汁原味”,再也不用担心画面中的文字 “水土不服” 了!更给力的是,CogView4还彻底解放了图片尺寸和 prompt 长度的限制! 想生成 “巨幅” 宽屏海报? 没问题! 想要 “长篇大论” 式的 prompt 描述复杂场景? 随便输! CogView4都能轻松Hold住,满足你各种 “天马行空” 的创 ...
在快速发展的播客领域,Podcastle 平台近日宣布推出其全新的 AI 文本转语音模型 Asyncflow v1.0。这个新模型不仅为用户提供了超过450种不同的 AI 语音,还向开发者开放了 API 接口,以便于他们将这一文本转语音功能直接集成到自己的应用程序中。Podcastle 的创始人 Arto Yeritsyan 表示,公司一直希望能开发一个文本转语音模型,但由于过去高昂的训练成本和数据需求,这一愿望一直未能实现。然而,随着近年来大型语言模型技术的进步,Podcastle 终于在去年取得了突破,能够在不需要大量数据的情况下,构建出高质量的语音模型。Yeritsyan 补充道,Podcastle 的研发得到了去年1350万美元的 A 轮融资的支持,这为其技术创新提供了重要保障。在价格方面,Podcastle 的文本转语音服务定价为每500分钟约40美元,相比之下,竞争对手 ElevenLabs 则收取99美元。除了文本转语音模型外,Podcastle 的语音克隆功能也得到了升级,训练过程由之前的需朗读70句不同句子,缩短至现在仅需几秒的录音。新过程利用了 Podcastle ...