法国大模型独角兽 Mistral AI 进军 OCR(光学字符识别)领域了。一出手就是号称「世界上最好的 OCR 模型」!新产品 Mistral OCR 是一种光学字符识别 API,它为文档理解树立了新标准。与其他模型不同,Mistral OCR 能够以前所未有的准确度和认知能力理解文档的每个元素(媒体、文本、表格、公式)。它以图像和 PDF 作为输入,并从有序交错的文本和图像中提取内容。因此,Mistral OCR 称得上一种理想的模型,可以与以多模式文档(如幻灯片或复杂 PDF)作为输入的 RAG 系统结合使用。从现在开始,Mistral OCR 功能可以在 Le Chat 上免费试用。Mistral AI 已经将它作为 le Chat 上数百万用户的默认文档理解模型,并以 1000 页 / 美元的价格发布了 API「mistral-ocr-latest」。目前,该 API 已经在开发者套件 la Plateforme 上提供,并将很快提供给 Mistral AI 的云和推理合作伙伴,同时可以有选择地本地部署。对复杂文档实现 SOTA 理解Mistral OCR 擅长理解 ...
在多模态人工智能领域,智源研究院与多所高校合作推出了全新的多模态向量模型 BGE-VL,标志着多模态检索技术的一次重大突破。自发布以来,BGE 系列模型便获得了广泛赞誉,而 BGE-VL 的推出则进一步丰富了这一生态系统。该模型在图文检索、组合图像检索等多项关键任务中表现出色,展现出其卓越的性能。BGE-VL 的成功归功于其背后的 MegaPairs 数据合成技术。这一创新方法通过挖掘现有的大规模图文数据,自动生成高质量的多模态三元组数据,显著提升了数据的可扩展性和质量。MegaPairs 能够以极低的成本生成多样化的数据集,其包含超过2600万条样本,为多模态检索模型的训练提供了丰厚的基础。这一技术让 BGE-VL 在多个主流多模态检索基准上都取得了领先成绩。在多模态检索日益受到重视的今天,用户对信息的获取需求愈发多样化。以往的检索模型多依赖于单一的图文对进行训练,无法有效应对复杂的组合输入。而 BGE-VL 通过引入 MegaPairs 数据,克服了这一局限,使得模型能够更全面地理解和处理多模态查询。智源团队在多个任务的性能评测中,发现 BGE-VL 模型在 Massive Mul ...
人工智能公司 Mistral AI 今日宣布,其最新文档识别模型 Mistral OCR 正式上线。这一模型被誉为“地表最强 OCR”,以其卓越的性能和多功能性在 X 平台上引发热烈讨论。Mistral OCR 支持复杂 PDF、图像、表格、数学公式及多语言文档的精确提取,并在速度和准确性上超越 Google Document AI 和 Azure OCR,成为文档处理领域的全新标杆。Mistral OCR 的技术突破Mistral AI 在 X 上宣称,Mistral OCR 具备“强大的认知能力”,能够准确理解文档中的文本、图像、表格和数学公式等多种元素。用户 @imxiaohu 在3月6日发帖表示:“Mistral AI 宣布推出最强文档识别模型 Mistral OCR,精确提取各种复杂文档,支持复杂 PDF、图像、表格、数学公式、多语言文档等多种格式。”这一功能的实现得益于其多模态处理能力和对全球多种语言的支持,包括中文、多种字体及手写体。更令人瞩目的是其处理速度。@aigclink在同日指出:“同类中最快,每分钟可处理高达2000页。”这种超高效率使其适用于需要快速处理大量文 ...
现在大家可以放弃追求Manus邀请码,目光转向开源社区!日前,CAMEL-AI团队宣布重磅推出的OWL(Optimized Workforce Learning)项目。这款基于CAMEL-AI框架构建的创新性多智能体协作框架,以其卓越的性能和开放的精神,在自动化任务处理领域掀起了一股强劲的风暴。GAIA榜单榜首要说OWL有多能打,数据最有说服力。据官方透露,OWL在著名的GAIA基准测试中取得了令人瞩目的58.18的平均分,一举登顶开源框架榜首。这个成绩甚至超越了Huggingface提出的Open Deep Research。这不禁让人想问,传说中“云端超级打工人”Manus呢?CAMEL-AI团队的回答颇具 Geek 式的幽默:“就这?我们0天复刻走起!”。开源共享与还在神秘内测、邀请码被炒至天价的Manus相比,OWL的最大亮点莫过于其完全开源。开发者们可以直接在GitHub上clone代码,亲身体验这一强大的框架,甚至可以参与到OWL的建设中,共同塑造更强大的全能开源Agent。项目地址已经贴心奉上:https://github.com/camel-ai/owl。功能亮点抢先看 ...
阿里巴巴达摩院开源了一款多语言大型语言模型Babel,其宏伟目标正是弥合语言鸿沟,让AI能够理解并使用全球九成以上人口的语言进行交流。当前许多大型语言模型往往更青睐英语、法语、德语等资源丰富的语言。然而,如同全球会议中鲜少被提及的小语种使用者一样,印地语、孟加拉语、乌尔都语等拥有庞大用户群体的语言在AI领域也常常被忽视。阿里巴巴的Babel正是要改变这种局面。它支持全球使用人数最多的前25种语言,覆盖了超过90%的世界人口。更值得称赞的是,Babel还将目光投向了斯瓦希里语、爪哇语、缅甸语等在开源LLM中鲜有涉猎的语种。这一举措无疑将为数十亿使用这些语言的人们带来更便捷、更优质的AI语言服务。与传统的持续预训练方法不同,Babel采用了独特的层扩展技术来提升模型的能力。这种方法可以理解为在模型原有的基础上,以一种更精巧的方式增加“知识储备”,从而在提升性能的同时,也保证了计算效率. 研究团队推出了两款各具特色的模型:Babel-9B,它专为高效的单GPU推理和微调而优化;以及Babel-83B,这款拥有830亿参数的“巨擘”旨在树立开源多语言LLM的新标杆。为了验证Babel的实力,研 ...
Docker 的创始人所罗门・海克斯(Solomon Hykes)在社交媒体平台 X 上宣布,他可能开发出了一个开源的替代工具,以对抗 Anthropic 推出的 Claude Code。这个新工具是 Dagger 的组成部分,Dagger 是一个用于组合工作流的开源运行时环境。Claude Code 是 Anthropic 推出的一款智能编码工具,随 Claude3.7Sonnet 一同发布。该工具集成在终端中,旨在帮助开发者以更快的速度编写代码,而无需复杂的设置。此外,Claude Code 还帮助 Anthropic 加快了内部开发流程。Dagger 的新模块系统允许开发者将智能特性作为模块组件集成到应用程序中。开发者可以将 Dagger 用作 AI 代理的运行时和编程环境,这种功能与 Claude Code 非常相似。海克斯强调,该系统支持任何模型,并内置了本地模型上下文协议(MCP)支持。他在 X 平台上分享了一些实例,展示了 Dagger 的强大功能。例如,他展示了如何通过简单地输入 “请为我启动一个 Kubernetes 集群” 来创建一个 Kubernetes 集群,利 ...
Anthropic 近日宣布对其开发者平台进行了重大升级,推出了全新的团队协作功能和 Claude3.7Sonnet 模型的扩展推理能力,旨在帮助企业在实施人工智能解决方案时解决重要的痛点问题。拥抱prompt的团队协作你是否还在为团队成员之间传来传去的 prompt 文档而头疼?是否曾因版本管理混乱导致线上模型表现不如预期?现在,这些统统成为历史啦!升级后的 Anthropic Console 带来了可分享的 prompts 功能。想象一下,你的团队拥有了一个共享的 prompt 宝库,开发人员、领域专家、产品经理和 QA 工程师可以齐聚一堂,共同雕琢每一个至关重要的指令。再也不用担心 prompt 在各种聊天软件和文档中迷失方向,集中化的管理让协作效率提升了不止一个档次。这简直是团队合作的“一键同步”功能,妈妈再也不用担心我的 prompt 丢了!Claude 大脑升级,思考也能“可视化”各位,敲黑板!本次升级的另一大亮点,是对 Anthropic 最新最强模型 Claude3.7Sonnet 的全面支持,不仅拥有近乎实时的响应速度,更令人惊喜的是,它还能展示扩展的、一步步的思考过 ...
最近,前 OpenAI 政策研究负责人迈尔斯・布伦达奇(Miles Brundage)对公司在人工智能安全方面的叙事变更提出了批评,认为 OpenAI 正在重新编写其 AI 系统安全的历史。他表示,OpenAI 在追求通用人工智能(AGI)的过程中,可能会忽视长远的安全措施。OpenAI 一直以来致力于推动其雄心勃勃的愿景,尤其是在 DeepSeek 等竞争对手日益崛起的背景下。公司在追求 AGI 发展的过程中,频繁强调超级人工智能代理的潜力,然而,这种态度并未获得广泛的认可。布伦达奇认为,OpenAI 在与其现有的 AI 模型的部署和安全性方面的叙述上存在不一致之处。最近,OpenAI 发布了一份关于其 AI 模型逐步部署的文档,旨在展示其谨慎的做法。文档中以 GPT-2为例,强调了在处理当前系统时应保持高度谨慎的态度。OpenAI 在文档中提到:“在一个不连续的世界里,安全教训来自于对今天系统的高度谨慎,这正是我们在 GPT-2模型上采取的方法。”然而,布伦达奇对此提出质疑。他认为,GPT-2的发布也遵循了渐进的方法,安全专家曾对 OpenAI 的谨慎处理表示赞赏。他认为,过去的谨 ...
Manus的出现间接引发了开源界复刻竞赛,除了AIbase分享的CAMEL-AI0天复刻Manus通用智能体OWL以外,一个名为OpenManus的项目仅仅凭借三小时的代码量,也实现了Manus复刻。 就在昨天晚上,这个无需任何邀请即可使用的OpenManus在GitHub上横空出世,截止发稿时间,已经斩获3.3千GitHub星标,可谓是“出道即巅峰”。其中最引人注目的莫过于那句简洁有力的宣言:“只需修改config.toml即可开玩”。OpenManus的安装过程简直可以用丝滑来形容。只需要几行简单的命令,你就能拥有自己的AI智能体:先创建一个新的conda环境,激活它,然后克隆项目,安装依赖,最后复制并编辑一下配置文件。智能协作,有“脑”有趣这个项目并非孤军奋战,而是由MetaGPT的核心贡献者在短短三小时内联袂打造。这不禁让人感叹,大佬们果然是“喝杯咖啡的时间,就能改变潮水的方向”。OpenManus的核心是一个革命性的模块化Agent系统,它由多个高度智能的“专业团队”组成协作网络。你可以把它想象成一家运转高效的“AI公司”,其中有负责理解用户需求的“项目经理” (Manus主 ...
在科技飞速发展的今天,人工智能已经渗透到我们生活的方方面面,从智能语音助手到各种自动化服务,AI正在以一种前所未有的方式改变我们的生活。今天,我要给大家介绍一项超级酷炫的技术——Spark-TTS,一个基于Qwen2.5模型的高效文本转语音系统。它不仅能“克隆”你的声音,还能根据你的需求“定制”出全新的声音!是不是听起来很神奇?什么是Spark-TTS?Spark-TTS是一种新型的文本转语音(TTS)系统,它的核心是BiCodec——一种单流语音编解码器。这个编解码器可以把语音分解成两种互补的“语音令牌”:一种是低比特率的语义令牌,用来捕捉语言内容;另一种是固定长度的全局令牌,用来捕捉说话者的属性,比如音色、音调等。这种分离式的表示方法,结合了强大的Qwen2.5语言模型和一种叫做“思维链”(CoT)的生成方法,让Spark-TTS能够实现从粗粒度(比如性别、说话风格)到细粒度(比如精确的音高值、说话速度)的控制。换句话说,你可以通过简单的指令,让Spark-TTS生成一个完全符合你想象的声音!Spark-TTS的“超能力”Spark-TTS的厉害之处在于它的“超能力”——能够实现零 ...