为AI助力药物发现的方法

编辑丨toileter在历史上,药物研发向来是吃力且效率低下。德国汉堡生物技术公司 Evotec 的计算化学家 David Pardoe 说,在过去的一百年里,只发现了约 7000 种罕见病的大概 500 种治疗方法。但从理论上讲,AI 可以解决当前的两个问题:耗时与高成本。AI 能够将潜在药物样分子的 3D 几何形状和原子结构结合在一起,并构建它如何适应其目标蛋白质的图片。然后可以调整设计以使潜在药物更有效,或者算法可能会确定要追求的全新靶点。但是,尽管可用数据的规模可能表明药物开发的 AI 转型肯定只是时间问题,但情况不一定如此。数据的质量并不总是合乎需要,其中大多数数据在收集时没有考虑到机器学习。为了解决研究者们迫切的需要,《Nature》期刊近期进行了采访,就哪些问题亟须解决进行了梳理,希望能 AI 能够按照许多人需求的程度改变药物发现和开发。标准化报告和方法学术科学家以其灵活性而自豪。如有更加完善的工艺得以吸收进学习方法中,他们求之不得。但这种思维方式常会为 AI 带来学习上的问题。当不同的实验室使用不同的方法、试剂和机器时,结果数据中可能会引入称为批次效应的差异。这就带来了数据模型上的偏差,而这在 AI 学习上极为致命。AI 会进行误判,而这削弱了在 AI 浪潮之前推出的许多大型公共数据库的效用。一些人认为,生成 AI 所需的有序数据的最佳方法是制定如何运行和报告实验的规则。人类细胞图谱就是一个例子,这是一个于 2016 年启动的全球项目,已经以严格和标准化的方式绘制了人体中数百万个细胞的图谱。该项目提供了一致的数据,是寻找潜在药物靶点的 AI 算法的理想素材。图示:人类肺细胞图谱(图源:网络)Pardoe 表示,如果不进一步努力生成协调和相关的数据,继续开发更先进的算法可能没有什么价值。『一旦有了这些「好」数据,我们就可以朝着正确的方向取得快速而重大的进展。』认识到负面结果的价值对于学术研究人员来说,报告实验失败通常没有什么好处。此类研究报告通常很难发表。这种对科学积极结果的内在偏见并不是什么新鲜事,但它对 AI 的使用提出了一个特殊的问题。伦敦国王学院(King’s College London)的药物化学家米拉兹·拉赫曼(Miraz Rahman)指出了在寻求新抗生素时存在这种偏见的一个例子。许多已发表的研究表明,伯胺(结构类似于氨的小化合物)有助于将药物进入细菌内部。但他在询问模型时,它不断地提供或暗示含有伯胺的方案。而这对他的研究根本不起作用。解决这个问题的一种方法是从编译负面和正面结果的明确意图开始。加州大学旧金山分校的结构生物学家詹姆斯·弗雷泽(James Fraser)领导了一个关于药物在人体内一系列吸收、分布、代谢等过程(统称为 ADME)的研究。他选择建立一个与 ADME 相关的蛋白质结合实验和结构数据集库,以此来创建预测性 AI 模型,优化候选药物的药代动力学。利用资源去做更多制药公司保留大量数据,包括负面结果,并努力以标准方式收集这些数据,使其成为 AI 模型消化的理想选择。然而,这些数据中只有一小部分进入了公共领域,即使这些资源的价值没有随着公司本身而丢失。一些研究人员认为,庞大的数据量和更智能的处理将大大有助于克服使用 AI 进行药物发现的困难。位于马萨诸塞州波士顿的人工智能生物技术公司 Insilico Medicine 将美国政府数十亿美元研究资助产生的数据与出版物、临床试验、专利以及遗传和化学数据存储库联系起来,然后对这种原材料进行加工。图示:Insilico Medicine(图源:网络)2019 年底,Insilico 的人工智能驱动药物发现平台 PandaOmics 发现了涉及过多疤痕组织的纤维化疾病的靶点。然后,它使用其生成式 AI 平台 Chemistry42 来寻找可以阻断该靶标的化合物。AI 无疑更难利用一些大型公共数据池,譬如将大量 RNA 序列纳入考虑范围。它们从捣碎的组织样本中汇编而成,对许多细胞的基因输出进行整合。除此之外也可以创建更小、更高质量的数据集,这些数据集可用于测试在更大或可能存在缺陷的数据集上训练的 AI 模型是否能做出良好的预测。通过自动化实验室,高质量的特定类型数据得以被收录。相关链接:https://www.nature.com/articles/d41586-025-00602-5