新冠疫情暴发时,科学家们用了数月时间才初步厘清新冠病毒如何入侵人体细胞——它靠刺突蛋白抓住人体细胞表面的ACE2受体,像钥匙插入锁孔。每一次新病毒出现,这个“找锁”的过程都要再来一遍。
人体有约2万个编码蛋白的基因,其中任何一个都可能成为病毒的攻击目标;并且不同病毒家族之间序列差异巨大,防治一种病毒的经验难以迁移至另一种。如果能在病毒大规模传播之前,就提前知道它会盯上哪些人体蛋白,是否就能找到那些被多种病毒共同利用的关键宿主蛋白,从而研发出一种可以对抗多种病毒的广谱抗病毒药物呢?
近日,上海人工智能(AI)实验室、复旦大学、上海交通大学医学院附属瑞金医院及上海市病毒研究院联合团队推出的ViraHInter模型,让这一想法有了可行路径。
同时读懂病毒的“形”与“码”
病毒入侵的关键,在于病毒蛋白与人体蛋白的相互作用。病毒通过自身少量蛋白,劫持宿主复杂的蛋白网络,实现免疫逃逸和自身复制。
若能提前知道病毒会“劫持”哪些宿主蛋白,将有助于快速了解感染机制、发现抗病毒靶点、开发阻断药物。问题是,实验筛选耗时费力,且不同病毒序列差异大,经验难以迁移。
传统预测方法要么只分析氨基酸序列(病毒的遗传密码),要么只分析三维结构(病毒的立体形态)。ViraHInter的突破在于,让AI同时精准掌握两种信息——
一是结构分支。生成病毒—宿主蛋白复合物的全原子三维结构,精准刻画界面上每一个原子如何贴合,为药物设计打下基础;
二是序列分支,借助蛋白语言模型,从海量蛋白进化信息中识别保守模式,即使病毒快速变异也能抓住不变的模式。
两种信息通过注意力机制深度融合:面对结构清晰的蛋白,模型更依赖结构信息;面对快速变异或无序的蛋白,则更依赖序列信息。这种自适应融合,是ViraHInter能跨病毒家族泛化的关键。
更关键的考验是面对“陌生”病毒的能力——这关系到模型是否适用于新发病原体。在测试病毒与训练集病毒序列相似度不超过60%的严格条件下,ViraHInter的AUPR(正类样本的准确率及召回率)为0.50,比AlphaFold 3(0.11)高4.5倍,比其他方法高6倍以上。
识别33个核心共享宿主因子
共享宿主因子,指被多种不同病毒共同利用的宿主蛋白。例如甲型流感病毒有多种亚型,症状各异,但往往依赖一些共同的宿主蛋白完成感染。靶向这些共享因子,是广谱抗病毒药物的核心思路。
ViraHInter发现,尽管H1N1、H3N2、H9N2三种亚型的表面蛋白(如血凝素)序列差异显著,它们依赖的人体宿主蛋白却高度重合。
团队利用ViraHInter,在人类全蛋白组范围内对这三种亚型的10个关键病毒蛋白进行系统筛选,最终锁定33个被三种亚型共同靶向的核心宿主因子。其中12个因子已有研究证实参与流感感染,但从未在任何病毒—宿主互作数据库中记录——说明ViraHInter能捕捉传统实验难以发现的相互作用。
在冠状病毒研究中,ViraHInter同样发现规律:针对SARS-CoV-1、SARS-CoV-2和MERS-CoV的分析显示,RAB8A蛋白与病毒非结构蛋白NSP7的结合界面在三种冠状病毒中高度保守,提示RAB8A可能是多种冠状病毒共同依赖的关键宿主因子,可作为广谱抗冠状病毒药物研发的靶点。本报记者 郜阳