「谷歌」谷歌AI加入蛋白质解析大军!ProtENN模型助增680万个蛋白质注释词条,登顶Nature子刊
精选评测好文
原文标题:谷歌AI加入蛋白质解析大军!ProtENN模型助增680万个蛋白质注释词条,登顶Nature子刊
作者 | 陈彩娴
编辑 | 岑峰
要说 "AI for Science" 的扛大旗者,大家也许都会首先想到 DeepMind:
2018 年,DeepMind 推出蛋白质折叠结构预测模型 AlphaFold,从氨基酸序列计算预测蛋白质结构,不仅为 Alpha 系列锦上添花,奠定了其在 AI 创新上的领头羊地位,还彰显了深度学习攻破其他领域难题的潜力,生物学首当其冲。
AlphaFold 出世后,"AI for biology"(将人工智能用于生物学研究)成为人工智能领域的研究潮流,吸引了世界各地的优秀研究者投身其中。
谷歌 AI 也是其中之一。
这不,最近谷歌便发布了用于蛋白质解析的机器学习模型—— ProtENN,登顶 Nature 子刊《Nature Biotechnology》。
地址:https://www.nature.com/articles/s41587-021-01179-w
值得注意的是,早在 2019 年,谷歌 AI 就在 bioRXiv 发过 ProtENN 的预印本,不知是不是最近才被 Nature 接收?
蛋白质结构对生命有着至关重要的作用,了解蛋白质的氨基酸序列(如其结构域)与功能之间的关系是一项具有重大科学意义的长期挑战。
自计算机兴起,科学家们就开始尝试用计算工具助攻该课题。例如,被广泛使用的蛋白质家族数据库 Pfam 便囊括了大量详细描述蛋白质结构功能的计算注释,例如珠蛋白与胰蛋白酶家族。但发展至今,目前至少仍有三分之一的微生物蛋白质的注释有待完善。
而据谷歌 AI 的官博介绍,ProtENN 的出现,能够为完善蛋白质结构的计算注释起到重要作用。
1
蛋白质注释
根据谷歌 AI 介绍,他们所提出的 ProtENN 方法可以帮助在 Pfam 的蛋白质功能注释集中添加大约 680 万个条目,大约相当于过去十年的新增条目总和,将 Pfam 的覆盖范围扩大了 9.5% 以上。
他们将其命名为:Pfam-N。
在计算机视觉中,模型通常首先用于图像分类任务的训练,如 CIFAR-100,然后将其扩展到更专业的任务,如物体检测和定位。
受此启发,谷歌团队也决定开发一个蛋白质域分类模型,在给定蛋白质结构域的氨基酸序列的情况下,从 17,929 个类别(所有类别都包含在 Pfam 数据库中)中预测单个标签。
目前有许多模型可以用于蛋白质结构域分类,但当前最前沿的方法也存在许多缺陷。
首先,它们基于线性序列的比对,并且不考虑蛋白质序列不同部分的氨基酸之间的相互作用。然而,蛋白质不仅仅停留在一行氨基酸中,还会折叠起来,这样不相邻的氨基酸也会相互影响。
此外,当前最前沿的方法是将新的查询序列与一个或多个具有已知功能的序列进行比对。如果新序列与任何具有已知功能的序列高度不同,这种对具有已知功能的序列的依赖就会加大预测新序列功能的难度。
另外,基于比对的方法需要密集的计算量,将它们应用于大型数据集(例如包含超过 10 亿个蛋白质序列的宏基因组数据库 MGnify)时,成本会非常高昂。
2
谷歌 AI 怎么做?
为了解决这些问题,谷歌团队想到了使用扩张卷积神经网络 ( CNN ) ,因为 " 它非常适合模拟非局部成对氨基酸的相互作用,并且可以在 GPU 等现代 ML 硬件上运行 "。
他们训练了一维 CNN (称之为 "ProtCNN")来预测蛋白质序列的分类,以及一组独立训练的 ProtCNN 模型(称之为 "ProtENN"),目的是通过开发一种可靠的机器学习方法来补充传统的基于对齐的方法的缺陷。
与其他领域的分类问题相似,蛋白质功能预测的挑战不在于为任务开发全新的模型,而更多在于创建公平的训练和测试集,以确保模型能够对看不见的数据进行准确的预测。
由于蛋白质是从共同的祖先那进化而来的,因此不同的蛋白质通常共享一大部分氨基酸序列。如果不加以注意,测试集可能会被与训练数据高度相似的样本所控制,从而使模型可能仅通过简单地 " 记忆 " 训练数据而不是学习来泛化模型的优异性能。
为了防止这种情况,研究者必须使用多个单独的设置来评估模型性能。在每次评估中,他们都将模型精度分层为每个保留测试序列与训练集中最近序列之间的相似性函数。
第一个评估包括一个聚类分裂训练和测试集,与先前研究者提出的方法一致。其中,蛋白质序列样本按序列相似性进行聚类,并将整个聚类放入训练集或测试集中。由此,每个测试示例与每个训练示例之间至少有 75% 的差异。在此任务上的出色表现表明,他们所提出的模型可以泛化、以对分布外的数据做出准确的预测。
图注:谷歌团队创建了一个测试集,使 ProtENN 能够很好地泛化远离训练集的数据
在第二次评估中,他们使用随机拆分的训练和测试集,根据对样本分类难度的评估来对样本进行分层。难点主要有两点:1)测试示例与最近的训练示例之间的相似性;2)真实分类的训练示例数量(这比在仅有少量训练示例的情况下准确预测函数要困难得多)。
他们还评估了最广泛使用的基线模型和评估设置的性能,特别是以下基线模型: ( 1 ) BLAST,一种使用序列比对来测量距离和推断函数的最近邻方法; ( 2 ) TPHMM 和 pmmer。每一个模型都包括基于上述序列比对相似性的模型性能分层。
他们将这些基线与 ProtCNN 和 CNN 的集合 ProtENN 进行了比较。实验表明,ProtENN 的泛化能力高于 ProtCNN 与两类基线模型。
图注:谷歌团队衡量了每个模型的泛化能力,从最难的例子(左)到最简单的例子(右)
他们与 Pfam 团队合作,测试 ProtENN 是否适用于标记真实世界的序列。
实验证明,ProtENN 学习到基于比对的方法的互补信息,并创建了两种方法的集合,以标记比任何一种方法都多的序列。他们公开发布了这项工作的结果—— Pfam-N,其包括 680 万个新的蛋白质序列注释。
目前,ProtENN 模型的架构已在 github 上开放。此外,他们还设计了一个交互工具 ProteInfer,用户可以在浏览器中输入蛋白质序列,并实时获得蛋白质功能预测的结果:
项目地址:https://google-research.github.io/proteinfer/
AI 解析蛋白质还能更卷吗?大家怎么看?
参考链接:
1.https://ai.googleblog.com/
2.https://www.nature.com/articles/s41587-021-01179-w
3.https://github.com/google-research/google-research/tree/master/using_dl_to_annotate_protein_universe#availability-of-trained-models
4.http://pfam.xfam.org/
雷峰网雷峰网
热门阅读:最值得投资的居家好物!有房族&租房党都说买!晚!了!<\a>
其他人还看了
「谷歌」为了独占Safari谷歌每年要给苹果交千亿“保护费”
「iphones」定档3月9日2022年苹果春季新品发布会要来啦
「天玑800」天玑8000系列技术详解:一个有想法的设计,和一个有趣的转变
郑重声明:本文“「谷歌」谷歌AI加入蛋白质解析大军!ProtENN模型助增680万个蛋白质注释词条,登顶Nature子刊”,https://nmgjrty.com/shumacp_369420.html内容,由雷锋网提供发布,请自行判断内容优劣。
- 全部评论(0)
- 「谷歌」谷歌AI加入蛋白质解析大军!ProtENN模型助增680万个蛋白质注释词条,登
- 「森海塞尔」森海塞尔全新高保真耳机IE600正式发布
- 「暗影精灵」发烧级游戏玩家的首选OMEN暗影精灵游戏台式电脑预售
- 「华为」DoBiggerThings“触手可及”的万物互联办公生态
- 「小米手环」超声波屏下指纹YES?首款折叠屏堆料意外
- 「华为matebook13」去掉触屏后价格有惊喜!新华为MateBook13正式开售
- 「谷歌」为了独占Safari谷歌每年要给苹果交千亿“保护费”
- 「分辨率」支持1080P高清分辨率萤石推CB2电池摄像机马卡龙新色
- 「华为」各房间实现千兆Wi-Fi6覆盖华为发布业界首创FTTR千兆全光房间解决方案
- 「realme」realme真我首次登上巴黎时装周,光致变色设计引领新潮流
- 「荣耀」谷歌每年给苹果交千亿“保护费”
- 「扫地机器人」4000元档扫拖洗烘机器人,究竟值不值?
- 「投影仪」作为照明氛围灯也可用三星TheFreestyle智能投影仪国行将登陆中国市场
- 「iphone13」苹果要发iPhone新配色,看完后必下单一台
- 「iphones」定档3月9日2022年苹果春季新品发布会要来啦
- 「nvidia」满分神作《艾尔登法环》华硕显卡魂界厮杀
最新更新
- 「谷歌」谷歌AI加入蛋白质解析大军!P
- 「森海塞尔」森海塞尔全新高保真耳机
- 「暗影精灵」发烧级游戏玩家的首选OME
- 「华为」DoBiggerThings“触手可及”的万物
- 「小米手环」超声波屏下指纹YES?首款折
- 「华为matebook13」去掉触屏后价格有惊喜!
- 「谷歌」为了独占Safari谷歌每年要给苹果
- 「分辨率」支持1080P高清分辨率萤石推C
- 「华为」各房间实现千兆Wi-Fi6覆盖华为发
- 「realme」realme真我首次登上巴黎时装周,
- 「荣耀」谷歌每年给苹果交千亿“保护费
- 「扫地机器人」4000元档扫拖洗烘机器人,
- 「投影仪」作为照明氛围灯也可用三星
- 「iphone13」苹果要发iPhone新配色,看完后
- 「iphones」定档3月9日2022年苹果春季新品发
推荐阅读
- 「森海塞尔」森海塞尔全新高保真耳机IE600正式发布
- 「暗影精灵」发烧级游戏玩家的首选OMEN暗影精灵游戏台式电脑预售
- 「华为」DoBiggerThings“触手可及”的万物互联办公生态
- 「小米手环」超声波屏下指纹YES?首款折叠屏堆料意外
- 「华为matebook13」去掉触屏后价格有惊喜!新华为MateBook13正式开售
- 「谷歌」为了独占Safari谷歌每年要给苹果交千亿“保护费”
- 「分辨率」支持1080P高清分辨率萤石推CB2电池摄像机马卡龙新色
- 「华为」各房间实现千兆Wi-Fi6覆盖华为发布业界首创FTTR千兆全光房间解决方案
- 「realme」realme真我首次登上巴黎时装周,光致变色设计引领新潮流
- 「荣耀」谷歌每年给苹果交千亿“保护费”
- 「扫地机器人」4000元档扫拖洗烘机器人,究竟值不值?
- 「投影仪」作为照明氛围灯也可用三星TheFreestyle智能投影仪国行将登陆中国市场
猜你喜欢
- [iPhone]iPhone13promax远峰蓝128G入手
- [安卓手机]realme真我GTNeo2开箱,金刚石冰芯散热系统+E4屏,5000mAh大电池
- [贴膜]红米9爆屏更换记录,弯曲的中框修复
- [智能机器人]编程从娃娃抓起,MakeBlock程小奔上手体验
- [智能摄像机]内置大电池,无需打孔走线,小米室外摄像机给你满满的安全感
- [充电器]65w网红氮化镓一次看个够
- [电脑支架]原汤化原食,LGErgo显示器支架
- [蓝牙耳机]中端耳机音质天花板,降噪很有一手,鹿图COCO真蓝牙降噪耳机评测
- [音频播放器]关于R01主板的主观看法,和一些碎碎念
- [充电器]双口快充,满足日常需求
- [VR设备]GOOVISLite头戴影院评测
- [蓝牙耳机]魅蓝Blus耳机体验,魅蓝依旧还是当年坚持做良品的青年良品
- [安卓手机]从5988跌至2749,256GB+鸿蒙OS+7nm麒麟,从高端市场跌至中端市场
- 「轻众测|素诺智能可视冲牙器」别急,对准再冲!素诺可视冲牙器让残渣无所
- 「九号新品Nano及Air T15」萌娃初体验——Ninebot九号平衡车Nano