要说最近网络上最受欢迎的科技术语,除了“ChatGPT”以外别无他物。 chatgpt (chatgenerativepre-trained transformer )是美国人工智能研究公司开发的聊天机器人程序,不仅能够与人进行提问和回答,而且文章写得一模一样,是有史以来最强大的ai 上次引发舆论的人工智能事件,让我记得2016年Alpha GO以4:1战胜世界顶级围棋棋手李世石。 今天我们来谈谈以ChatGPT为代表的人工智能对当今社会发展的影响及其现有成果在生物科学领域的作用。
接受强化训练的生成式AI:
对接用户需求创造新内容
目前全球热议的ChatGPT是一种人工智能的写作和聊天工具,去年11月上市后在社交媒体上迅速走红,至今月活跃用户超过亿。 ChatGPT可以通过学习和理解人类语言进行对话,回答各种问题,并根据要求完成视频脚本、文案、论文、代码等写作任务。 其成功来自于以深度学习为代表的人工智能技术的长期积累。 从属性上看,ChatGPT其实是一个大型语言模型(LLM ),它可以被称为容生成器,因为它接受了大量文本数据的训练,可以对各种问题输入生成类似人类的响应结果和反应。
AI需要三个要素:数据、计算能力和算法。 数据是知识的原料,计算能力和算法为学习知识、实现特定目标提供“计算智能”。 人们对AI有各种各样的分类,AI以“能做什么工作”和“完成什么任务”为标准,可以简单地分为反应型AI (分析型AI )和生成型AI。
反应式AI根据预编程的规则对不同类型的刺激进行反应,不使用内存,因此无法用新数据进行学习。 1997年打败国际象棋冠军加里卡斯帕罗夫的IBM深蓝超级计算机就是反应式AI。
另一方面,生成式AI获得大量的数据、信息,经过强化训练和深度学习、神经网络这样的反馈纠错机制,可以完成很多工作,产生很多产品。 用一句话概括其本质,就是根据用户的具体需求创造新的内容。
从ChatGPT的总称“chatgenerativepre-trained transformer”可以看出,它有文本、文章、与人的对话、翻译、代码制作、绘画制作、视频制作等众多内容
由于各种因素的限制,ChatGPT生成的内容也有很多错误,特别是关于社会、文化、人文、哲学、政治、经济、历史的内容。 但是,在自然科学领域,“原子由带正电的原子核和核外侧带负电的电子构成”等与公认的规律有共同的认知,因此ChatGPT的生成内容的错误率比较少。
因此,虽然生成式AI在所有领域都很有用,但是像ChatGPT这样的生成式AI在自然科学领域的应用比较受欢迎。 生物医学研究、医疗、生命科学需要生成式AI,ChatGPT只是其中之一。
准确预测蛋白质结构:
可加快新药和疫苗研发
目前,生成式AI在生物医学领域的用途很盛行。 生成式AI不仅可以分析成千上万种蛋白质,还可以生成新的蛋白质,甚至自然界中从未出现过的蛋白质。
传统上,识别和准确测定蛋白质的构型需要大量的时间和精力,并且不一定能准确测定,这给药物、疫苗研发和疾病治疗带来了障碍。 如果生成型AI的结果准确、快速,就能了解病毒变异后的蛋白质结构,如新型冠状病毒的s蛋白变异,从而加速新药和疫苗的开发。
2020年,英国深思维公司开发的阿尔法折叠2(alphafold-2 )取得了惊人的成果。 这个生成式AI在2020年召开的第14届“蛋白质结构预测重要评价”大会上大放异彩。 其测定的蛋白质结构大部分非常准确,不仅与实验方法测定的蛋白质结构精度相同,而且远远超过分析新蛋白质结构的其他方法。 具体地说,阿尔法折叠2可以在几分钟内预测典型的蛋白质结构,在几天内生成高精度的结构。 2022年初,阿尔法折叠2还检测到2.2022亿个蛋白质结构,几乎涵盖了DNA数据库中已知生物的所有蛋白质。
2022年11月,meta公司(前身为Facebook )奋起直追,名为ESMFold的生成式AI软件预测了约6亿个蛋白质的结构。 这些蛋白质来源于细菌、病毒和其他未命名的微生物。 该软件的准确性不及阿尔法折叠2,但在预测结构方面快约60倍。
ESMFold的原理与ChatGPT基本相似,也是一种大的语言模型。 只是训练它的内容不是通过自然语言,而是通过生物基因语言,即碱基序列的顺序和规律来检测蛋白质。
例如,在ESMFold的训练中,就像训练ChatGPT根据语法“给药”自然语言的语言一样,“给药”已知蛋白质的氨基酸序列。 自然界的蛋白质可以用20个不同的氨基酸链表示,每个氨基酸链用一个字母表示。 通过这个训练,ESMFold可以直观地理解蛋白质序列,了解蛋白质序列中包含的蛋白质形状信息。 在这样的深度学习之后,ESMFold学会了在氨基酸比率模糊的情况下“自动补充”信息。
研究小组将ESMFold应用于大规模测序的“宏基因组”DNA数据库,这些DNA来自包括土壤、海水、人肠道、皮肤和其他微生物栖息地的环境。 ESMFold可以通过算法结合蛋白质结构与序列关系的信息生成预测结构。 预测了总共6亿1700多万个蛋白质的结构,只有两周。 在6.17亿个蛋白质测试中,超过1/3的预测是高质量的,数百万个蛋白质结构全新。
自然界酶类从无到有:
人工酶氨基酸序列变化也无损活性
生成式AI的强大还体现在能够生成自然界中没有的蛋白质和物质,为人类的衣食住生产、提供新的原料和产品。
美国一家人工智能研究企业开发了另一种叫做人工酶人工智能系统ProGen的生成型AI。 这是一种酶(生物细胞产生的特殊蛋白质,人体内大多数生化反应必须有酶的参与)和生成酶的AI软件。 在实验室测试中,ProGen设计的某些人造酶与自然界中发现的酶同样有效,即使氨基酸序列与已知天然蛋白质显著不同,也具有生物活性。
特定的蛋白质各有各自的氨基酸排列顺序。 研究人员将1.9万个酶家族的2.8亿种不同蛋白质的氨基酸序列输入ProGen机器学习模型,同时提供相关蛋白质特性作为控制标签,然后让系统用几周的时间“消化”这些信息。 然后,进一步细化信息,利用来自5个溶菌酶家族的5.6万种蛋白质氨基酸序列和关于这些蛋白质的一些信息对模型进行了微调。
根据学习内容,ProGen迅速生成了100万个蛋白质序列。 研究小组从中选出100个进行了测试,发现来自5个溶菌酶家族的所有人工蛋白质都显示出活性,73%具有抗菌功能,而天然蛋白质中只有59%具有抗菌功能。
更令人惊讶的是,在另一项筛选中,研究小组发现,即使只有31.4%的序列与目前已知的天然蛋白质相似,生成型AI设计的酶类依然显示出生物活性。 相比之下,天然蛋白质如果发生任何一种变异,都有可能失去生物活性。
这些研究结果总结起来,表明了三个方面的意义。 一是ProGen生成的人工蛋白不仅能准确表达,而且具有与蛋白质天然折叠相似的结构。 二是AI生成的蛋白质,即使只有一部分氨基酸序列与天然蛋白质的序列相似,也具有生物活性,但天然蛋白质没有这个优点;三是人工智能可以设计自然界前所未有的新物质和新产品。
这意味着如果用生成型AI设计和生产蛋白药、食品及生物制品(如降解塑料的产品),将更快、更有效,当然其安全性有待进一步研究验证。 换句话说,当人工智能生成的蛋白质变成自然生成的蛋白质,就意味着未来人工智能可以设计出人类所需的各种产品,第一,它是满足人类生存的食物和药品。
帮助诊断疾病和优生:
最终结果仍需人类审核决定
目前,产生式AI已从影像、血液、组织扫描结果发展到检测、诊断和预测心血管病、眼部疾病、糖尿病、直肠癌、肺癌、乳腺癌、前列腺癌等多种癌症。
心脏病是严重的心血管病。 心电图信号最常用作筛查心脏病的工具。 新加坡南洋理工大学等机构的研究人员,利用一种名为Gabor-CNN的人工智能机器学习算法,模仿人脑的结构和功能,设计了一种基于心电图诊断冠状动脉疾病、心肌梗死、充血性心力衰竭的生成型AI诊断工具。 实验结果表明,该人工智能有助于自动识别与健康人不同心血管病患者相关的心电图信号,其准确率可超过98.5%。
癌症也可以利用AI诊断和治疗。 直肠癌和乳腺癌目前一般通过观察CT片和组织切片来诊断。 中国中南大学等机构的研究人员从中国、德国、美国的8803名受试者和13个独立的癌症研究中心收集了1.3万多张直肠癌图像,利用这些随机选择的图像,构建了识别直肠癌图像的AI软件。 初步测试结果表明,AI软件能检测大部分直肠癌照片,堪比真正的病理学家,往往能获得更好的结果。 当然,最后的诊断还要经过病理学家的核查和审查。
另一个医学上关注的领域是不孕。 现代生活方式和环境变化导致约15%的夫妇不育,其中精子质量差是重要原因之一。 传统的做法是对精子进行活检检查质量,这个任务如果由AI来做会更好。
近日,上海市第一妇幼保健院开发出一款AI软件,通过深度学习和算法可以识别精子“脸”和不同的运动形态(类似人脸识别),操作人员只需在电脑屏幕上观察即可。 该AI系统对3家医院共1000份样本进行了检测,结果表明其准确性与传统方法相同。 AI软件大大缩短了整个检查过程,只需要一个半小时,而传统方法需要大约一周才能拿到报告。
这样的“智能”例子不胜枚举。 预计人工智能的快速发展将对许多领域产生冲击。 特别是调用、动画建模、美工、翻译、低级代码开发人员等创造性低,可以根据行业知识和培训完成的工作。 此次风靡全球的ChatGPT,在人工智能的发展上有了质的飞跃,展示了更多的可能性,但这种技术创新目前局限于语言维度,不是主动意识,也没有真正的创新能力,与科幻电影中“人工智能取代人”的幻想相距甚远
总之,无论AI应用于什么领域,最终获得的成果或产生的产品都要由人审查和决定,这是对AI的科学态度。
来源:北京日报|作者张田勘
实习:赵司尧
流程编辑:郭丹
文章内容来源于网络,不代表本站立场,若侵犯到您的权益,可联系多特删除。(联系邮箱:[email protected])
近期热点