DeeCamp2022 结营：蛋白质组学AI大数据模型夺冠

2022-09-09 06:19:05

摘要：　　DeeCamp2022 结营：蛋白质组学AI大数据模型夺冠...

　　8月31日消息，DeeCamp2022人工智能训练营总冠军答辩暨结营典礼今日在创新工场北京总部举行。经过精彩答辩，挑战大规模蛋白质组学信息发现赛题的ProteinMiner团队摘得DeeCamp2022总冠军的荣誉，另外五支队伍获得优胜奖。

　　DeeCamp人工智能训练营是创新工场发起的一项面向全球大学生的公益项目，专注培养应用型AI人才，迄今已经举办六届。

　　此次DeeCamp2022的主题是“用AI探索生命科学新边界”，由创新工场和清华大学智能产业研究院（AIR）联合主办，来自全球各个地区顶尖高校的计算机、生命科学等专业的150位学员自发组成30支队伍，经过两个月的课程学习和项目实践，最终共六支队伍入围最终答辩环节。

　　创新工场董事长兼CEO李开复、清华⼤学智能产业研究院（AIR）院长张亚勤、沙特阿卜杜拉国王科技大学终身正教授兼中国人民大学高瓴人工智能学院访问讲座教授高欣、深圳湾实验室系统与物理生物学所资深研究员周耀旗、清华大学智能产业研究院副院长刘洋、清华大学智能产业研究院（AIR）首席研究员聂再清、中国人民大学数学科学研究员龚新奇、创新工场执行董事兼前沿科技基金总经理任博冰担任评委并出席了结营典礼。

　　创新工场董事长兼CEO、HICOOL商学院荣誉院长李开复表示，AI＋科学交叉是创新工场预测未来5到10年间会引爆的创新增长新范式，AI＋生命科学更是造福人类、影响深远的黄金赛道。这也是6年来一贯倡导“学以致用”的DeeCamp首次聚焦AI＋生命科学这一命题的深意所在。这次入围总决赛的6支团队都是由AI和生命科学相关专业的优秀同学组成，在顶尖科研、产业导师指导下，在蛋白质结构预测、全基因组表达预测等各种场景进行探索，挑战了多个真实世界的难题。很高兴决赛同学在这次大赛中脱颖而出，期待在不久的将来，成为中国“AI＋生命科学”赛道的创新先锋。我期许有志创业的DeeCamp同学，也可以把这次的项目实践视为产业价值的初步探索，同时关注帮助高科技创业者的北京HICOOL创业大赛及HICOOL商学院的丰富资源。

　　DeeCamp2022联合主办方、清华大学智能产业研究院（AIR）院长张亚勤院士表示：“生命科学与生物医药领域正在步入数字化 3。0时代，以人工智能和数据驱动的第四科学研究范式，将辅助人类探索并解决生命健康的问题，加速生命健康与生物医药领域向着更快速、更精准、更安全、更普惠的方向稳步发展。这既是AI for Science的重大机遇，同时也将造福全人类。我很高兴做为本次DeeCamp导师和评委，过去两个多月，我看到同学们在“AI+生命科学”的大命题下，积极探索AI与生命科学的交叉发展之路，也都取得了不错的成果。最后，再次祝贺冠军团队，也希望同学们都学有所成，满载而归！”

　　再次参赛终夺冠，致力推动个性化免疫治疗发展

　　在整个上午的精彩答辩后，创新工场董事长兼CEO李开复对六支入围队伍表示了肯定：“本次大赛中，同学们都有令人惊艳的表现，特别是在短短的一个月时间就围绕创新的课题获得出色的成果。创新工场非常关注生物计算的发展，已经围绕‘AI＋遗传中心法则’方面孵化了多家公司，包括AI+基因编辑、AI+蛋白、AI+RNA等。本届DeeCamp同学们的表现让创新工场对这些前沿领域的创新突破充满了期待，期待新世代AI+生命科学的人才投入，为未来生物计算带来更多惊喜。”

　　清华⼤学智能产业研究院（AIR）院长张亚勤院士表示，很高兴继续和创新工场联合主办本届DeeCamp。生命科学领域步入数字化3。0时代，DeeCamp2022聚焦AI+生命科学，不仅代表了当下整个科学界的研究趋势，也代表了中国的科技和产业发展趋势。AI与数据赋能的全新的科学范式，不仅会提高科学研究的效率，也将会造福整个人类社会。

　　随后，张亚勤院士公布了DeeCamp2022总冠军荣誉的归属。挑战大规模蛋白质组学信息发现赛题的ProteinMiner团队，成为本届DeeCamp的年度冠军团队。

　　蛋白质是生命活动的真正承担者。获取蛋白质的序列和结构信息，对于疾病的研究、药物的研发尤为重要。质谱作为一种生物表征仪器，在蛋白质测序领域有着支配性的地位。但面对大规模的未知序列蛋白，现有的质谱从头测序技术仍面临精度低的问题，而这是推动新抗原发现驱动的个性化免疫疗法亟待解决的难题。

　　ProteinMiner立足于AI与大数据驱动的蛋白质的质谱测序技术，致力于提升大规模地发现未知的蛋白序列与结构信息的能力。ProteinMiner首次提出预训练的AI谱图语言大模型，提升质谱从头测序的精度，加速免疫相关的新抗原/抗体的发现，以推动个性化免疫治疗的进程。此外，ProteinMiner提出谱图分类深度模型，实现快速的交联质谱数据的鉴定，构建实验数据支撑的组学规模的蛋白质空间距离信息数据库。

　　ProteinMiner团队的组建来源于大家多次合作的信任，队长毛鹏志是中科院计算所计算蛋白质组学/信息检索方向的博士生，队员还包括香港中文大学(深圳)计算机视觉硕博生叶崇杰、中科院计算所生物信息学博士生齐晓宁、香港中文大学(深圳)数据科学与大数据技术专业本科生薛浩楠。

DeeCamp2022总冠军

　　夺冠后，队长毛鹏志表示，很感谢DeeCamp2022提供的资源和平台，让自己能够找到志同道合的成员们，把自己的想法落地为实践，有机会取得学术和应用场景的突破。“一切才刚刚开始。这次夺冠是我们取得的小的里程碑，我们会继续坚持做下去，希望能够做出对学术界有影响，帮助产业界降本增效，带来实际的效益的产品。这条路还有很远，非常感谢和珍惜DeeCamp为我们提供了启动资金。”

　　毛鹏志与团队成员叶崇杰都是第二次参加DeeCamp，去年他们也曾在一个团队并肩奋斗，虽然铩羽而归但反而激发再次参赛的斗志。叶崇杰说，“第二次参加DeeCamp，是出于对DeeCamp和组委会的信任，也是由于对伙伴的信赖。我和鹏志有共同的愿景，我也相信他的能力和责任心，能够带领我们取得成功。”

　　值得一提的是，队伍里的薛浩楠同学，刚刚升入本科三年级的学习。被问到参与科研高手云集的DeeCamp2022的感受时，他表示，自己非常珍惜DeeCamp提供的机会，不仅能够深度体验技术落地与功能实现，还能够一窥生物信息这个当下最前沿的技术领域。这些都是自己在课堂上难以一线接触到业界前沿技术＋产业实践的机会，未来自己也有志继续在工程领域继续探索和成长。

　　另外五支入围总决赛的队伍获得了优胜奖。

　　以镁伽科技为产业导师的「InfGene团队」结合神经网络和树模型的优势，发现分形自编码器（FAE）可以选取相比 L1000 Panel更加精简的代表性基因集作为特征，在XGBoost模型上达到比L1000 Panel更优的全基因组表达预测表现。该方法可进一步节约大规模测量成本，形成可专利的新Panel，并拓展应用至建立组织特异性Panel，推动精准医疗。

　　多肽药物因独特的理化性质在现今的医药市场占据较高的份额，而亲和力是判断其能否成药的首要步骤。「Another random number团队」发现在多肽中广泛存在着非标准残基，这些残基在提高与蛋白的亲和力、改善进入生物体内的各项性质起着至关重要的作用。为此，团队采用了大规模的预训练模型学习了蛋白与多肽的序列信息，并将多肽的结构信息作为特征引入模型训练，以期开发一个能够准确预测多肽与蛋白的亲和力，为多肽药物的亲和力筛选及体内性质改造提供帮助。

　　药物研发主要通过药物来抑制目标蛋白（PoI）的活性来发挥作用。目前主流的做法是找到一种小分子药物通过bind到蛋白活性区域上，从而让蛋白无法发挥功能。但不是所有蛋白都有这种蛋白结合口袋，事实上人体内只有大约2%的蛋白可以成药。而PROTAC技术可以通过利用身体内自有的蛋白降解过程，给PoI打上降解标记，从而直接把PoI直降解掉。这其中，预测PROTAC三元复合体的结构是PROTAC研究的关键一环。Alphinity团队聚焦三元复合体的结构预测，利用pre-train的欧式等变图神经网络提出了该领域的第一个AI解决方案，将一次inference的时间从小时级降低到秒级，希望可以为PROTAC的研发带来新的可能。

　　「Maifold团队」利用AlphaFold2及AlphaFoldMultimer预测得到的蛋白结构，对已知会发生相分离的蛋白或蛋白复合体进行结构预测。再结合图神经网络对蛋白质结构进行表征，通过GCN的方法训练分类模型，对蛋白单体或蛋白复合体的相分离能力进行预测。

　　「酶有你我怎么活啊」队伍整理了BRENDA数据库和文献中的Km和Kcat数据，形成了初步的数据集。通过公开的数据集，团队整理了酶与底物的负例数据，并将酶的序列和AlphaFold预测的结构进行了匹配，形成了包含酶结构数据的酶活性数据集。通过自然断点法将酶活性的值进行了等级划分，规定了酶的活性等级从而进行分类预测。基于transformer模型，综合考虑酶序列、酶结构与化合物数据对酶活性进行预测，并评估了效果。

　　四组专项冠军，直指生物医疗技术与社会痛点

　　最后，由沙特阿卜杜拉国王科技大学的高欣教授公布了DeeCamp2022四支专项冠军队伍的归属。

　　最佳创新奖的得主DeepStruction团队设计了可用于药物发现的端到端分子生成平台Molecule Brewer，提供网页端一站式、个性化服务。团队基于多模态思想，构建了“结构+序列”的分子生成模型，集成并挖掘蛋白多构象结构信息，高效预测蛋白-分子亲和性，可视化蛋白关键位点，助力靶点发现及蛋白改造。团队原创的BrewerScore类药性打分函数，相比QED有更低假阳性率，所搭建的21个药物相关分子性质预测模型在TDC榜单均名列前茅，有效提高了药物分子筛选效率。基于该平台，团队还创设了单蛋白孤儿病-靶点-潜在药物分子数据库，以AI之名，飨公益之心。

　　最佳技术奖的得主AlphaMed团队系统地探索了主流的人工智能蛋白质设计方法，并提出了能够取得更先进效果的新方法Adesign。他们的方法引入了角度信息，为神经网络注入蛋白主链序列先验信息，简化了蛋白图编码器，并在解码器端移除自回归机制来提高模型的推理效率。Adesign模型在AlphaFold DB和真实数据集CATH 4。2上，分别取得了超过60%和51%的准确率；在推理速度上较此前的方法快至少40倍，达到了毫秒级高效蛋白质设计的效果。

　　作为药物合成中的关键步骤，先导优化由于依赖专家凭经验设计，并需要反复合成进行实验验证，也成为药物合成中花费最高、时间最长的步骤之一。为解决这个问题，啊对对队团队打造了面向药物化学工作者的智能先导化合物优化平台DiffLead，利用人工智能指导化合物优化，缩短研发周期、降低成本。平台创新性地提出了条件等变原子扩散算法，在扩散过程中充分考虑到先导化合物的等变性和蛋白质口袋的条件信息，并手动收集了首个真实先导优化数据集PDBLead用于训练，提升了优化后化合物与蛋白质口袋的亲和力。团队也斩获了DeeCamp2022最具产业价值奖。

　　目前，数千万中国人正遭受罕见病的折磨，而单个罕见病市场小，信息分散，新药开发极为困难。目前急需能高效整合疾病信息，启发药物研发的工具。为此，最具社会价值奖得主make一起赢队伍，以临床知识图谱为基础，聚焦罕见病，从药物、疾病及多组学角度进行拓展，从而整合药理学、遗传学和病理学等相关生物数据及利用NLP的文献信息，形成面向医生、患者、药企、研究院所四类用户且具有生物解释性的罕见病知识图谱，并获得具有启发性的罕见病相关潜在信息。

　　聚焦AI+生命科学，探索前沿科技改变人类命运

　　人工智能+生命科学的交叉在2021进入爆发元年。在 Science杂志发布的2021年度十大突破中，其中六项都来自生物学和医学领域，人工智能蛋白结构预测技术AlphaFold和RoseTTAFold成功预测蛋白质结构更是被评为最大突破。

　　随着高通量技术的发展，生物大数据出现膨胀式增长，AI算法在生命科学中得到了广泛的应用。例如随机森林（Random Forest）算法可以用于对性状相关基因组水平突变位点的预测；卷积神经网络（Convolutional Neural Network， CNN）被广泛应用于蛋白质基团间距计算及医疗影像识别技术等。AI与生命科学协同进化，不断延伸出新的科学边界，AI与计算生物学、合成生物学、药物研发结合而催生的新交叉领域，正在以前所未有的进度被开垦着。

　　DeeCamp在2017年由创新工场发起，从最初小规模的实验性训练营，到今天每年培训几百名来自高校的AI+人才，旨在为学生提供技术学习、工程实践、产品转化和商业思考的完整过程，推进产学研深度结合。

　　2022年，第六届DeeCamp首次聚焦AI+生命科学领域，以“用AI探索生命科学新边界”为主题，号召全球 AI和生命科学领域的菁英们，迎接最激动人心的挑战，探究改变人类命运的可能性，助力生命科学领域中国AI应用型人才培养。

　　举办至今，DeeCamp已累计收到2万余名在校大学生报名，录取并培养了1500余名学员，是目前规模最大、周期最长、最具特色的AI公益训练营。