转自Olink
研究背景
网络和图形已经成为生物学中代表连接数据的自然方式。将大量的不同信息组织成节点(实体)和边(关系)的集合。由此产生的灵活结构被称为知识图谱,它能迅速适应复杂的数据及其关系,并能有效利用网络分析技术来识别隐藏的模式和知识。该工作将这一概念带入一个新的方向,并描述了一个临床知识图谱(Clinial Knowledge Graph, CKG),该框架在整合相关生物医学数据库和从科学出版物中提取的文本的同时,促进了蛋白质组学与其他全能数据的协调,它构成了一个由数百万个节点和关系组成的图数据库。它允许有临床意义的查询和先进的统计分析,实现自动数据分析、知识挖掘和可视化。
过去的十年里,基于质谱(MS)的蛋白质组学有了很大的进步,现在可以越来越全面地了解生物过程、细胞信号传导事件和蛋白质的相互作用。然而,目前使用的基于质谱的蛋白质组学工作流程是在十多年前构思的,迅速增加的数据量给该领域带来了新的挑战。高通量蛋白质组学的一个更大的瓶颈是难以解释定量结果以制定生物或临床假说。Olink新一代超灵敏蛋白组学平台旨在缓解这一问题,需要有解决方案来整合多种数据类型,同时捕捉到分子实体和由此产生的疾病表型之间的关系。
文章解读
Matthias Mann团队今年初在Nature Biotechnology 杂志 (IF = 41.667)上发表题为「A knowledge graph to interpret clinical proteomics data」的文章,针对生物医学数据数量大、种类丰富而带来的数据整合困难,提出了一个开源的临床知识图谱平台CKG。该平台结合了统计和机器学习算法,加速了蛋白质组学工作流程的分析和解释。相比于其他解决方案,CKG平台显得更加友好,将一系列数据库和科学文献信息与omic数据整合到一个易于使用的工作流中,显著增强了科学研究和临床实践的能力。
CKG中的蛋白质组数据不仅来自于Matthias Mann团队的MS-based工作,同时也收录了基于Olink的新一代超灵敏蛋白质组学数据,如COVID-19相关的血浆蛋白质组数据集,重点包括IL-6、 IL-17C、 CXCL10和 CCL7等低丰度细胞因子。
临床知识图谱CKG模块及功能
CKG运作模块建立在科学的Python库上,具有可靠性和可维护性。整个系统是开源的,并取得了MIT许可。在标准工作流程和基于Jupyter笔记本的互动探索中实现可重复、可再现和透明的数据分析。CKG包括四个独立的功能模块:1)格式化的分析蛋白质组学数据(analytics_core);2)通过整合来自一系列可公开访问的数据库、用户进行的实验、现有本体和科学出版物的可用数据,构建一个图形数据库(graphdb_builder);3)连接和查询这个图形数据库(graphdb_connector);4)通过在线报告(report_manager)和Jupyter notebooks促进数据可视化、存储和分析。
将精准医疗应用到临床决策过程中,取决于整合的多组学数据的情况。但是由于生物医学数据的质量与多样性,以及跨不同生物医学数据库和出版物中的扩展性,对数据集成提出了很高的要求。作者构建了临床知识图谱(CKG),这个开源平台目前包含了2千万个节点和2.2亿个关系。图算法提供了一个灵活的数据模型,当新的数据库可用时,该模型很容易扩展到新的节点和关系。CKG结合了统计和机器学习算法,可加速蛋白质组学工作流程的分析和解释。通过一组proof-of-concept生物标志物研究,作者展示了CKG增强和丰富了蛋白质组学数据,并为临床决策提供了关键信息。
Insight 蛋白组学可视化分析平台
解决方案不应该比问题更复杂,Insight 蛋白组学可视化分析平台以此为出发点。在对CKG工作表示祝贺的同时,我们并没有忘记医学专家对于传统蛋白质组学的数据的复杂感受。如您所知,Olink蛋白质组学的数据原始格式为表达矩阵,提供了蛋白质组学领域前所未有的数据友好度。
在这个基础上,Olink正在更进一步通过Insight可视化工具,致力于帮助医学专家实现以下三个目标:1)以图形化和互动式的方式,理解蛋白质组学的Pathway覆盖度、判断不同Olink panel和研究兴趣的匹配度;2)将感兴趣的研究方向与文献数据库匹配,挖掘目标蛋白清单,进而匹配最佳适用的Olink panel;3) 呈现了包括「COVID」和「人群蛋白丰度范围」在内的两大数据集作为范例展示。