先介绍第一步如何查询中药相关数据库,获取中药所含化合物成分。
TCMSP(Traditional Chinese Medicine SystemsPharmacology Database and Analysis Platform http://lsp.nwu.edu.cn/tcmsp.php),中药系统药理数据分析平台,搜集了中国药典中499种中药,含29,384种成分,3,311个靶标和837个相关疾病。该数据库采用预测算法获得药物靶点之间的关系,并为每种化合物提供了包括了口服利用度(OB)、成药相似性(DL)、肠上皮通透性(Caco-2)、血脑屏障(bbb)等药物药代动力学信息。
TCMSP数据库相比其他中药相关数据库,所搜集的中药材所含成分较为全面,且提供了比起其他数据库更为全面的药代动力学信息。同时,该数据库是由西北农林科技大学王永华教授团队研发的,相较于其他数据库,TCMSP数据库更为稳定,不容易因为各种原因造成无法访问的情况。该数据库中药数量并不是很多,且主要集中在植物药材上,如果是动物性中药材可能数据缺失。
该数据库界面如下。左侧是一些数据库的介绍,使用介绍,引用说明等链接。主界面是一点简单的数据库介绍和检索框。
点开检索框的下拉标志,可以看到TCMSP数据库支持靶向蛋白名称、中药名称、化合物名称、化合物InChIKey编号、化合物CAS编号、疾病名称为关键词检索数据库。
以陈皮为例,下拉框中选择“Herbname”,在旁边检索框中输入“陈皮”或“chenpi”,得到结果解锁结果如下。
点击进入后进入陈皮所有相关信息如下,界面中间小标签可以切换陈皮包含化合物、相关靶点与相关疾病界面。该界面为陈皮包含化合物相关性息。点击化合物性质旁边的小漏斗可以进行筛选。
点击化合物名称可以进入单个化合物界面。页面中有化合物名称,结构,性质,各个数据库编号,别名,相关联的疾病、靶点、中药材。
点击“Related Targets”标签,进入陈皮化合物作用靶点界面。在这个界面,可以看到陈皮中化合物一一对应靶向蛋白名称,旁边附有Drugbank数据库链接(目前已失效)。在下一级标签中的“Network”以及“Network parameters”,因为数据库维护目前无法使用。
点击靶向蛋白名称,可以进入靶点界面。里面介绍了靶向蛋白的名称,相关联的疾病、化合物及中药材。
点击“RelatedDiseases”标签,进入陈皮作用靶点关联疾病界面。在这个界面,可以看到陈皮作用靶点与疾病一一对应关系。
点击疾病名称,可以进入疾病界面。里面介绍有疾病的名称,相关联的靶点、化合物以及中药。
如果向总览数据库中全部的中药材或化合物信息,可以点击左侧边栏的“Browse Database”。在这个界面可以很方便的总览中药、化合物、靶点和疾病的相关信息,结合小漏斗的筛选功能可以方便地筛选出感兴趣的部分。
找到中药中感兴趣的化合物之后如何通过数据库预先筛选化合物作用靶向蛋白呢?除了之前介绍的TCMSP数据库之外,我们在这里要介绍一下STITCH数据库。
STITCH(https://stitch.embl.de/)数据库是一个用于检测一直的以及被预测的化合物和蛋白质之间互作关系的平台,其中包含了超过30000的小分子化合物以及来自1133个物种的260万个蛋白质之间的互作关系。该数据库根据文献和多个生物学途径、药物靶点关系和结合亲和力的数据库整合了小分子和蛋白质的相互作用。相互关系合并自BindingDB,PharmGKB和the Comparative Toxicogenomics数据库。
STITCH数据库相比其他数据库,数据来源更广泛,包括了实验验证与文献报道的化合物—蛋白相互作用关系,然后依照关系来源的可靠性打分。同时比起其他数据库,STITCH数据库操作相对简单,检索得到的结果可视化效果好,能够在检索到的同时直观地看到检索结果情况。在刚开始进行中药化合物—蛋白关系筛选时,可以利用STITCH采用较为宽松的条件来筛选潜在的靶点。
数据库界面如下,左侧为数据库检索方式,支持单个名称检索、多个名称检索、化合物结构检索、蛋白检索。右侧为检索框以及物种选择。名字检索时不区分化合物和蛋白名称。如果不选择物种则会根据你输入的蛋白或基因名称自动识别物种,但这样可能会导致数据量过大页面加载困难,使用时建议手动筛选物种。
因为通常中药中包含多种活性化合物,故在这里以“Multiple names”为例,示范STITCH数据库检索使用。左侧点击“Multiple names”后,界面如下所示。名称可以直接在“List Of Names”中输入,也可以以文件格式上传,上传文件要内容为一列的txt文件。以“dopamine”、“adrenaline”、“noradrenaline”,物种为“Homo sapiens”为例进行搜索。
点击搜索后界面如下,为了方式重名导致检索结果有误,STITCH在进行检索前会先让我们确认一遍是否为该化合物或基因。对三个名称逐个检查,确认无误后点击“CONTINUE”。
得到结果如下所示。结果可视化地显示了包含了所输入的化合物以及相互作用的蛋白基因名的相互作用网络图。
网络图下方是标签栏:“Viewer”可以以其他形式查看结果;“Legend”界面有网路图的具体图例和图注;“Settings”可以设置图片显示方式;“Table/Exports”提供几种格式结果的下载;“More”和“Less”可以在搜索结果数量不满意时进行增加和减少。
在“Table/Exports”中,提供了相互作用网络图下载和相互作用表格下载,点击红色小框圈选的“download”可以下载我们想要的化合物—蛋白相互作用表格,表格格式为TSV,可以用记事本或Excel打开。
下载结果如下所示。文件中包括了化合物,蛋白以及各种打分。在这里解释一下,因为STITCH中的关系来源于各种渠道,所以它对每一对关系依据来源,在各个方面进行可靠性打分,最后汇总给出一个总的可靠性分数。可靠性分数越接近1表明该结果越可靠。“combinesocre”这一列是汇总的可靠性分数,下载的结果表格中通常会提供0.4以上的所有相互作用关系,这里可以根据需求自行设置再筛选。
文章中提到的SEA数据库也是一个能够预先筛选化合物作用靶向蛋白的数据库。
SEA数据库(Similarity Ensemble Approach http://sea.bkslab.org/)是一个基于化合物结构检索化合物—蛋白相互作用的数据库。SEA数据库根据化合物的化学相似性对蛋白质进行定量分组和关联,根据65,000个化合物与数百个药物靶点,建立了一个统计模型,使用者可以通过输入化合物结构来检索其潜在的作用靶点。
SEA数据库是完全基于化合物结构进行预测的数据库,所以相比较与其他基于文本挖掘的数据库,该数据库可能可以得到一些较为新颖的未报道过的化合物—蛋白关系对。同时,因为是基于结构的预测,相比较与其他预测方式,这种方式得到的结果更可能在后续的分子对接或实验中更容易被验证真实存在。但相对的,这种预测的结果数量和范围都较小,在初步筛选的步骤中最好作为补充而不是主要的筛选方法。需要注意的是SEA数据库最近批量检索部分存在问题,经常性会报错,在使用时需注意。
SEA数据库界面如下所示,包括单个化合物搜索框,数据库使用说明以及引用说明。单个化合物在这个界面就可以直接搜索,但因为通常中药中包含多种活性化合物,我们可以通过点击“Library Search”进入批量搜索界面。
批量搜索界面如下,右上角有官方简单的使用说明,第一第二步选择网站默认参数,在第三步“Select Query”中输入化合物的ChEMBL号,点击“RunSearch”开始运行。
刚开始运行时会显示如下界面,该网页会自动定时刷新,如果不想直接等着的话可以记下该网址,过一阵再登陆也可以。
搜索完成后界面如下所示,包括输入的化合物结构,靶向蛋白名称,以及预测后显著性P值,右上角小按钮点击可以下载搜索结果。
下载的结果为一个压缩包,里面包括了搜索化合物结构和搜索记录。其中网页上显示的表格结果在“sea-results.xls”中。但是这个xls文件如果用Excel打开会有显示问题,正确的方法应该是先把文件名改为“sea-results.csv”,然后再打开。文件结果如下显示,可以直观地看到化合物所有潜在靶向的蛋白基因名。