差异基因GO注释

Add GO Annotation(差异表达分析结果添加GO注释信息)


  分析模块,输入差异表达分析的结果文件,或其他tabular格式文件(制表符分隔的文本文件)。其中,输入文件的第一列必须为基因名。分析模块,将在输入文件的列尾追加对应基因的GO注释信息。

       !!对于主要物种,软件团队从Ensemble网站上,下载并整理了对应物种的GO注释信息。访问,VG软件官方网站:(http://www.vgenomics.cn/),进行下载。


  输入:

       1、tabular格式文件,其中,第一列必须为基因名(如,差异表达分析结果文件)。

  示例:

logFC        logCPM    PValue      FDR

BM590_A1245         6.15272596528251 10.165439565976    2.01452582830612e-13   6.76074867979534e-10

BM590_A0443         6.388071970219      8.77010041474787 5.5393222963017e-13     8.81028214004988e-10

BM590_A1217         5.79192615218837 11.4356964927694 8.31925670547754e-13   8.81028214004988e-10

BM590_A0295         5.83585380417396 10.5748693879181 1.05009322289033e-12   8.81028214004988e-10

BM590_A0086         5.69396789206391 12.1148088822143 1.32578171478056e-12   8.89864686960715e-10

……


       2、对应的GO注释信息文件,其中,第一列为基因名,第二列为对应的GO注释结果(以“ ; ”符号分隔)。

  示例:

BM590_A0001         GO:0003688;GO:0005524;GO:0006275;GO:0006270;GO:0005737

BM590_A0002         GO:0003677;GO:0006260;GO:0055114;GO:0005737;GO:0003887

BM590_A0003         GO:0003697;GO:0006281;GO:0005524;GO:0006260;GO:0009432;GO:0005737

BM590_A0004         GO:0008152;GO:0003824

BM590_A0005         GO:0051287;GO:0055114

……


  输出:

  列尾追加对应基因GO注释信息的结果文件。

  示例:

logFC        logCPM    PValue      FDR GO_Anno

BM590_A0295         5.83585380417396 10.5748693879181 1.05009322289033e-12   8.81028214004988e-10   GO:0043603(level-04 ## cellular amide metabolic process)|GO:0009056(level-02 ## catabolic process)

BM590_A0086         5.69396789206391 12.1148088822143 1.32578171478056e-12   8.89864686960715e-10   GO:0005575(level-00 ## cellular_component)|GO:0016021(level-03 ## integral component of membrane)|GO:0031224(level-02 ## intrinsic component of membrane)|GO:0044425(level-01 ## membrane part)

BM590_A0444         5.55604596684001 12.938998087624    2.76091036859951e-12   1.54426919950332e-09   -

  注:

  追加的列,GO信息以“ | ”符号分隔,GO:ddddddd代表对应的GO号,level-dd表示对应的GO等级(与根节点最短路径的距离),“ ## ”符号后的文本为对应的GO功能描述。如果,对应的GO注释信息不存在,则用“ - ”符号代替。

  这里,cellular_component,biological_process,molecular_function三大分支的GO等级为:level-00。

  

  分析模块引用了goatools(v0.5.7)软件(https://github.com/tanghaibao/goatools/)。


  相关文献如下所示:

       Haibao Tang et al. (2015). GOATOOLS: Tools for Gene Ontology. Zenodo. 10.5281/zenodo.31628.

       GO(Gene Ontology) 是基因本体论联合会建立的数据库,适用于各物种,对基因和蛋白功能进行限定和描述。利用 GO 数据库,可以将基因按照它们参与的生物学过程、构成细胞的组分,实现的分子功能等进行分类。因此GO注释更加便于我们理解基因背后所代表的生物学意义。

!!更新GO结构关系和描述信息数据库,通过Gene Ontology官网链接(http://geneontology.org/ontology/go-basic.obo),下载最新的go-basic.obo文件,覆盖软件根目录database文件夹下的同名文件。


分享