KEGG Enrichment Analysis(KEGG富集分析)
分析模块,输入差异基因列表文件、全部基因列表文件和KEGG注释信息文件。差异基因作为foreground,所有基因作为background,进行差异基因KEGG富集分析,输出富集结果。
分析模块,使用软件KOBAS(http://kobas.cbi.pku.edu.cn)进行富集分析,默认使用方法为超几何检验/Fisher精确检验。通常情况下,当经过校正后的p值≤0.05时,认为该ko通路显著富集。
!!对于主要物种,软件团队从KEGG网站上,下载并整理了对应物种的KEGG注释信息。访问,VG软件官方网站:(http://www.vgenomics.cn/),进行下载。
输入:
1、差异基因列表文件,可由分析模块“Batch Mode: Retrieve Diff Genes list”获得。
示例:
BM590_B0190
BM590_A0615
BM590_B0191
BM590_B0407
BM590_B0166
BM590_A0618
……
2、全部基因列表文件,可由分析模块“Fetch all genes(row names) list from matrix”通过原始的FPKM矩阵或Count矩阵获得。
示例:
BM590_A0001
BM590_A0002
BM590_A0003
BM590_A0004
BM590_A0005
BM590_A0006
BM590_A0007
BM590_A0008
BM590_A0009
……
3、对应的KEGG注释信息文件,其中,第一列为基因名,第二列为对应的K号。Kddddd表示,在所有同源物种中具有相似结构和功能的一类同源蛋白。如K04456表示丝氨酸/苏氨酸蛋白激酶。
示例:
BM590_A0001 K02313
BM590_A0003 K03629
BM590_A0005 K12972
BM590_A0006 K13896
BM590_A0007 K13895
……
输出:
差异基因KEGG富集分析结果文件。
示例:
#Term Database ID Input number Background number P-Value Corrected P-Value Input Hyperlink
Thiamine metabolism KEGG PATHWAY ko00730 4 7 0.00601059318131 0.140625236043 BM590_A0226|BM590_A0220|BM590_A0222|BM590_A0223 http://www.genome.jp/kegg-bin/show_pathway?ko00730/K00788%09red/K03149%09red/K00941%09red/K03707%09red
Nitrogen metabolism KEGG PATHWAY ko00910 5 13 0.00760136411042 0.140625236043 BM590_B0293|BM590_B0239|BM590_B0240|BM590_B0290|BM590_B0268 http://www.genome.jp/kegg-bin/show_pathway?ko00910/K00374%09red/K00376%09red/K04561%09red/K02305%09red/K00370%09red
…….
注:其中,每一列的含义如下所示:
l #Term,代谢通路描述。
l Database ,数据库类型。
l ID,ko号,代谢通路名称,表示一个特定的生物路径。
l Input number,差异基因中,注释到该ko通路的差异基因个数。
l Background number,全部基因中,注释到该ko的基因个数。
l P-Value,统计检验的p值。
l Corrected P-Value,校正后的p值。
l Input,具体富集的差异基因。
l Hyperlink,超链接,链接到KEGG官网上对应的代谢通路图。
分析模块引用了KOBAS(v2.0-20150126)软件(http://kobas.cbi.pku.edu.cn)。
相关文献如下所示:
Xie, C., Mao, X., Huang, J., Ding, Y., Wu, J., Dong, S., Kong, L., Gao, G., Li, C. and Wei, L. (2011) KOBAS 2.0: a web server for annotation and identification of enriched pathways and diseases. Nucleic Acids Res, 39, W316-322.
KEGG 库(Kyoto encyclopedia of genes and genomes 数据库):京都基因和基因组百科全书,是系统分析基因功能、联系基因组信息和功能信息的知识库。利用KEGG数据库,可将基因按照参与的pathway通路或行使的功能分类。
!!更新KOBAS程序后台的KEGG数据库,通过KOBAS官网链接(http://kobas.cbi.pku.edu.cn/),下载最新的ko.db.gz文件,解压后覆盖软件根目录database文件夹下的同名文件。