1、下载database.zip文件,
压缩包的目录结构为:
2、在软件安装目录解压缩database.zip文件。确保 VGenomics_RS/database/diamond_db 目录下存在以下4个文件:
测试数据详细信息!
测试数据:ref-based_test_rawdata.zip,
压缩包,包含文件列表如下所示:数据说明:
chr22_with_ERCC92.fa | only a single chromosome (chr22) and the ERCC spike-in, that is the human GRCh38 version of the genome from Ensembl. |
---|---|
chr22_with_ERCC92.gtf | annotations obtained from Ensembl (Homo_sapiens.GRCh38.86.gtf.gz) for chromosome 22 only. |
gene_GO_anno.txt | GO functional annotation file. |
gene_KEGG_anno.txt | KEGG functional annotation file. |
*.fastq | The test data consists of two commercially available RNA samples: Universal Human Reference (UHR)and Human Brain Reference (HBR) . The UHR is total RNA isolated from a diverse set of 10 cancer cell lines. The HBR is total RNA isolated from the brains of 23 Caucasians, male and female, of varying age but mostly 60-80 years old. In addition, a spike-in control was used. Specifically we added an aliquot of the ERCC ExFold RNA Spike-In Control Mixes to each sample. The spike-in consists of 92 transcripts that are present in known concentrations across a wide abundance range (from very few copies to many copies). |
软件界面的上方是菜单栏和工具栏,集合了一些常用的功能,如新建项目、保存项目、复制、粘贴、数据导入、数据导出等。 左边是分析模块浏览器和流程浏览器,在分析模块浏览器中,包含了整个软件的所有功能模块。在流程浏览器中,保存了预 先定义和自定义的流程(Pipeline),适用于特定的数据分析场景。右上是项目浏览器,在其中可以新建项目、删除项目、 修改项目名称、设置项目的描述性信息等。右下是文件浏览器,这里实现了文件的基本操作,如数据导入和导出、 重命名、 复制、剪切、 删除等。中间是项目编辑窗口,在其中可以拖入功能模块和数据,根据分析需求进行连线,设置模块的参数, 建立出适用于特定分析场景的工作流,并运行来处理数据。下方是任务管理器和日志管理器,运行中的任务可以在任务管理 器中被停止,每个任务对应的命令行、相应的标准输出和标准错误输出可以在日志管理器中进行查看。
1、在Files Browser中,点击右键菜单 "Import" 和 "Export",弹出数据导入和导出对话框。
2、数据导入对话框。
3、数据导出对话框。
在Tools Browser中,点击右键菜单 "Tool Help" ,弹出对应分析模块的帮助文档。或者,在分析模块参数设置界面,点击右上角 "Help Document" 链接。
请参考软件基本操作说明文档。在软件界面中,点击菜单 "Help" -> "User Manual… " 即可查看软件基本操作说明文档。
包括:参考序列(FASTA)、注释信息(GTF)、转录本序列(FASTA)、基因与转录本关系信息(TXT)、GO功能注释(TXT)、KEGG功能注释(TXT)。
完整操作说明如下所示:
1、通过网址 “www.ensembl.org” 访问Ensembl基因组数据库网站。
2、如果需要下载植物相关的数据,点击主页下方的 “Ensembl Plants” 链接进行切换。示意图如下所示:
3、以拟南芥为例,下面展示完整的操作步骤。
4、点击主页最上方的 “Downloads” 链接进入FTP下载页面。示意图如下所示:
5、在FTP下载页面, “Single species data” 部分找到拟南芥物种。示例图如下所示:
6、点击 “DNA” 列对应的FASTA链接,进入参考序列FTP下载界面,选择下载 “Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz” 并解压。
7、点击 “GTF” 列对应的GTF链接,进入注释信息FTP下载界面,选择下载 “Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz” 并解压。
8、点击主页最上方的 “BioMart” 链接进入BioMart页面。示意图如下所示:
9、在BioMart页面中,点击 “CHOOSE DATABASE” 选项,选择Genes数据库,物种选择拟南芥。示例图如下所示:
10、点击页面左侧的 “Attributes” ,接着在右侧 Features大类,EXTERNAL栏目中将 “GO term accession” 选中。示意图如下所示:
11、点击页面左上角的 “Results” 按钮图标,进入导出数据页面。示意图如下所示:
12、在数据导出页面上方,点击 “Go” 按钮图标进行下载。示意图如下所示:
13、下载的文件名称为 “mart_export.txt” ,包含拟南芥基因对应的GO号信息。
14、这样我们得到三个文件,分别为: “Arabidopsis_thaliana.TAIR10.dna.toplevel.fa” “Arabidopsis_thaliana.TAIR10.44.gtf” “mart_export.txt”。
15、将三个文件导入到VG转录组软件中, 点击这里查看数据导入导出操作说明。
16、在Workflows Browser中,双击流程 "Prepare: Ensembl Genome and Annotation Data Process" ,弹出通过流程创建项目对话框,并设置独立的项目名称和工作目录。
17、双击打开项目,并将三个文件作为项目流程的输入。运行项目,即可得到转录组分析所需相关文件。
18、如下所示,这些文件用于后续的比对、定量、功能富集分析。
参考序列(FASTA):Arabidopsis_thaliana.TAIR10.dna.toplevel.fa
注释信息(GTF):ref_clean.gtf
转录本序列(FASTA):transcripts.fasta
基因与转录本关系信息(TXT):gene_trans_map.txt
GO功能注释(TXT):GO_anno.txt
KEGG功能注释(TXT):KEGG_anno.txt
1、建立参考转录本序列索引文件。在Workflows Browser中,双击流程 "Align-free Quantify: Build Transcript Kallisto Index" ,弹出通过流程创建项目对话框,并设置项目名称和工作目录。双击打开项目,将转录本序列 "Transcripts.fasta" 和 "Gene_Trans_map.txt" 作为项目流程的输入,并运行项目得到结果。
2、定量分析(需要每个样品重复执行该步骤)。在Workflows Browser中,双击流程 "Align-free Quantify: Pseudoalignment and Quantify" ,弹出通过流程创建项目对话框,并设置项目名称和工作目录。双击打开项目, 将上一步得到的转录本索引文件 "kallisto_trans_index.fasta" 和 原始fastq下机数据 作为项目流程的输入, 并运行项目得到结果。这里,每个样品重复运行该步骤,从而得到每个样品的定量结果。需要注意的是,每次新建项 目,均要设置不同的工作目录,避免同名文件覆盖冲突问题。
3、每个样品的定量结果进行合并,从而得到Count矩阵、FPKM矩阵、TPM矩阵。在Workflows Browser中,双击流程 "Align-free Quantify: Sample to Matrix" ,弹出通过流程创建项目对话框,并设置项目名称和工作目录。双击打开 项目,将每个样品的基因定量结果作为项目流程的输入,并运行项目得到结果。
1、在文件浏览器中,选中对应的矩阵文件。
2、点击右键菜单New -> Sample Group File,弹出设置样本分组信息窗口。
或者在项目编辑窗口中,选中矩阵输入文件,点击右键菜单 Get group design file from tabular file.,弹出设置样本分组信息窗口。
!!注:文件格式必须是tabular,可通过Reset Format进行文件格式的更改。
3、设置分组信息,点击OK按钮得到对应的样本分组信息文件。
1、在项目编辑窗口中,在文件名位置点击右键菜单 "Reset Format" ,或者单击右上角的 "笔" 图标,弹出设置文件格式对话框。
2、在设置文件格式对话框中,输入正确的格式并点击 "OK" 按钮。也可以点击 "Auto Detect" 按钮根据文件内容进行文件格式的自动推断(准确率99%)。
VG转录组分析软件中,大部分模块要求的输入文件均为文本文件,ASCII编码,意味着文件不能包含中文字符。其中 "tabuar" 格式 为制表符分隔的文本表格文件,如Count矩阵、FPKM矩阵、TPM矩阵等。
xls或xlsx表格文件可以通过Excel软件得到制表符分隔的文本表格文件:
1、Excel软件打开xls文件,选择 "另存为" –> "其他格式" 。
2、保存类型选择:文本文件(制表符分隔)(*.txt)。
3、接着点击 "确定" 和 "是" 。
4、关闭Excel软件。
需要注意的是,"tabuar" 格式必须为严格的制表符分隔的文本表格文件。其中,每一行的末尾不能包含多余的空白字符,列之间除了制表符也不能包含多余的空白字符。
如果是其他分隔符分隔的文本表格文件,可以利用 "Text Manipulation" 下的 "Convert delimiters to TAB" 分析模块进行格式转换。
请查看分析模块的帮助文档,有非常详细的说明。请点击这里进行查看!
请查看分析模块的帮助文档,有非常详细的说明。请点击这里进行查看!
请查看软件视频教程,请点击这里进行查看!
软件自带测试数据,在rs_test_data目录下。
另外,可以点击下载测试数据:ref-based_test_rawdata.zip,数据量相对大一些。
一个序列号License仅供一台电脑使用。