帮助——VG转录组软件

数据文件配置说明

安装数据文件，配置说明！

1、下载database.zip文件，

本地下载百度网盘

压缩包的目录结构为：

2、在软件安装目录解压缩database.zip文件。确保 VGenomics_RS/database/diamond_db 目录下存在以下4个文件：

测试数据详细信息！

测试数据：ref-based_test_rawdata.zip，

本地下载百度网盘

压缩包，包含文件列表如下所示：

数据说明：

chr22_with_ERCC92.fa	only a single chromosome (chr22) and the ERCC spike-in, that is the human GRCh38 version of the genome from Ensembl.
chr22_with_ERCC92.gtf	annotations obtained from Ensembl (Homo_sapiens.GRCh38.86.gtf.gz) for chromosome 22 only.
gene_GO_anno.txt	GO functional annotation file.
gene_KEGG_anno.txt	KEGG functional annotation file.
*.fastq	The test data consists of two commercially available RNA samples: Universal Human Reference (UHR)and Human Brain Reference (HBR) . The UHR is total RNA isolated from a diverse set of 10 cancer cell lines. The HBR is total RNA isolated from the brains of 23 Caucasians, male and female, of varying age but mostly 60-80 years old. In addition, a spike-in control was used. Specifically we added an aliquot of the ERCC ExFold RNA Spike-In Control Mixes to each sample. The spike-in consists of 92 transcripts that are present in known concentrations across a wide abundance range (from very few copies to many copies).

软件基本操作说明

软件界面说明！

软件界面的上方是菜单栏和工具栏，集合了一些常用的功能，如新建项目、保存项目、复制、粘贴、数据导入、数据导出等。左边是分析模块浏览器和流程浏览器，在分析模块浏览器中，包含了整个软件的所有功能模块。在流程浏览器中，保存了预先定义和自定义的流程（Pipeline），适用于特定的数据分析场景。右上是项目浏览器，在其中可以新建项目、删除项目、修改项目名称、设置项目的描述性信息等。右下是文件浏览器，这里实现了文件的基本操作，如数据导入和导出、重命名、复制、剪切、删除等。中间是项目编辑窗口，在其中可以拖入功能模块和数据，根据分析需求进行连线，设置模块的参数，建立出适用于特定分析场景的工作流，并运行来处理数据。下方是任务管理器和日志管理器，运行中的任务可以在任务管理器中被停止，每个任务对应的命令行、相应的标准输出和标准错误输出可以在日志管理器中进行查看。

数据导入和导出操作！

1、在Files Browser中，点击右键菜单 "Import" 和 "Export"，弹出数据导入和导出对话框。

2、数据导入对话框。

3、数据导出对话框。

查看分析模块帮助说明文档！

在Tools Browser中，点击右键菜单 "Tool Help" ，弹出对应分析模块的帮助文档。或者，在分析模块参数设置界面，点击右上角 "Help Document" 链接。

查看软件基本操作说明文档！

请参考软件基本操作说明文档。在软件界面中，点击菜单 "Help" -> "User Manual… " 即可查看软件基本操作说明文档。

共数据库获取转录组分析所需相关文件操作说明

包括：参考序列（FASTA）、注释信息（GTF）、转录本序列（FASTA）、基因与转录本关系信息（TXT）、GO功能注释（TXT）、KEGG功能注释（TXT）。

完整操作说明如下所示：

1、通过网址 “www.ensembl.org” 访问Ensembl基因组数据库网站。

2、如果需要下载植物相关的数据，点击主页下方的 “Ensembl Plants” 链接进行切换。示意图如下所示：

3、以拟南芥为例，下面展示完整的操作步骤。

4、点击主页最上方的 “Downloads” 链接进入FTP下载页面。示意图如下所示：

5、在FTP下载页面， “Single species data” 部分找到拟南芥物种。示例图如下所示：

6、点击 “DNA” 列对应的FASTA链接，进入参考序列FTP下载界面，选择下载 “Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz” 并解压。

7、点击 “GTF” 列对应的GTF链接，进入注释信息FTP下载界面，选择下载 “Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz” 并解压。

8、点击主页最上方的 “BioMart” 链接进入BioMart页面。示意图如下所示：

9、在BioMart页面中，点击 “CHOOSE DATABASE” 选项，选择Genes数据库，物种选择拟南芥。示例图如下所示：

10、点击页面左侧的 “Attributes” ，接着在右侧 Features大类，EXTERNAL栏目中将 “GO term accession” 选中。示意图如下所示：

11、点击页面左上角的 “Results” 按钮图标，进入导出数据页面。示意图如下所示：

12、在数据导出页面上方，点击 “Go” 按钮图标进行下载。示意图如下所示：

13、下载的文件名称为 “mart_export.txt” ，包含拟南芥基因对应的GO号信息。

14、这样我们得到三个文件，分别为： “Arabidopsis_thaliana.TAIR10.dna.toplevel.fa” “Arabidopsis_thaliana.TAIR10.44.gtf” “mart_export.txt”。

15、将三个文件导入到VG转录组软件中，点击这里查看数据导入导出操作说明。

16、在Workflows Browser中，双击流程 "Prepare: Ensembl Genome and Annotation Data Process" ，弹出通过流程创建项目对话框，并设置独立的项目名称和工作目录。

17、双击打开项目，并将三个文件作为项目流程的输入。运行项目，即可得到转录组分析所需相关文件。

18、如下所示，这些文件用于后续的比对、定量、功能富集分析。

参考序列（FASTA）：Arabidopsis_thaliana.TAIR10.dna.toplevel.fa

注释信息（GTF）：ref_clean.gtf

转录本序列（FASTA）：transcripts.fasta

基因与转录本关系信息（TXT）：gene_trans_map.txt

GO功能注释（TXT）：GO_anno.txt

KEGG功能注释（TXT）：KEGG_anno.txt

比对和定量流程说明

1、建立参考转录本序列索引文件。在Workflows Browser中，双击流程 "Align-free Quantify: Build Transcript Kallisto Index" ，弹出通过流程创建项目对话框，并设置项目名称和工作目录。双击打开项目，将转录本序列 "Transcripts.fasta" 和 "Gene_Trans_map.txt" 作为项目流程的输入，并运行项目得到结果。

2、定量分析（需要每个样品重复执行该步骤）。在Workflows Browser中，双击流程 "Align-free Quantify: Pseudoalignment and Quantify" ，弹出通过流程创建项目对话框，并设置项目名称和工作目录。双击打开项目，将上一步得到的转录本索引文件 "kallisto_trans_index.fasta" 和原始fastq下机数据作为项目流程的输入，并运行项目得到结果。这里，每个样品重复运行该步骤，从而得到每个样品的定量结果。需要注意的是，每次新建项目，均要设置不同的工作目录，避免同名文件覆盖冲突问题。

3、每个样品的定量结果进行合并，从而得到Count矩阵、FPKM矩阵、TPM矩阵。在Workflows Browser中，双击流程 "Align-free Quantify: Sample to Matrix" ，弹出通过流程创建项目对话框，并设置项目名称和工作目录。双击打开项目，将每个样品的基因定量结果作为项目流程的输入，并运行项目得到结果。