帮助——VG转录组软件

数据文件配置说明

安装数据文件,配置说明!

1、下载database.zip文件,

本地下载 百度网盘

压缩包的目录结构为:

2、在软件安装目录解压缩database.zip文件。确保 VGenomics_RS/database/diamond_db 目录下存在以下4个文件:

测试数据详细信息!

测试数据:ref-based_test_rawdata.zip,

本地下载 百度网盘

压缩包,包含文件列表如下所示:

数据说明:

chr22_with_ERCC92.fa

only a single chromosome (chr22) and the ERCC spike-in, that is the human GRCh38 version of the genome from Ensembl.

chr22_with_ERCC92.gtfannotations obtained from Ensembl (Homo_sapiens.GRCh38.86.gtf.gz) for chromosome 22 only.
gene_GO_anno.txtGO functional annotation file.
gene_KEGG_anno.txtKEGG functional annotation file.
*.fastq

The test data consists of two commercially available RNA samples: Universal Human Reference (UHR)and Human Brain Reference (HBR) . The UHR is total RNA isolated from a diverse set of 10 cancer cell lines. The HBR is total RNA isolated from the brains of 23 Caucasians, male and female, of varying age but mostly 60-80 years old.

In addition, a spike-in control was used. Specifically we added an aliquot of the ERCC ExFold RNA Spike-In Control Mixes to each sample. The spike-in consists of 92 transcripts that are present in known concentrations across a wide abundance range (from very few copies to many copies).

软件基本操作说明

软件界面说明!

软件界面的上方是菜单栏和工具栏,集合了一些常用的功能,如新建项目、保存项目、复制、粘贴、数据导入、数据导出等。 左边是分析模块浏览器和流程浏览器,在分析模块浏览器中,包含了整个软件的所有功能模块。在流程浏览器中,保存了预 先定义和自定义的流程(Pipeline),适用于特定的数据分析场景。右上是项目浏览器,在其中可以新建项目、删除项目、 修改项目名称、设置项目的描述性信息等。右下是文件浏览器,这里实现了文件的基本操作,如数据导入和导出、 重命名、 复制、剪切、 删除等。中间是项目编辑窗口,在其中可以拖入功能模块和数据,根据分析需求进行连线,设置模块的参数, 建立出适用于特定分析场景的工作流,并运行来处理数据。下方是任务管理器和日志管理器,运行中的任务可以在任务管理 器中被停止,每个任务对应的命令行、相应的标准输出和标准错误输出可以在日志管理器中进行查看。

数据导入和导出操作!

1、在Files Browser中,点击右键菜单 "Import" 和 "Export",弹出数据导入和导出对话框。

2、数据导入对话框。

3、数据导出对话框。

查看分析模块帮助说明文档!

在Tools Browser中,点击右键菜单 "Tool Help" ,弹出对应分析模块的帮助文档。或者,在分析模块参数设置界面,点击右上角 "Help Document" 链接。

查看软件基本操作说明文档!

请参考软件基本操作说明文档。在软件界面中,点击菜单 "Help" -> "User Manual… " 即可查看软件基本操作说明文档。

共数据库获取转录组分析所需相关文件操作说明

包括:参考序列(FASTA)、注释信息(GTF)、转录本序列(FASTA)、基因与转录本关系信息(TXT)、GO功能注释(TXT)、KEGG功能注释(TXT)。

完整操作说明如下所示:

1、通过网址 “www.ensembl.org” 访问Ensembl基因组数据库网站。

2、如果需要下载植物相关的数据,点击主页下方的 “Ensembl Plants” 链接进行切换。示意图如下所示:

3、以拟南芥为例,下面展示完整的操作步骤。

4、点击主页最上方的 “Downloads” 链接进入FTP下载页面。示意图如下所示:

5、在FTP下载页面, “Single species data” 部分找到拟南芥物种。示例图如下所示:

6、点击 “DNA” 列对应的FASTA链接,进入参考序列FTP下载界面,选择下载 “Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz” 并解压。

7、点击 “GTF” 列对应的GTF链接,进入注释信息FTP下载界面,选择下载 “Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz” 并解压。

8、点击主页最上方的 “BioMart” 链接进入BioMart页面。示意图如下所示:

9、在BioMart页面中,点击 “CHOOSE DATABASE” 选项,选择Genes数据库,物种选择拟南芥。示例图如下所示:

10、点击页面左侧的 “Attributes” ,接着在右侧 Features大类,EXTERNAL栏目中将 “GO term accession” 选中。示意图如下所示:

11、点击页面左上角的 “Results” 按钮图标,进入导出数据页面。示意图如下所示:

12、在数据导出页面上方,点击 “Go” 按钮图标进行下载。示意图如下所示:

13、下载的文件名称为 “mart_export.txt” ,包含拟南芥基因对应的GO号信息。

14、这样我们得到三个文件,分别为: “Arabidopsis_thaliana.TAIR10.dna.toplevel.fa” “Arabidopsis_thaliana.TAIR10.44.gtf” “mart_export.txt”。

15、将三个文件导入到VG转录组软件中, 点击这里查看数据导入导出操作说明

16、在Workflows Browser中,双击流程 "Prepare: Ensembl Genome and Annotation Data Process" ,弹出通过流程创建项目对话框,并设置独立的项目名称和工作目录。

17、双击打开项目,并将三个文件作为项目流程的输入。运行项目,即可得到转录组分析所需相关文件。

18、如下所示,这些文件用于后续的比对、定量、功能富集分析。

参考序列(FASTA):Arabidopsis_thaliana.TAIR10.dna.toplevel.fa

注释信息(GTF):ref_clean.gtf

转录本序列(FASTA):transcripts.fasta

基因与转录本关系信息(TXT):gene_trans_map.txt

GO功能注释(TXT):GO_anno.txt

KEGG功能注释(TXT):KEGG_anno.txt

比对和定量流程说明

1、建立参考转录本序列索引文件。在Workflows Browser中,双击流程 "Align-free Quantify: Build Transcript Kallisto Index" ,弹出通过流程创建项目对话框,并设置项目名称和工作目录。双击打开项目,将转录本序列 "Transcripts.fasta" 和 "Gene_Trans_map.txt" 作为项目流程的输入,并运行项目得到结果。

2、定量分析(需要每个样品重复执行该步骤)。在Workflows Browser中,双击流程 "Align-free Quantify: Pseudoalignment and Quantify" ,弹出通过流程创建项目对话框,并设置项目名称和工作目录。双击打开项目, 将上一步得到的转录本索引文件 "kallisto_trans_index.fasta" 和 原始fastq下机数据 作为项目流程的输入, 并运行项目得到结果。这里,每个样品重复运行该步骤,从而得到每个样品的定量结果。需要注意的是,每次新建项 目,均要设置不同的工作目录,避免同名文件覆盖冲突问题。

3、每个样品的定量结果进行合并,从而得到Count矩阵、FPKM矩阵、TPM矩阵。在Workflows Browser中,双击流程 "Align-free Quantify: Sample to Matrix" ,弹出通过流程创建项目对话框,并设置项目名称和工作目录。双击打开 项目,将每个样品的基因定量结果作为项目流程的输入,并运行项目得到结果。

生成分组信息文件操作说明

1、在文件浏览器中,选中对应的矩阵文件。

2、点击右键菜单New -> Sample Group File,弹出设置样本分组信息窗口。

或者在项目编辑窗口中,选中矩阵输入文件,点击右键菜单 Get group design file from tabular file.,弹出设置样本分组信息窗口。

!!注:文件格式必须是tabular,可通过Reset Format进行文件格式的更改。

3、设置分组信息,点击OK按钮得到对应的样本分组信息文件。

Frequently Asked Question

如何在项目编辑窗口中修改文件格式?

1、在项目编辑窗口中,在文件名位置点击右键菜单 "Reset Format" ,或者单击右上角的 "笔" 图标,弹出设置文件格式对话框。

2、在设置文件格式对话框中,输入正确的格式并点击 "OK" 按钮。也可以点击 "Auto Detect" 按钮根据文件内容进行文件格式的自动推断(准确率99%)。

软件有哪些文件格式的要求?

VG转录组分析软件中,大部分模块要求的输入文件均为文本文件,ASCII编码,意味着文件不能包含中文字符。其中 "tabuar" 格式 为制表符分隔的文本表格文件,如Count矩阵、FPKM矩阵、TPM矩阵等。

xls或xlsx表格文件可以通过Excel软件得到制表符分隔的文本表格文件:

1、Excel软件打开xls文件,选择 "另存为" –> "其他格式" 。

2、保存类型选择:文本文件(制表符分隔)(*.txt)。

3、接着点击 "确定" 和 "是" 。

4、关闭Excel软件。

FPKM矩阵、TPM矩阵或者Count矩阵作为输入数据一直报错,该怎么处理?

需要注意的是,"tabuar" 格式必须为严格的制表符分隔的文本表格文件。其中,每一行的末尾不能包含多余的空白字符,列之间除了制表符也不能包含多余的空白字符。

如果是其他分隔符分隔的文本表格文件,可以利用 "Text Manipulation" 下的 "Convert delimiters to TAB" 分析模块进行格式转换。

不了解分析模块所需要的输入数据格式,该怎么办?

请查看分析模块的帮助文档,有非常详细的说明。请点击这里进行查看!

不了解分析模块输出表格和图表的含义,该怎么办?

请查看分析模块的帮助文档,有非常详细的说明。请点击这里进行查看!

如何操作软件进行分析?

请查看软件视频教程,请点击这里进行查看!

软件是否有测试数据?

软件自带测试数据,在rs_test_data目录下。

另外,可以点击下载测试数据:ref-based_test_rawdata.zip,数据量相对大一些。

软件试用期限有多长?

软件提供15天的试用期限,关注 "VG生信软件" 公众号即可增加45天软件试用期限,最长可达60天试用。

点击这里了解详情!

软件价格是多少?

请点击这里进行查看!

一个序列号License能够绑定多少台电脑?

一个序列号License仅供一台电脑使用。


分享
下一篇:教学视频
上一篇:精选文献推荐