基因组De novo数据上传流程(二)
原文再续,书接上回……
上一次我们介绍了序列上传和Bankit提交,这里先来做一个前情回顾……
以下是tbl2asn的提交过程,Sequin由于有数据量的限制且功能相似,不做阐述。
选择网址
https://submit.ncbi.nlm.nih.gov/genbank/template/submission/,进入如下界面(带“*”的为必填项):
在页面上填写项目联系人信息及项目发表情况,若事先创建了BioProject号,填写进去即可。检查无误后,确认提交,生成文件 template.sbt。
接下来就该是基因组框架图或者完成图的信息上传了~
来看看你需要准备哪些材料~
文件介绍:
1. 基因组sqn文件
tbl2asn/Sequin特定的格式,包含基因组序列、基因特征及其他信息,导入软件可以转成可读性更强的genbank格式。
2. 基因列表文件 *.tbl
列表文件呈现的是编码基因、rRNA、tRNA及其他一些组分特征。
Tbl文件示例 ---
格式说明 ---
>Feature 序列id
第一列:基因组特征的起始
第二列:基因组特征的终止,负项链的坐标反向写
第三列:特征值,gene / CDS / rRNA / tRNA / misc_feature ...
第四列:属性,如codon_start / transl_table / product / protein_id ...
第五列:具体属性的值
一些特例情况 ---
1) 若存在RNA编辑则需要添加属性值,并指定定RNA编辑发生的位置及类型,示例如下:
2) 若存在特殊结构的基因,如反式剪切基因rps12(叶绿体中很重要的一个基因),也是需要添加对应的属性值,示例如下:
其它情况请参阅
https://www.ncbi.nlm.nih.gov/genbank/tbl2asn2/
生成提交文件的参考命令:
mkdir Submit_To_NCBI
cd Submit_To_NCBI
将template.sbt 和 基因组genbabk文件拷贝到当前目录,然后:
1) 下载 ftp://ftp.ncbi.nlm.nih.gov//toolbox/ncbi_tools/converters/scripts/gbf2tbl.pl 脚本,导入基因组gbk获得 *.fsa 和 *.tbl:
2) 下载tbl2asn,生成 *.sqn
/yourpath/tbl2asn -t template.sbt -p ./
说明:
-p 为当前目录,即 tbl fsa pep 文件所在目录,如果有RNA editing基因,需要提供蛋白文件
运行完成后,最终生成*.sqn文件
写信至 gb-sub@ncbi.nlm.nih.gov 提交,注意把 *.sqn 和 *.tbl 都提交给NCBI。邮件内容言简意赅即可:
等待NCBI回复,若没有问题,也是大概2工作日就可以收到回信啦~~~
到这里,我们的De novo数据上传就搞定啦!希望可以帮助到你哦!