基因组De novo数据上传流程 (一)
NCBI数据提交过程,网站 https://www.ncbi.nlm.nih.gov/guide/howto/submit-sequence-data/ 有非常详细的归纳和介绍:
本文是基因组De novo数据上传NCBI的操作流程(对应于Genomic Assembly Submissions),适用于细菌、线粒体、叶绿体、质粒、噬菌体、病毒等小基因组。真核基因组的提交过程有一点细微的差别,但也可以借鉴。
如果已经有账号,就跳过此步,直接登录。
如果没有,则进入数据提交网址,点击Sign in to NCBI,创建一个NCBI账号,方便跟进每一个基因组项目提交的进展,及后续更新、修改数据等。
样本量少的小基因组,如线粒体、叶绿体、质粒、噬菌体、病毒等,不用创建BioProject。
如果是以下情况,建议创建BioProject号:
1. 真核基因组
2. 同时含有染色体和质粒的细菌基因组
3. 样本量大的基因组项目
4. 其他用于系统进化研究的的大样本项目(不局限于全基因组)
进入提交界面 https://submit.ncbi.nlm.nih.gov/subs/:
点击BioProject创建新的项目号,按如下一步步操作(带“*”的为必填项):
1) 填写个人信息
2) 填写项目信息
3) 填写样本信息
4) 项目的发布情况和数据释放时间
5) 测序数据信息
若不提交原始数据,直接Continue
6) 文献发表情况
若没有发表,直接Continu
7) 最后的信息确认,可以返回之前的步骤做相应修改
点击“Submit”提交,等待处理,10分钟左右会收到来自 bioprojecthelp@ncbi.nlm.nih.gov 确认邮件,即可获得BioProject ID号。
基因组完成图是提交到NCBI的GenBank数据库,可以通过以下三种方式:
l BankIt
目前比较常用的网页版数据提交工具,网址:https://www.ncbi.nlm.nih.gov/WebSub/?form=history&tool=genbank
数据准备:
提交方式:
网站在线提交
l tbl2asn
命令行版的数据提交工具,功能同Sequin。软件下载网址:ftp://ftp.ncbi.nih.gov/toolbox/ncbi_tools/converters/by_program/tbl2asn/
数据准备:
提交方式:
写信至 gb-sub@ncbi.nlm.nih.gov 提交
l Sequin
本地版的数据提交工具,现在逐渐被tbl2asn取代,NCBI已经不再维护该软件,不过仍然可以正常使用。软件下载网址:ftp://ftp.ncbi.nih.gov/sequin/
要求的数据及提交方式同tbl2asn。
以下是介绍Bankit 提交基因组完成图 的过程。tbl2asn/Sequin的提交见下回分解。
需要准备的文件包括:基因组完成图序列 *.fsa 和 基因信息列表 *.tbl。
基因列表文件的说明见 https://www.ncbi.nlm.nih.gov/Sequin/table.html#fig3,可以用ftp://ftp.ncbi.nlm.nih.gov//toolbox/ncbi_tools/converters/scripts/gbf2tbl.pl 脚本导入基因组gbk文件获得 *.fsa 和 *.tbl。
参考命令:
如果只需要上传基因组序列,由NCBI完成基因预测和注释,则不需要提交 *.tbl(该情况仅适用于细菌基因组)。
进入网站https://www.ncbi.nlm.nih.gov/WebSub/?form=history&tool=genbank,按步骤提交:
1) 填写项目联系人信息及文章发表情况
2) 填写测序策略
3) 上传基因组序列*.fsa,给定数据释放的时间
4) 上传基因列表文件 *.tbl
5) 最后检查并确认提交信息
确认无误后,点击Finish Submission按钮,完成提交。
若没有问题,大概2工作日后,就可以收到gb-admin@ncbi.nlm.nih.gov的回信,获得GenBank号,回信的截图(案例):
选择网址https://submit.ncbi.nlm.nih.gov/genbank/template/submission/,进入如下界面(带“*”的为必填项):
在页面上填写项目联系人信息及项目发表情况,若事先创建了BioProject号,填写进去即可。检查无误后,确认提交,生成文件 template.sbt。
Bankit提交后,我们会更新基因组框架图或完成图的提交……由于基因组数据提交的流程较长,我们今天就先分享到这里。