高通量测序,例如多样性、宏基因组、基因组、转录组等获得的原始数据包括fastq、bam、h5等。目前,越来越多的SCI期刊要求Paper发表时,提供原始数据在公共数据库的登录号。公共数据库NCBI(national center for biotechnology information)中的SRA(Sequence Read Archive)数据库,就是专门收录原始数据的数据库。
原始数据上传分为两个大的步骤:
PART 1:申请Bioproject&Biosample登录号
2、如果上传bam文件,要求上传比对的assembly_fasta_file,如果有那么填写具体的基因组NCBI登录号;如果没有,那么在assembly栏目中填写“unaligned”。
3、原始数据数据通过Aspera命令行上传,注意上传的是包含原始数据的文件夹。shift+右键,打开dos命令窗口,示例命令如下(黄色部分按照自己的实际路径修改):
ascp.exe -i C:\Users\dell\Desktop\Online\Submit_To_NCBI\raw_data\aspera.openssh -QT -l100m -k1 -d C:\Users\dell\Desktop\Online\Submit_To_NCBI\raw_data\raw_data20200525 subasp@upload.ncbi.nlm.nih.gov:uploads/292403042_qq.com_otDeWTyd