GEO数据库全称GENE EXPRESSION OMNIBUS,是当今最大、最全面的公共基因表达数据资源。NCBI于2000年创建并维护的基因表达数据库,收录世界各国研究机构提交的高通量基因表达数据。GEO数据库可以上传自己的数据,还可以免费下载数据库中的数据来进行分析,为自己的研究提供一些启示或者验证。
很多SCI杂志都要求发表文章前将这些数据上传至NCBI的GEO数据库中,所以学习如何上传数据至GEO数据库很有必要。今天小编就整理了一份超详细的GEO测序数据上传攻略,帮助大家在上传过程中一步到位。
Step1 账号注册
数据上传前首先需要注册一个NCBI账号(https://www.ncbi.nlm.nih.gov/geo/submitter/),创建完成记得邮件激活哦。如果已经有账号,可以直接点击登录。
Step2 创建新提交任务
若为首次登录页面会出现两个选项。首次上传数据到GEO选择第二个选项。按照要求填写相应的信息,包括注册人员信息和上传者信息,填写完毕,点击save,管理员会发送通知和链接到你的邮箱,信息填写完毕后会自动登陆GEO。 点击 new Submission创建新提交任务。
Step3 数据准备
GEO数据库支持上传芯片数据、高通量测序数据以及RT-PCR数据等,首先选择需要上传数据的类型,本次以高通量测序数据上传为例进行讲解,选择选择 submit high-throughput sequencing。
Metadata spreadsheet文件
元文件是一个Excel表格,可在以下链接中下载获取模板。该表格中主要包含实验、样本及数据处理相关信息。
Processed data files
经过处理的数据是GEO提交的必要部分,本部分将审核检验文章结论的真实可靠性。RNA-seq准备基因表达量文件(行为基因ID,列为样本,值可以是标准化后的表达值,也可以是原始read count),chipseq可准备bigwig和peak文件。
Raw data files
原始数据一般采用FASTQ格式,注意最好为压缩文件一般为.gz格式,注意检查原始文件的数据完整性(通过MD5校验)。
到此准备文件已全部就位,电脑桌面创建一个与NCBI账户名相同的文件夹,将准备好的三部分文件移入文件夹中等待上传。
Step4 数据上传
选择Uploading your submission,Transter Files,创建个人上传空间。由于raw data files中文件较大,推荐选择FTP进行上传。FileZilla下载链接:https://filezilla-project.org/。
打开FileZilla,主机(H) 框填写host address :ftp-private.ncbi.nlm.nih.gov,用户名(U)填写geoftp,密码填写rebUzyi1(此项可能不定期更新),端口号不填,点击快速连接按钮。(此处插播友情提示:点击快速链接后可能会出现permission demined提示,请忽略它。)直接在右侧远程站点框中输入GEO数据库提供给你的上传路径即:uploads/********,按回车键即可进入个人上传目录。
Step5 审核发布
数据上传结束后,可点击Notify GEO,提醒GEO后台人员上传完成,可以进行审核。点击后需填写你建立的文件夹名称,期望数据公开的时间,以及更进一步的说明等。
或者也可给给GEO(geo@ncbi.nlm.nih.gov)发送邮件,示例如下:
提交了该数据之后,五个工作日内就会收到来自GEO数据库的邮件(邮箱为NCBI注册时留下的邮箱)。如果你的数据有问题,会通知你去再次上传或者是修改,若没有问题即可得到具体GEO号。