GEO数据上传指南

GEO数据库全称GENE EXPRESSION OMNIBUS,是当今最大、最全面的公共基因表达数据资源。NCBI于2000年创建并维护的基因表达数据库,收录世界各国研究机构提交的高通量基因表达数据。GEO数据库可以上传自己的数据,还可以免费下载数据库中的数据来进行分析,为自己的研究提供一些启示或者验证。


很多SCI杂志都要求发表文章前将这些数据上传至NCBI的GEO数据库中,所以学习如何上传数据至GEO数据库很有必要。今天小编就整理了一份超详细的GEO测序数据上传攻略,帮助大家在上传过程中一步到位。


Step1 账号注册

数据上传前首先需要注册一个NCBI账号(https://www.ncbi.nlm.nih.gov/geo/submitter/),创建完成记得邮件激活哦。如果已经有账号,可以直接点击登录。

Step2 创建新提交任务


为首次登录页面会出现两个选项。首次上传数据到GEO选择第二个选项。按照要求填写相应的信息,包括注册人员信息和上传者信息,填写完毕,点击save,管理员会发送通知和链接到你的邮箱,信息填写完毕后会自动登陆GEO。 点击 new Submission创建新提交任务。

Step3 数据准备


GEO数据库支持上传芯片数据、高通量测序数据以及RT-PCR数据等,首先选择需要上传数据的类型,本次以高通量测序数据上传为例进行讲解,选择选择 submit high-throughput sequencing。

上传数据需要准备三个文件,分别为:Metadata spreadsheet、Processed data files、Raw data files。
  • Metadata spreadsheet文件

元文件是一个Excel表格,可在以下链接中下载获取模板。该表格中主要包含实验、样本及数据处理相关信息。

下载的填写模板中已经给出两个填写例子(chip数据和RNA测序数据),可参考EXAMPLE 部分填写,若需获取中文指导版可在“云生物”公众号回复 “GEO数据上传” 获取以下表格。

  • Processed data files

经过处理的数据是GEO提交的必要部分,本部分将审核检验文章结论的真实可靠性。RNA-seq准备基因表达量文件(行为基因ID,列为样本,值可以是标准化后的表达值,也可以是原始read count),chipseq可准备bigwig和peak文件。

  • Raw data files

原始数据一般采用FASTQ格式,注意最好为压缩文件一般为.gz格式,注意检查原始文件的数据完整性(通过MD5校验)。

到此准备文件已全部就位,电脑桌面创建一个与NCBI账户名相同的文件夹,将准备好的三部分文件移入文件夹中等待上传。


Step4 数据上传


选择Uploading your submission,Transter Files,创建个人上传空间。由于raw data files中文件较大,推荐选择FTP进行上传。FileZilla下载链接:https://filezilla-project.org/

打开FileZilla,主机(H) 框填写host address :ftp-private.ncbi.nlm.nih.gov,用户名(U)填写geoftp,密码填写rebUzyi1(此项可能不定期更新),端口号不填,点击快速连接按钮。(此处插播友情提示:点击快速链接后可能会出现permission demined提示,请忽略它。)直接在右侧远程站点框中输入GEO数据库提供给你的上传路径即:uploads/********,按回车键即可进入个人上传目录。

为保证传输过程的顺利进行,防止上传失败,需先对FileZilla进行设置。点击菜单栏上的编辑—设置—连接—最大重试次数调至99;对已存在文件的操作—下载/上传均调为继续文件传输。以上设置主要是为防止上传/下载中断以便下次可在已下载基础上继续上传/下载。设置完成记得点击确定保存设置哦!

从本地站点找到以上准备好的文件夹,将本地资料右键选择上传或将文件夹直接拖拽到右侧空白处,数据即开始上传。

Step5 审核发布


数据上传结束后,可点击Notify GEO,提醒GEO后台人员上传完成,可以进行审核。点击后需填写你建立的文件夹名称,期望数据公开的时间,以及更进一步的说明等。

或者也可给给GEO(geo@ncbi.nlm.nih.gov)发送邮件,示例如下:

提交了该数据之后,五个工作日内就会收到来自GEO数据库的邮件(邮箱为NCBI注册时留下的邮箱)。如果你的数据有问题,会通知你去再次上传或者是修改,若没有问题即可得到具体GEO号。

分享