提供专业的生物信息产品与服务
严于治学,精于服务!
上海市科创板挂牌企业(股份代码:300151)
新闻详情

(生信教学课堂第一讲)手把手教你如何查找和下载GEO基因表达数据

浏览数:293

小编之前发的文章《GEO数据库挖掘出科研基金项目》中讲到如何利用GEO数据库挖掘出研究的方向和思路,今天小编一起手把手教大家一步一步来实战操作。

一.GEO数据库简介

GEOGENE EXPRESSION OMNIBUS)数据库是由美国国立生物技术信息中心(NCBI2000年创建的基因表达数据库,收录了世界各国研究机构提交的基因表达数据,主要包括基因芯片,高通量测序数据。目前已发表的论文中涉及到基因表达检测的数据都可以通过GEO数据库找到,并且是免费使用。

二.GEO数据格式

  数据库存放四种数据类型:GSEGDSGSMGPL

一个GSE ID指整个研究项目的系列数据,会涉及一到多个实验平台(GPL

一个GDS ID对应同一个实验平台的数据集

一个GSM ID对应一个样本的表达数据信息GSEGDS 包含多个GSM数据。

一个GPL ID 对应一个实验平台的信息,包括芯片探针的设计和注释信息。

三.GEO数据查找和下载

1.关键字检索

  当我们拿到一个模糊的关键字不知道如何下手时,可以直接检索GEO数据库。如图1表示的,首先进入GEO数据库主页(https://www.ncbi.nlm.gov/geo/, 输入关键字 graft surgery (移植手术) 点击Search,从图中可以看到共找到10894GEO数据集结果54675GEO 表达谱数据集。GEO数据集是包括GSE,GDC,GPL,GSM数据集,而表达谱数据集是指每个基因在不同实验平台的数据集。点击显示10894的结果链接进入研究项目页面图2



2.筛选项目信息

进入图2示的项目页面后,可以设置物种为人,同时可以设置实验类型为表达谱数据和查找数据集GDC数据集,通过浏览和阅读文章的标题和内容,确定是否和自己研究相符,如果相符可以点击图中红色标记的GSE链接进入具体的研究项目了解详细的样本和数据情况。



3.下载GEO文件

按图3示进入项目页面后,可以看到项目的研究目的以及实验设计,根据实验设计就可以确定实验分为几个组。如图4示在项目页面的下面会有样本信息和可下载的数据集。

  图4显示共有40样本,使用的是U133 Plus2.0的芯片。如果对数据的分组还不是很明确可以点击平台计算工具GEO2R进行详细查看,如图5所示。平台分析工具GEO2R也可以进行差异计算,但操作比较繁琐,结果也没有火山图之类的。下节教学课堂我们会用GEO2Romicsbean软件(www.omicsbean)进行数据的分析。


4.再次明确样本分组

通过前面的步骤如何对样本分组还是不太明确,可以点击GEO2R计算平台进一步确认。从图5示,可以明确样本数据分手术前和手术后两个组。



如对分析有疑问欢迎关注下面微信号进行咨询.


金弗康科研团队专注于生物信息分析,科研外包服务,自主研发的omicsbean 生物云平台上线近两年时间,已经有30多家高校和研究所使用该软件平台发表SCI文章,总影响因子达到124.147,其中最高影响因子26.9,包括多篇发表在Nature,Science等杂志的文章。

金弗康生物科技致力于大数据产业自动化和智能化解决方案,是上海市科创板挂牌企业(300151),高新技术企业以及大数据专项建设承担企业,依托自主研发的基因检测工业化系统,整合上下游优质基因检测和健康干预管理产品,成为国内基因检测和精准医疗配套服务商。公司专利储备56个,其中发明专利42个,软件著作权专利14个。

具有自主知识产权的智能化基因检测系统目前覆盖病理检测,医学普检,癌症和遗传病检测已深入多家三甲医院和医学检验机构,用以实现检测数据精准解读从而提高医疗服务品质。

公司未来将致力于大数据技术在遗传病检测方向的应用,涉及检测试剂盒,癌症早筛(ctDNA检测)的精准检测,临检、病理、特检相结合的区域一体化检测中心实现云端化数据传输,靶向中医药用于临床癌症治疗等方面。

我们承接各组学、临床数据的单独、整合分析;疾病模型预测;蛋白结构预测及功能模拟;纯数据库信息挖掘等生物信息分析服务。提供各类测序;验证实验等科研外包的服务。欢迎有兴趣的小伙伴,免费注册体验omicsbeans一站式的生物信息分析系统。详细情况,欢迎添加微信号询问,或者在文章下面留言,谢谢关注!自主或定制生物信息分析找金弗康;做各类测序,验证实验找金弗康;因为我们是专业的!