芯片数据查找与下载 #5202

ixxmu · 2024-07-07T05:33:31Z

https://mp.weixin.qq.com/s/14CAyiohZc70uSAsLXHBog

ixxmu · 2024-07-07T05:34:00Z

芯片数据查找与下载 by 生信漫漫学

写在开头

端午在家没怎么好好干活，就重新跟数据挖掘班课程学习了一下，重新整理了前面R语言基础的笔记。

很巧的是，恰好时隔一年我又重新在学习，去年学的时候直接就跳过了GEO芯片数据和TCGA的练习，整理的笔记也比较浅显

##R语言-数据挖掘

因为对TCGA数据不熟悉，所以居然没有整理对应的笔记，真不应该啊！

不过经过一年的学习成长，小谢已经是小谢1.1了，可以勇敢的练习GEO芯片数据分析，并且学习TCGA生存分析部分内容了！

也重新在整理笔记，记录一些自己觉得还没掌握的点。趁周末终于开始做GEO芯片练习咯，那整理记录下分析过程叭！

GEO芯片数据查找

1. 从series里面查找感兴趣的数据集，然后选择array芯片，最好选择至少六个样品的数据

进入到GEO的series里面，可以根据关键词检索array芯片数据。然后去看series type和Orgnisms和Samples，找到心仪的数据就可以点击查看详情

2. 点进去数据详情页面，查看分组信息，最好是两分组

这边我挑了GSE230001人类的数据，本着至少有6个样品，然后开始的时候，我想先从人类数据入手，所以就挑了这个，但是分组有一点点多

3. 然后找到series matrix的矩阵信息，根据文件大小判断是否为正常的芯片数据，以M结尾的是正常大小

4. 最后要看一下每个样品是否正常，点进去GSM样品中，然后查看表达量

正常在0-20之间，说明是取过log之后的数据，如果在0-10000左右，说明是没有取过log的值，如果中位数在0左右，有正负值说明数据有问题

乖孩子会按照小洁老师课上的重点，依次去检查数据！

下载数据根据箱线图检查矩阵是否正常

#下载数据
eSet = getGEO("GSE230001", destdir = '.', getGPL = F)
#获取需要的信息
eSet = eSet[[1]] 
class(eSet)

提取表达矩阵和临床信息

#(1)提取表达矩阵exp,erps函数返回一个表达式值矩阵
exp <- exprs(eSet)
dim(exp)
range(exp)
exp = log2(exp+1) 
boxplot(exp,las = 2)

#(2)提取临床信息
pd <- pData(eSet)

#(3)让exp列名与pd的行名顺序完全一致
p = identical(rownames(pd),colnames(exp));p
if(!p) {
  s = intersect(rownames(pd),colnames(exp))
  exp = exp[,s]
  pd = pd[s,]
}

#(4)提取芯片平台编号
gpl_number <- eSet@annotation;gpl_number

从箱线图来看，这个数据是正常的，可以用于后续的分析hhh，那后续的分析后续再说叭！学习暂停，回家干饭！

ixxmu changed the title ~~archive_request~~ 芯片数据查找与下载 Jul 7, 2024

ixxmu added fetched 生信漫漫学 labels Jul 7, 2024

ixxmu closed this as completed Jul 7, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

芯片数据查找与下载 #5202

芯片数据查找与下载 #5202

ixxmu commented Jul 7, 2024

ixxmu commented Jul 7, 2024

写在开头

GEO芯片数据查找

下载数据根据箱线图检查矩阵是否正常

芯片数据查找与下载 #5202

芯片数据查找与下载 #5202

Comments

ixxmu commented Jul 7, 2024

ixxmu commented Jul 7, 2024

芯片数据查找与下载 by 生信漫漫学

写在开头

GEO芯片数据查找

下载数据根据箱线图检查矩阵是否正常