Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

芯片数据查找与下载 #5202

Closed
ixxmu opened this issue Jul 7, 2024 · 1 comment
Closed

芯片数据查找与下载 #5202

ixxmu opened this issue Jul 7, 2024 · 1 comment

Comments

@ixxmu
Copy link
Owner

ixxmu commented Jul 7, 2024

https://mp.weixin.qq.com/s/14CAyiohZc70uSAsLXHBog

@ixxmu
Copy link
Owner Author

ixxmu commented Jul 7, 2024

芯片数据查找与下载 by 生信漫漫学

写在开头

端午在家没怎么好好干活,就重新跟数据挖掘班课程学习了一下,重新整理了前面R语言基础的笔记。

很巧的是,恰好时隔一年我又重新在学习,去年学的时候直接就跳过了GEO芯片数据和TCGA的练习,整理的笔记也比较浅显

##R语言-数据挖掘

因为对TCGA数据不熟悉,所以居然没有整理对应的笔记,真不应该啊!

不过经过一年的学习成长,小谢已经是小谢1.1了,可以勇敢的练习GEO芯片数据分析,并且学习TCGA生存分析部分内容了!

也重新在整理笔记,记录一些自己觉得还没掌握的点。趁周末终于开始做GEO芯片练习咯,那整理记录下分析过程叭!

GEO芯片数据查找

1. 从series里面查找感兴趣的数据集,然后选择array芯片,最好选择至少六个样品的数据

进入到GEO的series里面,可以根据关键词检索array芯片数据。然后去看series type和Orgnisms和Samples,找到心仪的数据就可以点击查看详情

2. 点进去数据详情页面,查看分组信息,最好是两分组

这边我挑了GSE230001人类的数据,本着至少有6个样品,然后开始的时候,我想先从人类数据入手,所以就挑了这个,但是分组有一点点多

3. 然后找到series matrix的矩阵信息,根据文件大小判断是否为正常的芯片数据,以M结尾的是正常大小

4. 最后要看一下每个样品是否正常,点进去GSM样品中,然后查看表达量

正常在0-20之间,说明是取过log之后的数据,如果在0-10000左右,说明是没有取过log的值,如果中位数在0左右,有正负值说明数据有问题

乖孩子会按照小洁老师课上的重点,依次去检查数据!

下载数据根据箱线图检查矩阵是否正常

#下载数据
eSet = getGEO("GSE230001", destdir = '.', getGPL = F)
#获取需要的信息
eSet = eSet[[1]] 
class(eSet)

提取表达矩阵和临床信息

#(1)提取表达矩阵exp,erps函数返回一个表达式值矩阵
exp <- exprs(eSet)
dim(exp)
range(exp)
exp = log2(exp+1) 
boxplot(exp,las = 2)

#(2)提取临床信息
pd <- pData(eSet)

#(3)让exp列名与pd的行名顺序完全一致
p = identical(rownames(pd),colnames(exp));p
if(!p) {
  s = intersect(rownames(pd),colnames(exp))
  exp = exp[,s]
  pd = pd[s,]
}

#(4)提取芯片平台编号
gpl_number <- eSet@annotation;gpl_number

从箱线图来看,这个数据是正常的,可以用于后续的分析hhh,那后续的分析后续再说叭!学习暂停,回家干饭!


@ixxmu ixxmu changed the title archive_request 芯片数据查找与下载 Jul 7, 2024
@ixxmu ixxmu closed this as completed Jul 7, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant