We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
https://mp.weixin.qq.com/s/14CAyiohZc70uSAsLXHBog
The text was updated successfully, but these errors were encountered:
端午在家没怎么好好干活,就重新跟数据挖掘班课程学习了一下,重新整理了前面R语言基础的笔记。
很巧的是,恰好时隔一年我又重新在学习,去年学的时候直接就跳过了GEO芯片数据和TCGA的练习,整理的笔记也比较浅显
##R语言-数据挖掘
因为对TCGA数据不熟悉,所以居然没有整理对应的笔记,真不应该啊!
不过经过一年的学习成长,小谢已经是小谢1.1了,可以勇敢的练习GEO芯片数据分析,并且学习TCGA生存分析部分内容了!
也重新在整理笔记,记录一些自己觉得还没掌握的点。趁周末终于开始做GEO芯片练习咯,那整理记录下分析过程叭!
1. 从series里面查找感兴趣的数据集,然后选择array芯片,最好选择至少六个样品的数据
进入到GEO的series里面,可以根据关键词检索array芯片数据。然后去看series type和Orgnisms和Samples,找到心仪的数据就可以点击查看详情
2. 点进去数据详情页面,查看分组信息,最好是两分组
这边我挑了GSE230001人类的数据,本着至少有6个样品,然后开始的时候,我想先从人类数据入手,所以就挑了这个,但是分组有一点点多
GSE230001
3. 然后找到series matrix的矩阵信息,根据文件大小判断是否为正常的芯片数据,以M结尾的是正常大小
4. 最后要看一下每个样品是否正常,点进去GSM样品中,然后查看表达量
正常在0-20之间,说明是取过log之后的数据,如果在0-10000左右,说明是没有取过log的值,如果中位数在0左右,有正负值说明数据有问题
乖孩子会按照小洁老师课上的重点,依次去检查数据!
#下载数据eSet = getGEO("GSE230001", destdir = '.', getGPL = F)#获取需要的信息eSet = eSet[[1]] class(eSet)
提取表达矩阵和临床信息
#(1)提取表达矩阵exp,erps函数返回一个表达式值矩阵exp <- exprs(eSet)dim(exp)range(exp)exp = log2(exp+1) boxplot(exp,las = 2)#(2)提取临床信息pd <- pData(eSet)#(3)让exp列名与pd的行名顺序完全一致p = identical(rownames(pd),colnames(exp));pif(!p) { s = intersect(rownames(pd),colnames(exp)) exp = exp[,s] pd = pd[s,]}#(4)提取芯片平台编号gpl_number <- eSet@annotation;gpl_number
从箱线图来看,这个数据是正常的,可以用于后续的分析hhh,那后续的分析后续再说叭!学习暂停,回家干饭!
Sorry, something went wrong.
No branches or pull requests
https://mp.weixin.qq.com/s/14CAyiohZc70uSAsLXHBog
The text was updated successfully, but these errors were encountered: