Skip to content

5.实例

YaqiangCao edited this page Apr 12, 2018 · 7 revisions

下面所有BEDPE文件,处理的结果,以及log文件都可以在样例中找到。使用的cLoops版本为0.9

a. ChIA-PET数据

我们提供了一个来自GM12878 CTCF ChIA-PET (GSM1872886)的测试数据,只取了hg38上chr21的数据。eps可以自动估计,minPts默认是5,-w选项能够产生用于washU epigenome browser可视化文件,-j选项将产生在Juicebox可视化文件,-s可以保留中间文件,用于转换成Juicebox的.hic文件或者washU的long-range interaction track文件。

wget https://github.com/YaqiangCao/cLoops/blob/master/examples/GSM1872886_GM12878_CTCF_ChIA-PET_chr21_hg38.bedpe.gz
cLoops -f GSM1872886_GM12878_CTCF_ChIA-PET_chr21_hg38.bedpe.gz -o chiapet -w -j -s -minPts 5 -plot 
#或者
cLoops -f GSM1872886_GM12878_CTCF_ChIA-PET_chr21_hg38.bedpe.gz -o chiapet -w -j -s -m 1 -plot

对于具有sharp峰型的ChIA-PET数据,像这里的CTCF,你可以得到inter-ligation和self-ligation PETs的距离分布示意图如下。非常理想的情况,即两个距离分布能很好的分开。
Overview

如果您实验的结果不像这种通过自动估计的eps的结果,可能你的ChIA-PET数据是宽峰型的(像H3K27ac)或者精度不够,请使用一条染色体较小的数据(人类chr21或者小鼠chr19),设置一系列eps测试数据,然后选择能产生区分距离分布比较好的最小eps,或者直接设置成 -eps 2000,5000

对于ChIA-PET数据,我们推荐使用washU进行可视化,可以通过我们的jd2washU将中间坐标文件转换成其track, jd2washU需要环境中存在bedtools,bgzip & tabix

jd2washU -d chiapet -o chiapet       

辅以相应的ChIP-seq等数据,可以得到例如下图的可视化结果: Overview

b. HiChIP数据

我们提供了两个生物重复的GM12878 cohesin HiChIP数据,只取了hg38上chr21数据,使用如下参数找loops。-hic选项用来设置类似Hi-C数据的cutoff,如上面提及。

 wget https://github.com/YaqiangCao/cLoops_supplementaryData/blob/master/examples/GSE80820_GM12878_cohesin_HiChIP_chr21_hg38_bio1.bedpe.gz
 wget https://github.com/YaqiangCao/cLoops_supplementaryData/blob/master/examples/GSE80820_GM12878_cohesin_HiChIP_chr21_hg38_bio2.bedpe.gz
 cLoops -f GSE80820_GM12878_cohesin_HiChIP_chr21_hg38_bio1.bedpe.gz,GSE80820_GM12878_cohesin_HiChIP_chr21_hg38_bio2.bedpe.gz -o hichip -m 4 -j -s -w 

对于HiC和HiChIP数据,我们推荐使用Juicebox进行可视化,可以通过我们的jd2juice将中间文件转换成.hic文件,jd2juice需要系统环境中juicer_tools可用:

jd2juice -d hichip -o hichip -org hg38 

调整一下Juicebox的Resolution,Color Range以及只在右上角显示loops即可得到如下结果, Hi-C的较为类似。需要注意的是,由于Juicebox的resolution的问题,例如最小5k的情况下,有些anchors比较小的loops会显示成一条线,因此我们不推荐用Juicebox显示ChIA-PET的结果。

c. Hi-C数据

我们提供了GM12878 Hi-C,只取了mapping在hg38的chr21数据,使用下面代码来找loops,和HiChIP的差异不大。

 wget https://github.com/YaqiangCao/cLoops_supplementaryData/blob/master/examples/GSM1551552_GM12878_HiC_chr21_hg38.bedpe.gz
 cLoops -f GSM1551552_GM12878_HiC_chr21_hg38.bedpe.gz -o hic -w -j -s -m 3

d. Fingerprint plot

这个图是我们用来比较不同的数据是否具备类似的找loops的性能,如果在跑cLoops的时候设置了**-s**保留中间文件,可以通过以下命令来得到这个图,越远离中间的random线,表明数据越适合找loops。此外,如果是两个用以比较的例如Hi-C数据集,如果两条Fingerprint线相差很大的话,我们不建议继续比较。

jd2fingerprint -d chiapet,hichip,hic -plot 1 -o compare -bs 2000  


其他数据

我们正在针对GRID-seq 以及Capture Hi-C做一些算法适配以及调参,希望能很快推出可用版本。如果您开发的测序方法得到的heatmap类似于ChIA-PET, HiChIP和Hi-C,通过调整minPtseps 以及各种p-values的组合理论上也可以适用,如果需要合作调参或适配算法,请先联系[email protected],让我们一起优雅地探索数据解决问题。

Clone this wiki locally