手把手教你绘制一致性聚类图

关注精彩内容,要先点击这里哦~

今天我们和大家分享一个新的知识点——一致性聚类,提到一致性聚类,一般人可能会是下面的反应

 

这是啥?

不会我们就去问wiki,wiki给出的解释如下:



一致性聚类是传统聚类分析的重要阐述。一致性聚类,也称为聚类集成,是指为特定数据集获得了许多不同(输入)聚类并且需要查找单个(一致性)的情况。一致性聚类,从某种意义上讲,它比现有聚类更合适。因此,一致性聚类是协调关于来自不同来源或同一算法的不同运行的同一数据集的聚类信息的问题。

说点我们能理解的吧:

Consensus Clustering(一致性聚类)是一种无监督聚类方法,是一种常见的癌症亚型分类研究方法(如乳腺癌中的PAM50),可根据不同组学数据集将样本区分成几个亚型,从而发现新的疾病亚型或者对不同亚型进行比较分析。

比如下面的一篇文章便是采用这种方法进行的一致性聚类。


其文章中的图便是我们今天要出的图:


当然除了Consensus Clustering外,还有些文章会用non-negative matrix factorization (NMF) consensus cluster来寻找亚型。

Consensus Clustering实现比较简单,有现成的R包ConsensusClusterPlus,操作比较简单,只需要一个表达矩阵即可:

接着我们进入正题,聊聊一致性聚类的实现ConsensusClusterPlus:

01


安装ConsensusClusterPlus包,操作很简单,直接install,接着加载进来就行


02


整理数据集,为了保证数据的可重复性,我们采用了一个R包数据集,如下:


查看数据维度:


可以看到一共包括12625行,128列,每行代表一个探针,实际上可以理解为一个基因,每列代表一个样本,一共128个样本。


03


数据预处理,筛选基因和标准化,当然你也可以用自己的fpkm或者tpm值等,归一化之后的数据理论上均可以。


04


一步完成聚类


注意几个参数:

maxK是指输出的最大的K值,默认是从2开始;

reps是指进行重复的次数,一般选择1000左右,这里选择了50;

title是指生成的图片存放的路径;

clusterAIG是指采用的聚类方法,包括的有hc,KNN,pam等,这里选择了hc;


05


数据出图及选择合适的K,K代表类别数。


从第二张图可以看到k=5可以作为一个拐点,且第一张图看到当k=5的时候,中间比较平缓,从第三张图也可以看到k=5分类很明显,很明显看到基于表达数据可以分为5个cluster。


OK,今天就和大家分享到这,我们平台同时推出了R绘图课程,如果您对此感兴趣,可点击下方【阅读原文】购买学习。最后,文中代码获取方式,后台回复关键词:一致性聚类 


生信发文助手

如需生信分析服务请加微信:keyan-zhishi2




多点好看,少点脱发

抢沙发

  • QQ号
  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

登录

忘记密码 ?

切换登录

注册