手把手教你画双基因生存曲线

小伙伴们,你们好啊~前几天看文献的时候看到一个双基因联合分组的生存曲线的图,觉得挺有意思的。今天我就以TCGA库中的乳腺癌(BRCA)为例,教大家怎么画双基因的生存曲线~


一、安装和加载所需的包

RTCGA是一系列根据数据类型分离的包,相当于要先下载这些离线数据R包之后再直接从离线数据包里面获取TCGA的所有数据。最新的版本可以加载下图所有的包,可谓是非常强大了。



infoTCGA看到各种肿瘤的各种数据那是相当的丰富。



二、从TCGA数据库上获取乳腺癌

的临床数据


至此便获得了乳腺癌的临床数据。从图可以看出该数据集一共有1098个样本。



三、从TCGA数据库上获取乳腺癌

相关基因的表达数据并整合

加载基因表达数据所需要的包。选择需要的GeneA和GeneB整合到之前的生存数据上。值得注意的是这里的%>%是一个管道符号,作用是将前一个计算得到的结果作为第二个函数的第一个参数。dplyr包是 Hadley Wickham (ggplot2包的作者,被称作“一个改变R的人”)的杰作,他将原本plyr 包中的ddply()等函数进一步分离强化,专注接受dataframe对象, 大幅提高了速度, 并且提供了更稳健的与其它数据库对象间的接口。



此时得到的exprSet如图:


四、开始生存分析


下面便是全文的关键。如何分组仁者见仁智者见智。我这里新建了一列用来标记基因表达高低。应该是比较通俗易懂的方法。



此时由于整合的缘故,数据框只剩590个样本。如图,最后一列为分组的标志。


最后就是常规的ggsurvplot画图。小伙伴们也可以用help命令仔细阅读该包的使用方法,做出你所需要格式的图片,这里就不再赘述。


至此,双基因的生存曲线就画完了。总的来说,双基因的生存曲线和单个基因的差别不大,重要是分组的思路。可能小伙伴们也有别的方法,欢迎在评论区里留言提出你的看法和问题哦~ 后台回复关键词:双基因,领取代码。


生信发文助手

如需生信分析服务请加微信:keyan-zhishi2



多点好看,少点脱发

抢沙发

  • QQ号
  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

登录

忘记密码 ?

切换登录

注册