——pancancer代码 |
pancancer泛癌症图谱
泛癌研究是通过整合不同肿瘤类型、不同组织起源的肿瘤表达数据,查找肿瘤之间的共性或者差异的过程。通常使用癌症数据信息较为全面的TCGA数据,通过分裂小提琴图展示某个基因在TCGA肿瘤和正常组织中的表达差异。分裂小提琴图 (Violin Plot) 结合了箱形图和密度图的特征,主要用来显示数据的分布形状,它一般应用于对比某一基因在TCGA肿瘤组织和正常组织基因表达量TPM值或其它表达量数据。
基本原理:
小提琴图 (Violin Plot)使用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大值来反映数据分布的中心位置和散布范围,将多组数据的小提琴图画在同一坐标上,可以清晰地显示各组数据的分布差异。分裂小提琴图在小提琴图的基础上又加入了分组对比项,便于观察多肿瘤类型在某一基因上的表达分布情况,或者某一基因在某一肿瘤上,其疾病与正常的对比表达差异情况。
术语解读:
中位数Q2:二分之一分位数
上四分位数Q1:序列由小到大排序后第(n+1)/4所在位置的数值
下四分位数Q3:序列由小到大排序后第3(n+1)/4所在位置的数值
最大值:非异常范围内的最大值,四分位距IQR=Q3-Q1,上限=Q3+1.5IQR
最小值:非异常范围内的最小值,下限=Q1-1.5IQR
数据要求:
某一基因在各肿瘤及对应的正常组织的表达数据。
图形示例:
图注:图中展示了PIEZO1基因在泛癌中的表达概况。左侧黄色部分为肿瘤组数据表达状况,右侧红色部分为正常组数据表达状况,图形宽度表示密度图宽,表示这一区段的数据频率,此外,图中还包含最大值,上四分位数,中位数,下四分位数,最小值。
应用示例1:(于2014年2月发表于Nature.,影响因子43.070)
文章研究了12种主要癌症类型的突变景观和意义,它首先使用小提琴图展示了12种癌症的突变频率分布情况,然后查找确定具有显著意义的突变基因。
图注:
a.12种癌症类型的突变频率分布。 虚线灰色和实线白色线分别表示癌症类型的平均值和每种类型的中位数。图中表明AML具有最低的中值突变频率,LUSC的中值突变频率最高(分别为0.28和8.15个突变)。 除AML外,所有类型的平均每Mb超过1个突变,大大高于儿童肿瘤。在UCEC中,最大的患者群体每Mb具有大约1.5个突变的频率,并且具有最高频率,超过中值的150倍。
b.每种癌症类型的六种Ti和Tv类别的突变谱
应用示例2:(于2017年1月发表在Nat Commun. ,影响因子11.878)
文章研究了Pancancer建模预测体细胞突变对转录程序背景的特异性影响。研究人员基于开发的模型预测重要转录因子,然后使用预测出的突变转录因子的活性情况绘制泛癌图谱。
图注:小提琴图显示推断出的FOXO1、NFE2L2和ELK1 TF活性在癌症类型中的分布。例如,FOXO1 TF活性在BLCA、BRCA和UCEC的肿瘤中高度可变。