Recent advances in understanding spatial genome organization inside the nucleus have shown that chromatin is compartmentalized into megabase-scale units known as topologically associating domains (TADs). In further studies, TADs were linked to differing transcriptional activity, suggesting that they might provide a scaffold for gene regulation by promoting enhancer-promoter interaction and by insulating regulatory activities. One strong argument for this hypothesis was provided by the effects of disease-causing structural variations in congenital disease and cancer. By rearranging TADs, these mutations result in a rewiring of enhancer-promoter contacts, consecutive gene misexpression, and ultimately disease. However, not all rearrangements are equally effective in creating these effects. Here, we review several recent studies aiming to understand the mechanisms by which disease-causing mutations achieve gene misregulation. We will discuss which regulatory effects are to be expected by different disease mutations and how this new knowledge can be used for diagnostics in the clinic.
Keywords: 3D genome; Gene regulation; Genetic disease; Structural variation; TAD.
Abstract:
核内空间基因组的最新研究进展表明,染色质被划分为兆碱基级的单位,称为拓扑关联域(TAD)。在进一步的研究中,TADs与不同的转录活性相关,这表明它们可能通过促进增强子-启动子相互作用以及通过隔离不同调控单元来为基因调节理论提供支撑。这种假设的一个强有力的论据是先天性疾病和癌症中由疾病引起的结构变异的影响。TAD的重排,使得启动子与增强子异常连接,从而导致基因表达的紊乱进而引起疾病的发生。但是,并非所有重排都会引起疾病的发生。在这里,我们回顾了一些最新研究,旨在了解疾病的突变引起基因失调的机制。我们将讨论不同的疾病突变预期产生哪些调节作用,以及如何将这种新知识用于临床诊断。
Introduction:
研究表明,核空间中基因组的三维(3D)组织与基因调控和转录活性直接相关[1]。在基因水平上,染色体被组织成高相互作用的不同区域,称为拓扑关联域(TAD)。相邻的TAD通过所谓的边界[2,3]彼此分开,防止不同调控单元之间的交互。通过分析破坏TAD结构及其扰乱内部调控关系网络的致病突变,揭示了TAD在基因调控方面扮演着重要的角色。这些突变引起基因组的3D结构的重排,结果导致了基因表达失调,最终导致疾病。首先先天性肢体畸形的大片段结构变异(SV)对此进行了报道[4],伴随着持续的基因表达紊乱的TAD结构的破坏也被确定为癌症中的突变机制[5-7]
TAD边界形成的关键因素之一是锌指转录因子CTCF与多亚基蛋白复合物cohesin之间的相互作用。在一种提出的称为环挤压的机制中,cohesin会挤压染色质环,从而将遥远的DNA片段带入空间邻近区域[8-10],cohesin和相关凝缩蛋白复合物的这一过程最近在体外得到了验证[11-13]。CTCF的结合位点方向依赖性可作为挤压机器的屏障[14],并结合使用CTCF和cohesin来塑造的3D染色质结构域。TAD边界经常富集大量的CTCF结合位点,从而使TAD与周围的染色质隔离。但是,CTCF的绑定不仅仅限于边界。CTCF位点经常发现在基因启动子区域以及有相互作用的TAD内部区域出现[15]。
通过暂时清除细胞中的CTCF或cohesin,测试了它们在环形成和挤出中的作用[16-18]。与环挤出模型的预测一致,CTCF或cohesin耗竭会导致TAD结构丧失。然而,令人惊讶的是,CTCF和cohesin的消耗均不对基因表达产生强烈影响[16,17,19,20]。这些结果与之前提到的疾病情景相反,后者表明3D基因组结构和TAD对基因调控具有直接影响。明显的矛盾提出了有关TAD对基因调节的功能重要性及其与疾病的相关性的问题。在这里,我们回顾了从解决这一明显悖论的研究中获得的最新见解。在下文中,我们将描述不同类型的突变可预期的结构和调节作用。
结构变异
SV是> 50 bp的重排,包括缺失,重复,倒位以及易位和插入。SV在很大程度上影响了我们的基因组的稳定性,是遗传性疾病和癌症的常见原因[21]。很早以前就知道SV会引起疾病,例如通过破坏基因结构或者改变基因剂量。但是最新研究发现,SV通过也会通过改变3D基因组结构,干扰调控网络,改变基因表达而引起疾病。而基因调控网络干扰的预期效果因SV的类型和程度而异(图1)。通过使增强子与它们的同源启动子断开连接,缺失,突变和易位可能具有功能丧失作用,或者通过使增强子与新型靶启动子或其组合重新连接而具有功能获得作用[22]。异常基因激活的诱导需要破坏TAD结构,从而涉及TAD边界[22]。一方面,缺失可产生融合的TAD,而倒置可导致TAD物质交换。另一方面,包含边界的串联重复可以在两个“父TAD”之间创建一个新的染色质域,即所谓的neo-TAD [24]。在这种情况下,致病基因的错误表达可能是由于neo-TAD内增强子和启动子的重新链接所致。相反,完整的“父TAD”中的基因不受影响,并保持着正常的表达模式。
尽管在某些情况下已显示SV会引起3D染色质结构的重组和基因失调,但很难预测其作用,因为当基因被错误表达时,其核心机制还是很难弄清楚。此外,鉴于对CTCF-cohesin耗竭的温和基因调节作用,3D染色质结构对于基因调节过程的重要性以及是否需要增强启动子相互作用仍是一个悬而未决的问题。
用启动子重新连接增强子
最近的许多研究反演倒位对疾病和发育模型系统中基因调控的影响。重要的是,在某些情况下,某些疾病的发生发展主要归因于基因功能丧失[25,27],而在其他情况下,致病作用显然是由于基因表达异常而引起的功能增强[26,28,29] 。Laugsch等人 [25]研究了在hiPSC衍生的人神经rest细胞中89 Mb的杂合子倒位引起分支眼球面综合征。倒位导致启动子上游42 kb的TFAP2基因与大部分约2.5 Mb TAD断开,并使该区域与染色体6q16上的另一个TAD融合。此TAD的一端包含基因POU3F2和FBXL4,另一端包含其他三个基因(GPR63,NDUFAF4和MMS22L)。因此,反转产生两个改组的TAD,一个合并了TFAP2和POU3F2 / FBXL4基因的小TAD,以及一些周围的非编码序列,一个包含大部分TFAP2和POU3F2 / FBXL4非编码区的大TAD。作者表明,主要的致病作用是由TFAP2表达的丧失引起的,正如反演作用所预测的那样。另一方面,倒位并没有导致神经细胞中含有TFAP2调节区的大型改组TAD中三个潜在基因的错误表达,这表明在这种情况下并未发生增强子的采用。基于此观察,可能存在这样的情况,即在同一TAD中包含增强子和启动子可能也不足以激活异常基因。在Epha4 / Ihh基因座上的一项研究中研究了哪些基因在反向重排中被异常调控[26]。作者创建了序列反转,其在Epha4 TAD中具有恒定的断裂点,并且在邻近的基因致密区域内的不同位置具有4个断裂点。Epha4 TAD的断裂点紧靠强效的肢体发育增强子,通过反转将其重新定位到基因密集区,每次进入不同的染色质环境。然后分析小鼠胚胎中的3D染色质结构,基因表达和肢体发育表型,以测试肢体发育增强子上调了哪些基因。在这种系统方法中,作者发现增强子对最接近基因的激活作用在各个倒位之间是不同的。基因激活不限于最接近增强子的基因,而是扩展到多个基因上。这种扩展的交互作用在3D交互热图中也可见。基因是否被激活还取决于其染色质状态。被Polycomb抑制并与发育相关的基因更有可能对倒位过来的增强子作出反应,而没有染色质交互特征的基因似乎没有反应。因此如果将一个基因置于某个增强子附近,那么强大的增强子就有可能激活这个基因。但是,并非所有基因都具有相似的反应,而有些则根本不响应。最近在果蝇的研究中也发现了这一点[30]。在鼠Kcnj2-Sox9基因座上,启动子对调节环境的敏感性差异也被证明是相关的。Despang等人 [23]研究了各种类型的重排,它们通过Sox9调控元件激活两个钾离子通道(Kcnj2和Kcnj16)的能力。有趣的是,Sox9增强子只能激活Kcnj2,Kcnj2也在发育中的肢端中表达,而不能激活Kcnj16,后者主要在肾脏和内分泌组织中表达。因此,增强子不是通常所暗示的“混杂”。取而代之的是,存在明显的增强子-启动子特异性,还要考虑了染色质状态和其他未知因素。TAD边界删除和TAD融合
删除了TAD边界的单个CTCF位点或小的SV的缺失与某些癌症的致病性错表达有关[31-35],而其他研究发现边界删除后对TAD结构的影响很小[3,23,36,37]。此外,迄今为止,尚未报道引起先天性疾病的边界缺失。相比之下,引起TAD融合的缺失通常很大,例如Epha4位点[1.6]处1.6 Mb缺失,或HoxD位点[36]处400 Mb缺失,并且不仅限于边界区域。这些报告表明,TAD边界不是驱动TAD形成的唯一因素。最近在Kcnj2-Sox9基因座中显示了TAD边界和TAD子结构如何促进TAD的形成和分离[23]。在这个位置,Kcnj和Sox9 TAD被一个由2 X2个CTCF位点不同方向组成的强边界隔开。仅删除TAD边界不会导致相邻TAD的融合。TAD边界删除之后取而代之的是 位于Sox9和Kcnj TAD中的下一个CTCF位点,这个CTCF位点拯救了两个TAD的原有的架构。除了删除边界以外,删除TAD内主要的CTCF位点,都会导致两个TAD融合。TAD融合对基因表达只有很小的影响,在这些小鼠中未观察到异常表型。Kcnj2仅略微上调,而Sox9损失了其表达水平的约15%。这些实验表明,TAD是相当健壮的结构,具有冗余的调节机制。绝缘元件的丢失和两个TAD的融合不会导致相邻增强子的大量激活,而是导致活动的“泄漏”。因此,这些实验的结果与CTCF耗竭研究一致,后者也仅显示出染色质三维结构对基因表达调节的微小影响。在这种背景下,TAD似乎对于基因表达的鲁棒性和精确性很重要,但显然不是唯一的组成部分。然而,CTCF介导的环的重要性也取决于基因座的重要性。全基因组相互作用研究表明,增强子以动态网络的形式存在,其活性表现出对交互作用的依赖性,又或者表现出与近距离无关,依赖所谓复合物“表现”[38,39]。后者与CTCF位点的存在相关,并被认为可以通过确保增强子与其靶启动子之间的快速通讯来实现更有效和鲁棒的基因激活[40]。对于ZRS而言,CTCF对于这些特定类型的增强子的重要性最近得到了证实,ZRS是一种肢体特异性增强子,位于其靶基因Shh约1 Mb的区域[41]。去除侧翼的CTCF位点是导致Shh表达下调(50%)的主要原因,即使在如此长的距离,增强子也能够以较低的效率维持功能。基因异常激活取决于增强子活性的重定向
由于在Kcnj-Sox9基因座进行的实验表明,TAD之间失去了绝缘边界,不足以驱动引起疾病的基因表达异常。这就提出了一个问题,即如何解释引起疾病的基因重排中的基因表达错误?显然,单独一维结构上的缺失导致基因的异常表达需要TAD结构的重排,而不“仅仅”只是去除绝缘组件[23]。在Kcnj-Sox9位点,Despang等人 [23]创建了一系列广泛的重排以研究SV的影响。一个大的倒置,其边界为断点端,在Sox9 5'端大约100 kb处 反转了大部分的Sox9 TAD,并将TAD边界重新定位在Sox9的前面。这种重排导致Kcnj2以类似Sox9的模式大量上调,导致远端手指畸形,类似于先前报道的由重复所形成的neo-TAD所造成的变化[24]。此外,重新定位边界会导致Sox9功能丧失,但不会导致Kcnj2错误表达。这表明即使在基因组中的不同位置处,边界也可以充当强绝缘体,并表明TAD内结构的方向与Kcnj2的错误表达有关。总之,这项研究表明,TAD边界或CTCF位点的小缺失会导致增强子活性的泄漏,但是,在大多数情况下,这不足以在基因表达中产生重大变化或导致疾病。但是,如果系统不能忍受较小的基因表达变化,则可能产生致病性后果。相反,致病的SV通过改变TAD内和之间的CTCF构型,导致增强子活性的重定向。通过改变接触矩阵,SV导致增强子重定向到错误的靶基因,最终导致错误表达。如CTCF删除实验所示,仅凭绝缘损失是无法实现的。 与TAD(或TAD)不同的3D染色质结构调控并非全部在上述情况下,TAD是3D基因组的主要结构。但是,TAD的经典定义是一个带有边界的大的自相互作用域,不适用于整个基因组(图2a)。实际上,并非所有作用域都被清楚的边界分开,并非整个基因组都被可明确识别的TAD覆盖。此外,迄今为止,仍未解决的是,TAD的定义是基于生物信息算法而不是生物学功能。根据所使用的算法和测序深度,可计算出不同大小的TAD,另外已有描述基因组的其他区域,这些区域显然以不同与前述经典TAD的方式在起作用。例如,可以在扩展的Epha4基因座上研究染色质组织的不同模式。大Epha4 TAD(1.6 Mb)旁边是1.5 Mb的基因密集区,其中包含60多个基因(图2a)。即使在高分辨率热图中,该基因密集区也没有清晰的TAD结构。实际上,它似乎形成了小的交互作用域,但是尚不清楚它们是否遵循与TAD相似的监管规则。3D染色质结构还可以反映增强子活性和基因激活,如最近在称为条带的结构现象中所描述的[42,43]。这种“条带”在Hi-C图中被观察为在跨越数百kb的连续基因组间隔内的不对称互作模式。在整个基因组中搜索是否存在条带结构,作者发现活性增强子区域聚集在条纹下,要么靠近条纹锚定的区域(左或右),表明活性增强子与这种条纹结构相关[42]。在Kraft等人的反演研究中 [26],作者在诱发反演的断裂点附近做了类似的观察。这组作者表明,反演断点处的条带与增强子活动和附近的CTCF位点有关。条带形成和Ihh的错误表达需要存在CTCF位点,从而导致多态性表型。同样,在小鼠浆细胞瘤细胞系中,易位的结构性条带也导致Myc错误表达。删除易位增强子两侧的CTCF位点(也称为条带锚)导致条带丢失并减少Myc错误表达和抑制了细胞增殖。因此,条带反映了染色质结构,该结构将位于强边界附近的活性增强子链接到基因导致了基因的激活。它们不同于TAD,已有证据表明在Hi-C实验中观察到的这种条带模式与基因调控直接相关。非TAD染色质构型示例的另一个示例已在利彭贝格综合征中的Pitx1基因座及其致病SV处进行了描述。利本贝格综合症是一种罕见的遗传疾病,其中手臂具有腿部的形态特征,即这些人的肘部类似于膝盖[44]。如对小鼠中人类突变的重新改造所示,后肢表达的Pitx1上游200 kb的缺失导致前肢Pitx1表达的增加。这种错误表达会导致部分同源的前肢到后肢的转化,从而导致特征性的利本伯格表型。缺失导致基因座的3D染色质构象发生变化,从而在其靶基因Pitx1附近带来一个强大的前肢和后肢增强子(泛肢增强子,PEN)。在wt情况下,该增强子调节后肢中Pitx1的表达,并折叠在前肢中,从而防止其激活前肢中的Pitx1(图2b)。小鼠中的致病突变和定向倒置破坏了调节的结构层,从而导致前肢Pitx1的异位激活,这一过程被作者称为“调节性内激活” [29]。与先前描述的情况相比,Pitx1基因座上看不到清晰的TAD结构。尽管如此,3D染色质构型在这个重要的基因调控中起着至关重要的作用。可以预期,类似的机制会改变TAD中增强的启动子相互作用,而干扰这种相互作用的突变会导致疾病。超越SV-修改边界
TAD边界可以充当非常有效的绝缘体,能够将转录调控活动与潜在目标区分开来[23]。最近的一项研究调查了疾病相关的短串联重复序列(STR)对边界功能的影响[45]。在研究的20多种已知遗传条件中,这些针对于脆性X综合征中的FMR1基因的重复扩增,主要在TAD边界发生。作者表明,与疾病相关的STR改变了基因座的3D染色质结构,并且与基因沉默相关(图3)。尽管与疾病相关的STR总数太少而无法概括发现,并且必须考虑STR对TAD边界处的蛋白质编码基因(例如HOXD13和HOXA13)的影响。除CTCF和粘着蛋白外,研究3D染色质结构形成的新因素也开始受到关注。最近的两项研究[46,47]研究了转座因子(TE)对3D染色质结构的影响。两项研究均表明,在转录活跃时,TE可以形成强大的TAD边界(图3)。由于这些DNA元件是可移动的,因此需要考虑新的转座子整合引入异位边界的可能性。尽管尚未与特定的疾病状况相关联,但将TE整合到TAD中可能通过产生异位绝缘子TAD边界而产生致病作用。三维基因组在诊断方面的应用
3D染色质结构在疾病中的新兴作用以及Hi-C识别染色质结构变化的能力现在推动了其在诊断中的实施。两项研究使用Hi-C检测癌细胞的结构变化[5,48]。通过减少所需的细胞数量,低起始量Hi-C方法[48]可能成为经典的细胞遗传学方法或阵列比较基因组杂交(CGH)方法的可靠候补。两项研究都揭示,疾病中的SV通常不是将基因组的一部分与另一部分进行简单的重排。相反,Hi-C在断裂点上发现了小的额外基因座的整合,这在一项研究中通过光学图谱,全基因组测序(WGS)以及其他技术得以证实[5]。但是,在可靠的突变检测成为临床标准之前,仍然需要克服许多挑战,例如鉴定实际重排的序列。但是,Hi-C诊断对复杂疾病识别可靠突变提供了一个全新的极具前景的手段,并且可以在单个实验中对TAD重排导致疾病的机制进行很好的阐释。Conclusions
对引起疾病的SV的见解表明,它们可以通过改变3D染色质结构和重新排列TAD来发挥作用。通过断开增强子与其靶基因的连接,可以导致基因功能的丧失。另外,将增强子与启动子重组为融合的,分离的或新的TAD会导致基因的错误表达,从本质上讲,会导致功能的增强,因为它会创建具有基因和调控元件新组合的TAD。从最近的研究中可以得出两个有趣的观察结果:失调的机制。首先,不是每个基因都通过错误表达来响应这种基因组重排,而且错误表达的水平也可以变化[23,25,26,30]。其次,重排的染色质结构似乎对致病性错表达比对内源基因调控更重要[23]。两项发现均表明3D染色质结构是基因调控的层次之一。与基因调控相关的其他过程,例如同源相互作用,相分离,转录因子的特异性相互作用,染色质修饰等,都共同作用并且是平行作用于基因表达。在每个给定的位置,各个机制相互调节,可以缓冲单个TAD边界或CTCF位点丢失造成的影响,甚至可以缓冲全基因组CTCF或cohesin蛋白耗竭的影响。但是,在SVs中,重排基因座的3D结构通过建立异常的增强启动子交互来迫使表达失误,即使在增强子启动子特异性不佳的情况下,也能够导致错误表达。为什么有些启动子对新的调控环境做出反应而另一些则没有,这将是未来研究令人兴奋的话题。