任丘市奥力斯涂料厂 > 新闻资讯 >

玉树泡沫板橡塑板专用胶 Nature | 破解基因组的“句法结构”: 当度学习读懂了启动子的层语言

发布日期:2026-02-16 20:34点击次数:

PVC管件胶

基因组不仅仅是串由 A、C、G、T 四个字母组成的线序列,它像是部蕴含着复杂语法和修辞的宏大史诗。在这部史诗中,启动子(Promoters)扮演着至关重要的角,它们是基因表达的“开关”和“调光器”玉树泡沫板橡塑板专用胶,决定了基因在何时、何地以及以何种强度被转录。

长期以来,生命科学域面临的个核心挑战是:我们能否仅凭段 DNA 序列,就准确预测出它的调控活? 这就好比我们试图仅仅通过阅读乐谱,就出交响乐的现场音。过去,研究人员依赖于通过整数百甚至数千个细胞类型的表观遗传组(Epigenome)和转录组数据来构建度学习模型。这种法虽然有,但往往需要巨大的计资源,且难以捕捉因果关系——毕竟,染质的状态往往是转录的结果,而非仅仅是原因。

这项研究并未采用传统的“大数据堆叠”策略,而是巧妙地结了大规模并行报告分析(Massively Parallel Reporter Assays, MPRAs)与卷积经网络(Convolutional Neural Network, CNN)。它不仅以的精度预测了人类启动子的活,还通过“生成式”的手段设计出了活堪比强启动子的人工序列,重要的是,它为我们揭示了转录因子(Transcription Factors, TFs)在启动子区域排兵布阵的层“语法”规则。

黑箱的开启:从关联到因果的跨越

在入 PARM 模型之前,我们先来看看为何预测启动子活如此困难。传统的基因组学研究往往依赖于相关:我们在某个活跃的启动子上观察到了某种组蛋白修饰(Histone Modification),或者某种转录因子的结信号(ChIP-seq signal)。然而,相关并不等同于因果。表观遗传标记可能是基因表达的产物,而非驱动力。

为了剥离复杂的染质环境,直接探究 DNA 序列本身的调控能力,研究人员采用了大规模并行报告分析(MPRA)。这就好比将成千上万个启动子片段从基因组的“原生环境”中剪切下来,放入个标准化的“试管”中进行测试。

1. 数据的基石:千万的碎片测试

研究人员先在人类 K562 红白病细胞和 HepG2 肝细胞中构建了其庞大的数据集。他们并不只是测试完整的启动子,而是将基因组碎。数据显示,在 K562 细胞中,平均每个基因组位置被约 240 个随机的、部分重叠的 DNA 片段所覆盖。

通过筛选,研究团队终选取了约 1000 万个长度在 88 到 600 个碱基对(bp)之间的片段,这些片段覆盖了30,607 个经过精选的人类启动子。这种通过海量碎片拼接出的活图谱,消除了单位置应的偏差,为度学习模型提供了纯粹的“序列-活”训练数据。

2. PARM 模型的诞生:轻量的手

基于这些质量的数据,研究人员训练了 PARM 模型。与那些动辄需要数千个 GPU 小时、包含数亿参数的“重型”模型(如 Enformer 或 Borzoi)不同,PARM 显得格外轻盈。它仅使用了 742,337 个拟参数。

这种“轻量化”并不意味着能的妥协。相反,它带来了惊人的准确。在对 K562 细胞的测试中,当 PARM 面对 5,204 个在训练过程中从未见过的“留出集”(Held-out)启动子时,其预测的活与实验测量值的皮尔逊相关系数(Pearson's correlation coefficient, R)达0.92;在 HepG2 细胞中,这数值也达到了0.88。

令人印象刻的是,PARM 展现出了强的通用。虽然它是基于游离于染体之外的质粒(Episomal)MPRA 数据训练的,但当研究人员用它来预测整到基因组中的慢病毒(Lentivirus)MPRA 数据时,相关系数依然保持在 0.78 至 0.80之间。这意味着,PARM 捕捉到的不仅仅是质粒上的活,而是 DNA 序列本身固有的、能够跨越不同实验环境的调控本质。

进化的加速器:人工设计强启动子

如果个模型真的“懂”了规则,它应该不仅能通过“阅读理解”测试(预测活),还应该能写出漂亮的“作文”(设计序列)。为了验证这点,研究人员进行了场令人兴奋的“体外进化”实验。

▍ 遗传法与度学习的共舞

研究团队设计了种遗传法(Genetic Algorithm),让 PARM 充当“裁判”。实验从 200 个随机生成的、长度为 232 bp 的 DNA 序列开始。

STEP 1 变异与重组:这 200 个序列在计机中经历随机突变和重组。

STEP 2 筛选:PARM 对新代序列的启动子活进行预测评分。

STEP 3 进化:得分的序列被保留下来玉树泡沫板橡塑板专用胶,进入下轮循环。

这个过程重复了 300 代。结果显示,随着代数的增加,序列的预测活呈现出清晰的上升曲线,终趋于饱和。这实际上是在计机硅基芯片上,模拟了生物亿万年的进化过程,但速度快了数倍。

▍ 验证:人造序列是否真的有?

模型预测的活,在真实的细胞环境中是否成立?研究人员挑选了 455 个不同预测活的人工成序列,以及42 个人类启动子序列,在 K562 细胞中进行了 MPRA 实验验证。结果令人振奋:

度相关:启动子的预测值与实测值度致(R = 0.91)。

媲美强序列:那些被 PARM 预测为“强”的人工成启动子,其实测活与 K562 细胞中强的启动子相当。

关键位点验证:为了证明这并非巧,研究人员对 10 个强的人工启动子进行了微调。PARM 预测其中有12 到 18 个核苷酸是决定活的关键。当这些关键位点被突变后,实测活平均下降了3.16 ± 0.77 倍。

值得注意的是,经过 BLAST 比对,这些人工成的活序列与人类基因组中的任何已知序列都没有显著的相似。这说明 PARM 并没有简单地“背诵”它在训练集中见过的启动子,而是真正掌握了构建个强启动子所需的底层逻辑——即转录因子结基序(Motifs)的巧妙组。在这些人工序列中,我们看到了 FOS-JUN、ETS 和 CREB 等族转录因子基序的身影,但它们的排列组式却是全新的。

度解码:调控位点的图谱

PARM 的大优势在于其计的,这使得研究人员可以对人类基因组中的 30,607 个启动子进行全基因组范围的“计机模拟饱和突变”(In Silico Saturated Mutagenesis, ISM)。

1. 并非所有基序都具有

在基因组学研究中,个常见的误区是:只要序列中出现了某个转录因子的结基序,该转录因子就会结并发挥作用。事实远非如此。基因组中遍布着数的基序,但大多数是沉默的。

通过 ISM 分析,万能胶生产厂家PARM 精确地识别出了那些真正对启动子活产生影响的区域,研究人员将其称为“调控位点”(Regulatory Sites, RSs)。在 K562 细胞中,PARM 在 20,543 个启动子上识别出了至少个 RS。

这就好比在本厚厚的书中,用荧光笔亮标出了那些真正决定句子含义的关键词。与之形成鲜明对比的是,如果仅仅使用传统的序列扫描(Sequence Scanning)法(如 FIMO 软件),会找出比 PARM 多出约 20 倍的基序匹配,但其中大多数在上是的。PARM 的这种筛选能力,大地提了我们识别元件的信噪比(Precision)。

2. 发现未知的调控者:ZNF48 的案例

PARM 的强大之处还在于它不依赖于先验知识。在扫描过程中,研究人员发现了 1,402 个能够显著影响活、但法与任何已知转录因子基序匹配的 RS。

通过对这些未知 RS 进行聚类分析,研究团队锁定了其中个包含 TCTCTATGGT共有序列的簇(Cluster 3)。这个序列在人类启动子中出现了 57 次。为了找出背后的“操纵者”,研究人员进行了场精彩的分子侦探工作:

分子侦探流程:

DNA 亲和纯化 (钓出结蛋白)

⬇️

质谱分析 (鉴定捕获蛋白)玉树泡沫板橡塑板专用胶

⬇️

锁定目标 (指向 ZNF48蛋白)

⬇️

终验证 (体外结实验确认)

这过程完整地展示了 PARM 如何作为个强大的发现工具,帮助我们填补转录调控网络中的认知空白。

细胞特异与动态响应:捕捉生命的瞬息万变

生命过程是动态的,同个基因组在不同细胞、不同环境下的表达模式截然不同。PARM 模型是否具备捕捉这种动态变化的能力呢?

▍ 细胞类型的指纹

研究人员利用种为经济的策略——“启动子捕获”(Promoter Capture)技术,构建了针对 10 种不同细胞系(包括前列腺、腺、结肠、胃等)和类器官(Organoid)的 PARM 模型。这种法仅需约500 万个细胞,远低于全基因组 MPRA 所需的数十亿细胞,使得大规模、多细胞系的分析成为可能。

模型分析显示,不同细胞系的调控语法存在显著差异。在肝细胞 HepG2 中,HNF1A、HNF1B 和 HNF4A等肝脏特异因子的基序被预测为关键的激活元件;而在红白病细胞 K562 中,GATA族因子则占据主地位。

个有趣的发现是,TBP(TATA-box Binding Protein)的活在不同细胞系中表现出意想不到的差异。尽管 TBP 被认为是通用的基础转录因子,但 PARM 预测它并非在所有细胞类型中都对特定基序具有同等的依赖,这挑战了我们对基础转录机制的传统认知。

▍ 应激反应的微观图景

奥力斯    pvc管道管件胶批发    联系人:王经理    手机:15226765735(微信同号)    地址:河北省任丘市北辛庄乡南代河工业区

为了测试模型对环境刺激的响应,研究人员对细胞进行了热休克(Heat Shock)、Nutlin-3a(p53 激活剂)和 PMA(分化诱剂)处理。

热休克:在 K562 细胞中,热休克仅激活了约 1 的启动子。PARM 敏锐地捕捉到了这微小变化,识别出 100 多个热休克因子HSF1 和 HSF2的激活基序。

Nutlin-3a 处理:在 HepG2 细胞中,该药物改变了约 2 启动子的活。PARM 不仅检测到了p53基序的激活(活 RS 数量从对照组的 5 个激增至 60 个),还揭示了复杂的“分工”机制:E2F 和 RFX因子对应的抑制 RS 数量增加了近 10 倍。其中E2F主要抑制 DNA 修复和细胞周期相关基因(如BUB1B);RFX则主要调控微管和纤毛组织相关基因(如MAATS1)。

这种解析度令人惊叹。PARM 能够清晰地描绘出在特定刺激下,不同转录因子是如何协同作战,分别接管不同类型基因的调控权的。

语法的精髓:位置与上下文的辩证法

如果在语言中,“位置”决定了词(比如英语中动词放在主语后),那么在基因组中,转录因子结的位置是否也决定了它的?PARM 给出了肯定的答案,揭示了转录调控中具魅力的“位置语法”。

1. 黄金调控区:-120 到 +10 bp

通过聚所有细胞系的数据,研究人员发现, RS 在空间分布上并非随机。它们度富集在转录起始位点(TSS)上游 120 bp到下游10 bp的区域内,并在-50 bp处达到峰值。

这发现具有重要的生物学意义。它告诉我们,尽管转录因子基序可能遍布整个启动子区,但只有位于这个“黄金窗口”内的基序,才有可能发挥实质的调控作用。相比之下,传统的序列扫描法发现的基序分布则相对平坦,这也解释了为何传统法假阳率。

2. 激活与抑制的辩证转换

或许本研究中具度的发现之,是揭示了转录因子的“上下文依赖”(Context Dependency)。同个转录因子,放在不同的位置,甚至在不同强度的启动子上,其可能截然相反。

研究人员在计机中进行了项大规模的“虚拟插入实验”:将 NRF1、NFYA、SP1 和 YY1四种转录因子的基序,系统地插入到 30,607 个启动子序列的不同位置,观察活的变化。

NRF1、NFYA 和 SP1上游:强烈激活

下游:转为抑制

YY1 的特行为低活启动子(下游):激活

活启动子(下游):抑制

为了验证这些计机模拟的预测,研究人员构建了个包含这些基序及其突变体的成文库,并在 19 个不同的启动子上进行了 15 个不同位置的插入实验。MPRA 实验结果复现了模型的预测:NRF1、NFYA 和 SP1 在 TSS 下游确实起到了抑制作用,而 YY1 则在特定的下游位置激活了转录。

这揭示了个刻的道理:转录因子不是简单的“开关”,它们像是对位置度敏感的“逻辑门”。DNA 序列的语法结构,即词(基序)出现的顺序和位置,直接决定了句子的含义(激活或抑制)。

结语:迈向医疗的基石

这项发表于《自然》的研究,标志着我们在理解人类基因组“监管代码”的道路上迈出了坚实的步。PARM 模型的成功证明,我们不需要依赖庞大且昂贵的表观遗传组数据,仅凭 DNA 序列本身和精心设计的质量 MPRA 数据,就能构建出的调控模型。

这种“轻量”策略的优势在于其的经济和可扩展。训练个细胞特异的 PARM 模型,仅需 1000 万个细胞和1 个 GPU 运行 1 天。这意味着,未来我们可以针对每位患者的细胞,甚至每个特定的发育阶段,快速构建属的基因调控模型。

这为医疗开了新的想象空间:

致病突变预测:解读非编码区突变,预测风险(如TERT启动子突变)。

药物研发:预测药物对全基因组调控网络的影响,发现潜在靶点。

成生物学:定制特定活的成启动子,用于基因疗。

当我们凝视 DNA 双螺旋时,我们看到的不再是串静止的字符,而是个充满动态语法、逻辑严密且富有韵律的生命程序。度学习,正是解开这道程序的密钥。

参考文献

Barbadilla-Martínez L, Klaassen N, Franceschini-Santos VH, Breda J, Yücel H, Hernández-Quiles M, van Lieshout T, Urzua Traslaviña CG, Boi MCL, Akbarzadeh M, Hermana-Garcia-Agullo C, Gregoricchio S, de Haas M玉树泡沫板橡塑板专用胶, Straver R, Derks S, Zwart W, Voest E, Franke L, Vermeulen M, de Ridder J, van Steensel B. Regulatory grammar in human promoters uncovered by MPRA-based deep learning. Nature. 2026 Feb 4. doi: 10.1038/s41586-025-10093-z. Epub ahead of print. PMID: 41639451.

相关词条:铁皮保温施工     隔热条设备     锚索    离心玻璃棉    万能胶生产厂家
18232851235

Powered by 任丘市奥力斯涂料厂 RSS地图 HTML地图

Copyright Powered by站群 © 2025-2054