在2003年,科学家首先揭示了依次依次依次构成我们生活的“计划”的所有DNA序列。尽管98%的基因组未直接编码蛋白质,但它们仍然对基因调节和细胞功能产生深远影响。这些非编码区域曾经被认为是“垃圾DNA”,但现在据信它们包含重要的生物学秘密,例如遗传世界中的“暗物质”。
今年6月25日,深思熟虑宣布他开发了一种称为Alfagenome的人工智能模型(AI)。 Nature Magazine报告说,这种“功能序列”可以提供一条新的途径,以预测DNA中较小变化对一组分子过程和破译人基因调控机制的影响。
描述DNA序列的“集成”工具
它始于2020年的深刻想法,Alphafold 2成功地解决了几十年来影响科学界的毒药。这是一种精确预测三二二聚体的方法基于蛋白质的氨基酸序列的促成结构。这一进步不仅改变了进行结构生物学研究的方式,而且还加快了新药物的研发过程。
相反,理解DNA序列的功能更为复杂,因为它们没有像蛋白质那样明确的“正确反应”。这些功能主要反映在DNA对基因表达的调节中。例如,确定基因何时打开或关闭,哪些细胞起着作用以及表达的强度。
如果蛋白质结构的预测是拼写一个三维“零件”模型,那么DNA函数的预测是了解手册中所有符号,注释,更改命令和事件区域的真实含义。建模比蛋白质要困难得多,因为所涉及的信息水平更加复杂,更广泛,并且相同的DNA片段可以P在不同的时间和不同类型的细胞中发挥不同的作用。
几十年来,生物学家一直试图使用各种计算机工具发现复杂的秘密调节机制,但是这些模型倾向于关注单个功能。科学家对描述DNA序列的“综合”工具充满热情,因此“α基因组”诞生了。
根据美国Fun Engineering网站的数据,与以前需要“序列持续时间”和“预测精度”之间进行补偿的模型不同,“ Alpha Genome”都达到了实现。不仅捕获了长期基因组的上下文信息,而且还可以在基本层面提供特定的预测,从而扩大了疾病生物学,稀有变体研究和合成DNA设计等领域的研究观点。
可以同时处理数百万个基对
根据深思熟虑的官方网站,该模型可以同时处理多达100万对基础,并预测成千上万的摩尔涵盖不同类型细胞的生态属性,包括基因表达,剪接模式,蛋白质结合位点和染色质可及性。这是AI系统第一次能够以如此广泛的监管能力进行协作。
用于“ Alpha基因组”训练的数据集来自有关Hyperscala发布的多个数据。令人惊讶的是,培训完整的模型只有4个小时。只有一半的计算资源需要上一代模型。在26点参考中,其中24个比专用模型更好或更平坦。
新模型的亮点是一个变体分数系统,该系统允许在突变之前和之后的DNA序列进行有效的比较,并允许评估多个生物学途径的效果。
“α基因组”还具有剪接位点的作用。这是第一次有一个模型可以预测与疾病相关的RNA剪接的异常S囊性纤维化和脊柱肌肉萎缩。
在合成生物学领域,“α基因组”可用于设计特定的调节序列,例如在肌肉细胞中沉默,同时仅激活神经元中的特定基因。同时,预计将用于研究具有强大生物学作用的稀有遗传突变,例如导致门德尔遗传疾病的突变。
在测试中,插图将“α基因组”应用于与先前研究中发现的白血病有关的特异性突变。结果,该模型确定某些非编码区域是T的急性淋巴细胞白血病中已知的转移。
该模型尚不适合个人诊断。
“ Alpha基因组”表现令人印象深刻,但深刻的思想团队表示,该系统仍然存在许多局限性。它不是为个体基因组解释而设计的,也不是预测S疾病或祖先信息的风险,例如23和ME或临床基因检测。换句话说,该模型不适合个人诊断或医疗决策。
“α基因组”的当前训练数据仅限于人类和小鼠,并且仍然不涵盖其他物种,并且尚未对其异源物种进行适应。同时,确定调节元件与远程客观基因之间关系的能力(超过100,000个碱基)仍然很弱,并且不可能完全模拟不同状态和组织中细胞的动态调节机制。
美国冷春港研究所的计算生物学家彼得·库(Peter Ku)说:“尽管这些模型经常在固定状态进行训练,但细胞确实是动态和蛋白质水平,DNA的化学修饰,转录状态等,随着时间和环境的变化。