NIPT论文（第3章）

2022.11.01
NIPT等
标签

Riefe・Perhae=Christiaens、Hans-Georg・Klein编著的『非侵入性产前基因学检测（NIPT）（副标题：基因组学在产前检测和诊断中的应用）』（Academix・Press、2018年）的第3章论文的翻译（Hiro诊所NIPT临时翻译）

第３章　基于无细胞DNA的NIPT技术和生物信息学

南旧金山大学　Dale・Musey

介绍：测序技术的进化

　「新一代测序」（NGS）一词引发了关于「第一代测序」是什么样子，以及NGS与第一代有什么相似和不同等问题。桑格在1970年代开发了第一代DNA测序技术（参考文献1，2）。使他名声大噪的测序方法涉及在体外使用细胞繁殖器，成功地扩展了无法扩展的DNA碱基。这样变更后加入的碱基，在某些物质参与最少的反应条件下，以低浓度添加。具体而言，(1)高浓度的，可延伸碱基，(2)单链DNA，然后进行测序，(3)作为DNA模板补充的短寡核苷酸引物（新碱基可在模板上合成），以及(4)不同地分布延伸反应的4种类型的DNA聚合酶。在桑格的早期测序实验中，这4种类型的反应分别以单一的、不可延伸的碱基（A（腺嘌呤）、T（胸腺嘧啶）、G（鸟嘌呤）或C（胞嘧啶））。每当聚合酶导致其中一个不可延伸的碱基在发生阶段随机合成为DNA分子时（例如，当发生阶段的不可延伸的G与另一侧的DNA模板中的C合成时）它就会试图停止进一步的合成，因此会再生出一个没有颈部的模板。这里最关键的是，发育阶段的所有链都是从同一个寡核苷酸引物（一种与聚合酶链式反应（PCR）中使用的模板DNA具有互补序列的合成寡核苷酸：译者参考）扩张的，因此必须知道拉伸在哪个阶段停止，结果就是，发生阶段的DNA链的程度还有多长，该分子的3’末端的基盘直接变为代理变数。这4种每一种反应，使用用于停止合成分子长度的电泳凝胶来进行分析，来推断出整个模板的序列成为可能。
桑格的测序，在引入具有独特色素并导入不能扩张的基盘中，使测序的可扩展性略有提高（図1）。与其说是通过划分4个反应来获得碱基特异性信息，不如说是通过使用毛细管电泳与荧光色素检测器相结合，来提供DNA片段的相对大小和停止扩张的基盘的正体这两种方式进行分析（文献3～5）。以不能测量为理由来批判这个仪器的人，不能忽略了它们所取得的一个不小的成就。换言之，这些仪器推动了1990年代早期人类基因组测序的发展（文献6～9）。也就是说，考虑到数十亿美元的成本和多年的时间框架，如果没有重大的技术突破，基因组测序可能在临床环境中，基本上无法使用的。
尽管新一代测序NGS与桑格式相比克服了许多技术的界限，使基因组测序发生了革命性的变化（文献10），但NGS最知名的方法仍然主要包括那些与过去技术共享的方法。正如后面将详细讨论的那样，新一代测序也会影响到停止扩张和荧光碱基，那时DNA聚合酶在单一基盘发生阶段的DNA分子将一时间依赖于附着技能上。事实上，在许多方面，新一代测序实验类似于在数百万或数十亿的水平上平行进行桑格式反应（这就是为什么新一代测序有另一个名字「巨型同时并行阵列」）。

新一代测序的作用

　新一代测序（NGS）的装置，负责将专门制作的DNA分子库提炼成一个长文本文件序列。该文本文件，对每个被测序的分子都是单行。使用新一代测序仪，将分子映射到文本文件的范围，包括使用Broccoli进行RNA测序（文献11），到核糖体分析（一种加入核糖体的mRNA片段的深度测序方法。文献12），以及孕妇NIPT检测中的DNA测序（文献13），已经在一系列研究和临床环境中展开。新一代测序的这些应用，也被称为「文库制备」，主要是由将DNA的上游注入测序仪的方法类型来划分的。对照上游部门的各种准备分工，可以对下游部门的实际例子进行广泛的比较分析，其中之一是NIPT中使用的分析方法，这将在第3章中详细讨论。本章中，除了说明用于新一代测序的每种仪器的DNA测序方法外，针对NIPT，还探讨了从上游到下游部门存在哪些工作项目。

上游部门的测序器

DNA的提取

无细胞DNA，顾名思义，不存在于血细胞中，必须从血浆中提取。无细胞的DNA碎片是死亡细胞的残留物（文献14）。当一个细胞发生程序性死亡（这被称为「细胞凋亡」。），会与一组酶结合，从而消化基因组 DNA（文献15）。这些酶只能接触到没有被困在核糖体中的DNA。核糖体由组蛋白8聚体组成，控制细胞内的基因表达和基因组拓扑结构（文献17）。核糖体DNA的不可及性意味着在核糖体内循环的少于150个核苷酸的DNA片段在细胞凋亡过程中是可行的，而从垂死细胞中逃脱的DNA片段形成无细胞的DNA，可以被测序和新一代测序（NGS）读取（读取片段。测序反应的出力：译者参考）指的是测序反应的出力的意思。

为了从血浆中提取无细胞的DNA，必须首先将血液离心分离成血浆、血沉棕黄层（包含血液中的白细胞），和红细胞。约血液总量的55%。当从离心机中取出血浆时，应小心翼翼地去除沉棕黄层。这是因为如果白细胞中的母体DNA浓度过高，从胎盘中提取的稀有无细胞DNA将被稀释，削弱或完全消除检测胎儿非整倍体的敏感性。

基于商业的、标准的DNA提取技术可以用来清洗从血浆样品中提取的足够数量的无细胞DNA，以进行分析（文献18、19）。通常情况下，血浆中浓缩的无细胞DNA量仅为每１ml５~50ng，但血浆中这种低量的无细胞DNA是值得注意的，因为它是基于无细胞DNA的产前诊断所需血量下限的依据。如果血量太少，提取的DNA数量不足，由于提取的标本中基因组的拷贝数很低，可能无法检测到胎儿基因内容的轻微变化。例如，如果在提取的标本中有10个基因组拷贝，那么基因21号的数量有2%的变化就不可能被检测出来。反之，高效的提取方法将能检索到足够的基因组当量，以检测胎儿染色体畸变，即使胎儿基因组片段的数量较少。通过DNA提取要检索的基因组当量的数量，取决于随后要进行的NIPT测试。在全染色体测序（WGS）的情况下，因为血液中任何部分所需的无细胞DNA数量都很低，从病人身上提取的血液量很低就足够了（文献13）。因此，有可能尝试从一个血样中，多次提取DNA。相比之下，单核苷酸多态型法（SNP）等高知名度的技术需要每个特定区域有数百个基因组当量，据此可以高精度地测量等位基因的平衡（关于WGS和SNP将在第3章详细讨论）（文献20）。由于这个原因，NPIT检测SNPs所需的血量通常比WGS要高。

由于无细胞DNA的浓度很低，要测量是否有足够的无细胞DNA被提取来进行NIPT并不是一件小事。通常DNA的抽出量，可以通过在NGS之前进行聚合酶链反应（PCR）来增加量。这意味着即使提取效率不高，也有可能产生大量的DNA用于测序。这意味着，提取是否不高效，并不能反映出新一代测序的深度。幸运的是，要测序的数据的「复杂性」，可以让我们深入了解提取是否效率低下。例如，在WGS的情况下，有效的提取将导致基因组上有0或1个（主要是0）序列的DNA片段。这是因为测序是来自原始库的泊松样本，其中有丰富的基因组信息整合材料（文献21）。然而，除了提取效率低下外，如果原始的基因组信息整合材料库很薄，DNA片段将以小于0或1的概率被放置在染色体上，导致数据的复杂性很低。相反，如果提取效率极高，测序所必需的足够的DNA，可能不需要PCR来产生。在这种「没有PCR」的文库制备中，文库的复杂性可能会很高。为了使胎儿非整倍体的数据有统计学意义，用数据观察新一代测序的复杂性是非常重要的。

资料库的调制

用于NGS的仪器只能对正确制备的DNA分子（这里被称为资料库。），作为一个整体部分进行排序。特别是在临床领域上占优势的Illumina基因组集中，所有的3’端共享一个序列，而所有的5’端共享另一个序列，资料库中的DNA分子，必须是双方共有的（特别是序列在50nt以内、并且该规格是由制造商制定的。）（参考文献22）。通过使用一个通用的接头，来抑制DNA两侧的分子，只需一对引物，就可以有效地繁殖或延伸整个资料库。这种繁殖或延伸(1)在场所上，在测序仪的上游部分，以便充分集中数据输入（这个过程是额外的）、(2)在时间上「集群的增加」过程就在排序之前，在NGS仪器中（这将在下面讨论），(3)在序列反应的时间段（这将在下面讨论）。

在这一点上，即使所有的适配体都有5’末端和3’末端，但还是不同，但最常见的过程本身就展现了一种巧妙的分子生理学。首先，所有无细胞的DNA分子都有一个突起，要么两端被切断，要么一端被切短，被聚合酶孵化，然后在3’末端对突起进行切短，然后由5’末端填充，在3’末端添加腺嘌呤（A）碱基，成为A突起（图2）。结果，这些DNA片段最终成为「Y适应体」和连接酶（连接酶：译者参考）的混合物。这里，Y适应体有两个单链DNA末端，其中一个是辅助性的（Y的主干），另一个不是（Y的分支）。Y适应体的两端之一是T（胞嘧啶）外植体，因此它可能与无细胞DNA片段的A外植体杂交。Y型适配体两端的不对称结构，可能允许Y型适配体在无细胞DNA分子的末端进行核酸连接，在这种情况发生后，各个末端的结构会来到一个共同的5’末端和一个3’末端。

当进行NGS的DNA片段具有相同的长度时，测序偏差就会降到最低（参考文献24）。在NGS的实际情况中，在大多数情况下，产生了一个可比较的、可接受的大小的片段，大概是在体外分裂的反应中，在下一阶段的大小选择中发生。然而，在NIPT的情况下，这样的过程是多余的，因为在凋亡过程中发生的体内DNA裂变过程，其长度非常均匀，产生的片段约为150nt（参考文献25、26）。事实上，体内cfDNA片段生成过程的长度非常精确，即使胎盘核小体与其他组织的核小体之间存在最细微的差异，也会导致cfDNA的长度发生变化，可以分析来自胎儿的片段（胎盘片段是系统地短于非胎盘组织）。（参考文献27）

全染色体方案（WGS）NIPT可以捕捉到无细胞DNA的长度，但SNP方案不能。这是由于文库制备方法的不同。WGS只是在未改变的无细胞DNA分子（除了那些被疯狂停止检测的分子和上述的腺嘌呤尾随现象（一种DNA不正常地分布到静止期，浓度分布比中心更远的现象：译者参考）。）上添加一个Y-adapter。这种简单的文库制备流程更适合基于WGS的检测，因为目标是从血浆中完整地提取无细胞DNA。一另一方面，在基于SNP的NIPTs的情况下，除了与信息性SNP位点重叠的无细胞DNA片段外，没有任何东西可以提供对胎儿非整倍体的洞察力。由于这个原因，有必要将感兴趣的分子的片段（信息）作为目标进行富集，这些片段必须从多重聚合酶链反应（PCR）中收集（参考文献20）。在多重PCR中，数百或数千条不同的引物可以混合在一个PCR管中，从中提取无细胞DNA。然后，如果引物制作得当，反应条件设置得当，从目标位置得到的片段（信息量）可以大大丰富，作为用于测序的片段。适配器测序可以直接加入到多重PCR中（在这种情况下，只有多重PCR可以产生NGS-enabled库），要么在多重PCR之后进行Y端口连接。该反应中长度信息丢失的原因是扩增子的长度是由工程引物决定的，而不是远离引物增强的无细胞DNA片段的模板。

在基于NGS的NIPT中，条形码是文库制备过程中的一个重要程序，由于仪器的正规性，需要进行条形码制备（参考文献28）。Illumina 测序数据以流动槽的形式出售，每个流动槽包含数亿到数十亿条读数。这是一个巨大的reads数量，远远超过单个样本所需的reads数量。这使得将许多标本放在一个流动池上更加经济。这被称为「多路复用」。

然而，与其他检测仪器不同的是，qPCR仪器、ELISA仪器和毛细管测序仪在检测过程中会将标本彼此分开，而NGS流动池在测序过程中根本不会将标本彼此分开。这就是为什么需要一个「解复用」机制，它允许NGS数据在测序后被重新归入相关人群队列。解复用是使用标本特定的条形码进行的，条形码是包含在一组Y型适配体中的短长度的DNA序列（通常小于6～8nt ），是为特定样品库制作的，使用检体特定的条形码。重要的是，每个样品的条形码是不同的，同一样品的分子的条形码是相同的。NGS仪器发出一个带有条形码的文本文件和另一个带有无细胞DNA片段的文本文件。这里将同一个分子的数据排列在两个文本文件的同一行，（即条形码文本文件的第一列和无细胞DNA片段文本文件的第一列有相同的无细胞DNA分子数据）。有了这些文件，整个流动槽测序文件可以拆分为特定样本的文件，即使是在多个开放式培养皿中对真实样本进行测序时，计算机也可以重复按样本分割数据的过程。

新一代测序的作用：从分子库到文本文件

尽管在临床基因组学、NIPT领域，有几位在桑格后测序的研究人员可以对「新一代测序（NGS）」一词发表一些看法，但「NGS」一词可以被视为有效地暗示了Illumina 它被认为有效地暗示了Illumina式测序，这是目前该领域的主流平台。有鉴于此，以下部分将讨论Illumina在其测序仪中进行NGS的「综合测序」过程。

生成集群

为了直观地理解Illumina式NGS的工作流程，从与早期Sanger测序的比较中可以看出，Sanger和Illumina NGS都涉及一个过程，即通过每次测量荧光标签对DNA进行测序。因此，在最基本的情况下，NGS仪器必须能够自行解析分子，并捕捉荧光标签，这些标签对应于分子的各个基因组序列。集束的形成过程确保了单分子的可降解性，并且该单分子的荧光标签可以被充分和适当地捕获。

集群生成的第一阶段（参考文献22），是将DNA文库（化学变性成单链。）被加载并放置在一个称为流动池的玻璃室中。流动池的表面涂有寡核苷酸。寡核苷酸与在文库制备过程中添加到无细胞DNA片段中的接头序列同源。单链片段固定在随机选择的流动池表面。在整个NGS过程中，DNA 片段与流动槽保持在同一位置，因此片段固定的位置很重要。加载文库的强度需要仔细测量并继续进行。如果浓度太高，流动槽中的同一位置将被多个文库片段占据，这会在一定程度上妨碍正确检测特定片段发出的荧光标记的能力。另一方面，如果浓度过低，流动池的测序能力将得不到充分利用，导致每个样本的测序深度太浅而无法可靠地检测到非整倍体。

集群生成的第二阶段，被称为桥式扩增（bridge amplification），是聚合酶链式反应（PCR）。发生在流动池的表面，DNA被杂交到流动池的表面并进一步定位和增强。这样的DNA增强是必要的，因为在测序过程中与单分子结合的单个荧光碱基的发射太弱，无论如何增强都无法被NGS仪器的摄像头捕捉到。为了将荧光标签提高到可检测的水平，它们被复制了几十万次，与原始文库片段非常相似，以产生「集群」即具有高密度DNA片段的克隆。为了加强桥接（图4中示意性地说明）），使用了添加到流动池表面的寡核苷酸。这些寡核苷酸作为引物用于每个时间桥的增强。当寡头连接到玻璃一侧时，单链分子通过折叠与连接到流动池的寡头搭桥，从而重复此后每次的伸长过程。集束形成的最后阶段使用分裂酶和化学变性，将有关的单链分子（例如附着在流动池上的粉红色引物）从每个分子内已加倍的片段中移除。这就留下了一个序列完全相同的单链DNA分子（参见图5的顶部。单链DNA分子的顶部有一个粉红色的引物，而流通池上有一个蓝色的引物）。

测序周期

一旦集群得到加强，测序反应就开始了（参考文献22）。第一步是让要测序的引物进入流动槽。在这种情况下，引物重述了嵌入各个片段的接头分子中的共同序列。由于引物的3’端紧邻无细胞DNA（夹在较大DNA之间的一小块DNA：译者参考）的插入物，通过测序破译序列从无细胞DNA末端的片段开始。然后，NGS仪器用混合反应物淹没流动池，包括荧光标记的、不可拉伸的核苷酸和DNA聚合酶（図5）。聚合酶从引物末端拉长，吸收越来越多的荧光标记的碱基，这些碱基与无细胞DNA分子的模板互补。由于这些碱基是不可延伸的，延伸只发生在一个碱基上，并持续到死亡。在这一点上，尚未被吸收的核苷酸和延伸反应的混合物被冲出流动池室，开始成像。流动池的整个区域用摄像机扫描（在现代Illumina设备中，流动池在顶部和底部都被扫描），确定集群并存储视频数据。集群的颜色应该是反映出刚刚被占用的基地的颜色。这些集群只在桥梁增强过程中可见。在视频成像之后，一种混合的化学物质进入流动池，它从新加入的基质中去除荧光部分，并恢复基质的伸长能力。这种恢复反应是至关重要的，因为它将推动单个分子未来一轮的伸长和成像。事实上，它被重复了数百次（基于用户的偏好）。从伸长和成像到恢复的周期，以及额外的周期来破译流动池表面的集群序列。迭代的次数决定了映射中使用的读数的长度。

对于NIPT的应用，测序周期的数量通常较少（25～36）。与分析测序分子以识别新基因组变量（从而在长读长中发现价值）的其他基因组测试不同，当前的无细胞DNANIPT染色体非整倍性测试并不旨在发现单碱基水平的新物种。在具有SNP的NIPT的情况下，可以制作多重引物以近似与SNP同步的引物。此外，在WGS的NIPT的情况下，别无选择，只能继续测序，直到可以将读数映射到唯一的对应关系。对于与 NIPT 一致的两个目的而言，这两种短读长都具有吸引力。(1)由于NGS所需的时间与测序所需的时间成正比，因此较短的读取长度可以加快检测报告的速度。(2)短引线比长引线便宜，在检查成本方面更可取。

配对末端测序

在NGS仪器的情况下，只能在DNA片段的末端确定序列，因为控制测序反应的寡核苷酸具有固定在DNA片段直接两侧的接头（参考文献22）。此外，由于核苷酸延伸仅从5’到3’末端进行，因此在簇富集过程中产生的流动槽锚定单核苷酸DNA片段只能从一端进行测序。然而，在称为「配对末端」的测序过程中，DNA片段可以从两端开始测序。成对端测序，顾名思义，涉及两轮单侧测序，如前所述，每轮测序用不同的引物进行，这些引物通过链式转换机制相互区别。在这个切换方案的第一阶段（图6），流动池中的双链DNA被变性。在这个过程中，原本在集群中的单链分子与将要生成的单链分子被区分开来。然后，后一条单链被创建为远离第一轮测序的引物而合成的引物。没有锚定在流动池中的、将来会产生的链子在流动池中被洗掉，有效地使流动池在集群增强后回到其原来的位置。然而，为了从片段的另一侧捕获序列，原始簇中的反向互补链需要凝聚，以便延伸反应能够从5’端向3’端发展。在第一轮桥式加固的进展中，群组的单链片段是反向互补的，但桥式加固创造了一个群组，并且有两条链子存在。然后在流动池中引入一种分子，切割固定的寡核苷酸，从而去除原来的链子。这种预处理为从相反方向对引物进行测序来拉长集群做了准备，从而可以获得从DNA片段的相反方向测序的信息。

图像分析和测序数量分析

上文已经描述了NGS设备将分子信息作为DNA序列编码转换成一堆图像的程序，但那里针对的输出是序列信息的文本文件，而不是高灵敏度的图像。这个最后的转换是由嵌入测序设备的软件完成的，称为「碱基调用」（图7、参考文献22）。这个软件的目的是在单个图像中逐一定位集群，跟踪图像堆中集群的位置和颜色。在早期的测序仪中，集群是通过随机改变整个幻灯片中的位置而产生的。另外，核苷酸有四种颜色。由于这个原因，当时仪器每次捕捉和分析四个图像。然而，后来新的仪器已经使用了图案化的流动池。膨胀的团块的化学性质与以前不同，分子模板逐一填补了蚀刻在流动池表面的许多孔洞，导致孔洞后整体呈蜂窝状。这种蜂巢式的图案简化了图像分析，从而加快了图像分析的速度。只用两种颜色来编码基点的决定也加快了图像分析的速度。通过修改腺嘌呤碱，使其具有绿色和红色的荧光团（荧光分子），只需观察红色和绿色就可以确定整个四个碱基。腺嘌呤是红色和绿色，胞嘧啶是红色但不是绿色，胸腺嘧啶是绿色但不是红色，鸟嘌呤没有颜色，等等。

对于要分析的每个单独的集群，软件发出一个「碱基调用」（即腺嘌呤、胸腺嘧啶、胞嘧啶、鸟嘌呤，如果碱基不能解码，则为N。）和一个定性的分数都会发出。定性评价的分数是1到40分之一，表示对基地调用的信任程度，这种打分是对数字表示的基地进行模拟元素评价的一种形式。定性评价很重要，因为它通过生命信息科学过滤序列信息。例如，在评估过程中，很可能完全由质量差的碱基组成的读数应该被忽略。同样，单核苷酸多态性（SNP）技术，如NIPT，通过识别单核苷酸来影响等位基因平衡（第3章参照。详细介绍SNP算法。）因此，用这种技术解释这种定性的终点，有可能显著提高非整倍体检测的性能。

一旦碱基序列和集群的质量分数被确定为视频分析的结果，这些信息（译者注）将被写入FASTQ文件。集群也被赋予名称，通常包括集群在流动池中的位置信息。它们共同构成了NGS的「read」。目前的NGS仪器可以测量每个流动池的数十亿读数，使FASTQ文件成为一个非常大的文本文件。重要的是，一旦FASTQ文件生成，就意味着有关NGS仪器的最初目的，将DNA片段的分子库转换为基于文本文件的序列信息，已经完成了。

测序仪的下游部分：多路分解和对齐

一旦完成了测序决定和碱基调用，下一步就是解复用和比对。这些都是基于NGS的NIPT所共有的过程，在第三章中描述的每个平台特定的分析之前进行的。这两个过程中的第一个是解复用，它根据相应的分子条形码的序列将NGS读数结果分配给原始样本。条形码读数和无细胞DNA读数被写入单独的FASTQ文件（在成对端测序的情况下，有两个FASTQ文件用于无细胞DNA，一个条形码文件。），但每一行都是相互对应的。因此，多路分解过程非常简单（通常包括在测序仪的软件中）。用户首先通过启动带有标本名称的条形码。一个简单的脚本进入软件（程序）通过FASTQ文件走向条形码和无细胞DNA读数，并将基于条形码的无细胞DNA读数信息复制到特定标本的FASTQ文件。这里，对于条形码来说，为了最大限度地减少在条形码测序过程中由小的NGS错误(例如条形码上错误的碱基调用)引起的读数处理，通常选择不相似的条形码，这样即使发生一两个错配，也可以清楚地从彼此中识别出来（参考文献30）。

无细胞DNA NIPT的基本前提，即确定胎儿基因组在某一基因组区域是否存在异常数量，是将无细胞DNA分子映射到其各自的起源区域。这种映射发生在比对过程中（序列读数与已知参考基因组的映射：译者参考）。对齐的基本思路很简单：对于来自读数的数据，由几十或几百个字符串组成，找到相同的字符串出现在大约30亿个字符的字符串中（即人类参考基因组）。这个概念很简单，但不容易以有效的方式实现：在NIPT分析中，通常只考虑具有唯一对应映射的读数，像上面描述的那些可能来自多个位置的序列被认为是多余的，但必须将整个基因组视为读数的目标然而，详细检查整个基因组的每个单独的读数，以及每个读数是否在每个末端与比较的读数相匹配，虽然足够了，但效率非常低。这种简单的方法需要对每个读数进行30亿次比较（参考文献中的每个偏移量都要进行一次比较），），对来自单个流动池的数十亿读数执行这一程序将需要多达1018次计算。使问题更加复杂的是，NGS读数经常与特定NIPT方案中被比较的读数不同（例如SNP）这使得确定一个读数是否映射到一个特定的比较器位置比找到一个精确的匹配要困难得多。在这种情况下，映射算法反而要抓住读数在特定比较器位置是否近似。

NGS作为一种易于使用的技术，不仅在一般意义上，而且特别是作为一种NIPT技术，能否生存下去，将取决于能否开发出快速的算法，在几分钟内将数百万条读数与人类基因组对准（参考文献31, 32）。作为这种算法的开发者，我们考虑的一个关键观点是，与实验数据本身不同，参考基因组是静态的。因此，对基因组进行预处理，如使其更容易搜索，会对随后的性能产生重大影响。事实上，软件包，如排列组合的主导卖点，共享排列组合的上游过程，并在其实施过程中创建一系列参考基因组的索引文件。主索引文件是一个精心重新排列的基因组版本，它保留了关于原始基因组序列的所有信息，并以有利于快速搜索的方式重新引导序列。这条特殊指令允许读数每次被映射到一个碱基。这意味着相邻的碱基（如G（鸟嘌呤）碱基等）被包含在一个读数中，几乎75%的转化基因组可以在未来的每一次搜索中被忽略（例如那些带有A、C或T的基因）。通过在连续的碱基上进行重复（测序），可以迅速接近读数的真正来源。事实上，通过这样转化的基因组，读数可以在惊人的10-20次计算中被映射出来（即为10-20个碱基）。这与上述的天真算法相比非常有利，后者需要3亿次计算来比较读数与被比较基因组位置的序列。这些排列组合的算法实施了微妙的修改，使其对差距和不匹配具有鲁棒性，但这种功能支持需要最小的开销。最终，在临床上要求的无细胞DNA的NIPT的时间窗口内，通过这种预处理的基因组指数将排列组合归纳为一种合理的形式。

新一代测序的替代性和非替代性技术

虽然大多数基于测序的NIPT测试利用Illumina的设备，但任何技术，无论是基于测序的还是其他技术，只要能够描述大量无细胞DNA分子最初来自的基因组位置，都能够以足够高的速度和足够的信息处理能力运作。 Illumina的合成特异性测序技术可能能够与临床部门要求的每碱基低成本和每碱基时间相匹配，但可能无法与其他相关方法（如例如，高温测序方法）和通过联动的测序平台（如SOLiD）（参考文献10）。然而，其他更快、更便宜的竞争性测序技术似乎能够迅速改变NIPT的测序格局。例如，一项早期技术仍处于起步阶段，但可能很快就会比合成测序方法有优势，这就是纳米孔（蛋白质微孔；译者注）测序（参考文献33）。纳米孔通过测量长DNA分子通过嵌入电荷阻断膜的蛋白质孔时的电压特征来确定DNA序列。孔隙中的每组核苷酸（如GCGTA）都有一个特征电压水平。碱基调用算法是基于DNA分子电压的总轨迹，然后根据这个电压水平解构（解折和反转：见译者参考）到一个特定的DNA序列。纳米孔的速度和信息处理能力对基于无细胞DNA的NIPT应用具有吸引力。纳米孔的一个主要限制是错误率高，这使病人基因组中的变异体识别变得复杂，纳米孔的开发者已经为这个问题奋斗了很长时间，但即使如此，只要对齐算法能将读数映射到基因组上的原始位置，基于深度的无细胞使用DNA的NIPT可能会降低极限点，甚至是轻微的，因为它可以容忍错误（见第三章）。当一个很长的DNA分子接近几十万个碱基的数量时，远远超过单个无细胞DNA片段中不到150个碱基的数量，纳米孔是进行测序的理想选择。由于这个原因，纳米孔测序的最佳文库制备可能涉及无细胞DNA的广泛串联，将数百个无细胞DNA分子拼接成一个分子。同样重要的是，这种使用纳米孔对无细胞DNA进行NIPT的论点可能部分是推测性的，并不能具体保证无细胞DNA的NIPT。事实上，纳米孔目前更适合于其他基因组学应用，这也是其发展的动力。但是，如果有的话，纳米孔强调了这样一个概念：测序技术在继续发展，新技术可能随时出现。今天，合成测序方法在基于NIPT测序的检测中无处不在，并不是因为它们本身更好，而是因为在一个快速发展的领域中，它们在每个碱基的成本和时间方面是最好的。

如前所述，适合NIPT的DNA技术只需要能够快速而廉价地将无细胞的DNA片段映射到基因组位置，而微阵列的结果表明，这种技术严格来说并不要求对DNA进行测序。基于微阵列的无细胞DNA的NIPT测试，使用覆盖感兴趣的基因组区域的特异性杂交探针，测量了数十万个无细胞DAN片段进行比较（参考文献34）。微阵列（在第三章有更详细的讨论）也可以确定许多特定的等位基因。而这种取样，在高度多态的SNP（单核苷酸多态性）区域，提供了关于胎儿片段的信息。使用同源DNA（如微阵列上的杂交探针）对感兴趣的序列进行量化，而不是直接测序，这种想法是最近尝试使用量化的聚合酶链反应（PCR）对无细胞DNA进行NIPT的基础（参考35）。它也是最近尝试对无细胞DNA进行NIPT的基础，在这里，适当选择的引物组可以测量NIPT相关区域中存在的无细胞DNA数量。

结论

NGS（新一代测序）特别适合作为NIPT的应用，首先是因为检测很细致，另一个是还没有明确察觉到的理由这2个，NGS提供了数字的核苷酸水平数据，使基于深度和等位基因的NIPT工作流程变得可行。NIPT工作流程包括，定位和量化游离DNA片段（在第3章中详细说明）。至关重要的是，NGS中使用的仪器，可以轻松快速地生成此类数据，帮助NIPT克服检查机构、受检者和患者的限制。

另一方面，由于不太为人知的原因，NGS还捕获过与胎盘来源的游离DNA相关的信号。例如，NGS测量一对片段的长度，但胎盘来源的片段一般比母体来源的片段短。此外，胎盘来源的片段以DNA甲基化为特征，随后在应用亚硫酸氢时可通过NGS检测到（文献36：甲基化的c-碱基保持不变，但未甲基化的c-碱基在亚硫酸氢作用下转化为尿嘧啶（其序列与胸腺嘧啶碱的序列相似）。）最后，NGS在单核苷酸测定过程中，确认并报告了无细胞DNA片段末端的位置，这种末端信息包含重要的胎盘信号。这是因为在确定无细胞DNA片段末端的位置时，母体和胎盘核糖体的结构不同（文献37）。通过提取和放大这些胎盘信号的分析算法，敏感地捕获胎儿染色体畸变成为可能。

基于无细胞DNA的NIPT检测，现在正迅速成为产前临床诊断的首选方法。这主要是由于NGS作为读取和计算无细胞DNA状态的手段已经成熟。当NIPT在临床实践中被如此广泛地采用时，它刺激了节省成本的技术的发展，并产生了大量的数据，从而能发现更微妙的、胎盘特有的信号。因此，量化和理论化无细胞DNA的运动，将继续稳定而迅速地发展，这种改进将改善基于无细胞DNA的NIPT的结果，并使其更广泛地被更多人使用。

译者注　FASTQ的含义不清楚（可能已经提出来了，但无法确认）。

翻译：梅泽真一

NIPT论文（第2章）前へ

产前诊断的接受率次へ