用于处理序列数据的方法、系统和装置与流程-j9九游会真人

文档序号：35756620发布日期：2023-10-16 21:48阅读：9来源：国知局

用于处理序列数据的方法、系统和装置
1.相关申请本公开要求2020年10月8日提交的美国临时专利申请号63/089,432的权益和优先权，其全部公开内容通过引用全文并入本文。
技术领域
本公开的实施方案尤其涉及用于确定序列，且更特别地确定遗传片段的序列，包括例如处理测序读段以去除衔接子数据的系统、设备和方法。
3.序列表的通过引用并入本技术包含已经经由efs-web以ascii格式提交并特此通过引用全文并入的序列表。于2021年10月8日创建的所述ascii拷贝命名为“nate-050_001wo_seqlist_st25.txt”，且大小为大约14千字节。

背景技术：

遗传数据的处理是耗时且费力的任务。测序读段产生大量的数据，必须对其进行处理以产生用于确定所需遗传序列(例如遗传片段的序列)的结果数据。因此，期望用于加速处理此类数据的方法以提供更快的结果。
5.发明概述本文中公开的实施方案使得能够提高(并在一些实施方案中显著提高)处理遗传数据的处理速度，并改善其结果的特异性。
6.因此，在一些实施方式中，提供了用于帮助从测序数据文件中包含的多个测序读段确定dna(在一些实施方案中为dna片段)的身份的测序数据处理方法。该方法包括，进行多个接头修剪道次。对于每个测序读段，接头修剪道次至少包括第一修剪道次，其开始于比已知插入物长度大1个碱基(在一些实施方案中大至少1个碱基，并且在一些实施方案中大预定数量的碱基)的碱基对(“bp”)，其中接头bp可以从序列中去除，其中使用接头的第一预定数量的bp以考虑有限多个可能重叠而在序列中找到匹配，并且在第一修剪道次后，如果读段大于预定数量的bp，则在沿读段的任何位置处进行有限数量的第二修剪道次，其各自包括在接头的第一预定数量的bp加上或减去来自先前修剪道次的预定数量的另外的bp处匹配一个或多个接头。有限数量的修剪道次导致每个单端读段最终修剪至单端特定数量的bp，并且每个双端读段最终修剪至双端特定数量的bp。在一些实施方案中，该方法还可以包括使用来自一个或多个修剪道次的信息任选地重新标记插入物bp。
7.在此类实施方案中，以下另外的特征、功能(function)、功能(functionality)、步骤和/或说明中的一个和/或另一个(并且在一些实施方案中为多个、大多数、基本全部以及在一些实施方案中为全部)产生本公开的另外的实施方案：-第一修剪道次可以在特定bp(在一些实施例中为bp 27)处开始；-仅在读段的长度为至少36bp(在一些实施例中为至少预定长度的bp或长度范围的bp)的情况下进行第一修剪道次；-采用第一修剪道次，接头的第一预定数量的bp包含10bp(在一些实施例中为预定数量的bp)；-预定数量的另外的bp包含1至2bp(在一些实施方案中为预定数量的另外的bp)；-从一个或多个测序数据文件(“sdf”)读取多个测序读段；
○
多个测序读段包含多个单端读段和多个双端读段，
○
每个单端读段包含单个sdf(“r1”)，且每个双端读段包含两个sdf(“r1”、“r2”)，
○
对于双端读段，两个sdf中的第一r1包含双端读段的正向读段，且两个sdf中的第二r2包含双端读段的反向读段；
○
每个sdf包含预定数量的行(在一些实施方案中为多行信息，在一些实施方案中为至少4行信息，在一些实施方案中为4行信息)，其第二行包含测序数据，并且其第四行包含测序数据的质量评分；
○
每个读段的测序数据包含与插入物(即dna片段)的碱基对(“bp”)相关的插入物数据，和与插入物末端上的相关接头的bp相关的第二接头数据；和/或
○
对于双端，r1的序列行可以是从bp 1到最后一bp，并且r2的序列行可以是从最后一bp到bp 1；-对多个测序读段进行至少一个另外的处理步骤，所述另外的处理步骤选自：拼接、提取、第一匹配、去重和第二匹配；-进行拼接步骤，所述拼接步骤包括以下的一个或多个(且优选全部)：
○
对于每个双端读段，将双端读段的第一测序读段(r1)与双端读段的第二测序读段(r2)重叠并比较重叠的部分，
○
当读段不匹配时，选择r1和r2中具有更高的质量评分的一个，或者如果质量评分相等的话：
●
渐进地计算r1和r2的至少一个区域评分，直到r1和r2中的一个具有更高的质量评分，其中计算包括将r1与r2的每一个的不匹配bp、不匹配bp左侧的一个bp、和右侧的一个bp的质量评分值相加，选择具有更高总质量评分的读段，和
●
使用来自r1的编号将所选读段修剪至预定数量的bp(例如26bp)。-进行提取步骤，所述提取步骤包括将每个读段分成唯一分子标识符(“umi”)和条形码；-进行第一匹配步骤，所述第一匹配步骤包括将每个读段针对具有给定错误率的预期条形码的文库(例如哈希表)进行匹配，使得：
○
如果来自读段的条形码被缩短，则最后一bp将被赋予“n”，因此剩余的预定数量的bp与文库中的标识符精确匹配，
○
如果指定了条形码的精确匹配，则不进行读段的预定数量的bp匹配；和
○
如果未找到匹配，则将读段保存在存储器中；和-进行第二匹配步骤，所述第二匹配步骤包括，对于经由第一匹配不匹配的每个条形码(“nmbc”)，在经由第一匹配在先匹配的条形码的umi中匹配nmbc的umi，其中如果找到umi，则将nmbc与找到的umi的条形码进行比较以确认匹配，允许多个错配的bp。
8.在一些实施方案中，提供了用于帮助从测序数据文件中包含的多个读段确定dna
片段的身份的测序数据处理方法，并且该方法包括，对于每个双端读段，将双端读段的第一测序读段(r1)与双端读段的第二测序读段(r2)重叠并比较重叠的部分。当读段不匹配时，选择r1和r2中具有更高的质量评分的一个，或者如果质量评分相等的话，渐进地计算r1和r2的至少一个区域评分，直到r1和r2中的一个具有更高的质量评分，其中计算包括将r1与r2的每一个的不匹配bp、不匹配bp左侧的一个bp、和右侧的一个bp的质量评分值相加，选择具有更高总质量评分的读段，并使用来自r1的编号将所选读段修剪至预订数量的bp(例如26bp)。
9.在此类实施方案中，以下另外的特征、功能(function)、功能(functionality)、步骤和/或说明中的一个和/或另一个(并且在一些实施方案中为多个、大多数、基本全部以及在一些实施方案中为全部)产生本公开的另外的实施方案：-对多个测序读段进行至少一个另外的处理步骤，所述另外处理步骤选自：接头修剪、提取、第一匹配、去重和第二匹配；-对每个测序读段进行接头修剪，所述接头修剪包括第一修剪道次，其开始于可以比已知插入物长度大1个碱基的bp，包括从序列中去除接头bp，所述第一修剪道次包括使用接头的第一预定数量的bp，以考虑有限多个可能重叠而在序列中找到匹配；-任选地，在第一修剪道次后，如果读段大于预定数量的bp，则在沿读段的任何位置处进行有限数量的第二修剪道次，其各自包括在接头的第一预定数量的bp加上或减去来自先前修剪道次的预定数量的另外的bp处匹配一个或多个接头，有限数量的修剪道次导致每个单端读段最终修剪至单端特定数量的bp，并且每个双端读段最终可修剪至双端特定数量的bp，并且任选地，使用来自一个或多个修剪道次的信息重新标记插入物bp；-第一修剪道次可以在bp 27(在一些实施方案中为预定的bp)处开始；-仅在读段的长度为至少36bp(在一些实施方案中为预定长度的bp)的情况下进行第一修剪道次；-采用第一修剪道次，接头的第一预定数量的bp包含10bp(在一些实施方案中为预定数量的bp)；-预定数量的另外的bp包含1至2bp(在一些实施方案中为预定范围的bp)；-从一个或多个测序数据文件(“sdf”)读取多个测序读段；
○
多个测序读段包含多个单端读段和多个双端读段，
○
每个单端读段包含单个sdf(“r1”)，且每个双端读段包含两个sdf(“r1”、“r2”)，
○
对于双端读段，两个sdf中的第一r1包含双端读段的正向读段，且两个sdf中的第二r2包含双端读段的反向读段；
○
每个sdf包含预定数量的行(在一些实施方案中为多行信息，在一些实施方案中为至少4行信息，在一些实施方案中为4行信息)，其第二行包含测序数据，并且其第四行包含测序数据的质量评分；
○
每个读段的测序数据包含与插入物(即dna片段)的碱基对(“bp”)相关的插入物数据，和与插入物末端上的相关接头的bp相关的第二接头数据；和/或
○
对于双端，r1的序列行可以是从碱基对(“bp”)1到最后一bp，并且r2的序列行可以是从最后一bp到bp 1；-提取包括将每个读段分成唯一分子标识符(“umi”)和条形码；-进行第一匹配，所述第一匹配包括将每个读段针对具有给定错误率的预期条形码的文库(例如哈希表)进行匹配；
○
如果来自读段的条形码被缩短，则最后一bp将被赋予“n”，因此剩余的预定数量的bp与文库中的标识符精确匹配，
○
如果指定了条形码的精确匹配，则不进行读段的预定数量的bp匹配；和
○
如果未找到匹配，则将读段保存在存储器中；和-进行第二匹配，所述第二匹配包括，对于经由第一匹配不匹配的每个条形码(“nmbc”)，在经由第一匹配在先匹配的条形码的umi中匹配nmbc的umi，使得如果找到umi，则将nmbc与找到的umi的条形码进行比较以确认匹配，允许多个错配的bp。
10.在一些实施方案中，提供了用于从测序数据文件中包含的多个读段确定dna片段的身份的测序数据处理方法，并且该方法包括从一个或多个测序数据文件(“sdf”)读取多个测序读段。多个测序读段包含多个单端读段和多个双端读段，并且每个单端读段包含单个sdf(“r1”)，且每个双端读段包含两个sdf(“r1”、“r2”)。对于双端读段，两个sdf中的第一r1包含双端读段的正向读段，且两个sdf中的第二r2包含双端读段的反向读段。每个sdf包含4行信息，其第二行包括测序数据，并且其第四行包括测序数据的质量评分。每个读段的测序数据包含与插入物(即dna片段)的碱基对(“bp”)相关联的插入物数据，和与插入物末端上的相关接头的bp相关的第二接头数据，并且对于双端，r1的序列行可以是从碱基对(“bp”)1到最后一bp，并且r2的序列行可以是从最后一bp到bp 1。
11.该方法进一步包括对多个测序读段进行多个处理步骤，其中多个处理步骤可以选自：修剪、拼接、提取、第一匹配、去重和第二匹配。
12.在一些实施方案中，修剪包括进行多个接头修剪道次，其中接头修剪道次包括第一修剪道次，其开始于可以比已知插入物长度大1个碱基的bp，且包括从序列中去除接头bp，所述第一修剪道次包括使用接头的第一预定数量的bp以考虑有限多个可能重叠而在序列中找到匹配。修剪还包括在第一修剪道次后，如果读段大于预定数量的bp，则在沿读段的任何位置处进行有限数量的第二修剪道次，其各自包括在接头的第一预定数量的bp加上或减去来自先前修剪道次的预定数量的另外的bp处匹配一个或多个接头。
13.在一些实施方案中，有限数量的修剪道次导致每个单端读段最终修剪至单端特定数量的bp，并且每个双端读段最终修剪至双端特定数量的bp。任选地，可使用来自一个或多个修剪道次的信息重新标记插入物bp。
14.在一些实施方案中，拼接包括将双端读段的r1与双端读段的r2重叠并比较重叠的部分，使得当读段不匹配时，选择r1和r2中具有更高的质量评分的一个。但是，在一些实施方案中，如果质量评分相等的话，渐进地计算r1和r2的至少一个区域评分，直到r1和r2中的一个具有更高的质量评分。在一些实施方案中，计算包括将r1与r2的每一个的不匹配bp、不匹配bp左侧的一个bp、和右侧的一个bp的质量评分值相加，选择具有更高总质量评分的读段。随后，可使用来自r1的编号将所选读段修剪至26bp。
15.在一些实施方案中，该方法进一步包括提取，所述提取包括将每个读段分成唯一分子标识符(“umi”)和条形码。
16.在一些实施方案中，该方法进一步包括第一匹配，所述第一匹配包括将每个读段
针对具有给定错误率的预期条形码的文库(例如哈希表)进行匹配。如果来自读段的条形码被缩短，则最后一bp将被赋予“n”，因此剩余的预定数量的bp与文库中的标识符精确匹配。如果指定了条形码的精确匹配，则不进行读段的预定数量的bp匹配，且如果未找到匹配，则将读段保存在存储器中。
17.在一些实施方案中，该方法还包括将多个读段去重。
18.在一些实施方案中，该方法还包括第二匹配，所述第二匹配包括，对于经由第一匹配不匹配的每个条形码(“nmbc”)，在经由第一匹配在先匹配的条形码的umi中匹配nmbc的umi。如果找到umi，则将nmbc与找到的umi的条形码进行比较以确认匹配，允许多个错配的bp。
19.在此类实施方案中，以下另外的特征、功能(function)、功能(functionality)、步骤和/或说明中的一个和/或另一个(并且在一些实施方案中为多个、大多数、基本全部以及在一些实施方案中为全部)产生本公开的另外的实施方案：-第一修剪道次可以在bp 27(在一些实施例中为预定的bp)处开始；-仅在读段的长度为至少36bp(在一些实施例中为在至少预定长度的bp或长度范围的bp)的情况下进行第一修剪道次；-采用第一修剪道次，接头的第一预定数量的bp包含10bp(在一些实施例中为预定数量的bp)；-预定数量的另外的bp包含1至2bp(在一些实施方案中为预定数量的另外的bp)；-在第一匹配过程中，剩余数量的bp包含11bp；和-在第二匹配过程中，多个允许的错配bp包括一个或两个bp(在一些实施例中为预定数量的bp)。
20.在一些实施方案中，提供了用于进行上文所述/本文中公开的方法的任一种的系统和/或装置。此类系统/装置可包含至少一个计算机，其可以是服务器、台式机、笔记本电脑、智能手机、平板电脑和/或类似物，具有在其上运行的应用和/或计算机指令(其可以为一个或多个应用程序的形式)，所述计算机指令配置为使系统/装置进行上文所述/本文中公开的方法实施方案的任一个。
21.因此，在一些实施方案中，系统/装置包括至少一个处理器，该处理器可以访问配置为在其上运行的计算机指令，并且使系统/装置进行上文所述/本文中公开的方法的任一种。
22.在一些实施方案中，提供了数据存储装置或系统，且其用于存储可以在一个或多个处理器上运行以使一个或多个处理器进行上文所述/本文中公开的方法的任一种的数据和/或计算机指令(其可以为一个或多个应用程序的形式)。
23.应当理解的是，前述概念和本文中公开的另外的概念的任何和所有组合(条件是此类概念并不相互矛盾)被设想为本文中公开的发明主题的一部分。特别地，在本公开结尾处出现的要求保护的主题的所有组合被认为是本文中公开的发明主题的一部分。还应当理解的是，也可能在通过引用并入的任何公开内容中出现的本文中明确采用的术语应当被赋予与本文中公开的特定概念最一致的含义。
24.通过参考以下详细描述和附图，上述实施方案将变得更加明显。
25.附图简述本领域技术人员将理解，本公开的附图主要用于说明性目的，而非意在限制本文中描述的发明主题的范围。
26.图1是根据一些实施方案，从来自数据测序文件(例如fastq)的10个测序读段(例如双端读段)读出的测序数据；所描绘的序列对应于seq id no 3-22；
27.图2a是根据一些实施方案，应用于来自图1的10个测序读段的双端读段的第一读段的修剪过程的结果；所描绘的序列对应于seq id no 23-32；
28.图2b是根据一些实施方案，应用于来自图1的10个测序读段的双端读段的第二读段的修剪过程的结果；所描绘的序列对应于seq id no 33-42；
29.图3是根据一些实施方案，应用于来自图1的10个测序读段的拼接过程的结果；所描绘的序列对应于seq id no 43-52；以及
30.图4是根据一些实施方案，来自图1的读段的第一匹配过程的结果；所描绘的序列对应于seq id no 53-64。
31.图5是根据一些实施方案，用于进行测序数据处理的示例性系统及其组件。
32.发明详述本公开的实施方案涉及用于处理测序数据，且特别是对测序读段进行各种过程的方法、系统和装置。因此，在一些实施方案中，提供了用于从测序数据文件中包含的多个读段确定dna片段的身份的测序数据处理方法。
33.本公开的至少一些实施方案的显著特征之一是利用测序读段的已知片段/插入物尺寸，其使得能够加速测序数据处理方法的至少一些实施方案的至少几个处理步骤，由此导致比现有技术更快地处理测序数据。
34.最初，从一个或多个测序数据文件(“sdf”)读取多个测序读段，所述sdf例如可以是fastq文件。fastq文件包括基于文本的格式，用于存储生物序列(例如核苷酸序列)以及相应的质量评分二者。因此，序列字母和相关质量评分各自用单个ascii字符编码。fastq文件是用于存储高通量测序仪器的输出的常用格式。此类测序仪器的实例包括来自illumina,inc.(san diego,california)的miseq
tm
、novaseq
tm
、nextseq
tm
550和nexseq
tm
2k仪器。
35.多个测序读段包含多个单端读段和多个双端读段中的至少一个，并且优选包含二者。每个单端读段包含单个sdf(在这里称为“r1”)，且每个双端读段包含两个sdf(在这里分别称为“r1”、“r2”)。因此，对于双端读段，两个sdf(r1和r2)中的第一r1包含双端读段的正向读段，且两个sdf中的r2包含双端读段的反向读段。图1说明了此类测序读段(例如10个双端测序读段)。
36.在一些实施方案中，每个sdf由四(4)行信息构成，其中sdf的一行(例如第二行)包括测序数据，且sdf的另一行(例如第四行)由测序数据的相关质量评分构成。每个读段的测序数据/行还包括与插入物(例如dna片段)的碱基对(“bp”)相关的插入物数据，和与插入物末端上的相关接头的bp相关的接头数据。对于双端，r1的序列行可以是从碱基对(“bp”)1到最后一bp，并且r2的序列行可以是从最后一bp到bp 1。
37.在一些实施方案中，该方法进一步包括对至少一个测序读段，且优选对多个测序读段进行至少一个处理步骤，以及在一些实施方案中进行多个处理步骤。此类处理步骤包
括例如修剪、拼接、提取、第一匹配、去重和第二匹配。
38.在一些实施方案中，修剪可用于从来自一个或多个测序读段的插入物信息中去除例如接头信息。在一些实施方案中，此类修剪包括进行多个接头修剪道次。例如，在一些实施方案中，可以进行第一修剪道次，其开始于可以比已知插入物长度大1个碱基的bp(在一些实施方案中，可以在比已知插入物长度大或小的不同碱基位置(例如2、3、4)处开始第一修剪道次)。在一些实施方案中，第一修剪道次可以在bp 27处开始。此外，在一些实施方案中，仅在读段的长度为至少预定数量的bp(例如长度为至少36bp)的情况下进行第一修剪道次。
39.在一些实施方案中，第一修剪道次使用接头的第一预定数量的bp从序列读段中去除接头bp，以考虑有限多个可能重叠而在序列中找到匹配。在一些实施方案中，第一预定数量的bp包含10bp。在第一修剪道次之后，在一些实施方案中，如果所得读段大于预定数量的bp，则可以在沿读段的任何位置处进行有限数量的第二修剪道次。在每个第二修剪道次中，可以在接头的第一预定数量的bp加上或减去来自先前修剪道次的预定数量的另外的bp处匹配一个或多个接头。在一些实施方案中，预定数量的另外的bp包含1至2bp。图2a和2b说明了根据本公开的此类实施方案，图1的读段的修剪处理的结果。
40.在一些实施方案中，有限数量的修剪道次导致每个单端读段最终修剪至单端特定数量的bp，并且每个双端读段最终修剪至双端特定数量的bp。任选地，可使用来自一个或多个修剪道次的信息重新标记插入物bp。
41.因此，在一些实施方案中，在接头修剪后，测序数据处理方法还可包括测序读段的拼接。在一些实施方案中，拼接包括将双端读段的r1与双端读段的r2重叠，并随后比较重叠的部分。如果读段不匹配，则拼接过程包括选择(r1和r2中)具有更高的质量评分的读段。
42.但是，在一些实施方案中，如果质量评分相等的话，拼接过程包括渐进地计算r1和r2的至少一个区域评分，直到读段(r1和r2)中的一个具有比另一个更高的质量评分。在一些实施方案中，此类计算包括将r1与r2的每一个的不匹配bp、不匹配bp左侧的预定数量的bp、和右侧的预定数量的bp(例如一个bp)的质量评分值相加，并随后选择产生更高总质量评分的读段。随后，可使用来自r1的编号将所选读段修剪至26bp。图3说明了图1的读段的拼接处理的结果。
43.例如，如下所示，对于两(2)个读段，r1和r2，r1原样使用，而r2用作反向互补序列(因为是另一条链)。序列上方和下方的字母是每个读段的相应质量评分。因此，其中f大于：(37 vs 25)fffffffffffff：ffffffffff：fr1 atttgtaaccgacttatggagcgaag(seq id no：1)r2 atttgtaaccgactaatggagcgaag(seq id no：2)ffffffffffffffffffffffffff
44.在位置15处，r1包括bp t，而在r2中的相同位置处，存在一个a，并且两个碱基包括相同的质量评分(37)。为了确定使用哪个读段，通过将有争议的bp(即bp 15)左侧的一个bp和右侧的一个bp的质量评分值相加来计算每个读段的区域评分：r1＝：ff＝25 37 37＝99r2＝fff＝37 37 37＝111
45.在该实例中，r2获胜，因为计算的区域评分更大(111vs.99)。由此，所得最终序列为：atttgtaaccgactaatggagcgaag(seq id no：2)
46.在一些实施方案中，如果在其中将相邻bp(例如-1和 1)的质量评分相加仍产生相同评分的情况下，则将其它更远的bp的质量评分相加(例如-2和 2)，直到在读段之间获得不同结果。因此，如上所述，上述区域评分过程可以相对于其它相应评分的其它“计算”等进一步修改，从而选择测序读段。
47.在一些实施方案中，测序数据处理方法可进一步包括提取过程，所述提取过程包括将每个读段分成唯一分子标识符(“umi”)和条形码。
48.在一些实施方案中，该方法可进一步包括第一匹配步骤。第一匹配步骤包括将每个读段针对具有给定错误率的预期条形码的文库(例如哈希表和/或类似文库)进行匹配。因此，在该过程中，如果来自读段的条形码被“缩短”，则使得最后一bp将被赋予“n”，其可以是任何碱基。在一些实施方案中，可以允许匹配在一(1)个错误(即错配)的情况下发生。因此，如果最后一个碱基缺失(由于序列短)，则可以添加将不匹配的“n”，因为其并非a、c、g或t中的任一个。随后，可能随后需要从剩余的11bp中进行精确匹配。由此，剩余的预定数量的bp与文库中的标识符精确匹配。在一些实施方案中，如果指定了条形码的精确匹配，则不进行读段的预定数量的bp匹配，和/或如果未找到匹配，则将读段保存在存储器中。在一些实施方案中，在第一匹配过程中，剩余数量的bp包含例如11bp。图4说明了在修剪(图2a-b)后对图1的读段的此类匹配过程。
49.在一些实施方案中，该方法还包括将多个读段去重(参见例如smith,t.s.等人,umi-tools:modelling sequencing errors in unique molecular identifiers to improve quantification accuracy；cold spring harbor laboratory press；2017年1月18日，其通过引用并入下文)。
50.在一些实施方案中，该方法还包括第二匹配。在一些实施方案中，第二匹配是以下过程：对于经由第一匹配不匹配的每个条形码(不匹配条形码或“nmbc”)，第二匹配在在先匹配的条形码(其经由第一匹配匹配)的umi中匹配nmbc的umi。因此，如果找到umi，则可以将nmbc与找到的umi的条形码进行比较以确认匹配，允许多个错配的bp。在一些实施方案中，在第二匹配过程中，多个允许的错配bp可包含一个或两个bp(例如)。为此，本文中公开的方法和系统实施方案的至少一些可与us2019/0249248a1中描述的实施方案结合使用，以便从其中描述的探针组装扩增产物的序列，由此确定标识符寡核苷酸并空间检测靶分析物。
51.测序数据处理系统和软件上述过程实施方案(和/或其步骤)中的一个和/或另一个可以在一个或多个计算装置/系统(和/或其组件)上执行，所述计算装置/系统的一个实例可以在图5中找到。如所示那样，系统500，其可以包括例如接入装置510、平台550和网络520。此类系统、装置和平台可包括一个或多个处理器511、552(例如微处理器、cpu、gpu等)、一个或多个计算机可读ram、一个或多个计算机可读rom、一个或多个计算机可读存储介质(前述所有可以被称为存储器515、560，但可以是与系统500通信和/或与系统500的组件通信的单独的结构——例如远程数据存储设施)。其它组件/功能可包括装置驱动器、读/写驱动器、接口(例如512、
556)、网络适配器或接口，其均通过通信网络520(经由例如514、558，其可以被称为网络适配器)互相连接。网络适配器与网络520通信；通信网络可以用任何设计用于在处理器(诸如微处理器、通信和网络处理器等)、系统存储器、外围装置和系统内的任何其它硬件组件之间传递数据和/或控制信息的架构来实现。
52.可以驻留在测序数据平台550上的一个或多个操作系统和一个或多个应用程序(例如554)，诸如根据本公开的实施方案的测序数据处理应用，可以存储在一个或多个计算机可读存储介质上，以便由一个或多个处理器经由一个或多个相应的ram(其通常包括高速缓冲存储器)来执行。在一些实施方案中，计算机可读存储介质的每个可以是内部硬盘驱动器的磁盘存储装置、cd-rom、dvd、记忆棒、磁带、磁盘、光盘、半导体存储装置诸如ram、rom、eprom、闪存、或可以存储计算机程序和数字信息的任何其它计算机可读介质(例如有形存储装置)。
53.用户装置和/或测序数据处理系统/平台还可以包括读/写(r/w)驱动器或接口，以便从一个或多个便携式计算机可读存储介质(或基于云的数据存储)读取和写入。观看装置和/或用户装置(例如510)上的应用程序可以存储在一个或多个便携式计算机可读存储介质上，经由相应的r/w驱动器或接口来读取，并加载到相应的计算机可读存储介质中。用户装置和/或测序数据处理系统/平台还可以包括网络适配器或接口，诸如传输控制协议(tcp)/互联网协议(ip)适配卡或无线通信适配器(诸如使用正交频分多址(ofdma)技术的4g、5g无线通信适配器)。例如，应用程序可以经由网络(例如，520、因特网、局域网或其它广域网或无线网络)和网络适配器或接口从外部计算机或外部存储装置下载到计算装置。程序可以由网络适配器或接口加载到计算机可读存储介质上。网络可包括铜线/电缆、光纤/电缆、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。用户装置和/或测序数据处理系统/平台还可以包括一个或多个输出装置或接口(例如显示屏)以及一个或多个输入装置或接口(例如键盘、小键盘、鼠标或定点装置、触摸板)。例如，装置驱动器可以对接到用于成像的输出装置或接口、用于用户输入或用户选择(例如经由压力或电容感测)的输入装置或接口等。装置驱动器、r/w驱动器或接口以及网络适配器或接口可包括硬件和软件(存储在计算机可读存储介质和/或rom上)。
54.在一些实施方案中，测序数据处理系统/平台(及其方法)可以是独立的网络服务器，或呈现集成到一个或多个网络系统中的功能。用户装置510和/或测序数据处理系统/平台550可以是笔记本电脑计算机、台式计算机、专用计算机服务器或本领域中已知的任何其它计算机系统。在一些实施方案中，测序数据处理系统表示使用集群计算机和组件的计算机系统，以便在通过诸如lan、wan或二者的组合之类的网络(例如520)访问时充当单个无缝资源池。该实施方案可以是合意的，特别是对于数据中心和云计算应用而言。通常，根据本公开的实施方案，用户装置和/或测序数据处理系统可以是任何可编程电子装置，或者可以是此类装置的任意组合。
55.基于在本公开的一个或多个特定实施方案中实现它们的应用来标识本文中描述的程序。也就是说，本文中的任何特定程序术语仅为了方便而使用，且由此本公开的实施方案不应局限于仅在此类术语所标识和/或暗示的任何特定应用中的用途。
56.本公开的实施方案可以是或使用任何可能的技术细节集成水平下的装置、系统、方法(例如参见上文)和/或计算机可读介质中的一个或多个。计算机可读介质可包括其上
具有用于使处理器执行本公开的一个或多个方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。计算机可读(存储)介质可以是能够保持和存储指令以供指令执行装置使用的有形装置。计算机可读介质可以是但不限于例如非瞬态存储介质，包括电子存储装置、磁存储装置、光存储装置、电磁存储装置、半导体存储装置或前述的任何合适的组合。计算机可读存储介质的更具体实例的非穷举列表包括以下：便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式光盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构之类的机械编码装置，以及前述的任何合适的组合。根据本公开的实施方案，如本文中使用的计算机可读存储介质不应解释为暂时性信号本身，诸如无线电波或其它自由传播的电磁波、通过波导或其它传输介质传播的电磁波(例如通过光纤线缆的光脉冲)、或通过导线传输的电信号。
57.如上所述，本文中描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理装置，或经由网络，例如因特网、局域网、广域网和/或无线网络下载到外部计算机或外部存储装置。网络可包括铜线/电缆、光纤/电缆、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理装置中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理装置内的计算机可读存储介质中。
58.用于执行本公开的操作的计算机可读程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据，或者以一种或多种编程语言(包括面向对象的编程语言，诸如smalltalk、c 等和过程式编程语言，诸如“c”编程语言或类似的编程语言)的任何组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包执行，部分在用户的计算机上并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络(例如520)，包括局域网(lan)或广域网(wan)连接到用户的计算机上，或者可以连接到外部计算机(例如使用因特网服务提供商通过因特网)。在一些实施方案中，包括例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化，从而进行本公开的各个方面。
59.这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以产生机器或系统(例如参见上文)，使得经由计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现本公开中指定的功能/动作/步骤/过程(对任何公开的方法实施方案而言)的手段。这些计算机可读程序指令还可以存储在计算机可读存储介质中，所述计算机可读存储介质可以引导计算机、可编程数据处理设备和/或其它装置以特定方式起作用，使得指令存储在其中的计算机可读存储介质包括制品，所述制品包括根据本公开的实施方案实现本文指定的功能/动作的方面的指令。
60.计算机可读程序指令还可以加载到计算机、其它可编程数据处理设备或其它装置上，以使得在计算机、其它可编程设备或其它装置上进行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其它可编程设备或其它装置上执行的指令实现本文中指定的功
能/动作。
61.本文中公开的各种发明概念可以体现为一种或多种方法(如所述那样)，其中已经提供了至少一个实例。作为该方法的一部分进行的动作可以以任何合适的方式排序。因此，可以构建以与所示顺序不同的顺序进行动作的实施方案，其可以包括同时进行一些动作，即使在说明性实施方案中显示为顺序动作。
62.在本技术中任何地方出现的对出版物或其它文献(包括但不限于专利、专利申请、文章、网页、书籍等)的任何和所有参考通过引用全文并入本文。
63.如其它地方所述，仅出于说明性目的而描述公开的发明实施方案，而非限制性的。其它实施方案是可能的，并且被本公开覆盖，其将从本文中包含的教导显而易见。由此，本公开的广度和范围不应受任何上述实施方案限制，而应仅根据由本公开及其等同物支持的权利要求来限定。此外，本公开的实施方案可包括方法、系统和设备/装置，其可以进一步包括来自任何其它公开的方法、系统和装置的任何和所有要素，包括对应于绑定事件判定系统、装置和方法的任何和所有要素。换句话说，来自一个或另一个公开的实施方案的要素可以与来自其它公开的实施方案的要素互换。另外，公开的实施方案的一个或多个特征/要素可以被移除并仍导致可授予专利的主题(并且因此产生本公开的更多实施方案)。此外，一些实施方案对应于与现有技术的教导相比特别缺少一个和/或另一个要素、结构和/或步骤(如适用的)的系统、装置和方法，并且因此代表可授予专利的主题并可与其区分(即涉及此类实施方案的权利要求可以包含负面限制以指出缺少现有技术教导的一个或多个特征)。
64.相比字典定义、通过引用并入的文献中的定义和/或所定义术语的普通含义，应理解为以如本文中定义和使用的所有定义为准。
65.除非明确地相反指示，如本文说明书和权利要求书中使用的不定冠词“一个(a)”和“一个(an)”应理解为意指“至少一个”。
66.术语“可以”和“能够”在本公开中可互换地使用，并且指示所提及的要素、组件、结构、功能(function)、功能(functionality)、目标、优点、操作、步骤、过程、设备、系统、装置、结果或说明具有被使用、包括或产生的能力，或以其它方式代表特定实施方案的使用(或提及)该术语的陈述中所指示的主张。
67.在本文说明书和权利要求书中使用的短语“和/或”应理解为意指这样结合的要素中的“任一个或两个”，即，在一些情况下结合地存在而在其它情况下分开地存在的要素。用“和/或”列出的多个要素应当以相同的方式来解释，即，如此结合的要素中的“一个或多个”。除了“和/或”条款具体确定的要素之外，可以任选地存在其它要素，无论与具体确定的那些要素相关还是不相关。因此，作为非限制性实例，对“a和/或b”的引用在结合诸如“包含”之类的开放式语言使用时，在一个实施方案中可仅指a(任选地包括除b以外的要素)；在另一个实施方案中，可仅指b(任选地包括除a以外的要素)；在另一个实施方案中，可指a和b(任选地包括其它要素)；等等。
68.如在本文说明书和权利要求书中所使用的那样，“或”应理解为具有与如上定义的“和/或”相同的含义。例如，当在列表中分列项目时，“或”或“和/或”应解释为包括性的，即包括多个或一系列中的至少一个，但也包括多于一个，以及任选地，另外的未列出的项目。仅有明确相反指示的术语，诸如“仅其中一个”或“恰好其中一个”，或在权利要求中使用时，“由
……
组成”，将指包括多个或系列要素中的恰好一个要素。通常，当在术语“或”之前有排
他性的术语，诸如“任一”、“其中一个”、“仅其中一个”或“恰好其中一个”时，本文中使用的术语“或”应仅解释为指示排他性的替代(即“一个或另一个，但不是二者”)。当在权利要求中使用时，“基本上由
……
组成”应当具有在专利法领域中使用的其普通含义。
69.如在本文说明书和权利要求书中所使用的那样，关于一系列一个或多个要素的短语“至少一个”应当理解为意指选自一系列要素中的任何一个或多个要素的至少一个要素，但不一定包括在一系列要素中具体列出的每个要素中的至少一个，并且不排除一系列要素中的要素的任何组合。该定义还允许除了短语“至少一个”所指的一系列要素中具体确定的要素之外的要素可任选地存在，无论其与具体确定的那些要素相关还是不相关。因此，作为非限制性实例，“a和b中的至少一个”(或等效地，“a或b中的至少一个”，或等效地，“a和/或b中的至少一个”)在一个实施方案中可以指至少一个a，任选地包括多于一个a，不存在b(并且任选地包括除b以外的要素)；在另一实施方案中，可以指至少一个b，任选地包括多于一个b，不存在a(和任选地包括除a以外的要素)；在又一个实施方案中，可以指至少一个a，任选地包括多于一个a，和至少一个b，任选地包括多于一个b(和任选地包括其它要素)；等等。
70.在权利要求书以及上面的说明书中，所有过渡短语，诸如“包含”“包括”、“带有”、“具有”、“含有”、“涉及”、“持有”、“由
……
构成”等，应理解为开放式的，即意指包括但不限于。如美国专利局专利审查程序手册第2111.03节所述，只有过渡短语“由
……
组成”和“基本由
……
组成”分别应当是封闭式或半封闭式过渡短语。

当前第1页1