用于产生核酸多样性的方法和系统与流程-j9九游会真人

文档序号：35889046发布日期：2023-10-28 19:06阅读：7来源：国知局

1.本发明涉及用于在重组细胞中体内产生靶向核酸多样性的方法。本发明还涉及用于产生靶向核酸多样性的重组细胞系统及其用途。

背景技术：

2.定向进化模拟天然选择，目的是产生目标的核酸和/或蛋白质的有用变体。突变可以随机地，通过诱变剂，或以靶向方式在目的基因中引入，任选地随后选择目的性状。当目标是进化特定基因或基因集合时，靶向多样性产生可用于限制选择目的基因之外的突变的机会。与单纯通过随机诱变的方法相比，定向诱变还可以确保评估更多的靶基因序列。靶向方法的仔细设计还可以确保有效探索序列空间，例如通过探索特定的目标残基处的序列变异或通过避免无义突变。这种定向诱变典型地在体外通过各种分子生物学技术，包括易错pcr，或通过合理设计和构建质粒文库进行。然而，这些步骤可能较麻烦，尤其是进行多次进化循环时。以靶向方式直接在体内使序列多样化的能力是定向进化的长期目标，也是朝向连续进化设置的步骤，其中多样化和选择都可以在体内发生。
3.自然界中存在有产生靶向多样性的实例。抗体多样性的产生是人类适应性免疫系统的关键特征。在细菌中，产生多样性的逆转录元件(retroelement，dgr)能够在噬菌体蛋白和细菌蛋白中引入受控的序列多样性，所述噬菌体蛋白和细菌蛋白参与与其环境的相互作用。最初在博德特氏菌噬菌体bpp-1[1]中表征的dgr，现在广泛存在于各种噬菌体、细菌和古细菌中[2]。在dgr重组中，基因组内的可变区将被在过程中由近重复模板区产生的dna片段覆盖，该过程涉及模板的转录、易错逆转录和重组。易错逆转录确保在可变区引入基因多样性。迄今在表征的dgr系统中，两种dgr蛋白对于该过程是必需的，逆转录酶主要亚基(rt)和辅助亚基(avd)，其共同形成活性逆转录酶复合物([1]；[3]；[4]；[5]；[6]；[7])。通过生物信息学分析，在一些dgr中还鉴定了由hrdc(解旋酶和rna酶d c-端)结构域组成的替代辅助基因[3]。大多数可变区已在模板区和两个dgr蛋白的几千碱基对(kb)内被鉴定([3]；[2])。定义诱变窗的模板区被嵌入avd和rt编码序列内，位于从avd基因的末端到rt基因的起始的转录rna片段内，称为间隔子rna，dgr rna或dgr间隔子rna。dgr rt复合物在自引发过程中从mrna无疑地产生cdna拷贝[6]。dgr rt中的特定偏差掺入随机的核苷酸代替腺嘌呤。然后，用该cdna拷贝覆盖可变区，从而获得基因中的a至n突变。由于a残基在序列中的位置，总体蛋白质结构(典型地为c型凝集素折叠)典型地会被保留，而结合沟中的关键残基改变([1]；[8])。就博德特氏菌(bordetella)而言，dgr重组可以引入10
13
个独特氨基酸序列的多样性。然而，密码子中a核苷酸的位置(即仅在密码子的第一和第二位置)否定了发生无义突变的可能性([1]；[8])。dgr系统已被用来将诱变重定向至选定的目标序列[9]，然而这仅通过在其天然宿主博德特氏菌属菌株中使用dgr来实现，且保持将识别序列放置在紧邻所需诱变窗口(imh序列)的要求，这极大地限制了其作为遗传工具的可能应用。
[0004]
虽然dgr尚未在定向进化设置中得到利用，但已经提出了大量的人工定向诱变策略，且近年来数量已经成倍增加，表明在该领域中迫切需要改进([10]；[11])。事实上，精准
诱变编码dna的特定片段的能力是扩展到生物技术的所有子领域(从酶工程、疫苗开发到诊断开发)的应用的基石。最近由等[10]进行了综述，定向诱变技术可以根据几个参数分类，包括诱变速率和跨度，以及其中产生变体序列文库的条件。
[0005]
迄今为止所开发的十几种定向诱变技术中，只有少数定向诱变技术可以进行体内诱变。
[0006]
在evolvr系统中，d10a cas9切口酶(cas9n1)用于将融合的易错切口翻译dna聚合酶定位到基因组的所需区域(halperin et al.2018)。cas9n1在一条链上切口，产生3’端，其可通过融合dna聚合酶延伸，然后修复[13]。这种再聚合会导致核苷酸错误掺入，且可导致cas9切口位点上游的dna突变率峰值增加108倍，每代每102个核苷酸约有1个突变[13]。通过改变融合的聚合酶，可以调节evolvr系统以改变突变率以及增加或减少突变优先发生的窗口大小。evolvr的局限性是其容易引入无义突变。大肠杆菌(e.coli)总体突变率也受诱变聚合酶融合的存在的影响，其增加了120倍-555倍，且提高了在目的区域外选择突变的风险。
[0007]
t7-diva系统依赖于诱变的t7 rna聚合酶-碱基脱氨酶融合体(bd-t7rnap)。诱变窗口由t7启动子在上游划定，且由dcas9靶向划定下游，作为bd-t7rnap延伸的“路障”[14]。对t7启动子的要求意味着，在其天然基因组环境中对靶序列诱变是不可行的，且碱基脱氨酶突变谱限于单个可能的核苷酸取代(例如c》t)，限制了其产生用于探索蛋白质序列多样性的定制诱变的能力。
[0008]
由simon等开发的系统依赖工程化的逆转录子(另一种细菌逆转录因子，与dgr无关)。诱变活性由将逆转录子与诱变t7 rna聚合酶偶联产生[15]。它们在目标区域获得的突变率比背景细胞突变率高190倍(每代高达6.3
×
10-7)，诱变窗口仅限于31bp(因此仅覆盖蛋白质编码序列中最多10个氨基酸)。这限制了其生成定制诱变以探索蛋白质序列多样性的能力。
[0009]
总之，这些方法的诱变速率低。此外，迄今为止可用的技术都不能控制突变的碱基的确切位置，也不能提供确保引入的突变不会产生终止密码子的机制。因此，非常需要开发用于产生序列多样性的另外其他的方法、系统、组合物和制造品以及利用其的应用。本发明在某些实施方案中满足这些和其他需要。
[0010]
发明简述
[0011]
本发明提供了基于使用诱变逆转录酶的体内靶向多样性产生策略，产生与所需靶序列同源的诱变cdna寡核苷酸，然后通过寡核苷酸重组工程将其重组到基因组或重组载体上任何位置的靶区域内(图1)。该策略在模型实验室生物体大肠杆菌中的功能性实施证实了能够在定向进化中具有多种应用。在某些实施方案中，本发明使得在更精确调节的基因组区域中，在其天然基因组环境中的任何靶的体内诱变潜力增加几个数量级，其全部由紧凑的质粒携带的系统编码。
[0012]
该方法第一次依赖于本文首次公开的两个关键成果：1)基于功能性质粒的诱变逆转录元件平台(或系统)在大肠杆菌中的表达(由天然dgr激发)；以及2)该系统与寡核苷酸重组工程的结合，能够在基因组或重组载体上的任何目标区域中掺入突变(图1)。该系统被命名为dgr重组工程或dgrec。
[0013]
这两个组合元件代表了定向进化应用的重要成果，因为空前数量的蛋白质序列变
体可以在体内以高度靶向的方式从灵活的质粒携带系统产生。在某些实施方案中，实际上可以对来自宿主基因组或重组载体的20至500bp dna序列进行密集诱变，只需将诱变目标指定到dgr间隔子rna基因座中即可。在一些实施方案中，使用多个dgr间隔子rna，其增加了可达到的靶标大小，超过了单个dgr间隔子rna的大小要求。
[0014]
此外，诱变谱可能是高度特异性和可预测的。当使用来自dgr系统的逆转录酶时，在某些实施方案中，腺嘌呤位置可以大概25％的机会取代被a、t、c或g核苷酸取代[7]。这种可预测的诱变提供了设计cdna模板的灵活性，以及提供了重编码靶基因序列的选择，设置一些氨基酸比其他氨基酸更有利的密码子。
[0015]
最后，dgrec系统在真核细胞中具有很大的转座能力。另一种细菌逆转录子(ec86 retron)最近已成功地在不同真核细胞中表达用于基因编辑应用，所述真核细胞包括人类细胞[18]-[20]。此外，尽管dna修复机制在真核和原核细胞中显著不同，但最初在细菌中独特开发的寡核苷酸重组工程的方法也已成功地用于真核细胞[21]，表明dgrec方法应易于转座到真核细胞。
[0016]
在第一方面，本发明提供了方法，包括在重组细胞中表达重组易错逆转录酶(rt)和包含靶序列的重组间隔子rna；制备与所述重组细胞中的dna序列同源的诱变的cdna多核苷酸；在重组细胞中表达重组的重组工程系统；以及在重组细胞中将诱变的cdna与同源dna序列重组。在所述方法的一些实施方案中，所述重组易错逆转录酶(rt)包含基序i/lgxxxsq(seq id no:2)。在一些实施方案中，重组易错rt是源自非诱变逆转录酶的工程化重组易错rt；优选地，重组易错rt是突变体ec86逆转录酶，其包含用基序i/lgxxxsq(seq id no:2)替换基序qgxxxsp(seq id no:1)。
[0017]
在第二方面，本发明提供了方法，其包括在重组细胞中表达重组dgr逆转录酶主要亚基(rt)、重组dgr辅助亚基(avd)和包含靶序列的重组dgr间隔子rna；制备与所述重组细胞中的dna序列同源的诱变的cdna多核苷酸；在重组细胞中表达重组的重组工程系统；以及在重组细胞中将诱变的cdna与同源dna序列重组。在一些实施方案中，重组dgr rt、重组dgr avd、重组dgr间隔子rna和重组的重组工程系统全部由一种或多种重组质粒一起表达，所述重组质粒包含重组dgrrt、重组dgr avd、重组dgr间隔子rna和重组的重组工程系统的编码序列。在一些实施方案中，重组dgr rt和重组dgr avd的编码序列存在于同一质粒上。在一些实施方案中，dgr rt的编码序列与诱导型启动子可操作地连接。在一些实施方案中，重组dgr avd和重组dgr间隔子rna的编码序列与组成型启动子可操作地连接。在一些实施方案中，重组dgr rt、重组dgr avd和重组dgr间隔子rna来自博德特氏菌噬菌体bpp-1。
[0018]
在一些实施方案中，所述重组易错rt具有腺嘌呤诱变活性；优选地，其中所述重组易错rt是包含在腺嘌呤位置降低其错误率的突变的dgr rt，所述突变选自下组：r74a和i181n，所述位置由与seq id no:4的比对确定。
[0019]
在所述方法的一些实施方案中，诱变的靶序列包含70个碱基对。在所述方法的一些实施方案中，诱变的靶序列长为50-120个碱基对。在所述方法的一些实施方案中，诱变的靶序列长为70-100个碱基对。在所述方法的一些实施方案中，诱变的靶序列长为40-200(40、50、70、100、120、150、175、200)个碱基对或更长，特别是长为40-300(40、50、70、100、120、150、175、200、225、250、275或300)个碱基对或更长。在所述方法的一些实施方案中，诱变的靶序列包含少于40个碱基对，特别地30、20个碱基对或更少。
[0020]
在所述方法的一些实施方案中，所述重组的重组工程系统不同于dgr归巢(retrohoming)。在所述方法的一些实施方案中，所述重组的重组工程系统是介导寡聚物重组工程的单链退火蛋白，优选选自下组：噬菌体λ的redβ蛋白、功能性同源物rect及其变体，诸如paprect和csprect，特别是csprect。在所述方法的一些实施方案中，重组频率为至少0.01％。
[0021]
在一些实施方案中，修饰重组细胞中靶序列和/或同源dna序列中的腺嘌呤含量和/或位置，以调节重组频率或控制序列多样性。
[0022]
在所述方法的一些实施方案中，重组频率为0.1％。在所述方法的一些实施方案中，重组频率为至少1％；优选3％或更高；更优选10％或更高。在所述方法的一些实施方案中，靶序列是非细菌序列。在一些实施方案中，所述方法还包括表达诱变序列。
[0023]
在所述方法的一些实施方案中，所述重组细胞是真核细胞。在所述方法的一些实施方案中，所述重组细胞是原核细胞。在所述方法的一些实施方案中，所述原核细胞是细菌细胞。在所述方法的一些实施方案中，所述细菌细胞表达mutl*(显性失活mutl)。在所述方法的一些实施方案中，所述细菌细胞是大肠杆菌细胞。在所述方法的一些实施方案中，缺失大肠杆菌的两个外切核酸酶sbcb和recj以提高重组工程效率。
[0024]
在所述方法的一些实施方案中，所述重组细胞包含至少两种包含靶序列的间隔子rna；特别是至少两种包含靶序列的dgr间隔子rna；优选地，其中多个间隔子rna靶向重组细胞中的相同基因。
[0025]
还提供了根据本发明方法制备的诱变序列文库。
[0026]
还提供了包含诱变序列文库的重组细胞文库。
[0027]
还提供了包含重组易错逆转录酶(rt)和至少一种包含靶序列的重组间隔子rna的重组编码序列的重组细胞。在一些实施方案中，所述细胞还包含重组易错逆转录酶(rt)和包含靶序列的重组间隔子rna。
[0028]
还提供了包含重组dgr rt、重组dgr avd和至少一种包含靶序列的重组dgr间隔子rna的重组编码序列的重组细胞。在一些实施方案中，重组细胞包含一种或多种重组质粒，所述重组质粒一起包含重组dgr rt、重组dgr avd和包含靶序列的重组dgr间隔子rna的编码序列。在一些实施方案中，重组细胞还包含重组dgr rt、重组dgr avd和包含靶序列的重组dgr间隔子rna。在一些实施方案中，重组dgr rt和重组dgr avd的编码序列存在于同一质粒上。在一些实施方案中，dgr rt的编码序列与诱导型启动子可操作地连接。在一些实施方案中，重组dgr avd和重组dgr间隔子rna的编码序列与组成型启动子可操作地连接。在一些实施方案中，重组dgr rt、重组dgr avd和重组dgr间隔子rna来自博德特氏菌噬菌体bpp-1。
[0029]
在一些实施方案中，靶序列包含70个碱基对。在一些实施方案中，靶序列长为50-120个碱基对。在一些实施方案中，靶序列长为70-100个碱基对。在所述方法的一些实施方案中，靶序列长为40-200(40、50、70、100、120、150、175、200)个碱基对或更长，特别是长为40-300(40、50、70、100、120、150、175、200、225、250、275或300)个碱基对或更长。在一些实施方案中，靶序列包含少于40个碱基对，特别地30、20个碱基对或更少。
[0030]
在一些实施方案中，重组细胞还包含表达重组的重组工程系统的编码序列。在一些实施方案中，靶序列是非细菌序列。在一些实施方案中，重组细胞还包含诱变序列的表达产物。
[0031]
在一些实施方案中，重组细胞是真核细胞。在一些实施方案中，重组细胞是原核细胞。在一些实施方案中，原核细胞是细菌细胞。在一些实施方案中，细菌细胞表达mutl*(显性失活mutl)。在一些实施方案中，细菌细胞是大肠杆菌细胞。在一些实施方案中，缺失大肠杆菌的两个外切核酸酶sbcb和recj以提高重组工程效率。
[0032]
本发明还提供了用于产生靶向核酸多样性的试剂盒，其包含一种或多种重组表达质粒，所述重组表达质粒一起包含重组易错逆转录酶(rt)和至少一种包含靶序列的重组间隔子rna的编码序列，以及表达根据本公开的重组的重组工程系统的编码序列；特别地，其包含根据本公开的重组dgr rt、重组dgr avd、重组dgr间隔子rna和介导寡核苷酸重组工程的重组ssap的编码序列；优选地，其包含具有序列seq id no:17的质粒prl014。
[0033]
发明详述
[0034]
本公开报道了第一个基于使用来自天然多样性生成逆转录子(dgr)系统的诱变逆转录酶的靶向多样性生成系统。所述系统的一个实施方案在本文中，以模型实验室生物体大肠杆菌举例说明，能够在定向进化设置中实现各种应用。基于该初始实施方案，公开了几个其他实施方案。示例性实施方案绝不是限制性的。
[0035]
在某些实施方案中，本发明的系统包括以下特征中的一个或多个的任何组合：
[0036]
1)体内诱变，使得不需要通过例如昂贵的寡核苷酸文库合成在体外产生序列变体文库，且不需要将其转化到细菌中，这是技术灵活性的技术瓶颈。在某些实施方案中，体内诱变可以与选择框架偶联以实现连续进化，其可以是定向进化的有力组合。
[0037]
2)在其天然基因组背景中的靶序列的诱变，其可以使得系统可转移至各种所选的靶标，且使得系统可转移至不同的细菌分类群。
[0038]
3)通过将来自dgr系统的易错逆转录酶整合到系统中，用于探索蛋白质序列多样性的定制诱变，选择性地将腺嘌呤突变为任何核苷酸的能力使得在小蛋白质结构域大小的窗口上进行密集诱变，同时保持有用的低无义突变率。
[0039]
方法
[0040]
在第一方面，本发明提供了产生靶向核酸多样性的方法，所述方法包括在重组细胞中表达重组易错逆转录酶(rt)和包含靶序列的重组间隔子rna；制备与所述重组细胞中的dna序列同源的诱变的cdna多核苷酸；在所述重组细胞中表达重组工程系统；以及在重组细胞中将诱变的cdna与同源dna序列重组。
[0041]
根据本发明的多样性生成系统具有模块化配置，因为多样性生成模块和重组工程模块的不同部分是独立的，如实施例中所示。因此，它们可以先验地以几种方式设置以起作用。因此，多样性产生组件的不同部分可全部置于相同的重组载体(诸如质粒)上，分成不同的载体，置于宿主细胞染色体内，或置于载体(诸如质粒)上和宿主细胞染色体内。类似地，重组工程模块可以是载体携带的，诸如质粒携带的，在宿主基因组内，或混合的。此外，在实施例中的模型实验室生物体大肠杆菌中获得的结果显示，多样性产生模块不需要宿主细胞环境来发挥作用，并且因此可用于各种宿主细胞。
[0042]
重组易错逆转录酶(rt)和重组间隔子rna形成功能性酶复合物，其能够使用包含靶序列的间隔子rna作为诱变逆转录的特异性模板。称为模板区(tr)的靶序列对应于间隔子rna的逆转录区的可编辑部分。重组易错逆转录酶(rt)使用包含靶序列的间隔子rna作为rna模板，来进行与重组细胞中的dna序列同源的诱变cdna多核苷酸的聚合。
[0043]
根据本发明的方法可以使用能够与间隔子rna形成功能性酶复合物的任何易错逆转录酶(rt)，所述间隔子rna能够使用包含靶序列的间隔子rna作为宿主细胞中诱变逆转录的特异性模板。重组易错逆转录酶(rt)可包含在宿主细胞中有功能的天然易错逆转录酶(rt)或其变体或片段的序列。或者，重组易错逆转录酶(rt)可以是工程化的易错逆转录酶(rt)，例如由非诱变逆转录酶工程化的。大多数典型rt具有直接与rt模板相互作用的保守基序qgxxxsp(seq id no:1)。在所有dgr rt中，该基序被修饰为i/lgxxxsq(seq id no:2)，其与它们在腺嘌呤位置处的选择性失真度有关(handa等，[25])。可用于实施本发明方法的易错逆转录酶(rt)的非限制性实例包括：来自产生逆转录元件的多样性的逆转录酶和工程化的易错逆转录酶。在一些实施方案中，重组易错逆转录酶(rt)包含基序qgxxxsp或i/lgxxxsq。在一些具体实施方案中，通过用i/lgxxxsq基序(典型dgr rt基序)替换qgxxxsp基序(典型rt基序)，从非诱变逆转录酶工程化重组易错逆转录酶(rt)。
[0044]
在一些实施方案中，重组易错逆转录酶和间隔子rna来自产生多样性的逆转录元件(dgr)。产生多样性的逆转录元件(dgr)是独特的逆转录元件家族，其产生dna的序列多样性以通过引入序列变异和加速靶蛋白的进化而有益于其宿主。它们至少在细菌、古细菌、噬菌体和质粒中广泛地存在。原型dgr存在于噬菌体博德特氏菌(bpp-1)中，且在嗜肺军团菌(legionella pneumophila)和齿垢密螺旋体(treponema denticola)中表征了两种其他dgr(wu等，[3])。有超过一千种不同的dgr系统已被生物信息学地预测(paul等，[2])。本技术的实施例显示dgr的三个组件是必需的且足以装配功能多样性产生系统、逆转录酶主要亚基rt、辅助亚基(诸如avd)，和间隔子rna(参见图1)。在假定的dgr系统中已经识别出这三种组件，表明在根据本发明的方法中可以使用各种已知的dgr系统。可使用本领域公知的方法，诸如本文公开的mcherry荧光测定或可容易地从该系统获得的类似筛选系统，筛选来自这些各种天然dgr系统的替换dgr系统的活性。已知的方法可以适用于设计无细胞表达系统(garamella等，[27])。
[0045]
产生dna序列多样性所必需的两种dgr蛋白、逆转录酶主要亚基(rt)和辅助亚基(诸如avd)，一起形成活性诱变逆转录酶复合物。dgr间隔子rna能够募集诱变逆转录酶复合物并引发称为tr(模板区)的可修饰部分上游的cdna合成(handa等，[6])。间隔子rna(二级和可能的三级)结构形成在天然dgr系统中的该过程中很重要(handa等，[6])。间隔子rna序列包含称为tr(模板区)的可修饰部分，其对应于逆转录区的可编辑部分，两翼为5’和3’保守区，如图4所示的bpp-1dgr间隔子rna。tr可对应于全部或部分逆转录区。可在灵活的大小范围内修饰的模板区(tr)对应于根据本发明的重组dgr间隔子rna中的靶序列。3’区包含含有引发诱变rt复合物所必需的两个自退火片段的自引发发夹。cdna聚合的起始点对应于bpp-1dgr间隔子rna中的a56核糖核苷酸，且是bp-1dgr间隔子rna中tr区上游约4个核苷酸。该核糖核苷酸与cdna共价结合以形成在cdna的5’端包含短rna尾的dna/rna杂交体(图4)。使用bbp-1dgr间隔子rna编码序列(seq id no:3的dna序列)作为参比序列，5’保守区是位置1-20；模板区(tr)是位置21-136；以及3’保守区是位置137-158。所示位置通过与bpp-1dgr间隔子rna参考序列比对确定。本领域技术人员可容易地确定另一个dgr间隔子rna的序列和所述dgr间隔子rna中5’、tr和3’区的位置，通过使用本领域可获得的适当软件(诸如blast、clustalw等)与参考序列比对。在重组dgr间隔子rna中，模板区被目标靶序列取代。因此，靶序列对应于dgr间隔子rna的逆转录区(模板区)的全部或部分，其中其可操作地连
接至dgr间隔子rna，特别是连接至其cdna聚合起始点。在重组dgr间隔子rna中，dgr间隔子rna的模板区序列被缺失并用目的靶序列取代，通常靶序列取代所有模板区序列。重组dgr rna的活性可以使用本领域技术人员已知的方法来评估，诸如本文公开的mcherry荧光测定。
[0046]
dgr rt是易错逆转录酶，其大小在约300-约500个氨基酸的范围内，且含有rt基序1-7，其对应于其他聚合酶的palm和finger结构域。dgr rt含有位于基序2和3之间的基序2a，其存在于ii组内含子，非ltr逆转录元件和逆转录子中，但不存在于其他rt(诸如逆转录病毒或端粒酶rt)中(综述，wu等，[3])。dgr rt可以选自rvt_1pfam家族(pf0078)，其携带i/lgxxxxsq基序代替原型qgxxxsp基序(pfam hmm标志的位置133-140)。
[0047]
附属基因avd编码具有桶结构并形成同源五聚体的必需的128氨基酸蛋白质。avd基因的保守性非常差，但长度相似。avd蛋白结合逆转录酶(rt)，这两种蛋白之间的结合是诱变所需的。avd是高碱性的并在体外结合dna和rna，但没有可检测的序列特异性。与核酸结合中的作用一致，avd是强碱，计算的pi的平均值为9.5
±
0.7(综述，wu等，[3])。
[0048]
在博德特氏菌噬菌体bpp-1中，dgr逆转录酶由brt基因(gene id：2717203)编码，其对应于来自bpp-1完整基因组序列(如2020年12月20日登录的genbank/ncbi登录号nc_005357.1)的位置1756-2742的互补序列的987bp序列。bpp-1dgr逆转录酶(brt)具有如在2020年12月20日登录的genbank/ncbi登录号np_958675.1的328氨基酸序列，或如在2020年12月2日登录的uniprotkb登录号q775d8(seq id no:4)。bpp-1dgr辅助蛋白avd由avd基因(geneid：2717200)编码，其对应于来自bpp-1完整基因组序列(如2020年12月20日登录的genbank/ncbi登录号nc_005357.1)的位置3021-3407的互补序列的387bp序列。bpp-1avd(bavd)蛋白质具有如2020年12月20日登录的genbank/ncbi登录号np_958676.1的128氨基酸序列(seq id no:5)。本领域技术人员可使用本领域可获得的适当软件，诸如blast、clustalw等，通过与参考序列比对，容易地确定另一种dgr逆转录酶和辅助蛋白(诸如avd)的序列。
[0049]
根据本发明的重组dgr rt、重组dgr辅助蛋白(诸如avd)和重组dgr间隔子rna可选自博德特氏菌噬菌体bpp-1、嗜肺军团菌(legionella pneumophila)、齿垢密螺旋体(treponema denticola)的dgr或其功能性直向同源物(paul等，[2]；wu等，[3])和其功能变体或片段。
[0050]
博德特氏菌bpp-1、军团菌或密螺旋体dgr的功能性直向同源物是指直向同源物rt、辅助蛋白(诸如avd)或其他，以及由直向同源基因编码的间隔子rna，其形成功能性酶复合物，该复合物能够使用间隔子rna作为诱变逆转录的特异性模板。
[0051]
间隔子rna模板上的诱变逆转录可在本领域技术人员熟知的测定中评估，如实施例中公开的mcherry荧光。简言之，将包含整合在其基因组中的mcherry基因表达盒的报告大肠杆菌菌株(srl002)与用于表达测试的dgr rt和源自prl014的avd蛋白的质粒以及用于表达测试的dgr间隔子rna的质粒共转化，所述间隔子rna被工程化用于靶向mcherry基因和源自pam011的寡核苷酸重组酶csprect。将待测定的dgr rt克隆到可由dapg诱导的phlf启动子的控制下，替代prl014中的brt。将待测定的avd蛋白克隆至j23119启动子的控制下，替代prl014中的bavd。通过用tr_am011(seq id no:19；图3)替换其tr区，将待测定的dgr间隔子rna工程化以靶向mcherry基因。然后，在j23119启动子的控制下克隆工程化的dgr，替代
pam011中的间隔子rna。用编码失活rt的对照质粒共转化的srl002用作阴性对照。诱导蛋白质表达后48小时，通过非荧光菌落的百分比测量dgr系统(rt、avd、间隔子rna)的活性。阴性对照中未检测到非荧光菌落，表明测定的特异性。
[0052]
使用此前表征的dgr的功能性直向同源物可以改善大肠杆菌中的dgrec效率，并且dgrec变体的多样性将使得该技术更适合于转移到其他细菌物种中或适合于真核生物。
[0053]
在一些具体实施方案中，重组dgr rt、重组dgr avd和重组dgr间隔子rna来自细菌、古细菌、噬菌体或质粒，其选自下组：军团菌(legionella)或trepanoma染色体dgr、拟杆菌汉克氏噬菌体(bacteroides hankyphage)dgr或博德特氏菌噬菌体bpp-1；优选选自博德特氏菌噬菌体bpp-1。
[0054]
根据本发明的重组dgr rt、重组dgr辅助蛋白(诸如avd)和重组dgr间隔子rna可以来自相同的dgr(例如相同的生物体)或来自不同的dgr(例如来自不同的生物体)。在一些实施方案中，根据本发明的重组dgr辅助蛋白(诸如avd)和重组dgr间隔子rna来自相同的dgr；优选来自博德特氏菌属噬菌体bpp-1。
[0055]
在一些具体的实施方案中，所述重组dgr rt包含典型基序(canonical motif)i/lgxxxsq。
[0056]
在一些具体的实施方案中，所述重组dgr rt包含与seq id no:4具有至少70％、75％、80％、85％、90％、95％、96％、97％、98％、99％同一性或100％同一性的序列，优选地该序列包含典型基序i/lgxxxsq。
[0057]
在一些具体的实施方案中，重组dgr辅助亚基，特别是重组dgr avd，包含与seq id no:5具有至少70％、75％、80％、85％、90％、95％、96％、97％、98％、99％同一性或100％同一性的序列。
[0058]
如本文所用，术语“变体”是指包含与天然序列具有至少70％序列同一性的氨基酸序列的多肽。术语“变体”是指具有天然序列活性的功能性变体。本公开还涵盖天然序列的功能性片段或其变体。变体或片段的活性可以使用本领域技术人员熟知的方法(诸如本文公开的)来评估。特别地，功能性rt变体、辅助蛋白变体和间隔子rna变体形成功能性酶复合物，其能够使用间隔子rna作为诱变逆转录的特异性模板。
[0059]
氨基酸序列或核苷酸序列同一性百分比定义为，在比对序列并在必要时引入缺口以实现最大序列同一性且不将氨基酸序列的任何保守取代视为序列同一性的一部分，与参考序列相同的比较序列中的氨基酸残基或核苷酸的百分比。用于测定氨基酸序列同一性百分比的比对可以本领域技术人员已知的各种方式实现，例如使用公众可获得的计算机软件，诸如gcg(genetics computer group,program manual for the gcg package,version 7,madison,wisconsin)堆积程序，或任何序列比较算法，诸如blast(altschul et al.,j.mol.biol.,1990,215,403-)、fasta或clustalw。当使用这种软件时，优选地使用默认参数。
[0060]
在一些实施方案中，术语“变体”是指具有通过少于30、25、20、15、10或5个氨基酸的取代、插入和/或缺失，而不同于天然序列的氨基酸序列的多肽。在优选实施方案中，所述变体与天然序列的不同之处在于一个或多个保守取代，优选地少于15、10或5个保守取代。保守取代的实例选自下组：碱性氨基酸(精氨酸、赖氨酸和组氨酸)，酸性氨基酸(谷氨酸和天冬氨酸)，极性氨基酸(谷氨酰胺和天冬酰胺)，疏水性氨基酸(甲硫氨酸、亮氨酸、异亮氨
酸和缬氨酸)，芳族氨基酸(苯丙氨酸、色氨酸和酪氨酸)和小氨基酸(甘氨酸、丙氨酸、丝氨酸和苏氨酸)。
[0061]
在一些实施方案中，重组易错rt是源自非诱变逆转录酶(诸如ec86逆转录酶)的工程化重组易错rt。在一些优选的实施方案中，重组易错rt是被替换为携带基序i/lgxxxsq代替原型qgxxxsp基序的突变体ec86逆转录子逆转录酶。该保守基序存在于dgr逆转录酶中，且与其在腺嘌呤位置的选择性失真度相关(handa等，[25])。
[0062]
在一些实施方案中，重组易错rt，特别是重组dgr rt，具有腺嘌呤诱变活性。这意味着诱变将随机发生在腺嘌呤位置。在腺嘌呤(a)位置掺入任何核苷酸的机会约25％，其给出了方便模型来预测变体和文库大小。然而，实际rt误差可能偏离此规则[25]：其可以从一个a位置到另一个位置变化，且错误也可在非a核苷酸的较低的频率下发生。
[0063]
在一些具体的实施方案中，重组易错rt，特别是重组dgr rt，包含调节(增加或减少)其错误率的突变。在一些优选的实施方案中，重组dgr rt包含在腺嘌呤位置降低其错误率的突变，所述突变选自下组：r74a和i181n，所述位置由与seq id no:4的比对确定。这些变体在handa等的[25]中公开。在一些更优选的实施方案中，包含r74a突变的重组dgr rt由序列seq id no:9编码；和/或包含i181突变的重组dgr rt由序列seq id no:10编码。
[0064]
根据本发明的方法使用与天然dgr重组系统不同的重组工程系统(“归巢(retrohoming)”)。重组工程系统是包含重组的重组工程酶或由其组成。根据本发明的方法可以使用本领域熟知的任何基于单链寡核苷酸的重组工程方法(wannier等，2021[26])。重组工程是体内同源重组介导的基因工程。该方法可以将基因dna改造掺入染色体的任何dna序列中或克隆到在大肠杆菌或其他重组工程-促进细胞中复制的载体上。用单链dna重组可用于产生单或多簇点突变、小或大的缺失和小的插入。寡核苷酸重组依赖于人工合成的单链寡核苷酸在开放复制叉处的滞后链上退火至靶dna基因座上(等，[10])。寡核苷酸重组工程需要特定的单链dna退火蛋白(ssap)，诸如源自red/et重组系统，一种基于λ噬菌体的red操纵子或来自rec噬菌体的rece/rect的有效同源重组系统。单链dna退火蛋白特别包括大肠杆菌的噬菌体λ的redβ蛋白、其功能性同源物rect及其变体，诸如paprect和csprect，以及类似系统(wannier et al.,pnas,2020,117,13689-13698[40])。csprect蛋白具有如2019年6月1日登录的genbank/ncbi登录号wp_00672078.2(seq id no:6)的270氨基酸序列。
[0065]
在一些优选的实施方案中，细胞、易错rt(诸如dgr rt)、间隔子rna(诸如dgr间隔子rna)和重组工程系统不是来自相同的生物体，这表示它们在自然界中从不一起存在。易错rt(诸如dgr rt)和间隔子rna(诸如dgr间隔子rna)可来自同一生物体或不同生物体；优选地，dgr rt和dgr间隔子rna来自同一生物体。在一些优选的实施方案中，所述重组工程系统与易错rt和间隔子rna异源，这表示重组工程系统来源于与易错rt和间隔子rna不同的生物体。在一些优选的实施方案中，所述细胞与易错rt和间隔子rna异源，这表示细胞来源于与易错rt和间隔子rna不同的生物体。在一些优选的实施方案中，重组工程系统与细胞和易错rt和间隔子也异源，这表示细胞来源于与易错rt和间隔子rna以及重组工程系统不同的生物体。
[0066]
在所述方法的一些实施方案中，重组工程系统或酶是介导寡核苷酸重组工程的重组单链退火蛋白(ssap)，其选自下组：噬菌体λ的redβ蛋白、功能性同源物rect或rect及其
变体，诸如paprect和csprect；优选csprect。
[0067]
在一些实施方案中，介导寡核苷酸重组工程的重组单链退火蛋白(ssap)包含与seq id no:6具有至少70％、75％、80％、85％、90％、95％、96％、97％、98％、99％同一性或100％同一性的序列。
[0068]
易错rt(诸如dgr rt)使用包含靶序列的间隔子rna作为模板，以产生诱变靶序列，所述靶序列形式为与重组细胞中的dna序列同源的cdna多核苷酸。然后，在重组细胞中表达的重组工程系统将诱变的cdna多核苷酸与重组细胞中的同源dna序列重组，以产生包含诱变的靶序列(诱变dna序列)的dna序列变体。将重组细胞中的同源dna序列命名为诱变靶标、诱变窗、可变区、靶基因区、靶向区或靶向序列。间隔子rna中的靶序列定义了重组细胞中基因组或重组载体上的诱变窗口。靶序列不必与诱变窗口相同，但与靶序列相比可具有几个错配。如下所解释的，靶序列可以包含诱变窗口的重编码版本或突变版本，以使得在靶序列的诱变中具有更多的灵活性。逆转录区必须含有与基因组或重组载体上的靶区域的同源性，其能使cdna重组。与靶区域的同源性可发生在整个cdna中，或仅发生在cdna的一部分中。cdna中可能存在几个不连续的同源区。存在于两个同源区之间的非同源区在重组后将取代靶区中的相应序列。
[0069]
靶序列可以是使用本发明方法诱变或多样化的任何目的核酸序列，包括编码序列和非编码序列。靶序列和诱变的靶序列通常为20-500个碱基/碱基对。在所述方法的一些实施方案中，所述靶序列和/或诱变的靶序列包含70个碱基对。在所述方法的一些实施方案中，靶序列和/或诱变的靶序列长为50-120个碱基对。在所述方法的一些实施方案中，靶序列和/或诱变的靶序列的长度为70-100个碱基对。在所述方法的一些实施方案中，靶序列和/或诱变的靶序列为40-200(40、50、70、100、120、150、175、200)个碱基对或更长，特别地长为40-300(40、50、70、100、120、150、175、200、225、250、275或300)个碱基对或更长。在所述方法的一些实施方案中，所述靶序列和/或诱变的靶序列包含少于40个碱基对，特别地30、20个碱基对或更少。
[0070]
诱变的靶序列和诱变靶标具有足够量的序列同一性以允许它们之间发生同源重组。体内重组所需的序列同源性的最小长度是本领域公知的(特别地，参见wannier et al.,2021[26],thomason,curr.protocol.mol.biol.,2014,106:1.16.1-39)。与靶区域的同源性可发生在整个cdna中，或仅发生在cdna的一部分中。cdna中可能存在几个不连续的同源区。存在于两个同源区之间的非同源区在重组后将取代基因组或重组载体上的靶区域中的相应序列。
[0071]
在一些实施方案中，修饰重组细胞中靶序列(tr区)和/或同源dna序列(诱变靶标或靶向序列)中的腺嘌呤含量(百分比)和/或位置以调节重组频率或控制序列多样性。在一些优选的实施方案中，靶序列含有不超过16％的腺嘌呤。
[0072]
重组工程效率随着ssdna和靶序列之间错配的数量而降低。由于这些限制，可能需要最大化rt产生的cdna与靶序列之间的同一性。这可以通过最小化靶序列(tr区)中腺嘌呤的数量来实现。也可以重编码靶基因区以最小化靶序列中腺嘌呤的数量，从而也能减少tr区中腺嘌呤的数量。例如，成功地使用了含有16％腺嘌呤的靶序列(tr区)。重要的是，重编码靶基因区域还提供了在tr设计中给予更大灵活性的益处，以通过策略性地选择在这些位置含有更多腺嘌呤的密码子(由于密码子冗余)来选择将被诱变的位置。最后，当在tr序列
与其靶序列之间添加错配时，tr设计在诱变谱中提供另一层灵活性和控制。tr错配可以“强制”掺入除腺嘌呤以外的给定核苷酸(因此迫使蛋白质变体文库中的给定氨基酸)，或错配可以通过添加腺嘌呤在该位置“迫使”更高的可变性。
[0073]
在一些实施方案中，设计靶序列方向以优化重组效率。当寡聚物在dna复制过程中与滞后链退火时，获得最大的重组工程效率，这可以根据给定基因在染色体中相对于其复制起点和终点的位置和方向来鉴定(wannier等，[26]中详述的方法)。因此，通过适当设计靶序列方向可以提高重组工程效率。如果对基因元件(例如噬菌体或质粒)的滞后链存有疑问，则始终可以设计两个tr方向以确保与靶序列的滞后链退火。
[0074]
在所述方法的一些实施方案中，所述重组频率为至少0.01％。在所述方法的一些实施方案中，重组频率为0.1％。在所述方法的一些实施方案中，所述重组频率为至少1％；优选3％或更高；更优选10％或更高。
[0075]
在所述方法的一些实施方案中，靶序列是非细菌序列。
[0076]
在所述方法的一些实施方案中，所述重组细胞包含至少两种包含靶序列的间隔子rna；特别是至少两种包含靶序列的dgr间隔子rna。在一些优选实施方案中，多个间隔子rna靶向重组细胞中的相同基因。
[0077]
如本文所用，在重组细胞(宿主细胞)中“表达”重组蛋白或rna是指，由在细胞中引入重组蛋白或rna产生的过程；引入以可表达形式或其组合编码所述蛋白质或rna的核酸分子。
[0078]
在所述方法的一些实施方案中，所述重组细胞包含重组易错逆转录酶(rt)、包含靶序列的重组间隔子rna和重组工程系统的编码序列；特别地，重组细胞包含重组dgr逆转录酶主要亚基(rt)、重组dgr辅助亚基(avd)、包含靶序列的重组dgr间隔子rna和重组工程系统的编码序列。
[0079]
在一些具体的实施方案中，重组易错逆转录酶(rt)，特别是重组dgr逆转录酶主要亚基(rt)、重组dgr辅助亚基(avd)和重组工程系统(诸如重组ssap，特别是csprect)的至少一种编码序列被密码子优化以在宿主细胞中表达。通过增加靶基因的翻译效率使用密码子优化来提高活生物体中的蛋白质表达水平。用于在所需宿主中进行密码子优化的合适方法和软件是本领域熟知的且可公开获得(参见例如，raab et al.,systems and synthetic biology,2010,4,(3),215-225中的geneoptimizer软件套装)。核酸构建体序列的密码子优化涉及(蛋白质)编码序列，但不涉及核酸构建体的其他(非编码)序列。
[0080]
在一些优选的实施方案中，根据本公开的编码序列被密码子优化用于在大肠杆菌中表达。
[0081]
在一些具体实施方案中，重组dgr逆转录酶主亚基(rt)的编码序列与seq id no:7、9或10中的任一个具有至少80％、85％、90％、95％、96％、97％、98％、99％同一性或100％同一性。在一些具体实施方案中，重组dgr辅助亚基(avd)的编码序列与seq id no:11具有至少80％、85％、90％、95％、96％、97％、98％、99％同一性或100％同一性。在一些具体的实施方案中，重组csprect的编码序列与seq id no:14具有至少80％、85％、90％、95％、96％、97％、98％、99％同一性或100％同一性。
[0082]
根据本公开的编码序列可在重组细胞(宿主细胞或宿主)中表达。在一些实施方案中，编码序列可操作地连接至合适的调节序列，用于其在重组细胞(宿主细胞)中的表达。本
领域熟知的这些序列特别地包括启动子和能够进一步控制转基因表达的其他调节序列，诸如但不限于增强子或激活子、终止子、kozak序列和内含子(真核生物中)、核糖体结合位点(rbs)(原核生物中)。
[0083]
在一些具体的实施方案中，所述编码序列与启动子可操作地连接。启动子可以是在重组细胞中有功能的遍在的、组成型或诱导型启动子。适于在大肠杆菌中表达的启动子的非限制性实例包含：诱导型启动子(诸如phlf(dapg诱导的)、pm(xyls诱导的)、ptet(atc诱导的)、pbad(阿拉伯糖诱导的))和组成型启动子(诸如j23119(强组成型启动子)、pr(来自λ噬菌体的强组成型启动子))。在一些优选的实施方案中，重组dgr rt的编码序列可操作地连接至诱导型启动子，特别是包含序列seq id no:13的phlf启动子。在一些优选的实施方案中，重组dgr avd和重组dgr间隔子rna的编码序列与组成型启动子可操作地连接。本领域熟知的多顺反子表达系统可用于驱动来自相同启动子的若干dgr间隔子rna的表达。在一些优选的实施方案中，重组ssap，特别是csprect的编码序列与诱导型启动子，特别是pm启动子/xyls激活子可操作地连接。在一些优选的实施方案中，编码序列进一步可操作地连接至核糖体结合位点。
[0084]
包含根据本公开的编码序列的核酸可以是可在重组细胞中表达的重组、合成或半合成核酸。核酸可以是dna rna或混合分子，其可以进一步被修饰和/或包括在任何合适的表达载体中。如本文所用，术语“载体”和“表达载体”是指载体，通过该载体可以将dna或rna序列(例如外源基因)引入并维持到宿主细胞中，从而转化宿主并促进所引入序列的表达(例如转录和翻译)。重组载体可以是用于真核或原核表达的载体，诸如质粒，用于导入细菌的噬菌体、能够转化酵母的yac、转座子、微环(mini-circle)、病毒载体或任何其他表达载体。载体可以是复制型载体，诸如复制型质粒。复制载体(诸如复制质粒)可以是低拷贝数或高拷贝数载体或质粒。
[0085]
在一些实施方案中，编码序列是整合到重组细胞基因组中或插入表达载体中的dna。在一些具体的实施方案中，表达载体是原核生物表达载体，诸如质粒、噬菌体或转座子。
[0086]
多样性生成系统具有模块化配置，因为多样性产生模块和重组工程模块的不同部分是独立的，如实施例中所示。因此，多样性产生和重组工程模块的不同部分可以全部置于相同的重组载体(诸如质粒)上，分成不同的载体，置于宿主细胞染色体内，或置于载体(如质粒上)和宿主细胞染色体内。类似地，重组模块可以是载体携带的，诸如质粒携带的，在宿主基因组内编码的，或混合的。
[0087]
在一些实施方案中，重组dgr rt、重组dgr avd和重组dgr间隔子rna全部由一种或多种重组质粒表达，所述重组质粒一起包含重组dgr rt、重组dgr avd和重组dgr间隔子rna(dgrec系统质粒)的编码序列。在一些实施方案中，重组的重组工程系统，特别是介导寡核苷酸重组工程，更特别是csprect的重组单链退火蛋白(ssap)的编码序列在质粒上。在一些具体的实施方案中，重组dgr rt、重组dgr avd、重组dgr间隔子rna和重组的重组工程系统，特别是介导寡核苷酸重组工程的重组ssap，全部由一种或多种重组质粒一起表达，所述重组质粒包含重组dgr rt、重组dgr avd、重组dgr间隔子rna和重组的重组工程系统，特别是介导寡核苷酸重组工程的重组ssap的编码序列(dgrec系统质粒)。
[0088]
在一些实施方案中，重组dgr rt和重组dgr avd的编码序列存在于同一质粒上。在
一些优选的实施方案中，所述质粒是prl014(图2)或prl038(图5)。prl014具有序列seq id no:17。在一些实施方案中，重组dgr rt、重组dgr avd和重组dgr间隔子rna的编码序列存在于同一质粒上。在一些优选的实施方案中，所述质粒是prl038(图5)。prl038具有序列seq id no:20。
[0089]
在一些实施方案中，重组的重组工程系统，特别是介导寡核苷酸重组工程的重组单链退火蛋白(ssap)，更特别是csprect和重组dgr间隔子rna的编码序列存在于同一质粒上。
[0090]
在一些实施方案中，所述方法包括将靶序列克隆到包含工程化的dgr间隔子rna的质粒中的步骤，所述工程化的dgr间隔子rna包含替换模板区(tr)的克隆盒，优选与组成型启动子可操作地连接。在一些具体的实施方案中，所述克隆盒包含ccdb基因，其两翼为汇合方向的相同iis型限制性位点的拷贝，形成不同的单链突出端(粘性末端)，并且使用合成的双链寡核苷酸将靶序列克隆到质粒中，所述合成的双链寡核苷酸包含两翼为不同方向的相同iis型限制性位点的拷贝的靶序列，或具有与受体载体iis型限制性位点突出端匹配的4个碱基的单链突出端(粘性末端)的双链核苷酸。在一些具体的实施方案中，第一类质粒还包含重组的重组工程系统的编码序列，特别是介导寡核苷酸重组工程的重组单链退火蛋白(ssap)，更特别是csprect；优选与诱导型启动子可操作地连接。在一些优选的实施方案中，所述质粒是prl021(图5)。prl021具有序列seq id no:18。在一些优选的实施方案中，第二类质粒还包含重组dgr rt和重组dgr avd的编码序列。在一些更优选的实施方案中，所述质粒是prl038(图5)。prl038具有序列seq id no:20。在一些具体的实施方案中，所述质粒包含不同iis型限制位点两侧的至少两个克隆盒。这可以将不同的靶标克隆到相同的质粒中。在一些优选的实施方案中，所述方法使用如上定义的第一类和第二类的质粒。这使得仅使用两个质粒同时诱变多个靶标，以克隆靶标并表达dgrec。
[0091]
诱变靶标的放置完全自由，拓宽了dgrec诱变的应用可能性。值得注意的是，靶标可以在宿主染色体中的任何地方，其可以常驻的质粒上(例如，其可以添加到dgrec系统质粒之一上)，靶标也可以放置在待由宿主转移或接收的可移动基因元件上，或其可以在将用于感染宿主细胞的噬菌体基因组内。值得注意的是，如果靶标在宿主细胞内具有高拷贝数(例如，在高拷贝质粒上)，不是所有的靶都将被同时诱变。为观察靶基因的单个变体的作用，需要培养细胞，直到分离出携带不同变体的质粒。另一方面，靶基因的较高拷贝数可能有利于更多的dgr诱变事件，从而比每个细胞单拷贝靶基因更快地增加变体文库大小。靶序列的多个拷贝也可置于染色体内的不同位置，或作为单个基因内的重复序列以在两个位置平行诱变。靶标可以在噬菌体的溶原循环或裂解循环期间被诱变。
[0092]
在一些实施方案中，靶序列(诱变靶标)在细胞基因组中，或在可移动基因元件上，诸如质粒、转座子或噬菌体。可移动基因元件在重组细胞中复制。在一些具体的实施方案中，诱变靶标位于细胞基因组中，在dgrec质粒之一上或在感染重组细胞的重组噬菌体的噬菌体基因组内。
[0093]
在所述方法的一些实施方案中，所述重组细胞是真核细胞。在所述方法的一些实施方案中，所述重组细胞是原核细胞。原核细胞特别为细菌。真核生物细胞包括酵母、昆虫细胞和哺乳动物细胞。在所述方法的一些实施方案中，所述原核细胞是细菌细胞。在所述方法的一些实施方案中，所述细菌细胞是大肠杆菌细胞。可以选择易错重组易错rt，特别是重
组dgr rt，和重组的重组工程系统，以便在重组细胞中获得最佳效率。例如，可以选择paprect以在铜绿假单胞菌(pseudomonas aeruginosa)中实现dgrec。
[0094]
为提高重组工程效率，切断宿主中的一些内源dna修复基因，特别是细菌中的mutl/s、sbcb和/或recj，可能是有利的。在所述方法的一些实施方案中，至少一种dna修复基因在重组细胞中被灭活。在一些具体的实施方案中，mutl/s、sbcb和recj中的至少一种失活。dna修复基因可以通过本领域已知的标准方法失活，诸如基因的缺失或基因的表达或显性失活突变体。在所述方法的一些实施方案中，所述大肠杆菌缺失两个外切核酸酶sbcb和recj以提高重组工程效率。在所述方法的一些实施方案中，所述细菌细胞表达mutl*(显性失活mutl)，特别地，mutl*由包含序列seq id no:15的核苷酸序列编码。
[0095]
在一些实施方案中，所述方法还包括表达诱变的dna序列。
[0096]
由于其腺嘌呤随机化机制，该技术产生变体文库，所述变体根据腺嘌呤的数量及其在编码序列中的位置而产生数个数量级的变化。对于含有7个腺嘌呤的tr序列，潜在文库大小达到47(～104)个dna序列变体。对于含有16个腺嘌呤的tr序列，其达到4
16
(～109)个dna序列变体。就蛋白质序列变体而言，文库大小甚至更广泛地变化，取决于腺嘌呤在密码子内的策略性放置。例如，针对实施例中公开的sacb设计的不同tr能够产生10
9-10
15
个潜在蛋白序列变体的文库大小。然而，由于博德特氏菌噬菌体中天然存在的dgr系统可潜在地产生10
13
个蛋白序列变体，而密螺旋体中的另一个dgr系统可潜在地产生10
20
个蛋白序列变体，因此仍然存在改进的潜力。
[0097]
文库、细胞、载体、系统、试剂盒
[0098]
还提供了根据本发明方法制备的诱变序列文库。
[0099]
在一些实施方案中，不同tr序列的文库由剪切的dna片段组成，例如使用超声处理。将片段修复、加尾，并克隆到用于tr克隆的定制载体，诸如prl021或prl038中。dgrec tr文库的创建——使用例如由剪切的dna片段制成的tr文库——可以跨越整个生物合成基因簇的更广泛的诱变方法，因为细胞内的每个单独的dgrec系统会诱变最初被剪切的dna区域的不同部分。类似的方法用于ec86细菌逆转录元件(schubert et al.,biorxiv 2020,[23])。
[0100]
还提供了包含诱变序列文库的重组细胞文库。
[0101]
还提供了包含根据本公开的重组易错逆转录酶(rt)和至少一种包含靶序列的重组间隔子rna的重组编码序列的重组细胞。在一些实施方案中，所述细胞还包含重组易错逆转录酶(rt)和至少一种包含靶序列的重组间隔子rna。
[0102]
在一些实施方案中，所述重组细胞包含根据本公开的重组dgr rt、重组dgr avd和至少一种包含靶序列的重组dgr间隔子rna的重组编码序列。在一些具体的实施方案中，所述细胞包含一种或多种重组质粒，所述重组质粒一起包含重组dgr rt、重组dgr avd和包含靶序列的重组dgr间隔子rna的编码序列。在一些具体的实施方案中，所述细胞还包含重组dgr rt、重组dgr avd和包含靶序列的重组dgr间隔子rna。在一些优选的实施方案中，dgr rt的编码序列与诱导型启动子可操作地连接。在一些优选的实施方案中，重组dgr avd和重组dgr间隔子rna的编码序列与组成型启动子可操作地连接。在一些优选的实施方案中，所述重组dgr rt、重组dgr avd和重组dgr间隔子rna来自博德特氏菌噬菌体bpp-1。在一些优选的实施方案中，重组dgr rt和重组dgr avd的编码序列存在于同一质粒上，特别地为
prl014。
[0103]
在一些优选的实施方案中，所述细胞还包含表达重组的重组工程系统的编码序列，所述重组的重组工程系统诸如介导寡核苷酸重组工程的重组单链退火蛋白(ssap)，特别是根据本公开的重组csprect。在一些具体的实施方案中，介导寡核苷酸重组工程，特别是重组csprect的重组单链退火蛋白(ssap)和包含靶序列的dgr间隔子rna的编码序列存在于同一质粒上。在一些优选的实施方案中，所述细胞还包含介导寡核苷酸重组工程的重组单链退火蛋白(ssap)，特别是根据本公开的重组csprect。在一些优选的实施方案中，所述细胞包含质粒prl021。
[0104]
在一些实施方案中，所述重组细胞是真核细胞。在一些实施方案中，所述重组细胞是原核细胞。在一些具体的实施方案中，所述原核细胞是细菌细胞。在一些具体的实施方案中，所述细菌细胞是大肠杆菌细胞。在一些实施方案中，所述细菌细胞表达mutl*(显性失活mutl)，特别是包含序列seq id no:15的mutl*。在一些实施方案中，所述大肠杆菌缺失两个外切核酸酶sbcb和recj以提高重组工程效率。
[0105]
在重组细胞的一些实施方案中，靶序列包含70个碱基对。在重组细胞的一些实施方案中，靶序列长为50-120个碱基对。在重组细胞的一些实施方案中，靶序列长为70-100个碱基对。在重组细胞的一些实施方案中，靶序列长为50-200(50、75、100、125、150、175、200)个碱基对或更长，例如长为50-300(50、100、125、150、175、200、225、250、275或300)个碱基对或更长。在重组细胞的一些实施方案中，靶序列包含少于50个碱基对，特别地40、30、20个碱基对或更少。
[0106]
在重组细胞的一些实施方案中，靶序列是非细菌序列。
[0107]
在一些实施方案中，重组细胞还包含诱变序列的表达产物。
[0108]
本发明的另一方面涉及用于产生靶向核酸多样性的重组细胞系统，其包含根据本公开的重组细胞。
[0109]
本发明的另一个方面涉及用于进行根据本公开的方法的第一试剂盒，其包含一种或多种的重组表达载体，所述载体包含重组易错逆转录酶(rt)、包含靶序列的重组间隔子rna和重组工程系统的编码序列。在一些具体的实施方案中，所述试剂盒包含一种或多种重组表达质粒，所述重组表达质粒一起包含重组dgr rt、重组dgr avd、重组dgr间隔子rna和介导寡核苷酸重组工程的重组ssap(dgrec系统质粒)的编码序列。在一些优选的实施方案中，所述系统包含质粒prl014。
[0110]
本发明的另一个方面涉及用于进行根据本公开的方法的第二试剂盒，所述第二试剂盒包括：
[0111]-第一重组表达质粒，其包含根据本公开的重组dgr rt和重组dgr avd的编码序列；
[0112]-第二重组表达质粒，其包含介导寡核苷酸重组工程的重组单链退火蛋白(ssap)的编码序列；以及
[0113]-工程化的dgr间隔子rna，其包含插入至少一个克隆盒，替代根据本公开的模板区(tr)，优选第一和第二重组质粒。
[0114]
在第二试剂盒的一些实施方案中，dgr rt的编码序列与诱导型启动子可操作地连接。在一些优选的实施方案中，重组dgr avd和重组dgr间隔子rna的编码序列与组成型启动
子可操作地连接。在一些优选的实施方案中，重组dgr rt、重组dgr avd和重组dgr间隔子rna来自博德特氏菌噬菌体bpp-1。在一些优选的实施方案中，第一质粒是prl014或prl038。
[0115]
在第二试剂盒的一些实施方案中，介导寡核苷酸重组工程的重组单链退火蛋白(ssap)是重组csprect。在第二试剂盒的一些实施方案中，介导寡核苷酸重组的重组单链退火蛋白(ssap)与诱导型启动子可操作地连接。在一些实施方案中，所述克隆盒包含ccdb基因，两翼有汇合方向的相同iis型限制性位点的拷贝。在一些优选的实施方案中，第二质粒是prl038。在一些具体的实施方案中，所述第二质粒包含至少两个克隆盒，两翼有不同iis型的限制性位点，从而可将不同的靶标克隆到同一质粒。在一些优选的实施方案中，第一和第二质粒包含克隆盒。这允许仅使用两个质粒同时诱变多个靶标，以克隆靶标和表达dgr重组工程系统。
[0116]
在一些实施方案中，第二试剂盒还包含靶序列；优选包含靶序列的合成双链寡核苷酸，所述靶序列的两翼是不同方向的相同iis型限制性位点的拷贝，形成非互补粘性末端。
[0117]
用途
[0118]
本发明的另一方面涉及根据本公开的重组细胞系用于体外产生靶向核酸多样性的用途。
[0119]
本发明的另一方面涉及工程化具有所需功能的蛋白质的方法，其包括：
[0120]-提供编码蛋白质的序列；
[0121]-根据本公开的方法产生蛋白质的诱变序列的文库；
[0122]-表达所述文库；优选在细胞中；
[0123]-筛选所表达的蛋白的活性；以及
[0124]-鉴定具有所需功能的蛋白质。
[0125]
表达蛋白的活性可以通过本领域已知的测定法来评估，诸如比色酶测定法，或者表达蛋白与所需配体的结合可以通过本领域已知的测定法来评估，诸如噬菌体展示、细菌展示或酵母展示。
[0126]
dgrec体内靶向多样性系统可以在许多希望改善或改变给定蛋白质功能的应用中实现。由于腺嘌呤诱变的独特dgr机制，可以精确地靶向多样性，且可以在诱变窗口内的单个重组事件中进行多个氨基酸改变(图3c)。诱变窗口大小灵活，dgrec可用于诱变具体的蛋白质位置，诸如酶活性位点或介导相互作用的暴露结构域。例如，dgrec可用于使细菌受体的表面暴露结构域多样化以产生破坏噬菌体附着的变体，从而产生对噬菌体具有抗性的细菌菌株。dgrec系统还可用于通过其尾部纤维的诱变来扩展噬菌体的宿主范围，从而将天然噬菌体dgr系统的能力复制和扩展到缺乏这些逆转录元件的噬菌体上。另外，驱动诱变的腺嘌呤诱变的可预测性提供了重编码靶区域以优化窗口内的诱变谱的选择，更强烈地突变一些选择的关键氨基酸位置。多重定向诱变窗口的能力开启了在不同基因组位置上平行驱动强诱变的可能性。最后，使用例如由剪切的dna片段制成的文库创建dgrec文库允许更广泛的诱变方法，其可以跨越整个生物合成基因簇。
[0127]
除非另有说明，本发明的实施将采用本领域技术人员已知的常规技术。这些技术在文献中有充分的解释。
[0128]
现在将参考附图通过以下实施例举例说明本发明，所述实施例不是限制性的，其
中：
附图说明
[0129]
图1示出了用于实践本发明的某些实施方案的非限制性通用方案。
[0130]
图2显示成功表达合成dgr系统的质粒构建体。cmr：氯霉素抗性基因；kanr：卡那霉素抗性基因；csprect：介导寡聚物重组工程的单链退火蛋白；mutl*：显性失活mutl等位基因关闭dna错配修复系统，提高重组工程效率。
[0131]
图3-具有不同tr靶标的dgrec诱变。a)在48h的dgrec诱导后，连续稀释两个重复培养物，显示出现了具有靶向sacb基因(prl014 pam009)的功能性dgrec系统的蔗糖抗性菌落，但在含有失活rt酶的阴性对照(prl034 pam009)中未出现。b)dgrec诱导靶向宿主染色体中mcherry基因的质粒prl014 pam011 48h后的菌落。该图片是具有亮视野的mcherry荧光的叠加。由于dgrec诱变，白色箭头指示的菌落已失去mcherry荧光。c)和d)dgrec系统中使用的tr序列显示在其靶区域上方的框中。对于每个测试的tr，将通过靶区域的sanger测序获得一些dgrec突变体的选择与参照进行比对。突变以核苷酸上的灰色框突出显示，并且tr靶标中的腺嘌呤位置以灰色突出显示。所获得的突变主要遵循腺嘌呤诱变的已知dgr诱变模式。
[0132]
图3c：tr_am009(seq id no:24)；tr_am009靶wt/nt链1(seq id no:43)；tr_am009靶wt/nt链2(seq id no:44)；tr_am009靶wt/aa(seq id no:45)；变体-tr_am009 n
°
1-4(seq id no:46-49)。tr_am010(seq id no:25)；tr_am010靶wt/nt链1(seq id no:50)；tr_am010靶wt/nt链2(seq id no:51)；tr_am010靶wt/aa(seq id no:52)；变体-tr_am010 n
°
1-4(seq id no:53-56)。tr_rl016(seq id no:42)；tr_rl016靶wt/nt链1(seq id no:57)；tr_rl016靶wt/nt链2(seq id no:58)；tr_rl016靶wt/aa(seq id no:59)；变体-tr_rl016 n
°
1-4(seq id no:60-64)。图3d：tr_am004(seq id no:22)；tr_am004靶wt/nt链1(seq id no:64)；tr_am004靶wt/nt链2(seq id no:65)；tr_am004靶wt/aa(seq id no:66)；变体-tr_am004(seq id no:67)。tr_am007(seq id no:23)；tr_am007靶wt/nt链1(seq id no:68)；tr_am007靶wt/nt链2(seq id no:69)；tr_am007靶wt/aa(seq id no:70)；变体-tr_am007 n
°
1-4(seq id no:71-74)。tr_am011(seq id no:19)；tr_am011靶wt/nt链1(seq id no:75)；tr_am011靶wt/nt链2(seq id no:76)；变体-tr_am011 n
°
1-4(seq id no:77-80)。
[0133]
图4-dgrec系统中的间隔子rna结构。a)间隔子rna重要特征的注释。两个灰色框表示引发逆转录酶复合物所需的自退火片段。三角形显示形成cdna聚合起始点的a56核苷酸。b)允许逆转录酶复合物的募集/引发的间隔子rna采用的3d构象的图形。
[0134]
图5-prl038和prl021的质粒图谱。能够通过golden gate装配在间隔子rna内快速克隆新tr序列的详细视图。t符号表示终止子。每个质粒上的括号表示ccdb克隆位点。
[0135]
图6-多重dgrec诱变。a)dgrec突变体的选择，在质粒pam030 pam001 48小时dgrec诱导后进行测序。结果表明，源自prl038质粒的pam030可通过其编码的间隔子rna基因座驱动dgrec诱变。b)dgrec诱导质粒pam030 pam011 48h后获得的两个克隆的序列，其分别在sacb和mcherry基因中含有驱动诱变的tr。这些克隆是通过结合蔗糖和mcherry荧光测定获得的，并在两个靶区域同时进行诱变。图6a：tr_am009(seq id no:24)；tr_am009靶wt/nt链1(seq id no:43)；tr_am009靶wt/nt链2(seq id no:44)；tr_am009靶wt/aa(seq id no:
45)；变体-tr_am009 n
°
5-8(seq id no:80-84)。图6b：tr_am011(seq id no:19)；tr_am011靶wt/nt链1(seq id no:85)；tr_am011靶wt/nt链2(seq id no:86)；变体-tr_am011n
°
5-6(seq id no:87-88)。tr_am009(seq id no:24)；tr_am009靶wt/nt链1(seq id no:89)；tr_am009靶wt/nt链2(seq id no:90)；tr_am009靶wt/aa(seq id no:45)；变体-tr_am009 n
°
9-10(seq id no:91-92)。
[0136]
图7-诱变靶区域的扩增子测序。a)在sacb基因内48小时dgrec诱变后获得的sacb基因的蔗糖抗性突变体的选择，以及在48小时dgrec诱导(无选择)后通过illumina扩增子测序分析的相同诱变目标进行比对。诱变靶序列在该窗口中以灰色以及腺嘌呤位置突出显示。所获得的突变主要遵循腺嘌呤诱变的已知dgr诱变模式，并在靶区域内较好标明。b)不同靶区域的相同illumina测序分析图。图7a：诱变靶标(seq id no:24)；wt/nt链1(seq id no:43)；wt/nt链2(seq id no:44)；wt/aa(seq id no:45)；变体n
°
1-4(seq id no:46-49)。包括以下所示的诱变靶标的序列标绘图(seq id no:93)。
[0137]
图8-噬菌体宿主范围工程。a)操纵噬菌体和噬菌体/宿主相互作用的各种dgrec策略的图形表示。b)通过dgrec诱变获得的对λ噬菌体附着具有抗性的一些lamb突变体的选择。c)通过dgrec诱变获得的能够感染抗性lamb克隆的一些lgpj突变体的选择。图8b：tr_rl055(seq id no:101)；tr_rl055靶wt/nt链1(seq id no:107)；tr_rl055靶wt/nt链2(seq id no:108)；tr_rl055靶wt/aa(seq id no:109；变体-tr_rl055 n
°
1-7(seq id no:110-116)。图8c：tr_rl029(seq id no:97)；tr_rl029靶wt/nt链1(seq id no:117)；tr_rl029靶wt/nt链2(seq id no:118)；tr_rl029靶wt/aa(seq id no:119；变体-tr_rl029 n
°
1-7(seq id no:120-126)。
具体实施方式
[0138]
材料和方法
[0139]
细菌菌株、质粒、培养基和生长条件
[0140]
本工作中使用的所有细菌菌株和质粒列于表4中。使用用于质粒增殖和克隆的大肠杆菌菌株mg1655*。所有菌株均在37℃下，溶原性肉汤(lb)中生长并以180rpm振荡。对于固体培养基，向lb中加入1.5％(w/v)琼脂。当需要时，向培养基中加入以下抗生素：50μg ml-1
卡那霉素(kan)、30μg ml-1
氯霉素(cm)。对于用sacb进行反向选择，在倾倒前将5％的蔗糖加入到平板培养基中。
[0141]
克隆程序
[0142]
通过克隆整合获得缺失[34]，并通过p1转导组合[35]。使用osip质粒pfd148插入sacb-mcherry盒。
[0143]
除非另有说明，质粒通过gibson assembly构建[36]。质粒序列示于序列表中，质粒图谱示于图2和图5中，且相关的重编码基因序列列于表5中。
[0144]
可以使用具有bsai限制性位点的golden gate装配将新的tr序列克隆到prl021或prl038上(图5)[37]。质粒在两个bsai限制性位点间含有ccdb反向选择盒[38]。这确保了克隆的选择，其中在克隆过程中成功地将tr加入到质粒中。用于tr装配的所有寡核苷酸序列列于表6中。
[0145]
dgrec系统的诱导
[0146]
为进行诱变，通过电穿孔用两种dgrec质粒转化表4中所列的dgrec受体菌株，并涂布在kan和cm选择性培养基上。在37℃过夜生长后，将菌落挑入96孔板中的1ml lb kan，cm中并使其生长6-8小时。在96深孔板中将这些未诱导的预培养物稀释500倍至1ml的lb kan，cm中，其含有1mm间甲苯甲酸和50μmdapg(分别诱导重组工程模块和rt)，并使其在34℃下以700rpm振荡生长24小时，达到稳定期。对所有培养物再次重复进行500倍稀释和生长，以执行48小时时间点。
[0147]
重组效率的评估
[0148]
蔗糖测定：在靶向sacb的dgrec诱变24小时和48小时后(质粒prl014与菌株srl002中的prl016、pam004、pam007、pam009或pam010组合，与阴性对照逆转录酶质粒prl034作用相比)，将细胞在lb中连续稀释并铺板于补充有和没有5％蔗糖的选择性培养基上。对于4个生物复制估算每个样品的蔗糖抗性细胞的组分。将8个蔗糖抗性菌落送去进行sanger测序并证实为dgrec突变体。值得注意的是，在该测定中sacb突变的自发速率升高(在阴性对照样品中达到10-4
)，且一些自发的sacb突变体在48h生长期间可能与其他细胞竞争，导致重组效率评估具有较大的不确定性(图3c报道的值的范围)。
[0149]
mcherry荧光测定：在靶向mcherry的dgrec诱变48小时后(菌株srl002中的质粒prl014 pam011，与阴性对照质粒prl034 pam011相比)，将培养物稀释并铺板在lb平板上以获得每个平板约200个菌落。然后，使用azure biosystems荧光成像仪对平板成像，并通过imagej处理图像[39]。对4个生物复制中具有和不具有荧光的菌落计数。将8个非荧光菌落(仅在prl014 pam011复制中观察到)送去进行sanger测序并确认为dgrec突变体。
[0150]
dgrec突变样品的生产
[0151]
如前所述进行dgrec系统的诱导(参见表4中的所有dgrec构建体)：通过电穿孔用两种dgrec质粒转化dgrec受体菌株，并在kan和cm选择性培养基上铺板。在37℃过夜生长后，将菌落挑入96孔板中的1ml lb kan，cm中并使其生长6-8小时。在96深孔板中将这些未诱导的预培养物稀释500倍至1ml的lb kan，cm中，其含有1mm间甲苯甲酸和50μm dapg(分别诱导重组工程模块和rt)，并使其在34℃下以700rpm振荡生长24小时，达到稳定期。对所有培养物再次重复该500倍稀释和生长，以达到诱导48小时。
[0152]
基因组和质粒dna提取
[0153]
按照制造商的方案，使用nucleospin 96tissue，用于细胞和组织dna的96孔试剂盒(macherey-nagel)从诱变菌株提取基因组dna。当dgrec靶区域位于质粒上时，使用qiaprep spin miniprep试剂盒(qiagen)提取质粒。
[0154]
实施例1：基于质粒的功能性dgr系统在大肠杆菌中的表达。
[0155]
由于在新的宿主中蛋白质折叠、毒性或缺乏功能的可能问题，蛋白质的异源表达始终是一种挑战。然而，使系统在大肠杆菌中发挥作用会使其可用性成倍增加，因为这些细菌已成为迄今为止在基因应用中使用最广泛的细菌类型。事实上，dgr在常见的实验室细菌和噬菌体克隆菌株中天然不存在，这可能是这些有吸引力的逆转录因子迄今为止尚未产生任何基因工具的主要原因。
[0156]
发明人采用几种方法在大肠杆菌中表达功能性逆转录酶复合物，并且本文所述的是发明人成功掌握的方法：构建来自博德特氏菌噬菌体bpp-1的天然dgr系统的
‘
重构(refactored)’版本，使得每个dgr组件彼此独立地表达。产生诱变cdna的系统有三个元件：
逆转录酶主要亚基(brt)、逆转录酶辅助亚基(avd)和间隔子rna。这三个元件在天然dgr结构中组合成操纵子结构。在本实施例中使用的方法中，这些元件中的每一个都在独立的启动子下克隆(图2)。
[0157]
这样的设置可以更灵活地调整每个元件的相对量：brt蛋白在phlf启动子(可被dapg诱导)下表达，而avd辅助蛋白和间隔子rna都在强组成型启动子(j23119)下表达，从而为系统提供过量的这些组件(需要更高的拷贝数)。此外，对brt和avd编码序列进行密码子优化以在大肠杆菌中表达。
[0158]
实施例2显示该方法成功地在大肠杆菌中装配功能性rt-avd酶复合物，能够使用间隔子rna作为诱变逆转录的特异性模板。
[0159]
实施例2：用寡核苷酸重组工程偶联dgr cdna生产
[0160]
天然dgr需要位于其靶序列两翼的称为imh的识别序列，以实现“归巢”步骤(在靶区域中引入突变)[1]，[9]。发明人观察到寡核苷酸重组工程，作为完全绕过天然dgr的这种鲜为人知的“归巢”步骤的方法。
[0161]
寡核苷酸介导的重组工程使用通过在复制叉处的寡核苷酸退火将基因组修饰整合到靶基因组基因座上[10]。将重组工程模块添加到用于dgr表达的质粒之一上(图2)，并且发明人在大肠杆菌菌株种筛选活性，所述大肠杆菌菌株缺失sbcb和recj，两种核酸外切酶显示降低重组工程效率[23]。
[0162]
为检测系统的诱变活性，使用受体大肠杆菌菌株中进行sacb反选择测定。在宿主基因组中编码的sacb使蔗糖对细胞有毒，是一种反选择的方法(详见方法部分)。通过工程化dgr rna以靶向sacb基因，可以检测群体中出现的蔗糖抗性的突变体。在诱导质粒携带的dgr系统时检测这些突变体，且在合成dgr靶向的区域中的sanger测序清楚地显示，这些突变体中的大部分是由dgr诱变活性产生(图3)。事实上，诱变主要发生在腺嘌呤位置，dgr系统的标志模式。此外，这些突变体从未通过使用失活的rt变体获得(表1；图3a)。
[0163][0164]
表1
–
dgr组件的重要性。如下失活dgr组件。逆转录酶：酶活性位点中的smaa取代(质粒prl034)；avd：从质粒(质粒prl035)中去除；tr：将无相应靶标的tr置于宿主内(质粒pam001)；csprect：从质粒(质粒pam014)中去除；mutl*：从质粒(质粒pam015)中去除；宿主基因组中的δsbcb δrecj：未缺失的菌株(菌株srl003)。为寻找dgr突变体，通过pcr扩增
来自4个蔗糖抗性菌落的sacb靶tr区域并进行sanger测序。将靶区域中的任何突变计数算作“确认的dgr突变体”。
[0165]
sacb基因内的重组效率可通过蔗糖反选择测定(详见方法部分)来估算。值得注意的是，靶向sacb的活性位点位置的tr_am010和tr_am009比靶向sacb的c端区域的tr_rl016效率高得多(在一些样品中达到10％)，这与更大量的dgrec变体将使其活性位点内的酶失活的事实一致(图3c)。
[0166]
通过计数失去mcherry荧光的细胞部分，mcherry诱变提供了不同的和更强的测定以估算dgrec重组效率(无需选择)(详见方法部分)(图3b)。在dgrec诱变48小时后从4个生物复制获得的平均重组效率是3.6％(标准偏差1.6％)(图3c)。值得注意的是，与蔗糖测定一样，该值必然低估了实际的诱变频率，因为在该过程中仅计数了丢失荧光的mcherry变体子集。
[0167]
通过逐一去除或失活这些组件并测试dgrec突变体的获得来评估各种dgrec组件的必要性。通过扩增子测序(实施例4)进一步评估当除去那些组件时重组效率的下降。
[0168]
这些结果证实了dgrec系统诱变不同基因中的多个靶标并使用不同大小的诱变窗的能力(图3)。
[0169]
实施例3：多重dgrec诱变
[0170]
将蔗糖和mcherry荧光测定组合以同时诱变两个靶区域。源自prl038质粒的pam030含有brt、bavd和靶向tr_am009的dgr rna。pam001在基因组中含有csprect重组工程模块且没有dgr rna靶标。pam011含有csprect重组工程模块和靶向tr_am011(mcherry)的dgr rna。dgrec突变体在dgrec诱导质粒pam030 pam001 48小时后测序。结果显示，源自prl038质粒的pam030通过其编码的间隔子rna基因座具有驱动dgrec诱变的功能(图6a)。在dgrec诱导质粒pam030 pam011(其分别在sacb和mcherry基因中含有驱动诱变的tr)48小时后对dgrec突变体测序。将通过组合蔗糖和mcherry荧光测定获得的这些克隆在两个靶区域中同时诱变(图6b)。
[0171]
这些结果证实了dgrec系统在不同基因中同时诱变多个靶标的能力。
[0172]
实施例4：诱变靶区域的扩增子测序
[0173]
测序结果证实并加强了此前使用实施例2中所示的sanger测序对dgrec诱变的观察(图7a)。观察到高诱变在靶区域内受到良好限制，且主要集中在rna模板腺嘌呤位置上。此外，深度测序无需选择突变体，可以检测多个基因靶上的诱变(图7b)。
[0174]
在dgrec系统诱导48小时后，在靶区域内可检测到1,000直至高达10,000个基因变体(变体实际数量大量低估)，其中变体基因型典型地代表细胞群体内测序的所有基因型的20-100％。
[0175]
每个样品中dgrec诱变的量度可以从dgrec靶区域内突变率增加的测量获得(靶区域内腺嘌呤的突变率除以靶区域外腺嘌呤的突变率)。该值在下文中称为“amut”。注意的是，靶区域外的突变可能是测序错误而非实际的突变。因此，该测量是信号相对于背景的测量，而非相对于大肠杆菌的自发突变率dgrec增加多少突变率的测量。尽管如此，该测量能够比较不同样本的dgrec诱变效率。
[0176]
在下文中，对于每个分析的样本，质粒和大肠杆菌菌株示于括号中。
[0177]
dgrec组件的必要性
[0178]
缺乏功能性逆转录酶[srl002中的prl034 prl016]、缺乏avd蛋白[srl002中的prl035 prl016]或缺乏csprect[srl002中的prl014 pam014]的样品未显示可检测的dgrec诱变(所有这些样品的amut平均为1.56)，证实了所述系统的这些组件的必要性。
[0179]
sbcb和recj dna修复基因关闭作用
[0180]
在一个靶区域上，评估了sbcb和recj外切核酸酶的缺失，且显示它们的缺失导致dgrec效率降低约2倍(具有缺失[srl002中prl014 pam009]，amut＝97.0；相对于不具有缺失[srl003中prl014 pam009]的amut为52.5)。
[0181]
具有改变的腺嘌呤失真度的逆转录酶变体
[0182]
逆转录酶变体i181n变体是功能性的，且如预期的，显示dgrec诱变水平降低(与野生型逆转录酶[srl002中prl014 prl031]的amut＝36.3相比，[srl002中prl037 prl031]的amut＝9.0)。
[0183]
逆转录酶变体r74n不显示可检测水平的dgrec诱变[srl002中prl036 prl031](amut＝1.9)，但需要其他的对照以确保该变体对于cdna的产生具有功能。
[0184]
总之，这些结果支持了此前的结果，即dgr逆转录酶的这些变体在rna模板中的腺嘌呤位置的错误率降低。
[0185]
与prl021主链相比的prl038主链
[0186]
这两种质粒具有克隆位点，其允许添加不同tr序列及其随后转录为dgr rna的一部分。prl038是中等拷贝质粒，prl021是高拷贝质粒，且dgr rna环境在这两种质粒中完全不同，因此可以预期由这两种主链产生的dgrec诱变的差异。结果发现，prl021主链[srl002中prl014 pam009](amut＝97.0)驱动时，sacb诱变率比prl038主链[srl002中pam030 pam001](amut＝37.3)驱动时高3-4倍。
[0187]
然而，注意到在该比较中，对于prl038 dgr rna表达，伴侣质粒也产生在细胞内没有靶区域的不同的dgr rna(pam001质粒)，其可能竞争逆转录酶的可用性。
[0188]
双基因座靶向
[0189]
将两种dgr rna分别导入大肠杆菌的两个不同主链上：prl038和prl021。第一个被编程为靶向sacb，并且第二个被编程为靶向mcherry[srl002中pam030 pam011]。这些dgr rna对sacb(amut＝33.14)和mcherry靶区域(amut＝19.47)的诱变检测效率很高，表明在相同细胞中同时表达的两种dgr rna都可以是有活性的。
[0190]
模板rna自靶向
[0191]
由于与天然dgr系统的imh要求相反，dgrec系统中的靶向仅由与cdna寡核苷酸的同源性驱动，因此假设除了其在大肠杆菌染色体内的靶区域，dgrec系统可能能够诱变dgrec质粒上携带的tr序列。实际上，在[srl002中pam030 pam011]细胞中检测到prl021主链质粒(amut＝93.5)和prl038主链质粒(amut＝113.8)的自靶向。
[0192]
由于在其中一些样品中可以高效地获得所需靶标的诱变，dgr rna的自靶向不是dgrec系统的障碍。然而，应考虑需要更长诱变诱导时间的情况，因为tr序列可能随着时间发生突变和退化，逐渐失去其腺嘌呤核苷酸。
[0193]
注意的是，在定向进化设置中也可以利用这种现象，其中tr和靶序列将共同进化以达到所需表型。在这种设置下，dgrec系统探索的序列图谱最初很大，与tr中腺嘌呤的数量成比例。随着腺嘌呤从tr中逐渐消失，目标(vr)中研究的序列多样性将逐渐减少。这种现
象可能有助于改进期望的活性，而不会因为探索无效序列空间而丢失太多序列。注意的是，在该过程中，当tr中的腺嘌呤突变为另一碱基时，该突变将以高速率转移至靶标，从而在该进化过程中保持tr和靶标间的同源性。因此，可以设计包含富含a的片段的tr序列，从而可以对序列空间进行广泛探索，并在定向进化循环中进行逐步细化。
[0194]
质粒靶标上的dgrec诱变
[0195]
可以检测位于质粒(与dgrec质粒相容的psc101来源，pam020质粒)携带的gfp基因内的靶区域的诱变(图7b)。有趣的是，tr的两个方向显示出相似水平的诱变(正向[srl001中prl014 pam023 pam020]，amut＝6.4；反向[srl001中prl014 pam024 pam020]，amut＝14.9)，这表明质粒复制系统产生可用于在两条链上重组的单链dna。这与已知的靶向染色体的滞后链重组工程的偏好相反。
[0196]
注意，上述部分中描述的dgr rna的自靶向也发生在质粒上，证明了dgrec系统在具有不同主链的质粒(p15a ori和puc ori质粒)上的诱变靶区域的能力。
[0197]
整合的原噬菌体的诱变
[0198]
使用用λ噬菌体(菌株srl004)溶原化菌株，检测到该噬菌体的靶区域[srl004中的prl014 prl029]内的高诱变水平(amut＝65.3)(图7b)。
[0199]
实施例5：tr和靶向区域设计规则
[0200]
接着，完善了有助于正确设计tr序列以调整dgrec系统从而产生所需诱变模式的规则。
[0201]
top链和bottom链与滞后链的关系
[0202]
逆转录酶只能使模板rna中的腺嘌呤核苷酸随机化，但根据tr序列靶向靶orf的编码链还是模板链，其可以突变编码序列的a或t核苷酸。这修饰了可获得的氨基酸，以及突变的氨基酸。如果靶蛋白可以正向或反向移动到正确的链上进行诱变，那么即使限于突变后的滞后链，dgrec系统也可选择靶向a或t。
[0203]
可获得的氨基酸
[0204]“可获得的”氨基酸被定义为，通过突变a(或当靶向反向互补链时为t)，使用dgrec可从密码子获得的氨基酸。例如，tta可以突变成4种密码子(tta、ttg、ttc、ttt)且具有2种“可获得的氨基酸”：leu(tta/ttg)和phe(ttc/ttt)。
[0205]
如果在靶向反向互补链时随机t，可获得的氨基酸非常不同。例如，tta具有13种“可获得的氨基酸反向”。
[0206]
dgrec密码子诱变表(表2)以正向和反向显示了每个密码子可获得的氨基酸，氨基酸数量和获得每个氨基酸的概率(假设随机突变)。即使当密码子编码相同的氨基酸时，密码子之间可获得的氨基酸数量也有很大差异。例如，aga和cgc都编码精氨酸，而具有6种和1种可获得的氨基酸。
[0207][0208][0209]
表2-dgrec密码子诱变表。对于每个密码子，该表报道了可获得的氨基酸(aas)的数量，与其靶向orf(随机腺嘌呤)相比，tr在正向(fwd)方向，并且与其靶向orf(随机胸腺嘧啶)相比，tr在反向(rvs)方向。可被dgrec突变为终止密码子的密码子用(*)标记。在tr设计中应当避免这些密码子。
[0210]
理论文库大小和orf重编码
[0211]
给定tr序列的理论dna文库大小可简单地近似为4^(腺嘌呤的数量)，对应于可通过随机化tr序列内的每个腺嘌呤位置获得的dna序列的总数。对于理论肽文库大小，计算取决于密码子及其可获得氨基酸的数量。因此，可以重编码orf以保持相同的蛋白序列，但减小或增加可以获得的肽文库的大小。
[0212]
低多样性重编码orf
[0213]
尽管重编码以增加文库大小可能似乎是明显的选择，但可能存在其中蛋白质的靶区域的一部分必须保守的情况。也可能存在这样的情况，其中文库大小超过筛选它的选择能力，使得当需要全面筛选(dna)序列空间时，低多样性重编码非常有用。
[0214]
已表明，通过除去“无用的”密码子，诸如cca(脯氨酸)，其可以仅突变为ccg、cct或
ccc(其全部均编码pro)，也可重编码序列以增加肽文库大小，同时保持dna文库的大小最小。这些“无用的”密码子可以降低cdna寡聚物在其靶区域上的重组工程效率，而无需增加对蛋白质序列空间的任何探索。
[0215]
内部对照
[0216]
值得注意的是，可以突变但仅获得一个氨基酸的密码子(如cca)也可用作内部对照的形式，以确定多样化而不改变氨基酸序列。
[0217]
腺嘌呤或胸腺嘧啶的重编码
[0218]
通过改变腺嘌呤或胸腺嘧啶来重编码高/低多样性之间存在显著差异。这是由于两个原因：
[0219]-在选择“最佳”密码子(高或低多样性)后，最佳腺嘌呤或最佳胸腺嘧啶密码子的可获得的密码子的平均数量是不同的(表3)。
[0220]-并非所有的氨基酸在蛋白质内都具有相同的频率。例如，当重编码腺嘌呤(具有15和14种可获得的氨基酸的天冬酰胺(n)和赖氨酸(k))时，产生高多样性的氨基酸在蛋白质中往往很常见，而当重编码胸腺嘧啶(具有15种可获得的氨基酸的苯丙氨酸(f))时，其对应物则很少见。
[0221] a诱变t诱变低多样性重编码3.5aas2.7aas高多样性重编码4.5aas4.3aas
[0222]
表3-重编码高或低多样性后可获得的氨基酸的平均数
[0223]
因此，不管靶区域是否重编码为高或低多样性，突变的腺嘌呤通常会导致比突变胸腺嘧啶更高的文库大小。
[0224]
进行tr和靶orf间的错配
[0225]
除了重编码orf之外，dgrec系统还可以灵活地在tr序列和靶区域之间添加错配，以“强制”在任何给定氨基酸处的可变性，无论其密码子包含腺嘌呤还是胸腺嘧啶。
[0226]
饱和诱变
[0227]
有时目标是探索在几个给定位置上氨基酸的最大可能数量。这可以通过优化应当保持恒定的位置处的低多样性并在tr位置处引入腺嘌呤来实现多样化。tr的设计应避免在靶序列中引入终止密码子的序列。当tr序列与靶编码链的序列匹配时，可以使用aat或aac密码子实现。当tr序列与非编码(模板)链的序列匹配时，tr应在所需位置处包含5
’‑
gaa-3’以多样化，这将导致在编码序列中的目标位置处产生所有5
’‑
nnc-3’密码子。在该方向上，通过使用tr中的5
’‑
aat-3’获得具有最高多样性产生潜力的第二密码子，这将产生编码序列中的所有5
’‑
ann-3’密码子，其中没有一个是终止密码子。注意的是，这些密码子获得的氨基酸不能由nnc或nnt密码子编码(赖氨酸和甲硫氨酸)。因此，在相同细胞中使用多个dgr rna，靶向相同位置但在不同链上且具有不同密码子，可有利于探索氨基酸的完全多样性，同时确保不引入终止密码子。
[0228]
使用终止密码子从筛选去除wt氨基酸序列
[0229]
已表明，可以引入终止密码子以“破坏”目标orf，然后用dgrec诱变对其进行修复，这种策略可能有助于确保仅选择变体(除去野生型orf序列)。
[0230]
实施例6：噬菌体宿主范围工程
[0231]
使用λ噬菌体作为模型系统，使用dgrec系统诱变噬菌体尾部纤维(gpj)及其细菌受体(lamb)(图8a)。
[0232]
首先，使用dgrec质粒prl061 prl055(表4)在细菌染色体内的lamb基因中引入突变。扩增子测序显示靶区域高度多样化。然后，用λvir感染该lamb变体文库，λvir是一种修饰的λ噬菌体，其不能溶原化且因而是严格裂解的。感染后，分离大量抗性细菌克隆并对其lamb测序，揭示靶区域内存在腺嘌呤突变，而非dgrec-诱变的抗性克隆不存在腺嘌呤突变。这些结果证明dgrec诱变可用于使细菌受体的表面暴露结构域多样化以产生破坏噬菌体附着的变体，从而产生对噬菌体具有抗性的细菌菌株(图8b)。
[0233]
其次，通过感染携带诱导质粒prl043 prl029的大肠杆菌细胞来产生λvir gpj基因的文库(表4)。经过4轮2小时感染后，收获λvir裂解物并用于感染在此前实验中分离的抗性lamb克隆。获得了感染lamb突变体的多个噬菌斑，且对噬菌体基因组的gpj测序揭示了靶区域中腺嘌呤核苷酸的广泛突变(图8c)。
[0234]
这些结果证明了dgrec系统在其裂解循环中诱变噬菌体的能力。考虑到dgrec还显示出在其溶原性循环中诱变噬菌体的能力(图7b)，这些结果证明dgrec系统具有广泛适用性，几乎可以改造任何噬菌体。结果还证明了dgrec系统能够通过其尾部纤维的诱变扩展噬菌体的宿主范围，从而将天然噬菌体dgr系统的能力复制和扩展到缺乏这些逆转录元件的噬菌体上。
[0235]
表4-菌株和质粒。cmr，氯霉素；kmr，卡那霉素；mutl*，mutl显性阴性等位基因；rt，博德特氏菌噬菌体b-pp1 dgr逆转录酶
[0236]
[0237][0238]
表5-本技术公开的序列
[0239]
[0240]
[0241]
[0242]
[0243]
[0244]
[0245]
[0246]
[0247]
[0248]
[0249]
[0250]
[0251]
[0252]
[0253]
[0254]
[0255]
[0256]
[0257]
[0258]
[0259]
[0260]
[0261]
[0262]
[0263]
[0264][0265]
*重编码基因序列
[0266]
表6-tr克隆寡核苷酸序列。通过golden gate装配用于tr克隆的寡核苷酸序列。将正向(fwd)和反向(rvs)寡核苷酸退火，产生与golden gate装配到质粒prl021中相容的粘性末端。较长的tr序列可由两对或三对寡核苷酸装配，独立退火并在golden gate装配反应期间进一步连接。
[0267]
fusions blocked by dcas9,”nat.commun.,vol.11,no.1,p.6436,dec.2020.
[0284]
[15]a.j.simon,b.r.morrow,and a.d.ellington,“retroelement-based genome editing and evolution,”acs synth.biol.,vol.7,no.11,pp.2600
–
2611,nov.2018.
[0285]
[16]n.crook,j.abatemarco,j.sun,j.m.wagner,a.schmitz,and h.s.alper,“in vivo continuous evolution of genes and pathways in yeast,”nat.commun.,vol.7,p.13051,oct.2016.
[0286]
[17]s.p.finney-manchester and n.maheshri,“harnessing mutagenic homologous recombination for targeted mutagenesis in vivo by tagteam,”nucleic acids res.,vol.41,no.9,p.e99,may 2013.
[0287]
[18]e.sharon,s.-a.a.chen,n.m.khosla,j.d.smith,j.k.pritchard,and h.b.fraser,“functional genetic variants revealed by massively parallel precise genome editing,”cell,vol.175,no.2,pp.544
–
557.e16,oct.2018.
[0288]
[19]s.c.lopez,k.d.crawford,s.bhattarai-kline,and s.l.shipman,“improved architectures for flexible dna production using retrons across kingdoms of life,”biorxiv,p.2021.03.26.437017,mar.26,2021.
[0289]
[20]b.zhao,s.-a.a.chen,j.lee,and h.b.fraser,“bacterial retrons enable precise gene editing in human cells,”biorxiv,p.2021.03.29.437260,mar.29,2021.
[0290]
[21]e.m.barbieri,p.muir,b.o.akhuetie-oni,c.m.yellman,and f.j.isaacs,“precise editing at dna replication forks enables multiplex genome engineering in eukaryotes,”cell,vol.171,no.6,pp.1453
–
1467.e13,nov.2017.
[0291]
[22]f.farzadfard and t.k.lu,“synthetic biology.genomically encoded analog memory with precise in vivo dna writing in living cell populations,”science,vol.346,no.6211,p.1256272,nov.2014.
[0292]
[23]m.g.schubert et al.,“high throughput functional variant screens via in-vivo production of single-stranded dna,”biorxiv,p.2020.03.05.975441,mar.06,2020.
[0293]
[24]f.farzadfard,n.gharaei,r.j.citorik,and t.k.lu,“efficient retroelement-mediated dna writing in bacteria,”cold spring harbor laboratory,p.2020.02.21.958983,feb.22,2020.
[0294]
[25]s.handa,a.reyna,t.wiryaman,and p.ghosh,“determinants of selective fidelity in diversity-generating retroelements,”cold spring harbor laboratory,p.2020.04.29.068544,apr.30,2020.
[0295]
[26]t.m.wannier et al.,“recombineering and mage,”nature reviews methods primers,vol.1,no.1,pp.1
–
24,jan.2021
[0296]
[27]j.garamella,r.marshall,m.rustad,and v.noireaux,“the all e.coli tx-tl toolbox 2.0:a system for cell-free synthetic biology,”acs synth.biol.,vol.5,no.4,pp.344
–
355,apr.2016.
[0297]
[28]k.yehl et al.,“engineering phage host-range and suppressing bacterial resistance through phage tail fiber mutagenesis,”cell,vol.179,no.2,
pp.459
–
469.e9,oct.2019.
[0298]
[29]s.lemire,k.m.yehl,and t.k.lu,“phage-based applications in synthetic biology,”annu rev virol,vol.5,no.1,pp.453
–
476,sep.2018.
[0299]
[30]s.chatterjee and e.rothenberg,“interaction of bacteriophage l with its e.coli receptor,lamb,”viruses,vol.4,no.11,pp.3162
–
3178,nov.2012.
[0300]
[31]e.berkane,f.orlik,j.f.stegmeier,a.charbit,m.winterhalter,and r.benz,“interaction of bacteriophage lambda with its cell surface receptor:an in vitro study of binding of the viral tail protein gpj to lamb(maltoporin),”biochemistry,vol.45,no.8,pp.2708
–
2720,feb.2006.
[0301]
[32]j.r.meyer,d.t.dobias,j.s.weitz,j.e.barrick,r.t.quick,and r.e.lenski,“repeatability and contingency in the evolution of a key innovation in phage lambda,”science,vol.335,no.6067,pp.428
–
432,jan.2012.
[0302]
[33]c.anders,o.niewoehner,a.duerst,and m.jinek,“structural basis of pam-dependent target dna recognition by the cas9 endonuclease,”nature,vol.513,no.7519,pp.569
–
573,sep.2014.
[0303]
[34]f.st-pierre,l.cui,d.g.priest,d.endy,i.b.dodd,and k.e.shearwin,“one-step cloning and chromosomal integration of dna,”acs synth.biol.,vol.2,no.9,pp.537
–
541,sep.2013.
[0304]
[35]l.c.thomason,n.costantino,and d.l.court,“e.coli genome manipulation by p1 transduction,”curr.protoc.mol.biol.,vol.chapter 1,p.unit 1.17,jul.2007.
[0305]
[36]d.g.gibson,l.young,r.-y.chuang,j.c.venter,c.a.hutchison 3rd,and h.o.smith,“enzymatic assembly of dna molecules up to several hundred kilobases,”nat.methods,vol.6,no.5,pp.343
–
345,may 2009.
[0306]
[37]c.engler,r.gruetzner,r.kandzia,and s.marillonnet,“golden gate shuffling:a one-pot dna shuffling method based on type iis restriction enzymes,”plos one,vol.4,no.5,p.e5553,may 2009.
[0307]
[38]j.l.hartley,g.f.temple,and m.a.brasch,“dna cloning using in vitro site-specific recombination,”genome res.,vol.10,no.11,pp.1788
–
1795,nov.2000.
[0308]
[39]c.a.schneider,w.s.rasband,and k.w.eliceiri,“nih image to imagej:25 years of image analysis,”nat.methods,vol.9,no.7,pp.671
–
675,jul.2012.
[0309]
[40]t.m.wannier et al.,“improved bacterial recombineering by parallelized protein discovery,”proc.natl.acad.sci.u.s.a.,vol.117,no.24,pp.13689
–
13698,jun.2020.

当前第1页1