- Troublesleeper
-
T.reesei是工业上纤维素酶和半纤维素酶的主要生产来源,这些酶用于将生物质解聚成简单的糖类,再转化成化学中间体和生物燃料例如乙醇。对T.reesei的基因组进行测序(Martinez et al.,2008),将reads组装成89个scaffold,大小为34Mbp,包含9219个基因。出乎意料的是,相比其他已测序的能降解植物细胞壁多糖的真菌,T.reesei基因组中编码的纤维素酶和半纤维素酶基因数目较少。许多T.reesei的碳水化合物活性酶编码基因并非随机分布,而是成簇地分布在与其他粪壳菌纲(Sardariomycetes)真菌的共线性区域之间。
7.2.1.1 T.reesei基因组的特点
利用鸟枪法对T.reesei的基因组进行测序,构建了3个文库,插入片段的大小分别为3kb,8kb和40kb,覆盖度为9倍,共得到 433863个 reads,利用 Jazz,Phred/Phrap/Consed等软件将这些数据组装成89个scaffold和97个contig,大小约为34Mb(Martinez et al.,2008)。比几个核型分析预测的基因组大小约大2.9%(Carter et al.,1992;Man-tyla et al.,1992;Herrera-Estrella et al.,1993),与物理方法预测的大小几乎一致。核型分析所用的遗传标记和在Genbank中发布的所有蛋白和RNA序列在该基因组中都能找到。因此,推测该基因组序列代表了T.reesei 99%以上的基因组信息。
在基因组中发现了类似于I和II型转座子的重复序列,但都存在多个终止密码子。造成缺少活跃转座子的原因可能是由于T.reesei存在活跃的防御机制,例如重复诱导的点突变。这些转座子总数不超过基因组序列的1%,是目前已知的出现频率最低的真菌之一。在T.reesei的7个scaffold末端存在重复6核苷酸序列TTAGGG,该序列与粉红面包霉(Neurospora crassa)端粒重复序列相同。
预测T.reesei 基因组含有9129个基因,与N.crassa中的基因数目相当(Galagan et al.,2003),但是比禾谷镰刀菌(Fusarium graminearum,其有性态为Gibberella zeae)预测的基因数少了接近2500个(Cuomo et al.,2007)。T.reesei基因的平均大小为1793 bp,每个基因平均含有3.1个外显子,外显子的平均长度508 bp,内含子平均大小120 bp。
7.2.1.2 T.reesei保守共线性
为了解环境因素对基因组进化的影响,比较了T.reesei,F.graminearum和N.crassa共线性的区域。根据比较结果,推测许多基因组片段中基因的顺序在该种类出现时就已经改变,共线性的区段间存在很大的间隙(Galagan et al.,2005)。在很多情况下,T.reesei和其他粪壳菌纲(Sordariomycetes)真菌中这种间隙是很保守的。非共线性的区域通常包含对菌株适应性重要的基因(Galagan et al.,2005;Machida et al.,2005;Nierman et al.,2005)。另外一个值得注意的特点是在3个真菌(T.reesei,F.graminearum和N.crassa)中存在一些随种类出现就已发生的染色体重排,表明了基因组的高度动态性。
7.2.1.3 T.reesei的蛋白结构域
与盘菌亚门(Pezizomycotina)的其他真菌相比,T.reesei基因组中已知功能的蛋白质数量较少,与生物质降解有关的蛋白组成也不一样。T.reesei缺少与侵染和降解植物活体组织相关的蛋白,例如果胶裂解酶和果胶酯酶,这与其腐生习性相符。而且,在T.reesei中没有发现鞣酸酶和阿魏酸酯酶,表明其在半纤维素降解方面存在缺陷。
7.2.1.4 T.reesei和其他真菌中的碳水化合物活性酶
在CAZy数据库中,碳水化合物活性酶(Carbohydrate-active enzymes,CAZymes)被分为不同的级别和种类。能切割、构建和重排寡糖和多糖的CAZymes在真菌生物学中扮演重要的角色,对优化生物质的降解也同样重要。尽管T.reesei是植物多糖的有效降解者和降解研究体系中的重要模式菌,但是在其基因组中含有的糖苷水解酶(GH)编码基因较少。T.reesei中仅含有200个GH编码基因,比植物病原菌Magnaporthe grisea(231个)和F.graminearum(243个)都少。
T.reesei中含有103个糖基转移酶,接近粪壳菌纲(Sordariomycetes)中该类酶的平均数(96个)。在粪壳菌纲中,该酶类的变异性比GH小。这种趋势在世系内外皆存在,表明糖基转移酶控制的是比较基础性的胞内生命活动,其组成变化所反映的是物种的差异而非环境压力的不同。与植物多糖解聚过程有关的酶,通常携带一个碳水化合物结合组件(Carbohydrate-Binding Module,CBM),该组件连接在催化区上。在已知的粪壳菌纲中,T.reesei的基因组中含CBM的蛋白数量最少。同样,T.reesei中碳水化合物酯酶的数量也是粪壳菌纲中最少的。包括T.reesei在内,粪壳菌纲真菌中相对缺少多糖裂解酶基因,而散囊菌纲真菌(Eurotiomycetes)含有的多糖裂解酶数量较多,平均有18个。在单细胞子囊菌纲(Ascomycetes)中没有发现多糖裂解酶。
出人意料的是,在T.reesei基因组中仅发现了7个编码已知纤维素酶(内切葡聚糖酶和纤维二糖水解酶)的基因,在表7.4列出的能降解植物细胞壁的真菌中,T.reesei的纤维素酶基因的数量最少。如果加上GH61蛋白家族,这种趋势更加明显。半纤维素包含不同种类的多糖,完全降解它们需要一系列的酶。T.reesei基因组仅含有16个半纤维素酶基因,也是在真菌中数量较少的。同样,其分解果胶的酶数量为5个,也是在植物细胞壁降解真菌中数量较少的(Martinez et al.,2008)。
表7.4 真菌基因组中的纤维素水解酶
注:a纤维素种类:CBH1,外切纤维二糖水解酶Ⅰ,GH7;CBH2,外切纤维二糖水解酶Ⅱ,GH6;EG1,内切葡聚糖酶Ⅰ,GH7;EG2,内切葡聚糖酶Ⅱ,GH5_5;EG3,内切葡聚糖酶Ⅲ,GH12_1;EG4,糖苷水解酶家族,Cel61,GH61;EG5,内切葡聚糖酶基因Ⅴ,Cel45。
7.2.1.5 蛋白分泌
T.reesei能非常有效地分泌胞外酶,有些工业菌株1L培养液可以产生100g胞外蛋白(Cherry et al.,2003)。在T.reesei中发现了与酿酒酵母(Saccharomyces cerevisiae)分泌途径中起作用蛋白的同源蛋白。这些蛋白多数是单拷贝,与酵母蛋白的相似性比与哺乳动物源相似蛋白的相似性更高。T.reesei含有三个与酵母的蛋白质二硫键异构酶(Pdi lp)同源的蛋白,这可能与T.reesei分泌的纤维素酶多数含有二硫键有关(Divne et al.,1994)。酵母der1和ufd1基因在T.reesei中都存在两个直系同源基因,它们与内质网相关的蛋白降解(ERAD)途径有关。此外,在T.reesei中发现了大多数已知ERAD组分的同源蛋白,但在Aspergillus niger基因组中却缺少ERAD组分同源蛋白(Pel et al.,2007)。这些数据表明,在T.reesei中,ERAD途径似乎比内质网分泌途径更过剩。
S.cerevisiae中参与蛋白运转相关的蛋白直系同源物大多数能在T.reesei中找到,它们多数是单拷贝。酵母缺少与哺乳动物GTPase蛋白Rab2,Rab4,Rab5,Arf6和Arf10对应的蛋白,这些信号蛋白参与膜融合或囊泡的出芽,而在T.reesei和N.crassa中含有这些蛋白的直系同源物。酵母中质膜分泌小泡受体t-SNARE蛋白Sso1p,在T.reesei中有两个同源蛋白,研究表明,这两个Sso1同源蛋白具有不同的功能(Valkonen et al.,2007)。综上所述,这些研究表明T.reesei的膜运输系统比在S.cerevisiae中的更加多样化。
7.2.1.6 T.reesei的CAZyme基因簇
T.reesei中许多CAZyme的编码基因在基因组中不是随机分布的。有研究表明,9个与纤维素和半纤维素降解有关的蛋白编码基因共同分布在基因组的几个区域。通过对T.reesei基因组中所有CAZyme的编码基因定位发现,316个CAZyme中的130(41%)分布在25个不连续的区域,这些区域大小从14 kb到275 kb不等(总共约2.4Mb,约占基因组的7%)。这些区域中含有CAZyme基因的密度比随机分布基因密度大5倍。
通过对基因簇中基因数量的分析,130个CAZyme的95个(73%)分布在基因组共线性区域的间隙。而这95个中的69个(72%)在F.graminearum含有直系同源物。有16个CAZyme与F.graminearum共线性,表明基因迁移是这些基因簇形成的主要因素,而基因复制的作用较小。在同一基因簇中的CAZyme基因很少是出自同一个CAZyme家族,这也表明基因的迁移在这些基因簇形成过程的作用比基因复制更大。
CAZyme基因成簇分布表明其特殊的生物学功能,在基因簇中的CAZyme基因有70%编码GH。基因组中有24%的糖基转移酶基因和46%的GH基因分布在这些基因簇内,表明这些基因簇中的CAZyme基因大多数参与多糖的降解。与植物细胞壁降解有关的基因多数分布在富含CAZyme的区域的现象,也证实了这一点。T.reesei中有4个类似于扩展蛋白的基因(Saloheimo et al.,2002),其中3个分布在这些基因簇内。有趣的是,少量与真菌细胞壁合成有关的糖基转移酶编码基因也出现在CAZyme基因簇中,比如甘露糖基转移酶、几丁质合酶、a-糖基转移酶和β-糖基转移酶(Cabib et al.,2001)。
结合对槐二糖和纤维素诱导的T.reesei转录组数据进行分析(Foreman et al.,2003),将槐二糖和纤维素诱导表达基因定位到基因组上,发现尽管不是所有成簇分布的GH基因都共表达,但是确实发现了一些相邻基因共表达的例子。例如,在T.reesei基因组第29条scaffold的CAZyme基因簇区,外切纤维二糖水解酶cel7a、纤维素膨胀因子和木聚糖酶4在槐二糖和纤维素诱导下同时表达。上述结果表明,CAZyme基因成簇分布具有重要的意义。由于这些区域与其他真菌没有共线性的信号,表明在T.reesei中这些基因发生了重排,这种重排对其在进化上是有利的。
在几个CAZyme基因密度高的区域也包含与次级代谢有关的蛋白编码基因。在25个CAZyme基因簇中,有5个基因簇都包含一个聚酮合酶(PKS)或非核糖体肽合成酶(NRPS)基因。另外,与其他Sordariomycetes真菌相比,T.reesei中保留了大多数非核糖体肽合成酶(NRPS)的旁系同源基因。