我们对蛋白质组的分析主要基于先前描述的代表性蛋白质集(RPS) ,该集合包含可能预测的每个核苷酸的蛋白质序列。我们还创建了一个基于变体的蛋白质组集(VPS),该蛋白质组集合RP和完整的蛋白质序列代表未包含在RPS中的剪接变体 。VPS包括通过fantom2克隆测序识别的已知基因的变体形式。RPS和VPS的蛋白质家族表在补充信息第15节中介绍。此表还包括给定家族的已知成员的数量,包括先前已知的人类直系同源物和新发现的人的数量 。该分析提供了RPS代表蛋白质组的程度的一些指示。预测的小鼠蛋白质组的总体外观与人类(http://www.ensembl.org)的总体外观相似。尽管当前人类集中的序列较少 ,但已知域家族所涵盖的比例是相同的,并且最丰富的家族在两个蛋白质组中的成员数量大致相同 。
使用许多蛋白质结构域和基序数据库(包括Interpro29,SuperFamily30和MDS31)分析了构造的小鼠蛋白质组序列集。Interpro分析给出了序列集的一般功能概述和转录组的功能概述。在大约70%的RP中发现了Interpro结构域 ,类似于其他真核蛋白质组织(http://www.ebi.ac.uk/proteome)。从国际蛋白质指数(IPI;表5)使用RPS的人和小鼠的蛋白质集进行进一步分析表明,这三组的一般结构域组成非常相似 。对于顶部Interpro条目,RP和VPS中的域分布也非常相似。所有域数据库涵盖的Fantom2集中的蛋白质序列总数(Interpro,超家族)为17,236(占RPS的92%)。正如预期的那样 ,最丰富的域是锌指,通常以相同的序列重复 。蛋白激酶也很丰富。
SuperFamily30分析(http://supfam.org/superfamily/cgi-bin/gen_list.cgi?genome=mr; passem = rumplestiltskin)用于检测和分类域与进化相关的域与该域的相关组。通过对常见进化祖先32的结构,序列和功能证据的详细手动分析获得了准确的超家族定义 。来自每个超家族的祖先结构域代表一个遗传基础。这些构建块已被复制 ,重组和突变,以创建目前在基因组中观察到的蛋白质。少数域已被复制了很多次,但大多数域仅复制了几次 。该分析确定的98%的域是通过从715个祖先结构域重复产生的。每个序列的域结构表明在进化过程中发生的祖先结构域的重组。
使用严格的标准 ,在Fantom2集合中发现了许多新型的结构域组合 。我们确定了已知结构域的120个未知的,结构的成对组合。在这些对中,在任何测序蛋白质组中都没有发现30对。除了代表进化中独特的重组事件外 ,这些领域对还为结构性基因组学项目提供了目标,这些项目被保证为新颖。这些新发现的域组合可以在http://supfam.org/fantom2/domcombbs.html上找到 。
一组非常大的蛋白质编码转录本的可用性,结合了现有信息 ,允许对多个独立基因产物中存在的新基序进行计算检测31。从Fantom2序列预测了MDS数据库中总结的许多新蛋白质基序,这些蛋白质基序总结了。一个例子是一个特定于免疫相关核苷酸家族(IAN)的结构GTPase subsotif(MDS00154),该核苷酸家族(IAN)也包含Walker B Matif33的规范D-X-G模式 。MDS00154基序的IAN特异性表明它调节了T细胞分化和选择过程中信号传导的GTPase活性和特异性。例如,据报道 ,在表达TCR-β和TCR-α/β链的胸腺细胞和β选择过程中,小鼠IAN1被上调,这对于发展外周免疫应答至关重要的过程34。
膜和分泌的蛋白质特别令人感兴趣 ,因为它们在细胞间交流中的核心作用及其作为药物靶标的可及性 。我们使用两种独立方法分析了RTP,以预测内质网信号肽35并预测跨膜螺旋,TMHMM 2.0(参考36)和svmtm(http://genet.imb.uq.uq.uq.uq.uq.uq.uq.uq.au/predictors/)。首先 ,我们从RTPS中删除了1,559个易于识别的部分ORF,而不含初始蛋氨酸。由于两种跨膜螺旋预测方法受信号肽作为跨膜结构域的错误预测,因此我们开发了用于预测的N末端跨膜段的过滤器 。如果预测的跨膜的起点在ORF的前15个残基内 ,并且预测了信号肽,则该区域被视为信号肽而不是跨膜结构域。
该分析基于其膜组织确定了六类蛋白质:(a)非分泌蛋白,(b)可溶性/分泌的蛋白质 ,(c)I型膜蛋白,(d)II型膜蛋白,(E)多跨度膜蛋白,以及(F)未分类的蛋白质(表6)。对于每个类别 ,我们采用了一种严格的共识方法来限制假阳性预测,仅保留使用多种方法预测的基序 。根据该共识预测方案,RTPS中的蛋白质ORF的80.1%(15,174)属于A类。在RTPS CDS中 ,将10.9%(1,877)注释为推定的分泌蛋白。该类别包括大多数参与细胞间通信和维持细胞外基质的可溶性蛋白质,以及源自Fantom2项目的521个新型假定的分泌蛋白。
仅当其与其他物种或基因家族成员的已知蛋白质表现出显着同源时,才能对其长度的氨基酸少于100个氨基酸进行注释 。根据这些严格的标准 ,只有376个小于100个氨基酸的蛋白被注释。4,558个包含预测的CD区域,编码长度为50至99个氨基酸之间的蛋白质,这些蛋白质被重新分配以识别高质量的 ,推定的短CDS。首先,如果在前500个核苷酸内未启动CD,则消除了克隆 ,假设很少有真正的5'UTR超过此长度 。对于其余的3159个转录本,我们使用tblastn来搜索翻译的Ensembl人类基因预测。在人类基因组注释中具有单一输入的1,823次转录本中,我们搜索了潜在的剪接并确定了557个剪接转录本。这些被认为是最可能的短蛋白候选物,尽管某些短CDS被单个外显子TU编码的可能性无法打折 。该分析表明 ,短蛋白可能会使预测的蛋白质组增加多达10%,但是每个候选者都需要进一步的个人注释和验证。
为了总结转录组的功能能力,我们使用了基因本体论(GO)Project37(http://www.geneontology.org/)的结构化词汇。在18,768种代表性蛋白中 ,我们能够将分子函数的GO术语分配为11,125 TU,生物过程GO术语为10,443 tus和Cellular Compontent go ten术语为10,488 TU,分别代表59.3% ,55.6%和55.9% 。单个基因的GO注释显示在Fantom Web界面中,以及表示分配中使用的方法(http://fantom2.gsc.riken.go.jp/)中使用的代码。补充信息第16节总结了我们的分析结果。
我们还将分析结果与对人类基因组的结合注释的类似融合(补充信息第16节) 。分布非常相似,重新强调了小鼠作为人类生物学模型系统的重要性。在注释者专注于具有特殊生物学特性的基因的区域中 ,可以看到显着差异。例如,与人类基因组相比,膜蛋白和细胞外蛋白在小鼠基因组中显示出显着增加:2,892对940个基因 ,分别为4,907,对4,068个基因。小鼠基因数量明显大于人类基因的另一个领域,3,152与2,310个区域是分子功能“转运蛋白 ”和生物过程转运 。该分析中小鼠注释的丰富性为人类直系同源物的功能注释和研究提供了重要的基础。
小鼠转录组的目录也可用于识别与人类疾病和小鼠表型变体相关的候选基因。我们通过搜索locuslink(http://www.ncbi.nlm.nih.gov/locuslink)获得了与疾病相关的1,712个人基因座的列表 。其中,有1,022个具有相关的序列信息 ,而690则没有。我们使用TBLASTN搜索了与Fantom2数据集的1,022个相关的蛋白质序列,其最小电子价值小于10-50,作为显着性标准。在以前用同源小鼠基因鉴定的921种人类疾病中 ,有740(80%)在Fantom2数据集中发现 。对于没有先前鉴定的小鼠同源物的101个人类疾病基因,将67(66%)映射到Fantom2数据集(http://fantom2.gsc.riken.go.jp/supplement/supplement/disease_genes/)。
FANTOM2 cDNA收集还揭示了大量新的蛋白质编码转录本,可以从域分配或序列同源性中推断出可能的功能(补充信息第17节)。对于许多这些蛋白质 ,我们还可以从原产库和Riken表达阵列数据库(http://read.gsc.riken.go.jp)中确定组织特异性表达模式 。此外,使用GO分配和序列相似性,我们可以将它们分配给代表原型哺乳动物细胞功能的完整功能谱的基因家族。下面描述了许多亮点。
•细胞运动 。Miki等人38报告了小鼠和人类基因组中驱动蛋白超家族蛋白(KIF)的鉴定。KIF是通过转运囊泡 ,蛋白质复合物和染色体39来导致细胞内运输的运动蛋白。在Fantom2中,我们发现了33个KIF,相当于45个已知基因座的73.3%。在33个KIF中 ,有17个全长 。以前,已经报道了2种替代剪接变体。在Fantom2中,我们发现了4个其他剪接变体。25个基因座的克隆来自神经组织或神经和其他组织的混合物,与以前的报道一致 。
•蛋白质代谢和周转。蛋白体复合物中的泛素化和靶向蛋白质降解控制着真核细胞中的许多过程 ,包括减数分裂,细胞增殖和发育40。与已经进行了广泛研究的细胞死亡和细胞周期不同,许多泛素化调节蛋白在哺乳动物中仍有待发现 。我们的分析确定了参与此过程的许多新基因产品 ,包括4种E1泛素激活酶,13种E2 E2泛素结合酶,98个E3 E3泛素连接酶和6种去泛素化酶。这些基因家族的程度表明 ,细胞蛋白降解的靶向确实是一个非常高度调节的过程。
•G蛋白偶联受体(GPCR) 。这些是哺乳动物中最大的受体蛋白家族,可能是有前途的药物靶标。目前,在人类基因组中已鉴定出大约600个完整的GPCR基因 ,不包括近350个气味受体基因1,2。Fantom2系列中的410个克隆编码候选GPCR;尽管某些GPCR家族之间的高度相关性和替代剪接的频率使这种聚类具有挑战性的挑战,但聚集到TU的聚类将这一数字降低到213 。其中,在MGI数据库中先前注释的308个GPCR中包含165个基因。其余48个是小鼠独有的 ,其中14个没有明确的哺乳动物直系同源物。其中,我们确定了两个新成员C630030A14(AK083234)和5330439C02(AK030625)的G蛋白偶联受体家族C,其中包含代谢型谷氨酸受体,γ-氨基氨基甲酸型B受体 ,C2+sysing+-sysysissing。这些与秀丽隐杆线虫和果蝇基因组中先前鉴定的GPCR高度同源 。
•“代谢组”。Interpro和GO功能分配使我们能够将相应的酶委员会(EC)编号41分配给具有推断的代谢酶活性的许多预测蛋白。总共将726个不同的EC数分配为RTP中的3,583个TU(约占总数的10%),其中近90%(3,182)包含Fantom cDNA克隆 。相比之下,KEGG代谢途径数据库中的人类酶类包含720个唯一的EC编号分配。
RTP包含大多数参与已知代谢途径的基因的小鼠直系同源物的代表。例如 ,RTPS中出现了整个三羧酸(TCA)周期(图3) 。Fantom2克隆覆盖了TCA周期中的所有酶。
•替代剪接对蛋白质组的影响。由于替代剪接可以改变蛋白质功能,因此我们评估了其对由22,150个序列组成的4,750个变体簇的推定翻译作用(表3),该序列显示了隐性剪接或外显子长度变化的证据 。在4,750个变体簇中 ,有4,263个簇是潜在的蛋白质编码。对从这4,750个变体簇得出的所有外显子的分析显示在补充信息第11节中,8,500个外显子(2,530个本构型外显子,长度变化 + 3,338个隐性内外外外外外外外外外外外外外外显百万 + 2,582个隐性末端偏见)长度变化。在这8,500个变体外显子中 ,有6,247(73.5%)在CD内,将影响CD的3,378(79.2%)变体簇,其中4,263个潜在的蛋白质编码簇中的CD 。转化为潜在变体蛋白的大量剪接形式与先前的估计相一致 ,即人类转录本中74%的剪接变异改变了编码序列25。
替代剪接,尤其是外显子的剪接可以从根本上改变蛋白质产物的功能,并且在我们的数据集中可以看到许多示例。例如,变异簇SCL1364(1500019M22(AK028054) ,D130067J21,D130067J21,D130067J21(D130067J21(AK051719)) ,酪氨酸磷酸酶受体类型R(D130067J21(AK051719)),D130067J21(AK051719)(AK051719)和替代型号NM_01121217 splane drouning withs intrane。但是,该序列保留了可裂解的信号肽 ,这意味着它可以从细胞中分泌 。该变体还缺乏酪氨酸磷酸酶结构域,因此可以充当全长受体的主要阴性形式。推定信号蛋白之间的其他剪接变体会导致蛋白质相互作用域的丧失。Examples include PDZ (Rap guanine nucleotide exchange factor, scl1714), pleckstrin (Rho interacting protein 3, scl1734), phosphatase (putative phosphatase, scl1827) and leucine-rich repeat (S-phase kinase-associated protein 2, scl2706), whose splice variants may generate proteins that have very different functions in cellular监管比其规范形式 。
本文来自作者[admin]投稿,不代表象功馆立场,如若转载,请注明出处:https://wap.xianggongguan.cn/zixun/202506-607.html
评论列表(3条)
我是象功馆的签约作者“admin”
本文概览: 我们对蛋白质组的分析主要基于先前描述的代表性蛋白质集(RPS),该集合包含可能预测的每个核苷酸的蛋白质序列。我们还创建了一个基于变体的蛋白质组集(VPS),该蛋白质组集合R...
文章不错《基于60,770全长cDNA的功能注释对小鼠转录组的分析》内容很有帮助