当前位置:新闻 -> 常识 -> 人类蛋白质编码基因到底有多少?
人类蛋白质编码基因到底有多少?
时间:2014-07-07 10:35:27  作者:网站编辑  来源:
构成人类基因组的蛋白质编码基因的实际数目,一直是一个长期讨论的话题。

    构成人类基因组的蛋白质编码基因的实际数目,一直是一个长期讨论的话题。在人类基因组第一稿出来之前,许多研究人员认为,人类蛋白质编码基因的最终数目在40,000到100,000之间。最初的人类基因组测序大幅修改了这个数字,表明最终数字会下降至26,000到30,000之间。随着人类基因组计划的最终草案公布,蛋白质编码基因的数目被再次修改至20,000到25,000之间。最近,Clamp和同事用进化比较表明,蛋白质编码基因最可能的数目更低,只有20500个基因。GENCODE项目最近发布的数据包括20,719个蛋白质编码基因。
    目前,由西班牙国家癌症中心(CNIO)基础研究副主任和结构计算生物学团队负责人Alfonso Valencia带领的一项研究,将人类蛋白质编码基因数目更新到了19,000个;比最近注释的基因少1700个,远低于最初估计的100,000个。相关研究结果发表在最近的国际著名学术期刊《人类分子遗传学》(Human Molecular Genetics),得出结论认为,几乎所有这些基因,都有早于5000万年前灵长类动物出现的祖先。
    “缩小人类基因组”,这就是Valencia描述多年来他们对人类基因组中蛋白质编码基因数目的不断修正,最终在当前的研究中缩减到大约19,000个人类基因。他补充说:“基因组的编码部分(产生蛋白质)是不断活动的。几年前没有人能想象,这么小数量的基因,能制造出如此复杂的东西。”
    科学家们首先分析蛋白质组学实验;蛋白质组学是检测蛋白质分子最有力的工具。为了确定人类蛋白质图,研究人员整合了来自七项大规模质谱研究、50多份人体组织的数据。Valencia说:“这样做,是为了验证哪个基因真正产生蛋白质。”
    少于10个基因能区分人和小鼠<BR></STRONG>研究发现了稍多于12,000个蛋白质,研究人员将这些蛋白质定位到基因组上的相应位置。他们分析了人类基因组中被注释的几千个基因,但是这并未出现在蛋白质组学分析中,Tress得出结论:“其中1,700个我们认为会产生蛋白质的基因,因为各种原因没有产生蛋白质,或者是因为它们没有表现出任何蛋白质编码特征,或者是因为它们阅读框的保守性不支持蛋白质编码功能。”
    来自研究的一个假设是,超过90%的人类基因会产生蛋白质,这些蛋白质起源于亿万年前动物王国的后生动物或多细胞生物;对于那些起源早于5000万年前灵长类动物出现的基因来说,这个数字超过了99%。
    研究人员称:“我们的数据表明,人类和灵长类动物在基因和蛋白质水平上的差异非常小。”本文共同作者、Valencia 实验室的研究人员David Juan称:“将人和小鼠区分开的基因数目,甚至少于10个。”与500多个具有当前注释中发现的灵长类起源的人类基因相反。研究人员得出结论:“灵长类动物之间的生理和发育差异,很可能是由基因调控引起,而不是问题蛋白质的基本功能差异造成的。”
    以少胜多
    人类复杂性的来源,更多地在于基因如何使用,而不是基因的数目,在于蛋白质中发生的成千上万的化学变化,或者在于通过基因组非编码区控制这些蛋白质的生产,这包括90%的全基因组,在最近的国际ENCODE项目中已经做出描述。
    这项研究使人类基因的数目接近其他物种,如秀丽隐杆线虫——只有1毫米长的蠕虫。但是,Valencia不愿意作比较:“人类基因组是注释最好的,但是我们仍然认为,这1700个基因可能要重新注释。我们的研究表明,我们将不得不重新计算所有的基因组,不仅是人类基因组。”
    这些研究结果是GENCODE项目的一部分,GENCODE是合并到ENCODE项目的一个财团,由世界各地的研究小组组成,包括Valencia研究小组,他们的任务是提供人类基因组中所有基因元件的注释。
    Valencia称:“GENCODE正在讨论我们的数据,以并入到新的注释中。当这一切发生时,它将重新定义整个人类基因组图,以及它如何用于宏项目,如癌症基因组分析的项目。”

关键字:蛋白质,编码基因
反馈
版权所有2012-2019 组织工程与再生医学网 保留所有权利
京ICP备11013684号-2