Gene Nomenclature-基因命名规则

基因命名法和蛋白质命名法并非独立的工作。它们是同一个整体的各个方面。用于蛋白质的名称或符号也可用于编码它的基因，反之亦然。然而，由于科学发展，蛋白质及其相应的基因并不总是同时被发现的。这就是蛋白质被发现的主要原因。而为什么基因的名称并不总是一致，或者为什么科学家们往往喜欢用一种符号或名称来表示蛋白质，而用另一种符号或名称来表示基因呢？另一个原因是，生命的许多机制在不同种、属、目和门之间是相同或非常相似的（通过同源性、相似性或两者兼而有之），因此，不同类型的生物可能会产生某种特定的蛋白质。因此，科学家们经常为一个物种（如小鼠）中的某种特定蛋白质与另一个物种（如人类）中的某种特定蛋白质使用相同的符号和名称，这是可以理解的。至于第一种双重性（基因或蛋白质的符号和名称相同），上下文通常会让科学读者明白其中的含义。命名法还通过在符号中使用斜体（罗马字母）提供了一些特殊性，而在符号中，基因的意思很简单。如果您指的是蛋白质，那么 “蛋白质”（protein）就是 “基因”。关于第二个双重性（某些蛋白质是多种生物体的内源性蛋白质），命名法也通过使用不同的大写字母至少提供了人类与非人类的特异性。然而，科学家们经常忽略这种区别，因为它们往往与生物学无关。此外，由于科学知识发展的性质，蛋白质及其相应基因往往有多个同义名称和符号。一些旧的名称和符号可能会被弃用，取而代之的是新的名称和符号，但这种弃用是自愿的。一些旧的名称和符号之所以能留存下来，是因为它们在科学文献中被广泛使用（甚至在新名称和符号出现之前），并在用户中广为流传。例如，HER2 和 ERBB2 就是同义词。最后，基因和蛋白质之间的相关性并不一定是一对一的（在任一方向上）。在某些情况下，它们是一对一或一对数的关系，在这种情况下，名称和符号在某种程度上可能是基因或蛋白质特有的，或者在用法上可能会重叠。有些蛋白质和蛋白质复合物是由多个基因的产物构建而成的，每个基因提供一个多肽亚基。这意味着没有一种蛋白质或复合体的名称或符号与一种基因的名称或符号相同。例如，一种名为 “example”（符号 “EXAMP”）的蛋白质有两条链（亚基）。有些基因编码多种蛋白质，因为翻译后修饰（PTM）和替代剪接提供了多种表达途径。例如，胰高血糖素和类似的多肽（如 GLP1 和 GLP2）都（通过 PTM）来源于原胰高血糖素，而原胰高血糖素来源于前胰高血糖素，即 GCG 基因编码的多肽。在谈及不同的多肽产物时，名称和符号指的是不同的东西（即前胰高血糖素、前胰高血糖素、胰高血糖素、GLP1、GLP2）。但当我们谈论基因时，这些名称和符号都是同一事物的别名–基因。另一个例子是，各种μ-阿片受体蛋白（μ1、μ2、μ3 等）都是由一个基因 OPRM1 编码的剪接变体。这就是 MOR（μ-阿片受体）可以用复数形式（蛋白）表示的原因，尽管只有一个 MOR 基因，即 OPRM1、MOR1 或 MOR。所有这些别名都是对它的有效称呼，但其中一个（OPRM1）是首选术语。

HUGO 基因命名委员会（HUGO Gene Nomenclature Committee）负责提供人类基因命名指南，并批准新的独特人类基因名称和符号（通常由缩写创建的较短标识符）。对于一些非人类物种，模式生物数据库可作为指南和帮助资源（如来自馆长和命名委员会的建议）的中央储存库。除了特定物种数据库外，美国国家生物技术信息中心（National Center for Biotechnology Information）的 “Entrez Gene “数据库中也有许多物种的核准基因名称和符号。

一般规则
每个细菌基因都用三个小写的助记符表示基因产物所涉及的途径或过程，然后用大写字母表示实际基因。在某些情况下，基因字母后面可能会有等位基因编号。所有字母和数字都有下划线或斜体。例如，leuA 是亮氨酸生物合成途径中的一个基因，leuA273 是该基因的一个特定等位基因。如果已知该基因编码的实际蛋白质，则可将其作为记忆法的部分基础。例如：rpoA 编码 RNA 聚合酶的 α 亚基 rpoB 编码 RNA 聚合酶的 β 亚基 polA 编码 DNA 聚合酶 I polC 编码 DNA 聚合酶 III rpsL 编码核糖体蛋白小 S12。一些基因名称指的是已知的通用功能。DNA 参与 DNA 复制

预测基因
在 1998 年对大肠杆菌基因组的分析中，一些功能不明的基因被命名为以字母 y 开头的基因，其后是没有记忆意义的连续字母（如 ydiO 和 ydbK）。. 自命名以来，有几个 y 基因被确定具有某种功能，并因此被赋予了同义词（别名）。然而，这种命名并不能可靠地说明基因的重要性，因为 y 基因在进一步鉴定后并不总是重新命名。

生物合成基因
氨基酸： ala = 丙氨酸 arg = 精氨酸 asn = 天冬酰胺有些途径产生的代谢物是多种途径的前体。例如：ILV：异亮氨酸和缬氨酸核苷酸：gua = 鸟嘌呤 pur = 布丁 pyr = 嘧啶 thy = 胸腺嘧啶维生素：bio = 生物素 Nad = NAD pan = 泛酸

代谢基因
Ara = 阿拉伯糖 gal = 半乳糖 lac = 乳糖 Maru = 麦芽糖 man = 甘露糖 melibiose rha = 鼠李糖 xyl = 木糖

药物和噬菌体抗性基因
amp = 对氨苄西林耐药 azi = 对叠氮化物耐药 bla = 对 beta-内酰胺耐药 Cat = 对氯霉素耐药 Kan = 对卡那霉素耐药 rif = 对利福平耐药 tonA = 对噬菌体 T1 耐药

无义抑制突变
sup = 抑制剂（如 supF 抑制琥珀突变）

突变体命名法
如果相关基因是野生型，则使用上标 “+”符号。如果 leuA+ 基因发生突变，则用上标’-‘表示。根据惯例，如果两者都没有使用，则视为变体。还有一些上标和下标提供了更多的突变信息。ts = 对温度敏感（leuAts） cs = 对寒冷敏感（leuAcs） am = 琥珀色突变（leuAam） um = 琥珀色（蛋白石）突变（leuAum） oc = 赭色突变（leuAoc） R = 抗性（RifR）其他修饰词： Δ = 删除（ΔleuA） – = 融合（leuA-lacZ） : = 融合（leuA:lacZ） ::= 插入（leuA:： Ω = 通过两点杂交引入的基因构建体 (ΩleuA) Δ删除基因::替换基因 = 删除与替换（ΔleuA::nptII(KanR)表示删除 leuA 基因并用新霉素磷酸转移酶基因替换，新霉素磷酸转移酶基因赋予对卡那霉素的抗性。）

表型命名法
在指基因型（基因）时，助记符用斜体而不是大写。当提及基因产物或表型时，助记符大写而不是斜体（例如，DnaA–dnaA 基因产生的蛋白质，LeuA–leuA 突变体表型，AmpR–基因抗氨苄青霉素表型）β-内酰胺酶基因 bla）。

脊椎动物基因和蛋白质符号惯例

脊椎动物模式生物研究界采用的准则是，尽可能将这些物种的基因命名为与其人类同源物相同的名称。不鼓励在基因符号中使用前缀来表示物种（如 “Z “表示斑马鱼）。打印基因和蛋白质符号的推荐格式因物种而异。= 符号和名称脊椎动物基因和蛋白质的符号是名称（通常是单词串）和简短标识符（通常是 3-8 个字母）。例如，细胞毒性 T 淋巴细胞相关蛋白 4 基因的 HGNC 符号为 CTLA4。这些符号通常（但不总是）由名称缩写或首字母缩略词组成。不过，从它们本身是完整标识符的意义上来说，它们是伪首字母缩略词，本质上是简短的名称。它们与基因/蛋白质名称（或其别名）同义（而非描述性），无论是否与首字母 “匹配”。例如，AKT1 是基因 v-akt mouse thymoma virus oncogene homolog 1 的符号，不能说是其名称的缩写。还有 AKT、PKB、PRKBA 和 RAC。因此，基因符号和基因名称之间的关系在功能上是昵称和全名（都是完整的标识符）的关系，而不是缩略词和扩展名的关系。从这个意义上说，它们与国际单位制中的计量单位符号（如公里的 km）类似，可以被视为真正的逻辑符号，而不仅仅是缩写。这种区分有时是学术性的，但并非总是如此。正如 “VEGFA “是 “血管内皮生长因子 A “的缩写，”km “也是 “公里 “的缩写一样，符号形式并不是孤立的。基因家族符号的根部分（如 SERPIN1、SERPIN2、SERPIN3 等的 “SERPIN “根）称为根符号。

人类
HUGO 基因命名委员会（HUGO Gene Nomenclature Committee）负责提供人类基因命名指南，并批准新的独特人类基因名称和符号（通常由缩写创建的较短标识符）。所有人类基因名称和符号均可在 HGNC 网站上找到，其形成指南也可在该网站上查阅。人类的指导原则在逻辑上适用于范围更广的脊椎动物，HGNC 的职责最近已扩展到为所有没有命名委员会的脊椎动物物种分配符号，并确保动物基因根据人类的同源物/同类物命名。人类基因符号一般用斜体书写，所有字母大写（如刺猬索尼克中的 SHH）。基因目录不需要斜体。蛋白质名称与基因符号相同，只是不使用斜体。mRNA 和 cDNA 使用与基因符号相同的格式约定。在命名基因家族时，HGNC 建议使用 “根符号 “作为各种基因符号的根。例如，对于过氧化还原酶家族，PRDX 是根符号，家族成员包括 PRDX1、PRDX2、PRDX3、PRDX4、PRDX5 和 PRDX6。

小鼠和大鼠
基因符号一般为斜体，只有第一个字母大写，其余为小写（Shh）。网页不需要斜体。蛋白质名称与基因符号相同，但用大写字母 (SHH) 而不是斜体。

鸡（Gallus sp.）
命名一般遵循人类命名惯例。基因符号通常以斜体书写，所有字母大写（例如，神经ligin 1 就是 NLGN1）。蛋白质的名称与基因符号相同，但不是斜体。mRNA 和 cDNA 的格式与基因符号相同。= Anole 蜥蜴（Anolis sp.）基因符号为斜体，所有字母均为小写（shh）。蛋白质的名称与其基因符号不同。所有字母大写（SHH），非斜体。

青蛙（Xenopus sp.）
基因符号为斜体，所有字母均为小写（shh）。蛋白质的名称与基因符号相同，但不是斜体。第一个字母为大写，其余为小写（Shh）。

斑马鱼
基因符号为斜体，所有字母均为小写（shh）。蛋白质名称与基因符号相同，但不是斜体。第一个字母为大写，其余为小写（Shh）。

本站原创，如若转载，请注明出处：https://www.ouq.net/2502.html