|
GenBankDNA序列库
GenBank 概况
(http://www.ncbi.nlm.nih.gov/Web/Genbank/index.html)
- GenBank 是什么?
GenBank 是 NIH 的基因序列数据库,是所有公开的DNA序列的集合 (
Nucleic Acids Research 1998 Jan 1;26(1):1-7).
截至1998年12月,GenBank大约收集了 2,162,000,000 个碱基、3,044,000 个序列。作为示例,你可以察看一下
neurofibromatosis gene的 纪录。也可以阅读关于当前版本的Genbank的完整的
release notes
(发布说明)。每两个月会发布一个新的版本( release)。GenBank 也是国际核酸序列数据库协作(International Nucleotide
Sequence Database
Collaboration)的一部分,国际核酸序列数据库协作由以下几个部分组成:日本DNA数据库(DNA DataBank of
Japan (DDBJ)),欧洲分子生物学实验室( the European Molecular Biology Laboratory
(EMBL))和 NCBI的GenBank ,这三个组织每天都交换数据。
- 向GenBank提交数据
许多杂志要求在文章发表之前提供相应序列的基因数据库的提交信息(submission of
sequence information),因为这样的话,一个序列访问号码 (accession
number)就可以出现在文章中。NCBI有一个WWW形式的表格叫做 BankIt,它提供了一种快速而简便的序列提交方法。另一种方法是使用
Sequin,NCBI开发的新的可以独立运行于MAC,
PC, and UNIX平台的序列递交软件,可以从FTP获得它,使用 Sequin时,用于直接提交的输出文件可以通过 E-mail
发送到NCBI,也可以将数据文件拷贝到软盘上邮寄给NCBI。Authorin是一个就的独立使用于MACs 和 PC
的软件,仍然可以用来格式化输出你的提交文件,不过我们还是建议用户改为使用 BankIt or Sequin。
还有一种改进的程序用来进行批量提交序列,比如 EST, STS, 和
HTG 序列。
- 更新或者修改一个序列
任何时候都可以对GenBank的纪录进行更新或者修改,采用BankIt 或 Sequin的格式,通过一个电子的 表格,或者作为E-mail的正文,需要更新的序列的
accession number 一定要在主题行(subject line)中给出,E-mail发送到: [email protected]
- 操作 GenBank
GenBank可以从这里通过多种方法检索。
- 新的进展
NCBI 在不断的开发新的工具和增强已有的工具来提高提交序列和检索 GenBank的能力,想得到最新的消息的最简单的办法是阅读 NCBI
News,NCBI News
也可以免费订阅。
修改于 December 14, 1998
GenBank简介
GenBank包含所有已知的核苷酸及蛋白质序列、以及与之相关的生物学信息和参 考文献,是美国生物技术信息中心(NCBI)建立并维护的,是世界上的权威序列数据 库。
数据库序列的来源为作者直接递交或间接查寻文献所得,并与世界上其他公开发
行的数据库,如EMBL,DDBJ交换每日更新的数据。
GenBank发展极为迅速,仅1995年一年里增加的序列数据量,即超过以往14年的 累加数目。1995年的90.0版本含有492,483个不同的序列,总长度超过353,713,490个 碱基。其中54%是人(Homosapiens)的序列,此外还包括线虫(C.elegans)、酵母 (S.cerevisiae)、小家鼠(Mus
musculus)等15,500种生物的DNA序列。
GenBank每条数据包含对序列的精确描述,序列来源生物的科学名称及树状分 类,以及特征数据栏,提供序列的蛋白编码区和具有特殊生物学意义的位点,如转录 单位(transcription
units)、突变或修饰位点(sites of mutationsor modifications)及重复序列(repeats),还提供特定序列编码的蛋白质序列。参考文 献还给出其在MEDLINE上的特定标识号。
在GenBank中,分枝数据库dbEST和dbSTS的发展最为迅速。GenBank与其它核苷酸
序列库EMBL、DDBJ和LANL等,以及知名的蛋白质数据库SWISS-PROT、PIR、PRF和PDB
等建立了综合数据库(Integrated
Database,ID)。NCBI已经建立了自己的生物大分 子三维结构库-分子结构模型库MMDB(Molecular Modeling
Database)。
GenBank检索与查询方式
GenBank数据记录检索
GenBank数据可用文本检索系统(基本检索(GenBank、GenBank
Updates)、高级检索)、ENTREZ高级检索系统进行检索。ENTREZ系统
可以用来检索核酸与蛋白质序列、MEDLINE相关文献或专利(PubMed)、
基因组及MMDB分子结构模型库信息。
GenBank序列查询
GenBank最常用的查询是序列局部相似性查询(BLAST),可通
过WWW途径或E-mail途径查询。
向GenBank递交数据
GenBank数据的一个主要来源是通过作者直接递交;目前许多期刊也希望刊登的 文章中的DNA或氨基酸序列能在发表前输入数据库。NCBI为此设计了方便、快捷的数 据递交软件:BankIt和Sequin。以前使用的Authorin软件已被Sequin替代,但仍可使 用。如果没有上述软件,可向NCBI(Email: [email protected])索取Email递交表。
数据递交后,作者将收到一个数据存取号,表明递交的数据已被接收,此号可作 为以后向数据库查询时的凭据,作者可将其列入发表文章中。作者可要求对其递交数 据在正式发表前暂不公开,待文章发表后应尽快通知数据库(Email:
[email protected]),否则将延误数据的公开。
NCBI允许作者对已被收入数据库的数据进行修改、添加或删减。作者可通过 BankIt、Sequin或Email方式进行修改,注意应将数据存取号与修改内容一并通知数 据库。
由于三大核酸数据库GenBank、EMBL、DDBJ之间每日都互相交换数据,因此作者 无论在哪里发表数据,只需要向其中任意一个本人认为最方便的数据库递交数据即 可。
BankIt 直接通过WWW进行简便、快捷的递交。
Sequin 可供MAC、PC\Windows、UNIX用户使用的递交软件,可输入有关数
据的详细资料。
返回专业网络资源
最近修改于:2000-08-15
22:00
编辑:刘慧萍 陈梅红
|