DNAデータベース

DNAの塩基配列などを集めた公的なデータベースとしてDNAデータベースが代表的なものとしてあげられる.DNAデータベースとして,DDBJ(日本),EMBLE(ヨーロッパ),GenBank(米国)がある.

DDBJ,EMBLE,GenBankの3つのデータベースは,お互いにデータを交換しており,基本的な内容に大きな違いはない.これはデータベースのバックアップの意味合いもあり,自然災害などにより貴重な情報が失われるリスクを小さくしている.

いずれのデータベースでも,得られる内容は基本的に同じものであるが,実習では,日本語で内容が閲覧できるDDBJを用いて検索を行う.

配列検索

塩基配列を検索する方法としていくつかある.各データベースによって提供する検索方法に多少の違いがあるが,基本的な機能は同様である.大きく分けると,配列についてのキーワードを用いたキーワード検索と配列そのものを使ったホモロジー検索がある.

DDBJではホームページの左「検索・解析」の項目に,いろいろな検索プログラムが用意されている.

今回は,SRSなどのキーワード検索を用いて,データを検索する.

例えば,SRSで「rbcl」と「hypnum」をキーワードに入れた場合,AB029384というアクセッション番号を持つデータなどが結果として得られる.同様に他の植物についても検索を行う.

配列データの形式

今回は,DDBJで用意されているClustal Wを用いてアライメントを行う.このため,FASTA形式で塩基配列のデータをひとつのファイルにまとめる.ファイルを保存する際は,必ずテキスト形式とする.

FASTA形式の例〜配列データに用いることのできる名前の長さは半角英数字で30文字以内とし,同じ名前にならないようにする.スペースや全角文字は用いないこと.詳細はここを参照.

FASTA形式の例
>配列データタイトル名
CGGTGA.....................................
GAGTAATGGAATG..............................
>配列データタイトル名
CTTGATT....................................
GAGTAATGGAATG..............................