« 英語の話 | トップページ | テレビでスポーツ観戦 »

2010年2月 9日 (火)

シークエンスデータの解析

今週になって、大規模シークエンスを行ったデータセットが帰って来ました。
帰ってきたと言っても、こちらは手も足も出ないのでこちらが分かる形にデータを解析してもうらうよう共同研究者に依頼。そして、その結果も送られてきたけど大枠は問題ない感じだけど、統計的に信頼性が低い部分があったり、ありえないことが起こっていたりとだいぶ問題が。ボスともじっくりディスカッションが必要な感じです。

シークエンスのデータ自体が、テキストファイルで約1.5-2.0 GB。普通に扱っては開くことすらできないという代物。DVDに焼いても二つしか入らない(場合によっては一つ)。
illuminaのGenome Analyzer IIxの一番短い設定(single end, 36 bp)でこれなので、読み方の設定次第でもっと大きくなるはず。
実際のread数が約1,000万/laneで、36塩基/readだから約3.6億塩基。なので、ファイルサイズはGBクラスになってしまう。

実際、今後次世代シークエンサーが導入される所は増えるだろうけど、解析についてまで手が回るのだろうか?読んだシークエンスをアラインメントするとか、ChIP-Seqで結果をゲノム上に配置するとか、ごく基本的な解析はメーカー側がソフトで添付してくれるだろうけど、ちょっと違った事をやろうと思うと手も足も出ませんと言う状況になるような気がする。
生のシークエンスデータを相手に簡単な解析ができるくらいのインフォマティクスの技量は今後必要になってくるんではないかと思います。

« 英語の話 | トップページ | テレビでスポーツ観戦 »

研究」カテゴリの記事

コメント

コメントを書く

(ウェブ上には掲載しません)

トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/19472/47530132

この記事へのトラックバック一覧です: シークエンスデータの解析:

« 英語の話 | トップページ | テレビでスポーツ観戦 »

2013年12月
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31        

twitter

  • twitter

最近のトラックバック

無料ブログはココログ