« 2010年1月 | トップページ | 2010年3月 »

2010年2月

2010年2月21日 (日)

大量のシークエンスデータのマッピング

少しずつシークエンスデータがたまって来て、簡単な解析は自分で出来るようにと勉強中。
まだまだ次世代シークエンサーデータ解析のソフトは整ってないと言われていますが、解析の個々の段階を行うソフトはそれなりに存在はします。ただ、ほとんどがUNIXベースなのでそれなりに知識が無いと扱いにくく、GUIで直感的に目的の解析がすぐに行えません。シークエンスデータを扱う方法論がまだ確立していないので、個々の研究室でそれぞれ解析プログラムを組んで解析を行っている感じです。ゲノムアセンブリーとかChIP-Seqといった目的で次世代シークエンサーをつかう場合の方法論は確立されつつある(ChIP-Seqはもう少しかな)ので、ぼちぼちGUIで解析を行うわかりやすいソフトも出てきそうです。商用ではあるみたいですが。
日本でも統合TVなどちょっと変わった試みを行うことで有名(?)なライフサイエンス統合データベースセンター解析ソフトを作っているみたいですが、公開はしていません。

データを前にしてまず問題になるのが、マッピングの問題です。なので、まずこの段階からいろいろ調べています。"How to map billions of short reads onto genomes"という総説が去年に出ているくらいなのでまだ発展途上です。もちろん、1,000万とか2,000万あるデータを一から(時間的にも)BLASTにかける訳には行かないので、専用のソフトを使います。bowtieというソフトが今のところよく使われている様です。マッピングの原理は上記の総説にも書いてあるのですがまだよく理解しきれていません。
でもとりあえずはこのソフトでマッピング出来る環境までは作れたと思われます。

2010年2月14日 (日)

テレビでスポーツ観戦

冬季オリンピックが始まりましたが、アメリカではそこそこの話題です。
始まる前はそこそこオリンピックのCMが放送されていて、この土日は結構長い時間競技が放送されています。びっくりしたのが、あまりライブで放送しないということ。開会式すら時間差で放送されてました。
後は当然と言えば当然ですがアメリカの選手中心の編集で流されています。

スポーツイベントとしては先週終わったNFLのSuper Bowlがダントツすぎるので、あまり盛り上がっていない様に見えるオリンピックも相対的に見れば、かなり扱いはいいのかもしれません。Super Bowlは別格で、先週の日曜日はスーパーでも買い物に来ている奥様がたが「今日はSuper Bowl見る?」という会話をする位です。
多様化したアメリカで毎年40%の視聴率をたたき出す(観戦パーティーを行う人達が多いので実際はもっと沢山の人がみているらしい)のはこのイベント位なので、ハロウィンの仮装パーティーやサンクスギビングと同じような生活の中の文化の一部と言った感じがします。

MLBのワールドシリーズは放送されてましたが、全米で盛り上がるかと言われるとそうでは無いです。今年はヤンキースだったので、NYでは盛り上がったのでしょうが、こちらでは全くです。SFジャイアンツが強ければまた違うのかもしれませんが。個人的には松井の活躍をアメリカで見れたので大満足だったのですが。

2010年2月 9日 (火)

シークエンスデータの解析

今週になって、大規模シークエンスを行ったデータセットが帰って来ました。
帰ってきたと言っても、こちらは手も足も出ないのでこちらが分かる形にデータを解析してもうらうよう共同研究者に依頼。そして、その結果も送られてきたけど大枠は問題ない感じだけど、統計的に信頼性が低い部分があったり、ありえないことが起こっていたりとだいぶ問題が。ボスともじっくりディスカッションが必要な感じです。

シークエンスのデータ自体が、テキストファイルで約1.5-2.0 GB。普通に扱っては開くことすらできないという代物。DVDに焼いても二つしか入らない(場合によっては一つ)。
illuminaのGenome Analyzer IIxの一番短い設定(single end, 36 bp)でこれなので、読み方の設定次第でもっと大きくなるはず。
実際のread数が約1,000万/laneで、36塩基/readだから約3.6億塩基。なので、ファイルサイズはGBクラスになってしまう。

実際、今後次世代シークエンサーが導入される所は増えるだろうけど、解析についてまで手が回るのだろうか?読んだシークエンスをアラインメントするとか、ChIP-Seqで結果をゲノム上に配置するとか、ごく基本的な解析はメーカー側がソフトで添付してくれるだろうけど、ちょっと違った事をやろうと思うと手も足も出ませんと言う状況になるような気がする。
生のシークエンスデータを相手に簡単な解析ができるくらいのインフォマティクスの技量は今後必要になってくるんではないかと思います。

« 2010年1月 | トップページ | 2010年3月 »

2013年12月
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31        

twitter

  • twitter

最近のトラックバック

無料ブログはココログ