企業ICT導入事例
-公益財団法人サントリー生命科学財団-
BIG DATAが拓く未来世界　自然科学の奥行きをウェット(従来からの観察・実験)とドライ(インフォマティクス＝ICT)のコラボで解き進める

公開日：2013/11/26

IOT

長大なメモリを搭載できるサーバやDBソフトの進化、そしてインフォマティクス理論の発展により、これまでは解析が困難であった自然科学の分野での研究活動が活発化してきている。バイオメディカル、アグリバイオ、メテオ(気)、宇宙環境など様々な分野でインフォマティクスが花開いている。

今回はそれらの中でもバイオインフォマティクスの研究を行っている公益財団法人サントリー生命科学財団生物有機科学研究所の統合生体分子機能研究部を訪ねました。

生物のメカニズムの解明

▲統合生体分子機能研究部　部長
主幹研究員佐竹炎氏

　同財団内で研究事業を担うのが生物有機科学研究所(略称：生有研)。主に生物における天然有機化合物のメカニズムを解明し、地球上にみられる生物多様性を明らかにしていくための多彩な研究を行っています。

　「例えばセサミンという健康成分がある事はご存じだと思いますが、わが国ではその原料となるゴマの99％を海外からの輸入に頼っているわけです。さらにゴマから抽出できるセサミンの量はわずかで、別の植物から効率的にセサミンを生成、抽出できるようにできないか研究しています。目をつけたのはセサミンの元となるリグナンという物質をつくるレンギョウという漢方薬にも使われる植物で、この植物のDNA(*1)を組み替えることでセサミンをつくる事ができないかというものです」と、統合生体分子機能研究部の部長で主幹研究員でもある佐竹炎氏は説明します。

　このような物質が生体内で作られるメカニズムをより詳しく知るには、DNAやRNA(*2)に含まれる情報、すなわち塩基配列を知ることが重要です。

次世代シーケンサーの導入

▲生有研が導入した次世代シーケンサーは大小合わせて2台。分析対象などによって使い分けています。シーケンサーからのデータを解析するのは、80コア分のCPUと、メモリ1TBを搭載したHPCサーバーです。

　近年では、配列を自動的に読み出す装置「シーケンサー」が飛躍的に発達してきています。
　シーケンサーとは、もともと非常に長いDNAやRNA試料を細切れにし、それぞれの断片を並行して自動的に読み取ることで効率化を図り、かつて人海戦術で長期間かけていたような作業を研究者一人で短期間に行えるようにする装置です。

　最近では特に「次世代シーケンサー」と呼ばれる並列性の高い機器が登場し、最先端の医療や生物の研究に欠かせない存在となりつつあります。
　生有研でも、研究をさらに深めるべく、2012年に初の次世代シーケンサーを導入することになりました。ところが、ここで一つの課題に直面します。

　シーケンサーから出力されるのは、多数の断片となった塩基配列の情報だということです。その断片から重複する部分を見つけ出しては重ね合わせる、パズルのような作業を繰り返して繋ぎ合わせていかなければなりません。

　「ヒトであれば既知のゲノム配列データ(*3)を使うことができ、そのデータを基にして、例えば病気のときの状態の違いを調べる研究が行われます。しかし、我々の研究対象は、まだDNA配列が知られていない生物が多いため、ほぼ白紙の状態から配列を調べなければならないのです」と佐竹氏は言います。

　生有研が導入した装置は数百塩基対の断片を約4,000万本分、同時に読み取る能力を持つもので、たった1回の分析でデータ量は数十ギガバイトにもなります。

　このビッグデータを効率的に処理する次世代シーケンサーを使いこなすために、メモリ容量やディスクの入出力性能などを重視したハイ・パフォーマンス・コンピューティング(HPC)サーバの選定が行われ、「HP ProLiant DL980 G7」をベースに、高速ディスクI/Oを実現する「HP PCIe IOアクセラレータ」を組み合わせた構成が採用されることになりました。

ビッグデータの活用

▲統合生体分子機能研究部
特別研究員白石慧氏

　シーケンサーのデータ処理に携わっている特別研究員の白石慧氏は、次のように説明します。

　「シーケンサーからのデータには配列の読み取りミスが混じっていたり、長い繰り返し配列なども含まれ、解析ソフトを走らせても正しい配列にたどり着かないことが少なくありません。解析の誤りがあっても手戻りが容易なように、ビッグデータであってもメモリ上に展開したままにできる環境が必要でした」

　生命科学分野におけるICT活用は「バイオインフォマティクス」と呼ばれ、近年になって急速に発展しつつあります。かつては実験で取得できるデータ量も限られていたため、研究者自身がPCやワークステーションで計算をすれば済んでいました。
　それが、研究の発展に伴ってシーケンサーをはじめとする分析装置が急激に進歩し、得られるデータが膨大なものとなってきて、そのビッグデータの中から必要な情報を効率的かつ的確に見出していく技術が必要になってきたのです。

　バイオインフォマティクスのさらなる発展のため、単なるICTエンジニアではなく、従来からの研究とICTを橋渡しできるような人材、例えばICTを高度に使いこなせる研究者や、研究内容を理解できるコンピュータ・エンジニアが強く求められています。

「ウェット」と「ドライ」の活用

　「“ウェットとドライ”という言い方があります。従来からの実験が『ウェット』なのに対して、インフォマティクスが『ドライ』。これからの研究には両方の要素が必要だという考えです。こうした複合的な分野だと、一方だけの研究を頑張るより、カウンターパートで補った方が良いのです。例えば、コンピュータ上の解析のみで試行錯誤を続けるよりも、ある程度まで候補を絞り込んだら、手で実験した方が早く成果を得られたりします。仕事の断捨離ですね」(佐竹氏)

　ビッグデータを使った研究活動というのは、まだ一部の巨大企業や政府機関が進めているものが多数を占めていますが、各種デバイスやネットワークのスピード化やクラウド(CPUの分散、並列)化の進展に伴い誰にでもビッグデータが扱える日は、そう遠くない未来なのではないでしょうか。

　おそらくその時は同時に世界中に訪れるはずです。

　その時までにインフォマティクス理論を学び、客観的に緻密にデータを取り扱う知恵や技術を身に着けておく事が今後の社会では重要になるのではないでしょうか。

　ビッグデータが拓く未来世界に期待したいと思います。

(*1) : DNA(デオキシリボ核酸)
高分子生体物質で、地球上のある程度の生物において、遺伝情報を担う物質。
(*2) : RNA(リボ核酸)
リボヌクレオチドがホスホジエステル結合でつながった核酸である。
(*3) : ゲノム配列データ
2010年4月現在、80株以上の古細菌の配列が決定されている。ゲノムサイズが小さいことや発見された種自体が少ないことなどもあって真核生物や真正細菌に比べ進んでいる。2009年新たに発表されたアキディロブス目を除き、全ての目に配列が決定された種。

団体名	公益財団法人サントリー生命科学財団
設立	1946年2月1日
所在地	大阪府三島郡島本町若山台1-1-1
理事長	仙木伸介
主要事業	公益目的事業として研究事業、収益事業として企業研究受託事業を行う