メンフィスにて

主に生命科学と社会について考える

"Phenotypic profiling"とは?(1)Functional genomics

スクリーニング(Screening)プロファイリング(Profiling)とはどう違うのか? プロファイリングの応用可能性について認識していきたい。

 

いわゆるHigh-throughput screening(HTS)はDrug discoveryにおいて盛んに利用され、その範囲は拡大し続けている。この急速な普及の理由はリソースの利用性が大幅に改善されたからだ。具体的には大量の検体を処理するためのロボットの開発・改良、高効率の検出システムと得られた大容量データの処理能力の向上、それに化合物ライブラリーの充実だ。今年初めに述べたが、こうしたリソースへのアクセス性の向上により、これまで薬剤探索に無縁であった臨床医研究者が自ら新薬を見つける試みに取り組めるようになった。これは過去10年間に起こったことだ。こうしたドラッグスクリーニングの”素人化”は、最近のDELライブラリーの実用化によりさらに歩を進めたと思われる。ドラッグスクリーニングの”ど素人化”だ(注1)。

大量の検体を処理して大量のデータを得るような研究法として、"Phenotype profiling"が浮上している。これはscreeningと作業的には似ているが、基本的な思想において全く異なる。きわめて簡単に言うと、各検体についてできるだけ数多くの項目についてデータを取り、検体ごとの結果のパターン(すなわちprofile)をコンピュータ上で比較する。これによりその検体の性質を推定しようとする手法だ。ここで着目するのは各検体の持つデータセットの類似性であり、個々のデータの生物学的意味は重要視しない。要するに数値分類的な処理を行うわけだ(注2)。一方screeningは、一つまたは少数の判定基準にしたがって大量の検体を処理して、目標の性質を持った化合物や遺伝子を見つけ出す手順だ。こちらの方は、今日までに膨大な成果が得られている。Profilingについては、これまでのところ医学・生物学的観点からは、Functional genomicsとDrug discoveryの両方の領域で成果が出始めている。

具体例を挙げよう。

まずはfunctional genomicsの例だ。2,010年にドイツ語圏(独、墺、瑞)の研究者によるNature論文で、Jan Ellenbergが責任著者だ("Phenotypic profiling of the human genome by time-lapse microscopy reveals cell division genes")。この論文は細胞分裂(cell division, mitosis)に関わる遺伝子を網羅的に探索するという研究だ。研究のプロセスは、(1) GFPで標識されたコアヒストン(H2B)を発現するHeLa細胞(動画あり)にヒト遺伝子の大部分をカバーする21,000遺伝子の各々を標的とするsiRNAを導入する。このsiRNAライブラリーを導入された細胞について、タイムラプス画像(間歇的連続画像)を蛍光顕微鏡上で撮る。記録された画像から各細胞について計200通り以上の様々な形態的指標をコンピュータ上で計測させる。(2) 取り込まれた画像の形態、これは主に染色体、ないしは核の形態だが、これにより細胞は16種類の形態に分類される。得られた画像の各々がこの16カテゴリーのどれに該当するかをコンピュータに判定させる。このうち5つのタイプが細胞分裂の異常に該当する。(3) 異常が同定された遺伝子については、さらに複数のsiRNAでも同じ表現型を示すことを確認する。(4) 最終的な検定としてマウスの同じ遺伝子の野生型cDNAによる表現型の相補試験を行う。

プロセス(2)で、1,000個以上の遺伝子が見出された。さらに複数のsiRNAで同じ表現型が得られた遺伝子を残し、これらを細胞分裂に関与することが確認されたものとした。総計572遺伝子となる。細胞分裂の研究には長い歴史があって、これまでに67個の遺伝子が確定している。本研究ではそのうちの41遺伝子(61%)が釣り上がってきた。これで研究手法の妥当性が保証される。最終的な確認はマウスcDNAによる表現型の相補だ。これはかなり古典的だ。ここで確認実験に供されたのは計21個の遺伝子で、このうち完全に表現型が相補されたのは12遺伝子、部分相補は3遺伝子だった。調べた遺伝子のうちの57%(15/21)について相補試験による確認ができたことになる。悪くない率だ。

この仕事のsuccess factorはプロセス(2)にある。細胞分裂中には染色体は高度に凝縮し、かつ各相で特徴的な挙動を示すので、分裂のどの時期(相)に問題があるかは熟練した人間が見ればすぐ解る。しかしこの研究でコンピュータに取り込まれた分裂中の細胞は計1千900万個(回)にも上る。これを同一の人間が全てを判定することは不可能だ。したがってこの判定のステップをコンピュータに委ねることになる。ここで威力を発揮したのは、machine-learningシステムだ。上の16カテゴリーの形態的特徴を約3,000個の細胞を用いて”学習”させる。無論最初の16カテゴリーは人があらかじめ決めたものだ。人が”これはタイプ3、こっちはタイプ15”というふうに、ひとつづつ教え込むのだ。コンピュータは実際のデータをあらかじめ教わったカテゴリーに当てはめる作業を数値計算によって実行する(注3)。

論文の内容としては、さらに様々な解析を行って見出された遺伝子の分類や、pathway analysisを試みている(それらは本日の主題とあまり関係しないので省略する)。しかしあくまでもこの論文がNatureに受理された理由は、上記のmachin-learningを伴ったコンピュータによる判定が決め手になったと思われる。要するに実験手法さえ適切であれば、ある現象に関わる未知遺伝子を大量に同定することができるということ、それを実験的に示したのがこの論文だ。この仕事自体が壮大な”実験”であるとも言える。

最後になったが、なぜ細胞分裂を対象としたかについて述べられているので、そのことについて触れておきたい。ヒト細胞の細胞周期は細胞種にもよるが、大体24−48時間と考えてよいと思う。しかし細胞分裂はこのうちのほんの一部、2時間程度で経過してしまう。したがって、大量のデータを読み取る際のmachine-reading system、特にend-point readingでは、細胞分裂を逃してしまうことが多い。さらに多くの細胞分裂に関与する遺伝子の欠損は、分裂途上でarrest(細胞周期の停止)が起こったあげく細胞死に至ることが多い。もしend pointのみを読み込んだとすると、当該遺伝子の欠損は細胞死を起こす遺伝子と誤認される。こうした理由により、タイムラプスによる継続的なデータ取り込む方法が威力を発揮するのだ。

本研究で作成されたデータベースは他のあらゆる表現型の解析にも利用可能であり、そのために著者らはデータを公開している(http://www.mitocheck.org)。但し、ここで用いられている細胞は染色体が蛍光ラベルされたHeLa細胞であって、この系を使って明らかにできることには自ずと限りがある。

次回はPhenotype profilingのDrug discoveryへの応用例について紹介する。

 

(注1)但し、低分子化合物の精製タンパクへの結合そのものは、その化合物の活性を示しているわけでは必ずしもない。そのため細胞への”活性”を指標にしたスクリーニングの方が重要視されているとする総説が出ている。しかしその場合でも二次スクリーニングを追加することなどで解決出来る。”ど素人化”の動きは加速するであろう。

(注2)こうしたスタイルはDNAマイクロアレイパターンやRNAシークエンシングパターンの比較で既にかなり広範に行われている。かつて細菌の分類学で、取りうるあらゆるデータ(糖分解能などが該当する)を収集して、”距離”を求めるやり方(数値分類、numerical taxonomy)が行われたが、今回紹介したprofilingはこの細菌の数値分類に近いと思う。その理由は、ともに個々のデータの生物学的な意義を重要視(=重みづけ)しないからだ。かつて自分でプログラムを工夫してデータを出したことがあるので、こうした方法には多少の親近感がある(具体的にはこの論文)。ただし、両者のデータの総量には10の6乗倍程度の開きがある、悲しいかな。

さらに蛇足ながら、こうしたプロファイルパターンの比較は人間生活のかなり広範な領域に応用可能だと思う。その一つに競馬予想を考えているのだが...。

(注3)これを人工知能と呼ぶにはちょっと”幼稚”な感じがする。大容量のコンピュータに過ぎないと思うが。

 

(続く)