メンフィスにて

主に生命科学と社会について考える

ニューヨークの住人10,000人からデータを集める:研究プロセスのパラダイムシフト

ビッグデータの時代である。

最近のサイエンス誌にニューヨークに住む2,500世帯、計10,000人のデータを20年にわたって収集するというプロジェクトの計画に関する記事が出た。

 

このプロジェクトのポイントはただ単にゲノムDNAの配列を収集するだけでなく、それに加えて生活状況を把握するために他の様々な種類のデータを集めることにある。それらは医療位記録の他、行動、食事などの日常の記録、成長や変化などの身体の記録、さらには教育や家計の記録も継続して収集する。 

検体としては血液、唾液、毛髪、便、を3年ごとに採取し、様々な生物学的、化学的分析に供する。殊にmicrobiomeの把握は注目される。最初に紹介したとおりこの一大プロジェクトは20年間継続されることになっている。

 

プロジェクトの意図するところは、十分な規模と質のデータを長期間にわたって蓄積することによって、そこから浮かび上がってくる傾向を元にした研究仮説を生み出す源泉にしようとしていることである。多くの(特に社会科学系)研究者は現在がデータに乏しい世界(data-poor world)であると考えている。これをデータの豊富な世界(data-rich world)に変えることによってより有意義な研究を実行できると期待しているのだ。これに対して他の(特に実験科学分野の)科学者からは、そうした不明確なプロジェクトに多額の予算を割くべきではないという反対が当然出てくる。 

つまり“仮説> 実験 > データ”ではなく、“データ> 仮説 > 実験(実証)”の流れになり、この最初の部分“データ”を大規模にやろうとするわけだ。しかしよく考えると、従来型の研究(すなわち前者)でもやはり既に手元にある(または公表された)何らかのデータに基づいて仮説が立てられるので、実はこの両者には理屈としては大きな差はないのだ。医学生物学分野とは異なり、高エネルギー物理学では理論も実験データも概ね公表されているので(またはアクセス可能で)、次になされる実験が何かは研究者間で認識が共有されていることが多い。物理学以外の分野でもこうしたデータの共有を実現しようとしているのだ。こうしたビッグ・データ万能の考え方に対して“イマジネーション”のほうが真の問題を発見する上で大事であるとする立場ももちろんある。そうした考えを持つ優れた免疫学者が私の近くにいる。しかし大方は、要するに訳の解らないビッグ・データの収集に研究費を横取りされようとしていることに腹を立てているのではないか。

こうしたビッグ・データはデータベースとしてオープンアクセスになるので、広く世界の研究者の“仮説設定”に大いに資する。私はこうした戦略は社会全体にとってむしろ好ましいと思う。話が少し拡大するが、こうした“透明化”は論文審査の過程なども含めて現在の研究社会における一つの潮流になっていると思う。

以上紹介したような公開データからコンピュータ作業によって情報を収集すること、それをもとに実験台での確認作業を行うという“ドライ> ウェット”の流れについては既に昨年例示した。

 

最後に疑問として、離婚、移動の激しいアメリカで、この2,500世帯のうちどれだけが家族単位でニューヨークに留まって追跡可能なのだろうか? たぶん米国内(の大都市)での追跡はおそらく可能であろうが、国外に出てしまえばそれは困難であろう。こうした長期間を要するプロジェクトではこのような被験者の目減りは重要な課題であろう。

 

ところでこの大規模プロジェクトは計画段階で既に3年を要しているが、これを実施しようとしている主体は何か? それはロスアンジェルス近郊にあるカヴリ財団(The Kavli Foundation)である。

この財団は一般には知名度は低いが、物理学系分野における研究助成ではきわめて高い格を持つ団体として認められている。

この団体は大量の資金を持っているが、なおこのようなビッグプロジェクトを立ち上げるには十分でなく、さらに寄付を募るとしている。