オープンサイエンス革命

研究活動を促進するための手段としてオープンにすることが挙げられるのだが、その取り組みがうまくいっている分野とそうでもない分野がある。その違いはどこにあるのか、うまくいっているプロジェクトにはどんな特徴があるのかなどを豊富な事例とともに紹介しているのがこの本である。例えばポリマスプロジェクトがうまくいっている理由は、このように書かれている。

なぜ、オンラインのマスコラボレーションは数学問題の解決に役立つのだろうか？一つには、もっとも優れた数学者ですら、他者から多くの補足的な知識を学べ、自分では考えつかなかったアイデアに啓発されることがあるからだ。

ポリマス・プロジェクトのリーダー、ティム・ガワーズは、一回の投稿に盛り込むアイデアは一つだけに絞り、自分だけでアイデアを膨らませすぎないよう、参加者に要請している。

うまく協力するコツというのが興味深い。それからマスワークスの話が面白かった。

この競技では、他のコンテストと違って、誰かがプログラムを提出すると、他の参加者はただちにそれをダウンロードして再利用できる。つまり誰でも他者のコードを「盗んで」改良し、自分のプログラムとして提出できるのだ。

功名心にはやることと、全体として最高のプログラムを書くことは別のことなんだなあということがよくわかる。

マスワークス・コンペティションにおいて、集団としての進歩の原動力になっているのは、プログラムを書くことのむずかしさと、書かれたプログラムを評価することの容易さのあいだにあるギャップだ。

こういうことも特定の条件下でしかできない。

イノセンティブは、「世界には科学的発見のための膨大な可能性が手つかずのまま埋もれており、それは人と人を正しく結びつけることで発掘できる」という前提に基づいて運営されている。

チェスは取り得る手筋のバリエーションがきわめて豊富なゲームなので、それらのプレイヤーのなかには、特定の局面に限ればカスパロフと同等か場合によってはそれ以上の力を発揮できる、独自のミクロ専門知識を持つ者がかなりいたはずだ。したがってワールドチームのプレイのカギは、この通常は埋もれているミクロ専門知識をゲームの流れに沿って掘り起こし、適切な場面でそれを活用するところにあった。

「デザインされたセレンディピティ」が重要な理由は、創造的な作業においては私たちのほとんどが（アインシュタインですら）ふさわしい専門家が見つかりさえすれば簡単に解決できるような問題に、多くの時間を費やしてしまっているという点にある。

このような結びつきは、世界中の至るところで形成されつつある。研究で難題に遭遇した科学者は、それを迅速に解決するために必要な専門知識を持つ、他の科学者と連絡を取ることができる。このように、なるべく自分の得意な領域の問題に取り組めるようにコーディネートしているのは、専門家の注意を効率良く誘導する、いわばオンラインコラボレーション市場だ。

こういうのを読むと見つけやすさ／見つけられやすさがいかに大切な要素となっているかわかる気がする。自分が一人の専門家として関心ある分野を持ち、他の専門家を探したり他の専門家に探されたりする立場でありたいと思った。

そこには従来の組織に見られるような、前もって計画され固定化された役割分担はない。その代わり、少なくとも原理的にはあらゆる手に関与する機会を全てのメンバーに与える、流動的な役割分担が認められる。

スケーリングの妙味は、各参加者が自分にとってもっとも価値があり興味を引かれるテーマのみを見つけられるように全体を絞り込むところにある。重要なのは、何が見えるかではなく、何を無視できるかだ。絞り込みが正確であれば、参加者の注意を貢献可能な課題に効率良く誘導できるようになる。

現在では誰も、超人アラン・コックスですら、進行中の作業のすべてを追うことなどできない。リナックスコラボレーションの長所は、誰もそうする必要がないように組織化されているところにある。

ある程度無視できるというか、存在を忘れられるようにすることが必須という気がした。

意図的なモジュール化がこのように徹底していないと、オープンソース・コラボレーションはスケールアップできない。たとえばウィキとオープンソースのアプローチを用いて、クオリティの高い小説を書こうと試みて失敗した例は多々ある。

「集団は、政治的な判断など、ある種の問題を議論する際、手にしている全ての情報を有効に用いるのが驚くほど下手である」

グループは利用可能な情報のすべてを検討するのではなく、メンバーが共通して持っている情報をもとにした議論にほとんどの時間を費やすことが判明している。

共有プラクシスを持たないグループでは、解消不可能な意見の不一致が発生する。そうなるとそこから分裂が生じ、コラボレーションをスケールアップする機会は失われる。

量子重力理論の場合には、研究対象となる現象があまりにも現実離れしているために、実験方法もまだわかっておらず、理論の域をまったく出ていない。それに加えて、基礎理論の構築が非常に困難なため、出発点となる前提の選択ですら、芸術の場合と同様、ある程度は個人の好みに帰されるような側面がある。このような問題では、共有プラクシスは成立し得ない。

こういうケースはうまくいかないってのはだいたいわかって来ているようだ。歴史を学んで得られることはそれだけ多いと言える。

CDCのシステムの迅速化を望んでいたグーグルとCDCの科学者たちは、グーグルの検索エンジンに入力された検索文字列を分析することで、どこでインフルエンザが発生しているかを即座に追跡できるのではないかと考えた。たとえば、アトランタの住民がこぞって「せき止め薬」と検索していれば、今まさにアトランタでインフルエンザが蔓延しつつある可能性が高いと予測できるのではないだろうか。

「いつだったか、やろうと思えば株式市場の予測が試みられるのではないかという話題が持ち上がったことがある。しかしそれは非合法だということで議論が決着し、結局試さなかった」

名詞と動詞の区別さえ考慮に入れないモデルが、もっとも優れた言語モデルを凌駕し得るとは、まったく象徴的だと言えよう。少なくとも、これらの統計モデルは、言語翻訳の従来のモデルには見出せない何らかの真実を表現しているということを真剣に受け止めるべきだ。

こういうdata driven intelligenceというのは、今後ますます重要になっていく分野なんだろうと感じた。

科学のいくつかの分野では役割分担が変わってきており、実験を考案してデータを集める人と、実験によって得られたデータを分析する人に役割が専門分化しつつある。

科学の多くの分野では、詳細な調整情報がないと実験データは解釈が困難になる。またデータに調整情報が添えられていても、他の科学者がデータを活用するには、その実験方法を細部にわたって理解していなければならない。それに加えて、誰もが同じ意味で専門用語を使っているかどうか、あるいはファイルフォーマットに関してなど、細かくはさまざまな問題がある。

オープンデータに対する具体的な考察。まだまだ標準化が必要な感じがする。単にオープンにするのではなく、使えるようにすることが大事。当たり前と言えば当たり前だけど、それを再認識させてくれた。

科学者の研究方法を向上させる最良のアイデアの一つは、論文の執筆を研究の目標と見なす考え方からの解放にあるからだ。このような慣例的な見方のために、ジェンバンクやウィキペディアを最大限に活かす機会が失われ、それらの影響力が弱められている。

問題の根源は、野心をもつ科学者なら、偏執的と言えるまでの努力を払っても科学論文を書き上げ、助成金を獲得しなければならないという科学アカデミズムの慣習にある。

結局のところ、現状では研究者の評価が投稿論文によってなされるので、論文を書くことにつながるものはうまくいき、論文と関係のない活動は誰もやらなくなるということか。

arXivのようなツールを構築する人は「単なるツール屋」と見なされ、科学のプロセスをスピードアップするツールの構築自体には何の価値もないかのような扱いを受けるのだ。

この辺りも現状の困ったところ。

すべての科学者が、互いの発見やアイデアを自由に享有し、その知見を活用できるようになれば、科学全体がもっと急速に進歩するはずだと個々の科学者が考えていたとしても、その時点では雑誌への成果の発表が彼らにとって最善の利益になるということを意味するわけではなかった。

構造がおかしければ、心掛けだけではどうにもならない。

発明家でもある科学者ダニエル・ヒリスは、「誰もがするように、2年のスパンで考えると不可能だが、50年のスパンで考えれば容易に解決可能な問題がある」と述べているが、オープンサイエンスの実現を妨げている障害は、まさにそのタイプの問題だ。

このくらい先の長い話なんだろうが、長期的視点を持って取り組んでいる人の存在を知ることができて良かった。

オープンサイエンス革命

posted with amazlet at 13.08.09

マイケル・ニールセン
紀伊國屋書店
売り上げランキング: 128,002

Amazon.co.jpで詳細を見る