オープンソースとサイエンスコモンズ

先日のイベントでは、オープンアクセスでも広義のオープンアクセス、すなわち学術情報への自由なアクセス全般について触れられていて、オープンデータの話もいろいろ聞けたのでよかった。研究データをオープンにしてもらうのが大変という話を聞いていると、なんとなくソースコードの公開を思い出したので、この辺りを対比して考えてみることにする。ちなみにオープンデータの必要性については、

Numerous scientists have pointed out the irony that right at the historical moment when we have the technologies to permit worldwide availability and distributed process of scientific data, broadening collaboration and accelerating the pace and depth of discovery…..we are busy locking up that data and preventing the use of correspondingly advanced technologies on knowledge

Open data - Wikipedia, the free encyclopedia

というサイエンスコモンズのJohn Wilbanksの言葉からわかる通り、せっかく技術的にデータを共有して、コラボレーションが可能になったのだから、最大限に活用して、どんどん研究サイクルを早めていけたらいいね、という話である。

ソースコードの公開はこんなに進んでいるのに、データの公開があまり進んでいないように見えるのはなぜだろうか。

と思ったのが対比して考えるきっかけである。別に論文にする前のデータを出すという話ではなく、論文を出した後のデータも含めて、活発にデータ公開がされている気がしない。これを考えるには、そもそも「データ」とは何かを考えてみる必要がありそうだと思った。そして、多くの人がソースコードを公開するのはなぜかを考えると、ヒントになりそうなことが見つけられそうな気がした。
漠然とそんなことを考えていて、先日酔っぱらいながらid:shiumachiにそこらへんをいろいろ聞いてみた。彼はこのところ一週間くらいオープンソース関連で秋葉原に入り浸っているような人なので、まさに適任者だろう。酔っぱらっていてあまり覚えていないのだが、2つほど非常に印象に残ったことがある。

思想と実益を分けて考える

ストールマンとリーナスは、目的が全然違うということである。フリーソフトウェアオープンソースソフトウェアの違いとも言える。ストールマンはゼロックスのプリンタドライバがあまりにもひどかったのがきっかけで、ソースコードは全て公開されなければならないというラディカルな思想の持ち主となった(たぶん)。一方リーナスは、

ぼくにとってはソース公開かどうかよりも,いろんな人たちとどう協力できるかのほうが重要で,そのための自由を望んでいるのです。

「自分の好きなことをやっているだけ」─第1回 Japan Linux Symposium基調講演にLinus Torvalds氏,まつもとゆきひろ氏が登場[前編]:レポート|gihyo.jp … 技術評論社

という言葉からわかるように、ソースコードを公開にしたオープンな場でつくるのが最適だと考えたからオープンにしているのであって、たとえクローズドだとしてももっと良いと思える環境であるならリーナスはクローズドにするかもしれない。実益というか、ソフトウェアをより良くしていくことを重視しているわけだ。
そんなわけで、データの公開についてもそれを思想としてやっているのか、ベストな形態だから選んでいるのかをわけて考えてみた方がよさそうだ。レッシグは、

市民に、一番肝心なところは教えないなんて、どうしてこんなことを我々はしているのか?知の普及のためにインターネット上に掲載している論文なのに、こんなところで財産権を主張することに一体どんな利益があるのか?

Creative Commons

という言葉から受ける印象として、思想寄りな気がする。John Wilbanksは、障壁を取り除いて研究のサイクルを加速させようという人なので、思想よりも実益寄りなのかな。フリーソフトウェアがなければオープンソースソフトウェアは発展しなかっただろうけど、フリーソフトウェアの思想だけでこれほどまでに普及したとは考えにくい。データについても、公開するのがベストな形態であり、公開することによって研究者自身に大きなメリットがあるのであれば、データを公開するインセンティブとなる。linuxはリーナスがスタートしてから18年経った。science commonsはまだ4年目だ。14年後、データを公開するプロジェクトが増えて、science commonsで研究サイクルが加速していろんな成果が出てくるようになったら、John Wilbanksは、既に知られた人物だけど、Linus Torvaldsになぞらえられているかもしれない。

スピード

なぜソースコードをオープンにするか、開発者にとってのメリットは何か。id:shiumachiの答えの一つがスピードだった。linuxには桁違いの人々が関わっていて、開発スピードが半端じゃないとのこと。一社ではそんなたくさんの人々に関わらせることはできないから、そんなスピードで開発することは不可能だとか。linuxの成果物にフリーライドすることも考えられるが、フリーライドする間にlinuxは次の段階へと進化を遂げているので意味がない。結局最先端にいるためには、linuxの開発プロジェクトにコミットするしかないそうだ。
この話をオープンデータに当てはめると、データの公開でフリーライドが無意味になるほど研究スピードが加速すればいいということになる。言い方を変えると、オープンにすることで研究スピードがそれだけ加速する物だけが、急激にオープンになりうる。ゲノムとか脳のマッピングとかがそれに該当するのかもしれない。
そんなわけで、あり得るアプローチとしては

  • 人類のためにこういう情報は公開されるべきだ。
  • 公開すればこんなに研究スピードが上がって、みんなハッピーになれる。

この2つのロジックに裏付けるデータを添えて適宜使い分けることだろうか。まだまだ始まったばかりだけど、過渡期というのは一番面白い時期だと思う。独占と共有の間の落とし所。そんなに悪くないテーマな気がした。