課題

データ整理をスムーズに行えて、誰でもマウスのクリックで簡単に操作できる、座学で学んだ解析手法をカバーできるツールが必要だった。

ソリューション

数十万行のデータをスムーズに処理でき、プログラミング知識なしに操作できるJMPを講義に導入。

結果

手を動かして座学で学んだ解析手法の理解を深めることができた。また、データ解析のグループワーク(データ解析コンテスト)では、データそのものの理解や探索に集中できることで、学生がデータに向き合い、仮説を立てて試行錯誤する手助けとなった。

東京大学大学院 医学系研究科 公共健康医学専攻(以下、「SPH」)では、人々の健康の維持、増進に役立つ最先端の研究を行い、公衆衛生領域で活躍する指導者や実践者を養成している。

その講義の1つである「医学統計学演習」では、東京大学大学院 医学系研究科 公共健康医学専攻 生物統計学分野 准教授 大庭幸治氏と北海道大学病院 医療・ヘルスサイエンス研究開発機構 プロモーションユニット データサイエンスセンター センター長 教授 伊藤陽一氏(東京大学大学院 医学系研究科 公共健康医学専攻 生物統計学分野の非常勤講師を兼任)の2人が教鞭を執っている。

Professor Oba and Professor Ito

左:大庭氏の研究内容は、臨床試験・臨床研究におけるデータ解析、終了した研究データの統合解析(メタアナリシス)等。

右:伊藤氏は、臨床研究の統計的サポートをはじめ、北海道大学病院データサイエンスセンターのセンター長として、若手の生物統計家の受け入れ、教育も含めたマネジメント全般を行う。

大庭氏と伊藤氏が担当する同講義では、ツールとして統計解析ソフトJMPが全面的に採用されている。具体的には、入学直後のS1タームに座学で学んだ主要な統計手法について、JMPを使いながら実例を交えた演習形式での講義が実施される。その後で学生グループごとに自由なテーマ設定の下、データ解析コンテストとして、Web等で公開されているオープンデータを利用した探索的な解析を実施し、解析結果の発表を行うという流れになっている。

そして、この講義を受講するSPHの学生は、将来の進路として、修了後に保健医療行政・健康管理などに携わる公衆衛生医師、EBM(Evidence-Based Medicine:根拠に基づく医療)や臨床試験などを担う臨床疫学・医療経済評価専門家のような公衆衛生領域のプロフェッショナルとして活躍することが想定されている。

統計の基本的知識はあるものの、人によって理解や経験の差が大きい学生たちに講義を行うにあたって、大庭氏は次のように説明する。「学生は一応統計を勉強して入学しますが、それぞれの統計スキルは様々です。そのため、講義にプログラミングが必要な統計ソフトを使ってしまうと、一部の学生にとってハードルが高くなってしまいます。そこで、JMPのようなマウスのクリックでデータ分析を進めることができ、しかも視覚的に分かりやすく、データの探索に時間をかけられるソフトが学生に適していると考えました」と同氏。

講座ではJMPを使用してデータ分析やグラフ作成が行われているが、「普段は他のプログラミング言語を使っていても、データの整理や確認の際にJMPを活用している学生もいます。JMPならデータ、グラフ、そして解析結果が全部リンクしているので、データの確認やクリーニングをする段階でとても便利です」と大庭氏は指摘する。

(上の画像)データ解析コンテストで1位になったグループのJMP使用例

JMPは学生だけでなく教員の研究にも活かされている。「JMPのダイナミックなグラフが役立っています。部分集団を選ぶときに、JMPなら『一変量の分布』で分布の具合を見て、気になる部分があれば、そのヒストグラムの棒をダブルクリックするだけで部分集団を選べるので、他のツールとは発想が全然違います」と伊藤氏。

続けて同氏は、「データビューもJMPの素晴らしい機能の1つです。データのサブセットを作成する際に、他の研究者に操作して見せると、あまりにも便利なので非常に驚かれます。JMPでは10万人ほどの検診データは全く重さを感じずに操作できますし、100万人くらいのデータまでは余裕をもって処理できます。スプレッドシートでは何万人ものデータを抽出するのはかなり難しいので、データの規模が大きくなればなるほどデータビューのパワフルさを実感できます。そのため、何度も繰り返し使ううちにやみつきになるほどです。研究者はこのようなサブセットの特定化で相当苦労していることが多いので、サブセットのデータテーブルを一瞬で作れること自体に驚きの声を上げる人が多いのです」と自身の体験を振り返った。

「スプレッドシートや統計解析向けのフリープログラミング言語でも、データテーブルから何らかの解析結果が得られるものですが、JMPだとサブセットをすぐに作れる等、データの特徴的な部分にフォーカスした後のアクションが速いのです。そのため、データを概観し、その特徴を想像しつつ、脳内とJMPのスクリーンで試行錯誤を繰り返す。それが当たり前になると思考様式が変わっていき、統計リテラシーが高まる。それを可能にするソフトウェアがJMPなのです」と伊藤氏は続けて述べた。

このようなJMPの強みは、研究者仲間や学生と、リアルタイムに相談しながらデータ探索を進める場合にも活きてくるようだ。この点について大庭氏は、「学生が資料を作成して相談に来ることがありますが、こちらからの改善点の指摘と学生による修正の往復を繰り返しては、お互いにとって時間と手間がかかりすぎてしまいます。その点、JMPを使えば、その場で学生と一緒に考えながら、実際に画面を操作しつつデータを探索していけます。すなわち、その場でデータをもとに、共に考え、仮説を埋めていくことができるのです。そういうデータ探索の醍醐味を実践できるのがJMPです」と指摘する。

「数値でしかなかったデータテーブルがJMPで視覚化され、イメージとして把握できるようになると、ものの見方が変わるということを学生の皆さんに体験してもらっています。」(伊藤氏)

それがひいては、学生にとっての大きな力になり得る。「データの探索と洞察の発見を重視することで、新しい仮説を作り出せるようになります。JMPを使うことによって、学生の仮説生成能力を高めることに資するわけです」と伊藤氏。

さらに大庭氏は、「研究者やデータサイエンティストでも検証試験を実施する人はごくわずかで、大抵の場合、トラブルが起きた時にその原因を探すといったデータの掘り起こし等を行うことの方が多いです。そういう時の問題に対するアプローチを学生には学んでもらいたいと思っています」と述べた。

アメリカの数学者・統計学者ジョン・テューキーが提唱した「Exploratory Data Analysis(探索的データ分析)」を設計思想の根底に有するJMPは、学生が研究活動において、「データが何を語るか」を見極め、そこから次の一歩に繋がる新たな仮説を立てていく際のサポートツールとして、社会における個人や集団の健康を守る「パブリックヘルスマインド」を持った公衆衛生リーダーの育成を手助けしている。