データコラボレーション解析による準実験

プロジェクトメンバー

  • 河又 裕士 Yuji Kawamata
    人工知能科学センター/人工知能科学センター(サービス工学分野)
  • 罇 涼稀 Ryoki Motai
    システム情報工学研究群 サービス工学学位プログラム
  • 岡田 幸彦 Yukihiko Okada
    システム情報系/人工知能科学センター(サービス工学分野)
  • 今倉 暁 Akira Imakura
    システム情報系/人工知能科学センター(数理アルゴリズム分野)
  • 櫻井 鉄也 Tetsuya Sakurai
    システム情報系/人工知能科学センター(数理アルゴリズム分野)

研究概要

ハイライト

  • 分散データのプライバシーを保護しつつ統計的因果推論を行える手法を提案した
  • 提案手法は、処置効果の推定結果の偶然誤差とバイアスを低減できる
  • 提案手法は、生データではなく中間表現化されたデータを共有することでプライバシーを守る
  • 実データを用いる実験によって、提案手法から良好な推定結果が得られることがわかった

研究背景と目的

  • 複数の医療機関や自治体に分散する個人データを集約して統計的因果推論(傾向スコア分析)が行えれば、処置効果のより信頼できる推定結果を得ることが可能
  • しかし、個人データを生のまま集約することはプライバシーの観点から困難
  • そこで本研究では、プライバシー保護の分析技術であるデータコラボレーション解析を発展させ、分散する個人データからの処置効果の推定を可能にする手法を提案
    ✧Quasi-Experiment based on Data Collaboration (DC-QE)(図1)

実データによる性能評価実験

実験設定

  • 1970年代に米国で行われた職業訓練が参加者の所得に与えた影響を推定するタスク
  • 4つの機関にデータが分散

DC-QEと次で推定された平均処置効果の精度を比較(図2)

  • 個別解析:個別データのみによる解析
  • 集中解析:個別データ集約後の解析
    ✧理想的な解析だが、プライバシーの問題がある状況では実行できない

DC-QEは、個別解析を圧倒し、集中解析に匹敵するほどベンチマーク(ランダム化比較試験で推定された処置効果)に近い推定精度を得た(図3)

  • データの増加による偶然誤差とバイアスの低減

研究の活用と発展

DC-QEの活用の可能性

  • 政策評価
    ✧自治体の住民データと病院のヘルスケアデータを結びつけることで健康推進政策を評価
    ✧自治体の住民データの小売企業の購買データを結びつけることで経済政策が消費行動に与える効果を検証
  • 大規模データによる医療処置の効果推定
    ✧複数の病院で実施された投薬・手術のデータをもとに高精度な医療処置効果を推定

研究の今後の発展

  • 人によって処置の効果が異なる可能性がある→条件付き処置効果の推定(図4)

本研究は、新エネルギー・産業技術総合開発機構 (No. JPNP18010)、科学技術振興機構 (No. JPMJPF2017)、日本学術振興会科学研究費 (Nos. JP19KK0255, JP21H03451, JP22H00895, JP22K19767)からの支援を受けて実施されました。

図1:データコラボレーション解析による準実験の概要

 

図2:比較する解析手法の概要

 

図3:処置群に対する平均処置効果の推定量(ブートストラップ法で分布を算出)

 

図4:条件付き処置効果の推定の概要

参考文献

[1] Kawamata, Y., Motai, R., Okada, Y., Imakura, A., & Sakurai, T. (2022). Collaborative causal inference on distributed data. arXiv preprint arXiv:2208.07898