
効果が低い?それは違います「実験モデルに不忠実な環境で行われた戦略」
実験モデルで得られた高成果を、教育現場に持ち込んでも効果が薄いときがあります。
実験モデルにより近い環境で行われずに低評価される有能な研究がいくつもあるようです。
Promising new education interventions are potentially being ‘unnecessarily scrapped’ because trials to test their effectiveness may be insufficiently faithful to the original research, a study has warned.
参照元:https://news.educ.cam.ac.uk/poor-fidelity-effective-education-strategies
– ケンブリッジ大学 University of Cambridge. –
有望な新しい教育的介入が、その効果を検証するための試験が元の研究に十分に忠実でないために、「不必要に破棄される」可能性がある、とある研究が警告しています。
この警告は、研究者が11,000以上の研究試験を大規模なコンピュータ・シミュレーションを行い、「忠実度」がどの程度結果に影響を与えるかを調べた結果、提起されたものです。
科学や社会科学の分野では、「忠実度」とは、新しい技術革新を評価する試験が、その技術革新の基となった元の実験の設計にどの程度まで忠実であるかということを指します。
科学者が新薬を承認する前にテストをするのと同じように、学習を改善するための新しい戦略は、多くの場合、学校などの環境で徹底的に評価されてから展開されます。
多くの革新的技術はこの段階で却下されます。
なぜなら、試験の結果、学習の進歩がほとんどないことが判明したからです。
しかし、学識経験者からは、フィデリティ(忠実性)が損なわれることによって、試験が危うくなるケースがあるという懸念の声が以前から上がっていました。
多くの場合、フィデリティは一貫して測定・報告されていません。
新しい研究では、この理論を検証しました。
ケンブリッジ大学とカーネギーメロン大学の研究者たちは、何百万人もの参加者を模擬した何千ものコンピュータ・モデル裁判を実施しました。
そして、忠実度の変化が介入の「効果量」をどの程度変化させるかを検証しました。
その結果、忠実度における比較的微妙な逸脱でさえも、大きな影響を与える可能性があることがわかりました。
シミュレーションのフォローアップテストで忠実度が5%下がるごとに、効果量も5%ずつ下がっていました。
現実の文脈では、このことは、忠実度が低いために結果がゆがめられ、高い可能性を秘めた革新的技術が使用に適さないものと判断されることを意味します。
この研究では、次のように指摘しています。
「教育的介入における相当数の無効な知見は、…忠実性の欠如に起因する可能性があり、その結果、健全なプログラムが不必要に破棄されることになるという懸念が高まっている。」
この研究結果は、英国のEducation Endowment Foundation(EEF)や米国のWhat Works Clearinghouseといった、新しい教育研究を評価する組織にとって特に有用であると思われます。
EEFは、プロジェクトの試行結果をウェブサイトで報告しています。
現在、報告書の5件中3件以上が、テストされた介入は生徒にとって何の進歩ももたらさなかったか、あるいはマイナスの進歩につながったことを示しています。
ケンブリッジ大学教育学部のミシェル・エレフソン教授(認知科学)は話します。
「このような試験には多額の資金が投入されているため、どの程度忠実性を制御しているかを注意深く観察する必要があります。研究の再現性は非常に重要ですが、危険なのは、忠実性に違反したために有望な介入を捨ててしまい、教師と研究者の間に不必要な信頼ギャップを生じさせてしまうことです。」
多くの研究結果の再現が困難であることから、まさに「再現性の危機」と学者たちは頻繁に言及してきました。
教育現場では、教員と研究者が混在して試験を行うことが多い。特に大規模な研究では、人的要因(研究指示の読み間違いなど)や研究環境の変化(テストのタイミングや条件など)により、不用意に忠実性が失われる可能性が十分にあるのです。
エレフソン氏とカーネギーメロン大学のダニエル・オッペンハイマー教授は、コンピュータを使った無作為化対照試験を開発しました。
この試験では、まず25人の生徒がいる40の教室で、架空の介入をシミュレートした。
彼らはこれを何度も繰り返し行い、その都度、介入の潜在的な効果の大きさ、生徒の能力レベル、試験自体の忠実度など、一連の変数を調整した。
例えば、学校内のリソースの質、優秀な教師にはより成績の良い生徒がいるかもしれないという事実などです。
この研究では、導入した変数の代表的な並べ替えを組み合わせ、合計11,055の試行をモデル化した。
驚くべきことに、データセット全体を通して、ある試験で忠実度が1%失われるごとに、介入の効果量も1%低下することが示されました。
この1対1の関係は、例えば80%の忠実度を持つ試験でさえ、効果量が著しく低下することを意味し、試験中の介入の価値を疑うことになるかもしれません。
より詳細な分析により、より大きな効果サイズが期待される場合、忠実性の喪失の影響がより大きくなる傾向があることが明らかになりました。
つまり、最も有望な研究の革新は、フィデリティ違反に対してもより敏感であるということです。
交絡因子はこの全体的な関係を弱めたが、研究者が実施したすべてのテストにおいて、フィデリティは効果量に圧倒的に大きな影響を及ぼしました。
エレフソン氏とオッペンハイマー氏は、研究試験を実施する組織は、忠実性を確保し、測定し、報告するためのより強固なプロセスを確立し、その勧告を可能な限り強固にすることが望ましいと示唆しています。
彼らの論文では、2013年の研究で、放課後の介入研究の29%しかフィデリティを測定していないこと、また2010年の別の研究では、ソーシャルワークの介入研究の15%しかフィデリティデータを収集していないことを指摘しています。
オッペンハイマー氏は話します。
「教師が新しい教育方法を試すように言われたとき、その方法を特定の生徒のニーズに合わせたいと思うのは自然なことであり、おそらく賞賛に値することです。しかし、信頼できる科学的試験を行うには、指示に正確に従うことが不可欠です。そうでなければ、研究者はその介入が広く有効であるかどうかを知ることができません。そうでなければ、研究者は、介入が広く有効であるかどうかを知ることができません。 研究チームにとって、有効な結論を導き出すことができるように、研究の忠実性を監視し、測定することは本当に重要です。」
エレフソン氏は続けます。
「多くの組織が研究を独自に評価するために素晴らしい仕事をしていますが、フィデリティの測定と綿密なチェックの両方を確実に行う必要があります。研究結果が再現できない場合の正しい対応は、研究を完全に否定することではなく、一歩下がって、なぜあるケースではうまくいったが、別のケースではうまくいかなかったのかを問うことかもしれません。」