【第3回】データが語る残酷な真実～分析精度の壁と、科学的根拠に基づく断念という決断～

乾坤一擲の「実験3」：プロジェクトの集大成

「集中度測定アルゴリズム開発」プロジェクトは、当初の「視線やまばたきによる集中度推定」という仮説が実験1で崩れ、続く実験2では「主観的な実感と脳血流データの乖離」という人間の脳の複雑さに直面しました。これら一連の試行錯誤を経て、私たちはプロジェクトを「脳の活性化評価アルゴリズム開発」へと再定義し、その運命を賭けた最終決戦とも言える「実験3」に臨みました。

実験3の規模は、過去最大級のものでした。実施主体は株式会社プロシーズ、場所は大阪本社と東京本部の2箇所で実施されました。被験者は弊社内外から20代から40代以上まで、男女比がほぼ5:5となるよう調整された計42名が集められました。

この実験の至上命題は、「脳が活性化する要素（条件）の組み合わせを検証すること」と、「その結果から高精度な脳活性化評価アルゴリズムを開発すること」にありました。私たちは、PCだけでなく、現代の学習スタイルに欠かせないスマートフォンでの利用も完全に想定し、両方のデバイスで脳血流データとWebカメラによる顔画像データを同時に取得するという、極めて精密なデータ収集を行いました。

「脳の活性化」をいかに数値化するか：正規化への挑戦

アルゴリズムを構築する上で最大の障壁となるのは、「個人差」です。人によって安静時の脳血流の基準値は異なり、活性化した際の血流の増加量も千差万別です。これを克服するため、私たちは「正規化」という統計的手法を徹底しました。

具体的には、コンテンツ視聴前の安静区間を基準（0）とし、各被験者の最大値を1、最小値を-1として、データを[-1, 1]の範囲に収める処理を行いました。これにより、「その人なりにどの程度脳が動いているか」という相対的な指標を算出し、個人の生理学的な特性を排除した状態でのモデル構築を試みたのです。

さらに、説明変数（予測の手掛かり）として、以下の多角的な顔の特徴量を設定しました：

視線・頭部の動き： 視線移動距離の移動標準偏差、頭のヨー角・ピッチ角。
顔の動的変化： 口幅の変化、眉の高さ、眉の吊り上がり、目の開き具合、口角の下がり具合。

これらの変数を、線形回帰、決定木、ランダムフォレスト、そして最新の強力なアルゴリズムであるXGBoostといった複数の機械学習モデルに投入し、脳の状態を予測する「魔法の数式」の探求を続けました。

予測モデルの評価指標：ROC-AUCスコアの深い意味

モデルの性能を評価するために私たちが最も重視した指標が、「ROC-AUC（Area Under the Receiver Operating Characteristic Curve）」です。これは、モデルが「脳が活性化している状態」と「そうでない状態」をどれだけ正確に判別できているかを0から1の間の数値で示すものです。

ROC-AUCスコアの意味を詳しく解説すると以下のようになります：

AUC = 1.0（理想の状態）： モデルが100%の確率で正解を言い当てている状態です。偽陽性（活性化していないのに活性化と判定するミス）を出さずに、真陽性（活性化している状態を正しく捉える）を完全に達成しています。
AUC = 0.5（完全にランダム）： これは、コイン投げで判定しているのと変わらない精度であることを意味します。モデルが予測としての役割を全く果たせていない状態です。
目標値 AUC = 0.7以上： 一般的に、実用的な判別モデルとして価値があると認められるラインです。

私たちは、このAUCを0.7以上に引き上げることをプロジェクトの技術的な成功基準として設定しました。もしAUCが0.5に近いのであれば、それは「Webカメラで見える顔の動きからは、脳の状態を予測できない」という科学的な証明になってしまうからです。

突きつけられた分析結果：AIが越えられなかった壁

膨大な計算と試行錯誤の結果、算出されたスコアは私たちの期待を無残に打ち砕くものでした。

最も精度の高いモデル（ロジスティック回帰）を用いた場合でも、全体のROC-AUCスコアは0.623に留まりました。これは、予測された「脳の活性化」が実際に正しい確率は53.8%、逆に実際の活性化を正しく当てられる確率は54.1%に過ぎないことを示しています。つまり、私たちの最新AIモデルは、コイン投げよりはわずかにマシであるものの、実用化には程遠い「当て推量」の域を脱することができなかったのです。

さらに深刻だったのは、決定係数（モデルの当てはまりの良さ）が多くのモデルで「負の値」を示したことです。これは、AIが算出した予測値を使うよりも、単に「全員の平均値」を答えとして出し続けた方が、まだ実際のデータとの誤差が少ないということを意味します。この時点で、科学的に見て「顔の動きと脳血流の間には、汎用的なアルゴリズムを構築できるほどの直接的な相関は見出せない」という残酷な結論が導き出されました。

なぜ失敗したのか：科学的な「個人差」の正体

なぜ、最新の機械学習アルゴリズムを用いても脳の状態を読み取ることができなかったのでしょうか。その理由は、詳細な属性別分析によって明らかになりました。

私たちは、被験者を「表情の豊かさ」に基づいてGroup1（非常に表情豊か）からGroup4（無表情）までの4つのクラスターに分類して検証を行いました。確かに、特定のグループ、例えば「表情が豊かなGroup1」のスマートフォン利用時においては、ROC-AUCが0.722を記録し、目標値を上回る精度が出たケースもありました。しかし、これはあくまで特定の条件下での局所的な結果に過ぎませんでした。

分析を進める中で見えてきたのは、「脳が活性化している時の顔のサインは、人によって真逆になることすらある」という事実です。

ある人は集中すると眉が吊り上がるが、別の人は眉間にシワを寄せる。
ある人は活性化すると目を見開くが、別の人は目を細めて凝視する。
また、コンテンツへの興味の有無によって、脳は活性化していても表情には全く出ない（Stoicな状態）受講者も多数存在しました。

つまり、「全人類に共通する『集中』や『脳活性』の顔シグナル」は、現在の一般的なWebカメラの解像度で捉えられる範囲内には存在しない、というのがこのプロジェクトの科学的な最終回答でした。

苦渋の断念と、誠実なプロダクト開発への誓い

2026年初頭、私たちは重い決断を下しました。 「集中度（脳活性化）測定アルゴリズム」の研究開発を、ここで正式に断念し、プロジェクトを終了させることです。

ビジネスの観点から言えば、精度が低くとも「AIによる集中度判定機能」としてリリースし、マーケティングに活用するという選択肢もあったかもしれません。しかし、私たちは「科学的根拠に基づいた学びのインフラを提供する」という信念を曲げることはできませんでした。的中率が5割程度の機能を、さも学習効率を向上させるかのように謳って受講者に提供することは、私たちの誠実さに反するからです。

失敗から生まれた、より確かな「次の一歩」

しかし、この1年半にわたる挑戦と数千万件に及ぶデータの解析は、決して無駄ではありませんでした。私たちは、このプロセスを通じて「何ができないか」を科学的に証明し、同時に「何であれば可能か」という新たな光を見つけ出したのです。

アルゴリズム開発の断念と同時に、私たちはより実用的で、かつ受講者の学習を確実に支える代替案の開発へと即座に舵を切りました。それが、「視線検出による画面外逸脱アラート」です。

「脳の内面」という不可視の状態を推測するのではなく、「今、学習者が画面を見ているか、見ていないか」という客観的な物理事実に基づいた機能です。

Webカメラで瞳孔を追跡し、視線が一定時間以上画面外に外れた場合にのみ、「画面に注目してください」という適切な介入（アラート）を行う。
よそ見をしていた時間を記録し、学習終了後に「このセクションでは少し注意が散漫になっていたようです」という、客観的な学習ログとしてフィードバックする。

この機能は、今回の実験3で得られた「視線検出」の技術的知見をそのまま活用でき、かつ誤検知による受講者のストレスを最小限に抑えることができます。

結び：イノベーションは「正しい失敗」の先に

「集中度測定アルゴリズム開発」プロジェクトは、当初描いた夢のようなゴールには到達できませんでした。しかし、私たちはこのプロジェクトを通じて、教育DXという未知の領域における「人間への深い理解」という、何物にも代えがたい資産を得ることができました。

科学的な根拠に基づき、できないことを「できない」と見極める勇気。そして、そこから得られた断片を繋ぎ合わせ、より実用的な価値へと変換する執念。私たちの挑戦は、形を変えてこれからも続いていきます。画面の向こう側にいるすべての学習者が、迷うことなく、より深く学べる世界を目指して。

「プロシーズラボ」は、「学ぶ」「働く」「成長する」を支援するプロシーズが、未来の新しい価値を創造し続けるために立ち上げた研究開発機関です。「ICTを活用した新しい学び」をカタチにするために様々な角度からアプローチし、日々実験、開発に勤しんでおります。

「ICTを活用した新しい学び」につながることでしたら何でもご相談ください。共同研究などのご依頼も大歓迎です！