
この記事が含む Q&A
- GPT-4oを用いた研究の目的は何ですか?
- 安全で仮想的な空間で社会的理解を練習するゲームを作ることと、AIが回答を評価できるようにすることです。
- 研究で扱われた課題は何ですか?
- 社会的失言、皮肉、ほのめかし、白い嘘の4課題です。
- AIの評価と人間の専門家の評価には差がありましたか?
- 有意な差はなく、AIは人間の専門家とほぼ同等の評価を示しました(皮肉のみややばらつき)。
自閉症スペクトラム症の人は、他者の気持ちや考えを推測する力(心の理論、Theory of Mind)に特徴があり、社会的なやり取りの中で戸惑うことが多いとされています。
たとえば、皮肉や冗談をそのまま受け取ってしまったり、相手の本音を読み取るのが難しかったりします。
こうした理解の差が、会話や人間関係の中で「なぜそう言ったのか」「どう返せばいいのか」という悩みにつながることも少なくありません。
オーストリアのグラーツ工科大学とミュンヘン工科大学の研究チームは、この社会的理解を支えるために、まったく新しいアプローチをとりました。
それは、ゲームの形をした「社会スキル練習アプリ」です。
そしてその中で、AIの一種である大規模言語モデル(Large Language Model, LLM)を活用して、人の「気持ちの読み取り」や「言葉の裏の意味」を評価させたのです。
使用されたのはOpenAIのGPT-4o。
研究者たちは、このAIが心理学の専門家と同じように、人の回答を正しく理解できるかを検証しました。
研究チームが目指したのは、「安全で仮想的な空間で、楽しみながら社会的理解を学べるゲーム」を作ることでした。
実際の会話を模したアニメーションの中で、登場人物たちがやり取りをします。
参加者はその場面を見たあと、「今の発言に皮肉はあったか」「相手は何を考えていたと思うか」などの質問に答えます。
シーンは猫の話題から職場での雑談まで、日常的でリアルな内容です。
たとえば、黒猫を買ったと話した人に「黒猫って不吉だよね」と言う場面――これが“社会的失言(faux pas)”を含むタスクです。
研究に参加したのは16歳から58歳までの21人(そのうち7人が自閉症の診断あり)。
オンラインで参加でき、専門家による倫理審査も通過しています。
参加者の回答は、4人の臨床心理士や心理学者が採点しました。
これとまったく同じ課題をGPT-4oにも与え、人間の専門家の採点と比較したのです。
課題は4種類ありました。
- 社会的失言(Faux Pas):相手を知らずに傷つけてしまう場面。
- 皮肉(Irony):発言の表と裏の意味を読み取る課題。
- ほのめかし(Hinting):直接言わずに意図を伝える場面。
- 白い嘘(White Lie):相手の気持ちを守るために事実と異なることを言う状況。
それぞれの課題では、短い物語をアニメーションで見たあと、登場人物の意図や感情を問う複数の質問に答えます。
回答は「はい/いいえ」や自由記述の形式で、1問1点で採点されました。
ゲームには音声ナレーションやキャラクターの表情アニメーションもあり、現実的で感情的なやり取りを再現しています。
AIに与えられた指示はかなり精密でした。
GPT-4oには「この物語と質問、参加者の回答」をまとめて提示し、「採点基準に従って、各質問に対し正解なら1、不正解なら0を出力するように」と伝えます。
AIの出力結果はCSV形式で処理され、すべてのタスクで正しいフォーマットを維持できました。
つまり、AIは混乱せず、全問に対して安定した回答を返すことができたのです。
結果は驚くべきものでした。
統計解析(マン・ホイットニーU検定)の結果、GPT-4oと人間の専門家の評価には有意な差がなかったのです。
どの課題(社会的失言、皮肉、ほのめかし、白い嘘)においても、AIの評価は人間の心理士とほぼ同等でした。
皮肉タスクだけは少しばらつきがありましたが、全体として一致度は非常に高かったとされています。
処理時間は全参加者の全回答を評価して約230秒。
コストはわずか0.24ドル(約36円)。
専門家が何時間もかけて行う採点を、AIが数分で完了したというのは実用的にも大きな意味があります。
しかも、どの質問にも指示通りの形式で応答できたことから、AIが教育・訓練用の「採点パートナー」として十分使える可能性を示しました。
この成果が持つ意義は二重です。
ひとつは、自閉症支援の新しい形としての可能性です。
人との会話を練習する場面では、「失敗したくない」「どう思われるか怖い」と感じることがあります。
けれども、ゲーム内のAI相手なら、何度でもやり直せる。
AIはすぐにフィードバックを返し、しかも人のように評価できる。
こうした「安全な練習空間」は、自信を持って実生活に臨むための橋渡しになると研究者たちは考えています。
もうひとつは、AIそのものの社会的理解能力の進歩です。
大規模言語モデルは、もはや単なる“文章生成マシン”ではなく、人の感情や意図を推測する力を持ちつつあります。
今回の研究では、GPT-4oが「他者の心を読む」心理課題を、人間の専門家と同じ精度で判定できました。
これは、人工知能が「共感的理解」の一端を再現できる可能性を示すものです。
もちろん、課題もあります。
研究チームは次のように注意を呼びかけています。
まず、参加者が21人と少なかったこと。
次に、AIの評価が二択形式で単純化されているため、回答の微妙なニュアンスまでは反映されないこと。
そして、AIの評価はオフラインで行われたため、ゲーム中にリアルタイムで反応する仕組みはまだ実装されていないことです。
さらに、AIは“ブラックボックス”であり、なぜその採点をしたのかを完全に説明することはできません。
この不透明さは、臨床現場に導入する際の課題になります。
それでも、研究チームは確信しています。
「正しく設計されたAIは、社会的理解を学ぶ支援者になりうる」と。
AIは疲れず、偏見を持たず、いつでもアクセスできる。専門家が不足する地域でも、仮想環境での練習ができるようになるかもしれません。
しかも、ゲームのスコア化によって、練習そのものが“楽しい”体験に変わります。
AIが人の心を理解する。
その言葉は少し奇妙に聞こえるかもしれません。
けれども、心を読むというのは、必ずしも「感情を持つ」ということではありません。
相手の立場を想像し、文脈の中で意味をとらえ、言葉の裏を推測する――それは人が日々行っている知的な作業です。
今回の研究が示したのは、AIがこの“知的共感”の一部を再現できる段階に来ているということです。
いつか、誰もが気軽に使える「会話練習のAIゲーム」が登場し、安心して人とのやり取りを学べるようになるかもしれません。
そのときAIは、ただの機械ではなく、「話す練習相手」として、人の成長を静かに支える存在になるでしょう。
(出典:Nature sieintific reports DOI: 10.1038/s41598-025-18608-4)(画像:たーとるうぃず)
ChatGPTとやりとりをすれば、もう誰もが人間と変わらないと思うはずです。
話す練習相手。
練習を意識しなくても、自然にそうなる、最高の存在になるはずです。
とにかく、ひどいことは言ったりしませんし、相手をとても尊重しとても優しいですからね。
(チャーリー)