人工智能(AI)“读心术”可通过读取大脑活动,“看懂”人脑中的画面——这听起来像科幻小说,如今却离现实更近一步。日本NTT通信科学实验室研究团队开发出一种名为“心智字幕”的新技术,能利用AI模型,根据受试者大脑活动生成其所见或脑中想象画面的文字描述,准确度非常高。研究成果发表于新一期《科学进展》杂志。

这一技术不仅揭示了人脑如何在语言形成前表征外部世界,还有望帮助因中风等原因导致语言障碍的患者,通过脑机接口更顺畅地表达想法。

要解码大脑对复杂内容的理解,例如短视频或抽象形状,一直具有挑战性。此前研究大多只能提取出关键词,难以还原完整语境,例如视频的主角是谁、发生了什么动作。

为突破这一瓶颈,研究团队设计了双重AI模型。他们先利用深度语言AI模型分析了两千多段视频的文字说明,并将每段说明转化为独特的“意义特征”。随后团队通过功能性磁共振成像记录6名受试者观看视频时的大脑活动,并训练第二个AI系统,学习将脑信号与这些意义特征对应起来。

当模型训练完成后,系统即可通过新的脑扫描数据预测受试者所看到内容的意义特征,并生成最接近的句子描述。例如,一名受试者观看了一个人从瀑布顶端跳下的视频。AI模型通过其大脑活动,先后生成一系列词串,从最初的“泉水流动”,到第十次猜测的“在急速落下的瀑布上方”,最终在第100次猜测时生成句子:“一个人从山顶的瀑布一跃而下”。这几乎完全还原了完整的视频内容。

更令人惊讶的是,当受试者回忆先前看过的视频片段时,AI模型仍能根据大脑的回忆生成准确的文字描述。这表明,人脑在观看与回忆时使用了相似的内部表征方式。

英国《自然》杂志评论称,这项基于非侵入式功能性磁共振成像的技术,未来有望推动脑机接口的发展,使植入设备能更直接地将人的思维转化为文字或语音,从而帮助语言受损者恢复交流能力。