我院教师联合电子科技大学团队在国际人工智能权威期刊发表语言脑解码研究成果

近日，我院程凯文副教授联合电子科技大学生命科学与技术学院陈华富、颜红梅教授团队在人工智能权威期刊《Information Fusion》发表了语言脑解码研究成果。电子科技大学黄伟博士为论文第一作者，程凯文副教授为第一通讯作者，陈华富院长和颜红梅教授为共同通讯作者。Information Fusion是中科院人工智能一区Top期刊，2024年影响因子为14.7。

图1. 网络文章截图

语言脑解码一直是认知神经科学中一个引人入胜的研究领域。有证据表明在理解语言时，大脑会激活与视觉相关的区域。这种互动可能有助于解释为什么我们在观看图片或美景时使用丰富而生动的语言表达，如图1。在这项研究中，我们开发了一种新型的视觉语言解码模型（VLDM），包含两个编码器（Visual-Encoder、Multitask-Encoder）和三个解码器（Category-Decoder、Label-Decoder和Text-Decoder）（如图2所示），能够从大脑核磁共振信号（FMRI）中解码刺激图像的主要类别（如，风景画）、多语义标签（如，落日、鸟儿、湖水，以及云彩）以及详细文本描述信息（如，“天空中绚丽多彩的云朵”或“落日余晖映照下的湖水”或“落霞与孤鹜齐飞，秋水共长天一色”）。在类别解码任务中，我们在自然图像的12个主要类别上（人、车辆、户外、动物、配件、运动、厨房、食物、家具、电子、电器和室内）实现了有效解码，准确率接近70%，显著超过随机水平（8.33%）。在语义解码任务中，我们精确解码了80个详细的语义标签（如“人”、“汽车”、“狗”、 “坐着”等），准确率达到20%，比随机水平（0.0125）提高了16倍。在文本解码任务中，解码文本（如“一个男人在网球场上挥动球拍”）在六个评价指标——BLEU、CIDEr、ROUGE、WCS、GCS和FTCS上超过了相应的基线水平，实现了35%、36%、32%、28%、6%和3%的性能提升。

本研究开发的多任务解码模型对应于脑机接口有三个应用价值：（1）类别解码有助于通过大脑活动控制轮椅等辅助设备，提高残疾人的日常生活便利性;（2）标签解码为残疾人提供了更复杂、更高级的控制能力，如操作机械臂，促进更灵活的生活方式;（3）文本解码支持失语症患者恢复语言功能，实现自然交流和指令传递。

这项研究不仅对深入探索大脑视觉感知的神经机制做出了贡献，而且可能带来更自然、高效的人机交互体验。尤为重要的是，它可以推动该领域朝着开发类似ChatGPT的通用解码技术发展，将大脑语言解码研究推向新的前沿。

图2. 视觉语言脑解码流程图