中国研究人员推出语言神经影像数据集

据中国科学院（CAS）周日报道，中国研究人员已经展示了一个同步的多模态神经影像数据集，涵盖近 10,000 个中文单词，用于研究大脑语言处理。该数据集对同一 12 名健康志愿者的功能性磁共振成像 (fMRI) 和脑磁图 (MEG) 数据进行分类和处理，而这些志愿者听了六个小时的自然故事，以及高分辨率结构、扩散 MRI 和静息状态每位参与者的 fMRI 数据，最近发表在《科学数据》杂志上的研究文章。中科院自动化研究所的研究人员还为刺激提供了丰富的语言注释，包括词频、句法树结构、时间对齐的字符和单词，以及各种类型的单词和字符嵌入。研究文章称，这些同步数据由同一组参与者分别收集，首先在 fMRI 中听故事材料，然后在 MEG 中听故事材料，非常适合研究语言理解的动态处理。此外，该数据集包含来自不同主题的故事的大量词汇，可以作为大脑基准来评估和改进计算语言模型。大脑在处理语言时，需要调动多个大脑区域的神经元实时协同工作。构建具有高时空分辨率的神经影像数据可以帮助我们更好地了解大脑区域，对于探索大脑中语言处理的机制至关重要。

技术 ⋅ October 5, 2022