受人类听觉系统层次化处理机制的启发(从低层声学特征到高层语义理解),本文提出了一种由粗到细的音频重建方法。该方法基于无创功能性磁共振成像(fMRI)数据,首先利用CLAP模型将fMRI信号粗略解码到语义空间,再在语义引导下细粒度解码至AudioMAE模型的隐空间。这些细粒度神经特征作为条件,通过隐式扩散模型(LDM)实现高保真音频重建。在自然声、音乐、人类语音三个公开fMRI数据集上的大量实验表明,该由粗到细的解码方法显著优于传统细粒度方法,在FD、FAD和KL等音频指标上达到最先进水平。此外,本文提出的语义提示机制进一步提升了困难场景下的重建质量。该框架有望推动脑机接口和辅助技术的发展,如改进助听器以及面向听觉或语言障碍人群的神经通信系统。

中文标题: 逆转听觉处理通路:从人脑活动中进行由粗到细的音频重建
英文标题:Reverse the auditory processing pathway: Coarse-to-fine audio reconstruction from human brain activity
论文作者:刘澈,杜长德,陈晓宇,何晖光