中心简介

环绕智能与多模态研究室致力于研究以语音为中心的智能信息系统，开展了从发音到听觉的主要模块的研究，包括：大规模连续语音识别、语音可视化、言语生成计算建模、汉语言产生的脑机制等。自2007年建立以来，承担了包括NSFC重点项目在内的多项国家、省部级项目，形成了一个以特聘教授、海归博士为核心的研究团队，是国内最具实力的语音领域研发基地。通过多年的努力，我们在语音生成计算模型、语音可视化、复杂声学环境下的语音识别，以及非限定文本的口语发音检测和自动评分等研究方向上开展了深入研究。研究方向抓住了我国科技发展的热点，

目前，实验室正在开展包括国家自然基金等7项研究项目，已在语音识别、人机交互、虚拟现实、机器人等相关领域发表国际杂志和会议论文90余篇，授权国家发明专利8项。拥有大量专业录音设备，如森海塞尔耳机，USB声卡，噪声仪等，已购置 Carstens Medizinelectronik EMA三维发音数据采集系统，主要用于三维面部/口腔发音数据的采集和处理。为了加强项目所需的数据资源，实验室新近又购买了OptiTrack面部动作捕捉系统，该系统分辨率可达0.1mm，采样速度可达2500帧/秒。这些实验设备可很好保障

EMA AG501五维发音数据采集仪录制13通道数据发音器官运动三维位置信息,采样率250Hz深度摄像头( Kinect)和 acetracking工具包采集人脸运动数据。每60ms采样一次。声学数据同步采集,建成最全面的汉语发音多模态数据库。

呼吸带测量：呼吸过程中胸腔与腹腔的容积随着肺容积增大与减小。通过将呼吸带绑紧在胸腔或腹腔外围，弹性的压电传感器随胸腔 / 腹腔容积的变化而被拉长或收缩，反映出胸腔或腹腔的周长在呼吸过程中的相对变化并将其转换为电压幅值的变化。使用两条呼吸带同时记录胸部和腹部的周长变化可反映出总体的呼吸幅度与节律、膈肌驱动的腹式呼吸与肋间肌驱动的胸式呼吸等信息。测量原理：呼吸过程中胸腔与腹腔的容积随着肺容积增大与减小。通过将呼吸带绑紧在胸腔或腹腔外围，弹性的压电传感器随胸腔 / 腹腔容积的变化而被拉长或收缩，反映出胸腔或

在科技飞跃跨步的时代声纹识别技术十分热门，其应用领域也十分广泛，但目前大部分声纹识别系统的训练数据来自实验室比较安静的环境，而现实生活的声学环境是非常复杂的，包含有各种噪声、口音等，这些系统在真实场景下使用性能将急剧下降。

另外，大部分论文报告的声纹识别系统均为千人级别，远远不能满足我国庞大人口的实际应用需求。

因此，本联合实验室主要围绕“复杂声学条件下超大规模声纹识别以及智能语音交互”而展开相关工作。

友情链接：中国科学院 | 中国科学院深圳先进技术研究院 | 国家自然科学基金委员会 | 中华人民共和国科学技术部