oety欧亿体育-人类读不懂唇语？交给深度学习，精度可达84.41%

培训项目

18436823376

广东省揭阳市揭东区事大大楼576号

oety欧亿体育

您当前位置：主页 > oety欧亿体育

oety欧亿体育-人类读不懂唇语？交给深度学习，精度可达84.41%

浏览次数：次 发布时间：2025-08-02 来源：

本文摘要：读懂唇语，这是摆在我们面前的一道难题，大多数人平均只能读对一句唇语的十分之一。

读懂唇语，这是摆在我们面前的一道难题，大多数人平均只能读对一句唇语的十分之一。那么AI能做到吗？早在2016年，牛津大学人工智能实验室、谷歌DeepMind和加拿大高等研究院（CIFAR）就联合开发了结合深度学习技术的唇读程序LipNet。随后，提高计算机唇读精度，便成为了该领域的一项重要挑战。

近日，来自浙江工业大学、中科院计算技术研究所智能信息处理重点实验室、中国科学院大学的研究团队更是共同提出了在局部特征层和全局序列层上引入互信息约束，增强口型特征与语音内容的关系，将计算机唇读精度提升至84.41%。当地时间2020年3月13日，相关论文MutualInformationMaximizationforEffectiveLipReading（有效唇读的互信息最大化）发表于预印本网站arXiv。解决词汇级唇读的“固有”问题唇读（lip-reading/speech-reading），简单来讲就是观察说话者的口型变化，“读出”其表达的内容。实际上，唇读的过程是利用视觉信道信息补充听觉信道信息，这对听力较弱的群体、嘈杂环境中的工作者以及执法机构具有实际应用意义。

而在计算机视觉领域的语境下，唇读作为一种基于深度学习的模型，更多地被用来推断视频中的语音内容，可对基于音频的语音识别、生物认证等进行辅助。在论文中，研究团队提到了「词汇级唇读」（word-levellipreading）的概念。实际上，词汇级唇读是唇读的一个分支，也是研究团队此次研究的主要关注方向，它存在一些“固有”问题。

第一，即使在同一视频中存在其他单词，每个输入视频都用单个词标签来注释。例如下图中包括总共29个帧的视频样本被注释为“ABOUT”，但是“ABOUT”一词的实际帧仅包括在时间步T＝12∼19处的帧，即红框中的部分，而红框前后的帧对应的词汇分别为“JUST”和“TEN”。

上面这个例子反映出词汇级唇读的一个问题——模型无法完全关注有效的关键帧，因此词汇边界划分不准确。第二，同一词汇标签下的视频样本画面经常存在变化。例如下图中的画面都属于以“ABOUT”为标签的视频。上述2个词汇级唇读的特性要求唇读模型能够抵抗序列中的噪声，从而在各种语音环境下捕获一致的潜在模式。

此外，准确捕捉口型的变化也并不容易——发音相似的词汇口型相似，同音词的识别也更是使难度升级。实际上，确保计算机唇读性能良好，很大程度上正是取决于2点：是否能有效地捕获口型变化；是否能有效地抵抗由姿态、光线、扬声器外观等变化引起的噪声。

引入不同层级的「互信息最大化」了解到，互信息（mutualinformation，MI）是用于测量两个随机变量之间的关系的基本量，当给定一个随机变量时，它总是用来计算另一个随机变量所拥有的信息量。基于此，两个随机变量的互信息总是被用来衡量两变量间的相互依赖性。

为解决上述问题，此次研究团队主要从两方面着手，引入了不同层级的「互信息最大化」（mutualinformationmaximization，MIM），旨在使得模型同时具备较好的鉴别能力及鲁棒性，保证唇读更为有效。【注：基本架构】一方面，研究团队施加「局部互信息最大化」（localmutualinformationmaximization，LMIM）约束，限制每个时间步生成的特征，以使它们能够与语音内容具有强关系，从而提高模型发现精细的口型变化及发音类似的词之间的差异（例如“spend”和“spending”）的能力。【注：LMIM训练基础网络】另一方面，研究团队引入「全局互信息最大化」（globalmutualinformationmaximization，GMIM）约束，使得模型更多地关注对与语音内容相关的关键帧的识别，同时更少地关注各种可能出现的噪声。

【GMIM训练基础网络】利用LRW和LRW-1000评估为验证这一方法，研究团队利用2个大规模词汇水平的数据集对其进行评估，将其与其他主流的唇语识别模型方法进行了详细的几方面分析、比较，包括LMIM和GMIM与基线的比较、深度学习可视化等。以下是2个数据集的具体信息：LRW：于2016年发布，总样本量为488766，包括500个词汇等级，涉及讲者超1000名，讲话环境差异很大。该数据集被主流唇读方法广泛使用，具有挑战性的数据集；LRW-1000：总样本量为70000，总时长约57小时，包括1000个词汇等级。

该数据集旨在覆盖不同的语音模式和画面条件，从而结合在实际应用中遇到的挑战。经评估，研究团队发现GMIM可将精度提高到84.41%，这主要得益于它对不同帧关注不同的特性。与其他除视觉信息外务额外输入的唇读方法相比，研究团队在LRW数据集上得到了迄今为止最佳的性能（如下图）。此外，通过引入LMIM，模型对发音相似的词汇的识别的确显示出了更高的准确性和明显的改进，例如Makes/making和Political/politics（如下图）。

同时，研究团队利用可视化对GMIM的效果进行了进一步探究。如下图所示，下列这些词之间的差异范围从-20至20扩大到-40至60之间——这意味着随着GMIM的引入，区分词汇变得更容易。可见，在不使用额外数据或额外预训练模型的前提下，该研究团队的上述方法相比其他主流唇读模型性能的确较为突出，希望这一方法为其他模型提供借鉴。

本文关键词：oety欧亿体育

本文来源：oety欧亿体育-www.piaoboke.net

上一篇：oety欧亿体育-多米音乐“无限期停止音乐服务”，中国音乐第一股黯然崩塌

下一篇：oety欧亿体育-X30尝鲜？vivo Jovi OS即将登场

热门课程

培训项目

oety欧亿体育

oety欧亿体育-人类读不懂唇语？交给深度学习，精度可达84.41%