本篇文章2309字,读完约6分钟
机心报道
参与:蛋酱,小船
为了不让别人推测自己在嘀咕什么,只能永远戴着口罩。
因为有身体本能的行动,我们离得太远,或者环境噪音太大听不清对方说话的时候,要注意对方嘴唇的动作,评价这个身体在说什么。
实际上,对于聋子和听力弱的人来说,读嘴唇也是必须掌握的技能。
人类可以从嘴唇的动作中读取故事的复印件,反过来说,我们可以告诉ai这个做法,同时输出声音吗? 答案是肯定的。 同时,该技术在公共安全等行业应用相当广泛。
最近,来自印度海得拉巴国际新闻技术研究所( iiit,hyderabad )的团队宣布了在这个行业的最新成果。 目前公开了这项研究的代码、数据和模型。
论文链接: arxiv/abs/2005.08209
项目地址: github/rudrabha/lip2wav
要从嘴唇的动作生成声音,需要很多听觉上完全不同的声音与嘴唇的动作很相似或完全相同等不可忽视的障碍。
对专业唇网用户来说,他们提高了用其他方法还原唇语的正确性。 例如,根据话题联想,根据表情和手势等要素推测。 另外,对于聋哑人和专业的嘴唇网民来说,读什么样的频繁交流的人的嘴唇也很容易。
在这项研究中,研究者从新的层面探讨了嘴唇合成的问题:重点不是随机选择很多家庭来读嘴唇,而是关注某个身体的话拷贝,学习ta的特定话模式。 研究者从数据驱动学习的维度探讨一个问题:“如何从一个身体的嘴唇动作正确推断ta的个人语言风格和复印件? "。
最终,研究者收集了120小时的视频数据集,其中5个说话者在没有限制的环境下进行了自然的陈述。 与现有的多说话者数据集相比,为了建立特定说话者视听线索的正确模型,每个人收集的语音数据增加了80倍以上。 这也是现在在没有制约的环境下判断一个人的唇语语音生成方面公开的大规模基准测试。
在此基础上,提出了根据嘴唇的动作生成声音的系列系列模型“lip2wav”。 研究者以定量分解、定性分解及消融研究等多种玩法详细介绍了该模型。 lip2wav与以往的同类模型相比,在没有制约的环境下生成的声音的清晰度提高了近4倍,这表明在人工判断中生成的声音的韵律也更丰富自然。
数据组
研究者提出了一种新的基准数据集,提出了用于无约束唇语合成,从一个身体嘴唇的运动中探索如何正确估计ta发话的方法和副本。 为了构建lip2wav数据集,研究者收集了共计5个说话者120小时的发话视频。
lip2wav数据集和其他用于生成视频语音的数据集。
数据集包括演讲和国际象棋解说两种类型。
模式分析
lip2wav的互联网包括时空编码器和基于观察力的解码器。 空编码器将多个t帧作为输入,通过基于3d卷积神经互联网的编码器输出。 研究者把基于3d卷积神经互联网的编码器输出发送给基于观察力的语音解码器,根据seq-to-seq情况生成频谱图。
图3 :用于合成嘴唇的lip2wav模型。 空编码器是用于提取嘴唇动作序列的3d卷积堆栈。 其次是优质声音生成的解码器。 该解码器一边根据来自编码器的脸部图像的特征进行调整,一边用自动回归的方法生成频谱。
实验
研究者首先用有制约的数据集( grid corpus和tcd-timit唇语语料库)比较判断他们的做法和此前的唇语生成研究。 在grid数据集中,显示了4个说话者的平均测试得分,表2和表3分别显示了grid和timit数据集上的结果。
如上表所示,在所有客观指标中,本研究方法的有效判断结果远胜于同类方法,在timit数据集中的差异特别显着。 timit数据集的测试集中有很多在培训过程中从未见过的新单词。 这表明,本研究的模型学会了捕捉短音素序列之间的关联性,同时用新单词有更好的发音生成效果。
不受约束条件下嘴唇的合成
研究者进一步用含有大量头部动作和越来越多词汇的无约束数据集判断这种研究方法,其中包括大量单词和句子之间的沉默和停顿,实验结果中依然出现明显的差异。
为了适应迄今为止的研究方法,研究者根据stoi得分在timit数据集上选择了性能最好的模型,显示了在lip2wav数据集上训练后的性能。 研究者计算了与表3同样的声明完成度和质量指标。
最终得到的5个说话者的得分和其他2种方法的3个指标结果如表4所示。
本文提出的方法可以在不同说话者和词汇规模的条件下生成更聪明自然的语音。 与迄今为止的研究相比,观察到这种方法的stoi和estoi得分越高,就意味着模型生成的发音越正确。
人为地判断
除了声音的质量和清晰度之外,客观指标中还包括误读、跳跃语、同音异义语等,主观指标中设置了包括理解性和自然性等人工判断的一环。
表5 :客观指标
表6 :主观指标
论文的最后一部分还给出了lip2wav的一些消融实验结果。 此外,还发表了这项研究的demo视频。
但是,5个说话者数据训练的模型功能被怀疑是有限的。
研究者也承认了这一点,尽管得到了很好的实验结果的支持,但这个模型在随机人物嘴唇的生成上说“不正确”,这样的任务现在只能说是“任重而道远”吧。
链接到: Reddit/r/machine learning/comments/gt6RRP/research _ lip2wav _ synthesize _ speech _ only _ From _ the /
第一届“马扶手山”杯国际音视频算法大会发烧。 竞赛聚焦在图像和推荐、画质优化三个行业,设定视频特定点跟踪、视频推荐、画质损伤修复三个竞赛问题。 优秀的参加者不仅有奖金,获奖处理程序也有机会适用于芒果tv的核心行业,在校学生有可能参加芒果tv“青芒计划”发行“special offer”。
标题:【要闻】当AI也精通了「读唇术」:戴上口罩或许是我最后的倔强
地址:http://www.tjsdzgyxh.com/tyxw/21003.html