博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
苹果公司透露Siri新发音引擎的内部原理
阅读量:5886 次
发布时间:2019-06-19

本文共 730 字,大约阅读时间需要 2 分钟。

苹果公司透露了他们通过深度学习让Siri的发音更加自然的内幕。

\\

iPhone用户使用自然语言向Siri提问,Siri也通过语音回答问题。Siri可以使用21种语言回答问题,遍布全球36个国家。在2017年WWDC大会上,苹果宣布了。2017年8月,苹果的机器学习期刊透露了他们是如何的。

\\

iPhone上的语音是通过拼接预先录制的人类语音来生成的。先录制几个小时的语音,再把它们拆分成单词,然后再把单词拆成最基本的元素:音素。在生成句子的时候,系统会选择合适的音素,再把它们拼接在一起。

\\

3fb81d949f21b0f54e381c1b09042d40.png

\\

为音素选择合适的录音是一件很有挑战性的事情。每一个音素都要与发音相匹配,也要与相邻的其他音素相匹配。旧系统只有几种录音,音素的来源很有限,所以听起来有点不自然。于是苹果决定使用深度学习来确定声音单元在句子中的各种属性。

\\

a61d685330cbf108f219f0f7ed53d057.png

\\

每一台iOS设备都包含了一个小型的预录音素数据库。每一份数据都包含了音频属性:声音频谱的音高和音长。一个经过训练的“深度混合密度网络(deep mixture density network)”用于预测每一个音素在句子中的特征。苹果设计了一个成本函数来训练这个网络,着重考虑到两个方面的问题:如何让音素与发音相匹配以及如何让它与句子相融合。

\\

9f8e9d88795df9d99f4221e057361cfa.png

\\

在通过“Viterbi”算法从数据库里找到需要的数据后,系统会选出最佳的音素组合,把它们拼接起来,然后播放出声音。

\\

8248129250ccd49ec2892620ce51f966.png

\\

另一种方式是生成声波,而不是拼接预录的声音。2016年9月,,可以基于电脑生成文本语音。它的不足是速度很慢,就算使用最快的台式电脑也需要很长时间才能完成合成任务。所以,Siri不会在短时间使用合成语音代替录制语音。

\\

查看英文原文:

转载地址:http://xwmix.baihongyu.com/

你可能感兴趣的文章
lftp手册
查看>>
移动端常见随屏幕滑动顶部固定导航栏背景色透明度变化简单jquery特效
查看>>
matlab-线性代数 判断 向量组的线性相关性
查看>>
ubuntu 12.04下搭建web服务器(MySQL+PHP+Apache) 教程
查看>>
消息队列的应用场景、为什么要用消息队列
查看>>
IDEA同时启动两个Web项目
查看>>
linux查看线程状态--jstack
查看>>
kubernetes的rolling update机制解析
查看>>
金种子集团搭建TurboGate反垃圾邮件网关
查看>>
n2n***系统搭建
查看>>
outlook 搜索不到邮件
查看>>
java.lang.NoClassDefFoundError: org/apache/log4j/LogManager
查看>>
nodejs入门篇(一)-安装和环境配置
查看>>
Swift计时器对用于网络不好时
查看>>
EXT最新最全教程
查看>>
我的友情链接
查看>>
C++操作数据库写入到json配置文件中
查看>>
笨办法理解原型链
查看>>
我的友情链接
查看>>
Transferring Files with SFTP or SCP
查看>>