iOS语音控制系统 - Reading Space

介绍了iOS10开放的语音识别库Speech的特点和使用。

语音识别

ios10之前，用户和iOS系统进行语音交互有两种途径：

Siri

缺点：

虽然Siri在iOS10中也开放了一些接口，但是非常有限：

而且，还必须以App Extension的形式实现。

优点：

但是优点也是很明显的，比如，在一个支持Siri的Messaging的应用中，可能出现下面的对话：

Siri	User
	Hi, Siri, send a app_name message.
to whom?
	Hongchao
What do you want to say to Hongchao?
	Good job on Jarvis for Map.

Speech

iOS10除了通过SiriKit开发了Siri的一些功能之外，还开放了Siri使用的语音识别库Speech，该库是一个在线语音识别库。通过Speech进行语音识别非常简单、好用识别率高。详情参照官方文档。

虽然ios10开放了Speech，但是也是有限制的开放：

Speech识别请求会返回最长一分钟的音频识别结果，如何从这段识别结果里面提取出需要执行的命令呢？我们使用下面两条原则：

通过原则1，可以解决不带参数的固定命令的提取，但是对命令有个要求：

否则较长的命令就不能被执行。

对于有参数的变化命令，通过原则1就不能解决了。

比如，有命令search for new york，其中search for是命令，new york是参数。当执行完此命令之后，继续说了一些“无关紧要”的话，就会导致系统继续执行此命令。这里说的“无关紧要”是指：

执行完带有参数的变化命令之后，需要使用断句词进行断句。这就是原则2的必要性。

更自然的命令提取方法

需要设置AVAudioSession的状态，保证既可以录音，也可以发声，同时发出的声音不应该再被录入。

这个需求应该可以通过AVSpeechSynthesizerDelegate中下面的方法实现：

public func speechSynthesizer(_ synthesizer: AVSpeechSynthesizer, didFinish utterance: AVSpeechUtterance)