语音技术的应用正在不断扩展,从而为应用开发商在手持设备、移动设备和无线个人设备中添加增值功能带来了难得的机遇。如今的个人手持设备语音大多仅局限于语音拨号,但已经出现了适用于更广泛开发语音识别和文本到语音应用的技术。打算增加语音功能的开发商需要熟知语音技术的方方面面。其中的问题不但包括处理和存储的要求,而且还包括利用特定的平台架构及支持如何促进开发过程并缩短上市时间。
利用语音应用增值可带来丰厚的潜在收益。根据市场研究公司的估计,未来两年个人手持设备的综合年增长率预计能达到20%,到2004年全球的总交货量将达到7亿部。为了利用增值语音应用敲开这一巨大的市场,开发商必须借助能够给他们带来高性能、低功耗的底层技术,以及能够帮助他们迅速推出新产品的支持。
语音功能可为用户提供自然的输入和输出方式,它比其他形式的 I/O 更安全,尤其是当用户在开车期间。在大多应用中,语音都是键盘和显示器的理想补充,而并不是它们的替代品。例如,在非常嘈杂的环境中,听和说可能都不现实,因此用户可能就必须依赖键盘输入和显示阅读。同样,用户通常喜欢用键盘输入某些东西,如:PIN
号码和密码,而不愿意大声说出来让别人也听到。
语音拨号是当今个人无线设备中最常用的语音技术。语音拨号通常无需手和眼睛即可拨打电话,这是在开车时尤为重要的功能。语音拨号包括名字拨号,即按通讯簿上的名字拨打电话,另外还包括号码拨号,即说出电话号码。如图
1 所示,其他潜在的语音应用包括:
·语音电子邮件:包括浏览邮箱、利用语音输入写电子邮件以及收听电子邮件。
·信息检索:股票价格、标题新闻、航班信息、天气预报等都可通过语音从互联网检索收听。
·个人信息管理:允许用户通过语音指定预约、查看日历、添加联络信息等等。
·语音浏览:利用语音程序菜单,用户可以在网上冲浪、添加语音收藏夹并收听网页内容。
·语音导航:在自动和眼不够用的条件下获取导航的完全语音输入/输出驾驶系统。
语音技术问题
语音系统必须满足某些基本的应用要求。显然,语音输出必须清晰,用户能够听懂。在给定应用中,自动语音识别(ASR)还必须支持自然语音。自然语音有各种形式,包括从逐字发出的简单名字和指令到说出大量词汇的连续语句。另外,不同人的自然语音以及发音方式也不同,因此系统应该能够灵活适应不同说话人的语音。识别引擎必须准确,否则用户不会使用这种技术。
语音的系统要求是需要进行密集的处理,有可能包含大量的存储器,这取决于所支持的词库大小。就基于服务器的应用而言,无线带宽的使用会有所增加。这些因素也会影响其他系统考虑。应用的MIPS
和传输要求越高,给定系统的功耗就越高,因此会缩短电池寿命或导致更频繁的充电。当应用需要采用处理器外置存储器时,响应时间也有可能增加。
通过减少手持设备不必要的部分功能可以降低系统要求。一个基于用户语音的系统只需要识别少量词汇和分散语音,显然要比需要识别大型词库和连续语音的独立于用户的系统要求少得多的资源。对其他语言的支持会增加处理要求并且使应用所需的存储器加倍。抗噪音和抗干扰性是重要的功能,但会增加复杂性和存储要求。
显然,开发商在增加用户独立性、连续语音、词库规模和语言支持等功能时希望尽可能少地降低基本应用的性能。某些手段有助于减少语音技术中的性能降低,如:分布式语音识别(DSR)。DSR
把识别任务分割开,手持设备可以把原始语音转换成频谱特性向量,同时服务器执行识别过程。这种方法以及类似的分布式文字到语音(TTS)方法依赖于处理方式和传输协议的标准化。尽管这些技术颇有前途,但开发商仍需要面对个人手持设备中语音应用的有限资源。
因此,为语音等高性能应用选择适当的平台与优化应用的功能同样重要。这种平台必须具有强大的处理能力,同时可以实现高水平的功效,不仅仅是在核心操作中,而且在处理内存中也应如此。应该有足够的
MIPS 来支持多媒体、安全和其他应用。提供集成新算法能力的可编程性也很重要。最后,这种平台必须包含为支持模块化应用开发所设计的软件架构,以帮助开发商快速把产品推向市场。
OMAP技术:理想的语音平台
TI 的 OMAP 平台为在个人手持设备中开发语音应用提供理想的解决方案。OMAP1510 和OMAP5910 处理器的双核心架构集成了高功效的
TMS320C55x数字信号处理器 (DSP) 和高性能 ARM9 RISC 微处理器。因此,这些 OMAP 处理器可提供语音所需的运算密集的信号处理能力,同时还可提供系统层操作所需要的通用性能。OMAP710
处理器是高度集成的单芯片解决方案,带有用于无线通信处理的、基于 DSP 的 GSM/GPRS 基带,以及可低功耗运行多媒体应用的专用增强型ARM925
处理器。
OMAP1510、OMAP5910 和 OMAP710 处理器可支持基于低端 ARM 的语音应用。它们还具有编码兼容性,从而使开发商能够把软件应用集成到针对不同市场的个人产品。OMAP1510
和 OMAP5910 具有 DSP 处理能力,可处理更集中的语音应用。
双核心硬件架构
OMAP1510 和 OMAP5910 的双核心硬件平台设计用于最大化系统性能和最小化功耗。在用于个人手持设备时,DSP 和
RISC 核心的结合给这些处理器提供了极高的性能和功耗优势。RISC 非常适合处理控制代码,如:用户界面、OS 和高级应用。另一方面,DSP
更适合语音应用所需要的实时信号处理功能。
如图 2 所示,OMAP1510 架构包含用于两个处理器的片上高速缓冲存储器,可降低到外部存储器的平均发送次数,同时消除不必要的外部存取的功耗。两个核心的内存管理单元
(MMU)提供虚拟物理内存转换。低功耗操作模式可以在处理器不使用或者很少使用时节省耗电。
OMAP1510 架构还包含两个外部存储器接口和单个内存端口。这三个存储器接口彼此完全独立,可同时从任何一个核心或者从 DMA
单元进行存取。每个处理器都具有自己的外设接口,不但支持到外围设备的直接连接同时还支持从处理器 DMA 单元的 DMA 连接。定时器、通用
I/O、UART 及监视定时器等在内的片上外设以及彩色 LCD 控制器均支持常见OS的要求。
OMAP5910 架构不但提供了片上系统功能,同时还带有192 Kb RAM、USB 1.1 主机和客户机、MMC/SD卡接口、多通道缓冲串口、实时时钟、GPIO
及 UART、LCD 接口、SPI、uWire 及i2s等在内的外围设备。与 OMAP1510 类似,OMAP5910 也包含内置的处理器间通讯机制,并提供与DSP连接的透明接口,以实现更轻松的代码开发。
为 OMAP 平台设计语音应用
在 OMAP 开发商网络中,TI 正与多家正在开发 ASR、TTS、DSR 和语音验证等在内的语音技术的主要第三方开发商展开合作。这些公司在市场中都有自己独到的优势,而且他们还可以把这些优势带给
OMAP 用户。同时,TI 内部开发了充分利用了 OMAP 平台的双核心架构优势的、专门用于小词库以及小型语音识别等的语音识别软件。TI
嵌入式语音识别器(TIESR)可提供如下功能:
·与说话人无关的指令以及控制功能
·与说话人无关的连续数字识别
·与说话人无关的连续语音识别
·与说话人有关的名称拨号、指令以及控制
·动态语法和词汇功能,可提高语音浏览等应用
·噪音环境中的抗扰性
·用于增强性能的可选说话人适配功能
语音应用示例
InfoPhone 是基于这种嵌入式架构的语音应用的一个典型示例,它由 TI 开发,专门用于无线领域。InfoPhone 是一个可实现语音功能的
Java 应用程序,同时它还可实现有用信息的语音检索。TI 为 InfoPhone 开发了三种原型的基于语音的信息服务,如为用户提供股票报价、航班信息和天气预报。每种服务都包含
50 个词语的词库,因为具有动态词库功能,系统可以在词库间完美切换。应用设计使键盘输入在说话期间一直保持有效状态,从而在环境中断或者用户需要进行私密输入时提供灵活性。图
3说明 InfoPhone 示例中的语音识别架构。
开发支持
开发商可利用TI的OMAP软件和开发支持服务快速向市场推出语音应用。开发商可选用TI的 eXpressDSP实时DSP技术进行DSP开发,eXpressDSP包括
DSP/BIOS 实时操作系统、Code Composer Studio IDE、以及可确保现场软件的模块化开发的 TI 算法标准等。为了进一步简化开发过程,OMAP
5910 和 OMAP1510 处理器的内置处理器间通讯机制使开发商无需独自对RISC及DSP编程,从而极大缩短编程时间并降低编程复杂性。
另外,TI 还为 OMAP 平台开发了 Innovator 成套开发工具。创新开发工具包提供个人系统的硬件和关键软件,以促进在现实用户条件下开发语音应用。
|