首页 > 文章中心 > 语音合成技术

语音合成技术

语音合成技术

语音合成技术范文第1篇

【关键词】计算机;语音合成技术;发展方向

1、引言

语音合成技术使人们只要通过“听”就可以听懂、了解信息的内容,该技术的应用可以描述为将计算机产生的或者外部其他设备输入的文字信息,按语音处理设定好的的规则转换成语音信号输出,这就会使文本文件内容、手机短信内容、WORD文件内容等文字信息,能通过计算机流畅顺利地读出文字信息。这种将文字转换成语音的高新技术称之为文字语音转换技术,简称TTS (Text to Speech) 技术。

2、语音合成技术方法研究

录音编辑法、波形合成法、参数合成法和规则合成法,这四种研究方法是研究语音合成技术的主要方法,当然还有其他方法,我们这里不做介绍。

1)录音编辑法。此方法是将人的语音通过某种媒介录制下来,再适当地把这些录制下来的语音连接起来,编辑成所需文字,缺点是在计算机内对此却不作任何压缩及其他技术处理,而是直接将其输出,此法需要大容量存储器。

2)波形合成法我们这里介绍两种方法。一种方法是波形编辑合成,目前很多专用的语音合成器基本上是采用这种方法,其原理是选取语音库采取的自然语言的合成单元波形后,对这些波形进行编辑拼接,最后输出,简单的讲是把波形编辑技术用于语音合成。这种方法比较常见,比如我们生活中常见的有自动报时装置、公交车语音报站等。

另一种是波形编码合成,此方法是直接将要合成的语音发音波形进行存储或进行波形编码压缩技术处理,然后进行存储,当合成重放时再译码组合输出语音,这种方法类似于语音编码中的波形编解码方法,。但是此方法在技术上还需进一步升级,这种语音合成器只是语音存储和重放的器件。

3)专家早期的研究主要是采用参数合成法,这种运行方式比较复杂,下面我们主要介绍发音器官参数合成、共振峰合成、LPC合成等几种方法。

发音器官参数合成应计算出语音的声波,如何得到语音的声波,应首先通过定义唇、舌、声带的相关参数,再由这些参数估计声道截面积函数,进而获取语音声波。这种合成方法具有我们希望得到的优点,即它直接模拟人的发音过程,可以产生接近人发声的语音,但是,目前要准确测定出这些参数还缺少行之有效的手段,因为每个人的发音生理过程比较复杂,因此,大家普遍认为发音器官参数合成技术研究还不够成熟,走出实验室研究还需一段时间。共振峰合成把人的声道看作成谐振腔,腔体的谐振特性决定所发出语音信号的频谱特性,它是对声源—声道模型的模拟,我们称之为共振峰特性。我们可以通过修改振峰合成参数获得不同特性的语音。也能以较低的代价产生具有高可懂度的合成语音,但是前提是振峰合成的参数设置合理。后来又产生了基于LPC、lSP等声学参数的合成系统。在众多合成系统中LPC是一线性预测编码法。它采用10~25ms为一帧对语音波形进行采样,各帧的参数是时变的,在一帧内则为一线性时不变系统。在存储器中存入各帧的参数,参数获取方法为在帧中抽取原始语音的音调周期、清音、浊音若干个基于最小二乘的预测系数,在合成时以这些参数综合语音。LPC法系用3~7 位对所获取参数进行编码处理,在数值间可以自动插补运算,因此次方法合成的语音音质柔、动听[1]。

4)规则合成法。20世纪80年代末至今,基音同步叠加(PSOLA)方法问世,大大提高了基于时域波形拼接方法合成的语音的音色和自然度,该基于PSOLA方法的合成器具有结构简单、易于实时实现等优点,此方法的提出标志着语言合成技术研究取得了实质性的进展,引起了科学界的轰动,具有宽广的商用价值。

PSOLA技术的原理特点是,要想使拼接单元的韵律特征符合上下文的要求,同时又能使合成波形保持了原发音的主要音段特征,需要根据上下文的要求,用PSOLA算法调整拼接单元的韵律特征,如基频、音长、音强等,最后再对语音波形片断进行拼接,从而获得具有很高清晰度和自然度的语音。随着人们对语音合成的自然度和音质的要求越来越高,研究一种具有音质好,对时长和声调适应性强,可以灵活调节韵律参数的语音合成方法被人们又一次的提上来研究日程,于是一种基于LMA (对数振幅近似)声道模型的语音合成方法被提出来了,从技术上讲这种新方法克服了PSOLA算法难以处理协同发音的缺陷和韵律参数调整能力较弱的缺点,而且这种新的语音合成方式具有比PSOLA技术更高的合成音质[2]。解决了PSOLA算法难以解决的问题,综上所述,计算机语音合成方式有很多种,科学家们从软件和硬件的各方面对比进行了研究, 发现人们可以按不同的使用情况、不同的使用目的选择适合各自需求的的语音合成方法。

3、语音合成未来研究方向

目前语音合成的发展方向及研究热点主要涉及以下几方向,它们是:

1)不同语音风格的语音技术合成。一种发展方向是合成具有独特特征的语音,比如某个名人的语音。另一个发展方向是使语音合成系统不但能够合成标准的朗读风格,而且能完成特定的风格,这个发展方向将使人机对话更加智能,比如能产生评书、RAP、新闻、幽默、警告、以及普通非正式的说话等语音效果,区分度将更大。所以加强不同说话风格的合成技术的研究显得非常必要和关键。这是未来的研究发展方向之一。

2)情感语音技术合成。对于汉语语音,目前研究出了惊、怒、悲喜四种情感不同的变调规律,变调规律由科学家通过分析情感语句的语调得出。并对不同的情感类型确定与之相应的元音的变异规律、基音频率变化规律、能量变化规律、和无声时延比例变化规则[3]。对于待合成的语音, 要获得较好的语音效果,应先进行文本扫描输入,再通过对相应情感的语调变化规则的迭加,利用PSOLA技术进行情感语音合成,但是实现对人的认知的完全理解, 还需要深入研究。

3)发音器官合成与可视语音。在语音合成系统中,说话者的脸可以显著提高合成语音的可懂度、真实性、和终端用户的可接受性。在声学语音受到周边噪声影响时或者遇到具有听力障碍的人时,可视语音可以提高语音的可懂度。目前在语音合成技术研究领域中,人们普遍认为如何解决语音合成中自然度的问题,无疑是可视语音合成技术的亟需解决的关键问题,研究人员对此充满了信心。

4)文本语音阅读。当我们需要将在屏幕上显示的文字、已打出的文字稿件或者打出的文字需要用语音读出来的时候,此时就要对文本进行阅读,,以释放用眼疲劳,缓解压力。当前,文本语音阅读技术主要应用在文稿校对、计算机辅助教学等工作领域。

综上所述,我们应该加强对语音合成技术的深入研究,并把这种高新技术转化为更加强大的、切实可用的生产力,创造出更大的社会经济效益,推动人机交互方式的革命的到来。如今,尽快开发出一个自然度高、可视化高、可懂度高汉语语音合成系统,已经成为当务之急。

参考文献

[1]王仁华.中文语音交互技术标准化工作进展[J].信息技术标准化,2004(3):4-5.

语音合成技术范文第2篇

从几年前苹果Siri将语音迅速升温推至消费者面前,到现在语音助手几乎已成为智能手机、汽车电子、智能家居的标配,从人们过去在路边招手打车到现在先用微信与出租车师傅说好再出门……似乎,智能语音产业已经迎来生机盎然的春天。语音一时间成为舆论的焦点:“语音将彻底替代鼠标、键盘”,“语音将成为移动互联网主流信息入口”,“谁掌控语音谁就将掌控一切”……看好、赞扬语音之声不绝于耳。

但一个技术从萌芽期开始不断发展,要酝酿多久才会到爆发期?智能语音产业是真的到爆发期了,还是被提前过度炒作了?智能语音产业现状和未来发展方向如何?中国智能语音企业又该如何选择适合自己的成长路径?带着这些疑问,本报记者先后采访多位智能语音专家,力求探知一二。

莫错失赶超良机

智能语音是新一代的人机交互技术手段之一。就像人与人之间对话交流一样,智能语音是要通过语音实现人与机器之间的交互,即机器能听懂,并能回答提问,实现对话互动。“智能语音技术主要包括语音识别、自然语言理解和语音合成三个环节,完成让机器听懂人说话,再让机器说人话的过程。这种交互需要基于海量的语料库,通过模型实现语音识别和语义理解,包括对语法、分词、情景,甚至是情绪等的理解,再通过知识库系统找到答案,然后通过语音合成技术说出答案,来回交互。”在接受记者采访时,中国语音产业联盟副秘书长李德升这样给出他对智能语音的理解。

百度语音首席研究员贾磊在第十八届中国国际软件博览会的演讲中介绍,百度语音就是通过语音识别、语义理解和后台资源来实现“你说我听”、“你说我想”和“你说我做”的过程,打造人机交互的闭环过程。

人机智能语音交互,说起来容易做起来难。20世纪50年代,AT&T开发出第一个语音识别系统Audry;20世纪80年代,智能语音技术研究由传统的基于标准模型匹配的技术思路开始转向基于统计模型的技术思路;21世纪初,智能语音从技术研究走向实用并进入产业化,进入呼叫中心、家电、汽车等领域;而近期,以苹果Siri为重要引爆点,智能语音应用才开始向移动互联网等新兴领域延伸,产业进而不断积累、发展。

智能语音技术是人工智能的研究领域之一,其原理涉及声学、语言学、数字信号处理和计算机科学等多个学科,研究周期长,投入成本大,技术壁垒高。全球和中国智能语音市场基本形成寡头垄断的格局。随着智能语音产业的快速发展,产业竞争进一步加剧,也吸引了IT巨头和中小创业团队争相进入,与传统语音技术提供商共同角逐智能语音市场。

在国际市场,既有像Nuance这样的占据全球62%语音市场的传统语音技术巨头,也有谷歌、苹果、微软、IBM等IT巨头的竞争参与。在国内市场,李德升告诉记者,目前我国语音技术厂商基本分为三类:一类是传统语音技术厂商,一般从科研院所基础研究脱胎,包括像科大讯飞(中国科技大学)、捷通华声(清华大学、中科院声学所、北京大学)、中科模识(中科院自动化所)、中科信利(中科院声学所)等;第二类是互联网厂商,包括百度、腾讯、搜狗等,它们为给其广大的互联网用户提供更好的增值服务,普遍采用战略合作或者收购等方式,掌握智能语音技术,推广语音服务;第三类是创业企业,像云知声、思必驰等,它们专注于某些行业领域,比如汽车、家电、教育、社交网络来推广自己的语音技术和产品。

近几年来,移动互联网蓬勃发展,基于互联网海量数据的深度神经网络技术有力推进,智能家电、汽车电子、可穿戴设备等领域加速应用,汽车、医疗、智能家居、教育等行业应用不断拓展,智能语音作为新的信息入口,开始引领产业重大变革。

这一两年来,我国智能语音市场也是风起云涌:2012年8月中国移动以13.6亿元战略投资科大讯飞,科大讯飞受二级市场机构投资者追捧市值超过200亿元;云知声创立仅一年就先后获得两轮投资,其中一次融资金额高达1亿元;2013年5月,捷通华声宣布来自百度、清华大学战略投资;2013年8月,百度正式宣布向开发者开放语音生态系统,包括底层的语音识别技术应用程序开发接口(API)、百度语音助手软件开发工具包(SDK);同样在这个月腾讯在微信5.0中增加语音输入功能,一出来便风靡大众,微信APP已经成为消费者每天必刷的强大APP之一;直到最近,2014年4月12日,云知声组织创业公司牵头成立“全智能交互联盟”;2014年4月29日,科大讯飞的讯飞输入法继支持粤语、四川话、河南话等方言之后宣布支持东北话语音输入;5月20日晚,锤子科技首款智能手机Smartisan T1,借科大讯飞智能语音技术实现语音搜索、语音输入等特色功能……整个产业一片欣欣向荣。

“智能语音是人机智能交互的手段之一,而人机智能交互是目前中国技术企业有可能赶超国际的为数不多的产业机遇之一。产业变革是以技术为先导的。在PC/互联网时代,我国技术企业在计算机技术尤其是操作系统等方面,因为起步晚,赶超微软、谷歌等国际技术公司比较难,但在智能交互这个技术领域,相对而言,目前中西方起步差不多,如果我们能把握好现在的机会,好好练内功,发展我们自己的包括智能语音在内的交互技术,也许在这方面我们可以真正和国际公司一较高下,真正从中国制造走向中国创造。”北京捷通华声语音技术有点公司(简称捷通华声)董事长张连毅这样告诉记者。

与张连毅持相同观点的还有科大讯飞信息科技股份有限公司(简称科大讯飞)副总裁江涛和北京云知声信息技术有限公司(简称云知声)CEO黄伟。在他们看来,智能语音是难得的一次产业良机,错过语音,中国技术企业很难再有机会赶超国际了。

磨一根针 破一片天

“做语音是需要慢慢熬的。”这句话记者不止听一个被采访人说过。

1989年从清华大学毕业任职紫光推进OCR(图像扫描识别),中间赴美,2000年与中国科学院声学所研究员吕士楠共同创办捷通华声的张连毅称自己是语音乃至整个智能交互行业的老兵。在他看来,从“入口说”、“门槛说”到“血统说”再到“技术说”,这两年来的语音热其实更多是一种炒作,而这种炒作对行业本身未必有多大好处。“我只认可‘技术说’。因为语音只是交互的方式之一,智能语音就是一门技术,它与应用结合,这项技术就能创造出巨大价值。而这门技术的特点是厚积薄发,需要慢慢积累,所以这就决定智能语音产业是要用一根针刺破天的专业领域,而不是用一个铁锤砸出一片声势的产业,必须专注、专业,精耕细作,深耕久酿。”

而所谓的积累,在云知声CEO黄伟看来,就是算法、数据和团队经验的积累。他告诉记者,作为创业型公司,“云知声的优势不在于数据积累,而在于算法。从云知声成立第一天起,我们就用了比对手少一个数量级的数据来训练算法模型,最终达到甚至超越对手产品性能,这个过程我们也积累了丰富而宝贵的团队经验。而现在开放的语音云平台已经让我们有了很多用户数据,我们的数据短板已经得到了弥补。”

黄伟毕业于中国科学技术大学,后加入摩托罗拉并带队研发出世界上首个手机声纹认证系统。国际金融危机期间,摩托罗拉将整个语音识别团队出售给Nuance。黄伟拒绝被Nuance收编,于2009年7月加入盛大网络旗下的创新院,2010年10月创建了语音分院,2013年年底正式出任公司CEO。黄伟告诉记者,在技术方面云知声先后四次升级语音识别内核,目前识别准确率达96.26%,技术领先,并且可提供中、英、粤多语言识别;在商业化方面,云知声单月签约额突破千万元,合作伙伴超过3200家,云知声智能语音已广泛应用在移动互联网、智能家电、车载、可穿戴设备、呼叫中心、教育、医疗等领域。

无独有偶,科大讯飞副总裁江涛也同样是语音界的老人。毕业于中国科技大学自动化与计算机专业的他是科大讯飞的元老,作为科大讯飞创业团队成员,一直在从事语音技术在通信和互联网方向的应用推广。在江涛看来,语音技术和其他技术一样,都在沿技术成熟曲线不断发展。几年前苹果Siri带动语音走进向上发展阶段,那时整个产业被看好,很多资本投入进来至一个高潮,而现在是高潮过后走入技术成熟曲线下行阶段,很多人开始悲观,资本撤离,只有坚持下来的公司能做成。他判断,带语音走入下一波上行曲线的动力很可能是可穿戴设备、智能家居、智能汽车等。

江涛向记者回忆,在上世纪90年代,当时公认语音做得最好是南北二“王”,南“王”就是中国科技大学的王仁华老师,他也是科大讯飞第一任董事长,也是他支持科大讯飞现任董事长刘庆峰创业的;北“王”指的就是清华大学的王作英老师,语音识别和语音合成做得都很不错。在江涛看来,语音成为人机交互的主要信息入口这是大势所趋,毋庸置疑,只是语音真正价值的实现还有赖于技术的成熟和应用的普及。应用的普及需要慢慢来,引导、教育市场,培养人们的使用习惯要一点点推进,但要全面推广、普及还是需要过程的。“几年前要是有人在电梯里对着自己手机喃喃自语大家都会觉得奇怪,不知道这人干嘛呢,但现在因为微信的普及,这种行为习惯已经被接受认可。”

而对于技术的成熟,江涛同样认为是需要专注投入、不断积累的。江涛向记者介绍目前的语音识别技术现状,他以环境从嘈杂到安静的程度为横轴,以人说话的清晰程度为纵轴,划分四个象限。在第一象限,也就是环境也安静、人说话也清楚的情况下,目前各家语音厂商技术实力差距不大,语音识别率都很高。在第二象限,也就是环境嘈杂、网络不好的情况下,目前科大讯飞做得很不错。噪音大、网络信号时断时续非常影响语音识别效果。“车载语音识别最大的对手就是噪音。2013年8月,奔驰在全球对云技术提供商进行选型的报告中分别按不同时速(每小时60、100、140公里)测噪,科大讯飞是唯一在100公里时速上识别率超过90%的厂商。”江涛自豪地介绍。在第三象限,也就是环境不错、人发音不太配合(最典型的各种口音)的情况下,看的就是对语言种类,尤其是方言的支持程度。云知声实现对粤语、英语的识别支持。科大讯飞除了实现对粤语、英语的识别支持,2014年以来陆续支持对河南话、四川话、东北话等方言的识别。江涛透露今年还会陆续支持湖南话、山东话、武汉话、合肥话、闽南话的方言识别。除了口音之外,语速、讲话模式等也会对语音识别带来不同挑战,比如演讲与开会的语音识别的识别算法和模型都不一样。“今年年底科大讯飞将推出一个产品实现普通话开会过程中,将语音转变为文字,识别率很高。”江涛透露。而在第四象限,即环境又不好、发音又不好的情况是世界性的难题,很难有谁能攻克。

各展所长 开放竞合

随着谷歌、微软、IBM等IT巨头加快对智能语音领域的布局,以及Nuance在中国的本土化不断加强,国内语音企业将面临越来越大的竞争压力。相较于Nuance等国际巨头,国内语音企业在研发力量、创新能力、集成应用、行业应用拓展等方面还有不小差距。国内语音企业间的合作、并购、整合步伐也相对要缓慢一些。

对于国内语音企业的发展,作为行业专家的李德升给出了他的见解和建议。他认为,在传统语音技术厂商中,科大讯飞的实力有目共睹,而捷通华声的语音合成在铁路交通、金融电信等领域也有较高的市场占有率,很多高铁、公交站等的报站语音是捷通华声做的。对于这类厂商,李德升给出的建议是得专注于语音,引入互联网思维,真正做大做强。对于百度、腾讯、搜狗等互联网厂商做语音,李德升认为他们具有最丰富的互联网语音资源,更重要的是他们有技术实力、有用户、有互联网思维,这些厂商最有可能可以和国外竞争者一较高下。而对于第三类语音创业企业,李德升的建议是尽量采取合作方式,与互联网厂商合作,专注于特定行业领域积累实力,既不能小富即安,也不能贪高大上,只要积极进取,踏实经营,还是有非常大的成长空间的。

“其实,以苹果为代表的软硬件一体化厂商做语音是为了卖硬件产品,互联网厂商大多是从帮助用户搜索的角度做语音,相对于创业型的语音企业,科大讯飞的优势就在于语音的宽度和厚度积累,优势就在于多年来对语音识别、语音合成、语音评测与语义理解各方面立体的投入和研究,目前拥有全方位立体的语音技术产品。”江涛说,在语音推广方面,科大讯飞坚持两条腿走路:一是坚持移动互联网能力开发,一是通信、教育和安全等重点行业推进。逐步拓展移动互联网能力的三驾马车是手机、汽车和智能电视。目前科大讯飞手机语音已经有四亿的用户,每天活跃用户达四千多万。在教育领域,科大讯飞的语音合成、语音评测在广东高考英语口语考试,西部中小学的英语教具和日常教学中已经发挥很大作用;而在安全领域,公安部第一个跟企业合办的部级重点实验室――公安部声纹实验室就设在科大讯飞。

江涛也坦言,相较于百度等互联网巨头做语音,传统语音技术厂商确实存在一些劣势,“在整个大的开发平台、云存储、位置服务和构建整个生态系统方面,互联网公司确实值得我们学习。我们还是要专心做好自己所长,聚焦在语音和语义方面,真正做好开发者服务,基于语音和语义构建生态系统,尝试推广人机交互广告等。”

“互联网巨头要拥有语音这个技术,不被别人卡住喉咙,但他们有自己的主业,不会放太多精力在语音上。”张连毅如此判断,“语音技术厂商只要做好自己的技术和产品,保持开放合作就能获得良好的发展。”除了夯实智能语音市场,捷通华声更要做的是实现包括智能语音、图像识别(OCR)、生物特征识别在内的全方位的人机智能交互。

语音合成技术范文第3篇

从几年前苹果Siri将语音迅速升温推至消费者面前,到现在语音助手几乎已成为智能手机、汽车电子、智能家居的标配,从人们过去在路边招手打车到现在先用微信与出租车师傅说好再出门……似乎,智能语音产业似乎已经迎来生机盎然的春天。语音一时间成为舆论的焦点:“语音将彻底替代鼠标、键盘”,“语音将成为移动互联网主流信息入口”,“谁掌控语音谁就将掌控一切”……看好、赞扬语音之声不绝于耳。

但一个技术从萌芽期开始不断发展,要酝酿多久会到爆发期?智能语音产业是真的到爆发期了还是被提前过度炒作了?智能语音产业现状和未来发展方向如何?中国智能语音企业又该如何选择适合自己的成长路径?带着这些疑问,本报记者先后采访多位智能语音专家,力求探知一二。

莫错失赶超良机

智能语音是新一代的人机交互技术手段之一。就像人与人之间对话交流一样,智能语音是要通过语音实现人与机器之间的交互,即机器能听懂,并能回答提问,实现对话互动。“智能语音技术主要包括语音识别、自然语言理解和语音合成三个环节,完成让机器听懂人说话,再让机器说人话的过程。这种交互需要基于海量的语料库,通过模型实现语音识别和语义理解,包括对语法、分词、情景、甚至是情绪等的理解,再通过知识库系统找到答案,然后通过语音合成技术说出答案,来回交互。”在接受记者采访时,中国语音产业联盟副秘书长李德升这样给出他对智能语音的理解。

人机智能语音交互,说着容易做起来难。从20世纪50年代,AT&T开发出第一个语音识别系统Audry;到20世纪80年代,智能语音技术研究由传统的基于标准模型匹配的技术思路开始转向基于统计模型的技术思路;再到21世纪初,智能语音从技术研究走向实用并进入产业化,进入呼叫中心、家电、汽车等领域;一直到近期以苹果SiRi为重要引爆点,智能语音应用才开始向移动互联网等新兴领域延伸,智能语音产业进而不断积累、发展。

智能语音技术是人工智能的研究领域之一,其原理涉及声学、语言学、数字信号处理和计算机科学等多个学科,研究周期长。投入成本大,技术壁垒高。全球和中国智能语音市场基本形成寡头垄断的格局。随着智能语音产业的快速发展,产业竞争进一步加剧,也吸引了IT巨头和中小创业团队争相进入,与传统语音技术提供商共同角逐智能语音市场。

在国际市场,既有像Nuance这样的占据全球62%语音市场的传统语音技术巨头,也有谷歌、苹果、微软、IBM等IT巨头的竞争参与。在国内市场,李德升告诉记者,目前我国语音技术厂商基本分为三类:一类是传统语音技术厂商,一般从科研院所基础研究脱胎,包括像科大讯飞(中国科技大学)、捷通华声(清华大学、中科院声学所、北京大学)、中科模识(中科院自动化所)、中科信利(中科院声学所)等;第二类是互联网厂商,包括百度、腾讯、搜狗等,他们为给其广大的互联网用户提供更好的增值服务,普遍采用战略合作或者收购等方式,掌握智能语音技术,推广语音服务;第三类是创业企业,像云知声、思必驰等,他们专注于某些行业领域,比如汽车、家电、教育、社交网络来推广自己的语音技术和产品。

近几年来,移动互联网蓬勃发展,基于互联网海量数据的深度神经网络技术的有力推进,智能家电、汽车电子、可穿戴设备等领域加速应用,汽车、医疗、智能家居、教育等行业应用不断拓展,智能语音作为新的信息入口,开始引领产业重大变革。

这一两年来,我国智能语音市场也是风起云涌:2012年8月中国移动以13.6亿元战略投资科大讯飞,科大讯飞受二级市场机构投资者追捧市值超过200亿元;云知声创立仅一年就先后获得两轮投资,其中一次融资金额高达1亿元;2013年5月,捷通华声宣布来自百度、清华大学战略投资;2013年8月,百度正式宣布向开发者开放语音生态系统,包括底层的语音识别技术应用程序开发接口(API)、百度语音助手软件开发工具包(SDK);同样在这个月腾讯在微信5.0中增加语音输入功能,一出来便风靡大众,微信APP已经成为消费者每天必刷的强大APP之一;直到最近,2014年4月12日,云知声组织创业公司牵头成立“全智能交互联盟”;2014年4月29日,科大讯飞的讯飞输入法继支持粤语、四川话、河南话等方言之后宣布支持东北话语音输入;5月20日晚,锤子科技首款智能手机Smartisan T1,借科大讯飞智能语音技术实现语音搜索、语音输入等特色功能……整个产业一片欣欣向荣。

“智能语音是人机智能交互的手段之一,而人机智能交互是目前中国技术企业有可能赶超国际的为数不多的产业机遇之一。产业变革是以技术为先导的。在PC/互联网时代,我国技术企业在计算机技术尤其是操作系统等方面,因为起步晚,所以赶超微软、谷歌等国际技术公司可能比较难,但在智能交互这个技术领域,相对而言,目前中西方起步差不多,如果我们能把握好现在的机会,好好练内功,发展我们自己的包括智能语音在内的交互技术,也许在这方面我们可以真正和国际公司一较高下,真正从中国制造走向中国创造。”北京捷通华声语音技术有点公司(简称捷通华声)董事长张连毅这样告诉记者。

与张连毅持相同观点的还有科大讯飞信息科技股份有限公司(简称科大讯飞)副总裁江涛和北京云知声信息技术有限公司(简称云知声)CEO黄伟。在他们看来,智能语音是难得的一次产业良机,错过语音,中国技术企业很难再有机会赶超国际了。

磨一根针破一片天

“做语音是需要慢慢熬的。”这话记者不止在一个被采访人口中听到。

1989年从清华大学毕业任职紫光推进OCR(图像扫描识别),中间赴美,2000年与中国科学院声学所研究员吕士楠共同创办捷通华声的张连毅称自己是语音乃至整个智能交互行业的老兵。在他看来,从“入口说”、“门槛说”到“血统说”再到“技术说”,这两年来的语音热其实更多是一种炒作,而这种炒作对行业本身未必有多大好处。“我只认可‘技术说’。因为语音只是交互的方式之一,智能语音就是一门技术,它与应用结合,这项技术就能发挥出巨大价值。而这门技术的特点是厚积薄发,需要慢慢积累,所以这就决定智能语音产业是要用一根针顶破天的专业领域,而不是用一个铁锤砸出一片声势的产业,必须专注、专业,精耕细作,深耕久酿。”

而所谓的积累,在云知声CEO黄伟看来,就是算法、数据和团队经验的积累。他告诉记者,作为创业型公司,“在数据的积累方面,云知声不占优势,我们的优势在于算法。从云知声成立第一天起,我们就用了比对手少一个数量级的数据来训练算法模型,最终达到甚至超越对手产品性能,这个过程我们也积累了丰富而宝贵的团队经验。而现在开放的语音云平台已经让我们有了很多用户数据,我们的数据短板已经得到了弥补。”

黄伟毕业于中国科学技术大学,后加入摩托罗拉并带队研发出世界上首个手机声纹认证系统。金融危机期间,摩托将整个语音识别团队出售给Nuance。黄伟拒绝被Nuance收编,于2009年7月加入盛大网络旗下的创新院,2010年10月创建了语音分院,2013年年底正式出任公司CEO。黄伟告诉记者,在技术方面云知声先后四次升级语音识别内核,目前识别准确率达96.26%,技术领先,并且可提供中、英、粤多语言识别;在商业化方面,云知声单月签约额突破千万元,合作伙伴超过3200家,云知声智能语音已广泛应用在移动互联网、智能家电、车载、可穿戴设备、呼叫中心、教育、医疗等领域。

无独有偶,科大讯飞副总裁江涛也同样是语音界的老人。毕业于中国科技大学自动化与计算机专业的他是科大讯飞的元老,作为科大讯飞创业团队成员,一直在从事语音技术在通信和互联网方向的应用推广。在江涛看来,语音技术和其他技术一样,都在沿技术成熟曲线不断发展。几年前苹果Siri带动语音走进向上发展阶段,那时整个产业被看好,很多资本投入进来至一个小高潮,而现在是小高潮过后走入技术成熟曲线下行阶段,很多人开始悲观,资本撤离,只有坚持下来的公司能做成。而他判断,带语音走入下一波上行曲线的动力很可能是穿戴设备、智能家居、智能汽车等。

江涛向记者回忆,在上世纪90年代,当时公认语音做得最好是南北二“王”,南“王”就是中国科技大学的王仁华老师,他也是科大讯飞第一任董事长,也是他支持科大讯飞现任董事长刘庆峰创业的;北“王”指的就是清华大学的王作英老师,语音识别和语音合成做得都很不错。

在江涛看来,语音成为人机交互的主要信息入口这是大势所趋,毋庸置疑,只是语音真正价值的实现还有赖于技术的成熟和应用的普及。应用的普及需要慢慢来,引导、教育市场,培养人们的使用习惯在一点点形成,但要推广、普及还是需要过程的。“几年前要是有人在电梯里对着自己手机喃喃自语大家都会觉得奇怪,不知道这人干嘛呢,但现在因为微信的普及,这种行为习惯已经被接受认可。”

而对于技术的成熟,江涛同样认为是需要专注投入、不断积累的。江涛向记者介绍目前的语音识别技术现状,他以环境从嘈杂到安静的程度为横轴,以人说话的配合清晰程度为纵轴,划分四个象限。在第一象限,也就是环境也安静、人说话也清楚的情况下,目前各家语音厂商技术实力差距不大,语音识别率都很高。在第二象限,也就是环境嘈杂、网络不好的情况下,目前科大讯飞做得很不错。噪音大、网络信号时断时续非常影响语音识别效果。“车载语音识别最大的对手就是噪音。2013年8月,奔驰在全球对云技术提供商进行选型的报告中分别按不同时速按照几种情况(包括60、100、140公里/小时)测噪,科大讯飞是唯一在100公里/小时时速上识别率超过90%的厂商。”江涛自豪地介绍。

在第三象限,也就是环境不错、人发音不太配合(最典型的各种口音)的情况下,看的就是对语言种类,尤其是方言的支持程度。云知声实现对粤语、英语的识别支持。科大讯飞除了实现对粤语、英语的识别支持,2014年以来陆续了对河南话、四川话、东北话等方言的识别。江涛透漏今年还会陆续湖南话、山东话、武汉话、合肥话、闽南话的方言识别。除了口音之外,语速、讲话模式等也会对语音识别带来不同挑战,比如演讲与开会的语音识别的识别算法和模型都不一样。“今年年底科大讯飞将推出一个产品实现普通话开会过程中,将语音转变为文字,识别率很高。”江涛透露。而在第四象限,即环境又不好、发音又不好的情况是世界性的难题,很难有谁能攻克。

各展所长开放竞合

随着谷歌、微软、IBM等IT巨头加快对智能语音领域的布局,以及Nuance在中国的本土化不断加强,国内语音企业将面临越来越大的竞争压力。相较于Nuance等国际巨头,国内语音企业在研发力量、创新能力、集成应用、行业应用拓展等方面还有不小差距。国内语音企业间的合作、并购、整合步伐也相对要缓慢一些。

对于国内语音企业的发展,作为行业专家李德升在接受记者采访时给出了他的见解和建议。他认为,在传统语音技术厂商中,科大讯飞的实力有目共睹,而捷通华声的语音合成在铁路交通、金融电信等领域也有较高的市场占有率,很多高铁、公交站等的报站语音是捷通华声做的。对于这类厂商,李德升给出的建议是得专注于语音,引入互联网思维,真正做大做强。对于百度、腾讯、搜狗等互联网厂商做语音,李德升认为他们具有最丰富的互联网语音资源,更重要的是他们有技术实力、有用户、有互联网思维,这些厂商最有可能可以和国外竞争者一较高下。而对于第三类语音创业企业,李德升的建议是让他们尽量采取合作方式,与互联网厂商合作,专注于特定行业领域积累实力,既不能小富即安,更不能贪高大上,只要积极进取,踏实经营,还是有非常大的成长空间的。

已于2013年向开发者开放语音生态系统的百度语音在语音领域也备受关注,但百度以采访审批比较难为由拒绝了记者的面访邀约,只文字回复:在深度学习技术的驱动下,百度在各方面都取得了长足的进步,可谓影响深远。语音技术方面,相对错误率降低了25%以上,移动搜索中文语音识别率突破了90%;图像技术方面,人脸识别技术世界领先,同时快速推出了世界上首个全网人脸搜索引擎;在相似图像搜索方面,效果远远超过了国际上搜索引擎同类产品。

“其实,以苹果为代表的软硬件一体化厂商做语音是为了卖硬件产品,互联网厂商大多是从帮助用户搜索的角度做语音,相对于创业型的语音企业,科大讯飞的优势就在于语音的宽度和厚度积累,优势就在于多年来对语音识别、语音合成、语音评测与语义理解各方面立体的投入和研究,目前拥有全方位立体的语音技术产品。”江涛说,在语音推广方面,科大讯飞坚持两条腿走路:一是坚持移动互联网能力开发,一是通信、教育和安全等重点行业推进。移动互联网能力未来会逐步拓展的三驾马车:手机、汽车和智能电视。目前科大讯飞手机语音已经有四亿的用户,每天活跃用户达四千多万。在教育领域,科大讯飞的语音合成、语音评测在广东高考英语口语考试,西部中小学的英语教具和日常教学中已经发挥很大价值;而在安全领域,公安部第一个跟企业合办的部级重点实验室――公安部声纹实验室就设在科大讯飞。

但江涛也坦言,相较于百度等互联网巨头做语音,传统语音技术厂商确实存在一些劣势,“在整个大的开发平台、云存储、位置服务和构建整个生态系统方面,互联网公司确实值得我们多学习。对于讯飞来说,还是要专心做好自己专长,聚焦在语音和语义方面,真正把对开发者的服务做好,基于语音和语义构建生态系统,尝试推广人机交互广告等。”

“互联网巨头要拥有语音这个技术,不被别人卡住喉咙,但他们有自己的主业,不会放太多精力在语音。”张连毅如此判断,“语音技术厂商只要做好自己的技术和产品,以开放合作的心态就能获得良好的发展。”除了夯实智能语音市场,捷通华声更要做的实现是包括智能语音、图像识别(OCR)、生物特征识别在内的全方位的人机智能交互。

语音合成技术范文第4篇

一、民族民间的咬字吐字技术

我国民族民间唱法的咬字吐字技术很有民族个性。这个民族个性的确立与我国民族语言(主要指汉语)的特殊构成方式有很大关系。我们汉语的单音节字,最大的特点是一字一音一意,各个相对独立的单音节字可以相互组合,构成语义差别很大的不同语组。汉语的单音节字在咬字、吐字技术方面,可分为各个相对独立的最小语言单位即因素。不同汉字所包括的因素差别使汉字读音可以分为字头、字符、字尾的不同结构,再加上声调的复杂变化,使得汉语成为有别于西方语言的特殊语言。

根据汉语的语言结构特点,把咬字吐字技术分为五音、四呼、十三辙和四声。根据咬字吐字技术分类的研究整理出一整套的咬字吐字和收声归韵技术,使咬字真切,吐字清晰,归韵收声严谨准确,进而使歌唱语言生动、亲切,富于生命力,具有鲜明的民族风格特征。

民族声乐的咬字吐字技术非常强调字与腔的关系,理论中的大量术语讲的都是字腔,如:“腔由字生,字正腔圆,依字行腔”等。魏良辅在《南词引正》中说:“五音以四声为主,但四声不得其宜,五音废矣。平、上、去、入务要端正,有上声字把入平声,去声唱做入声,皆做腔之故,宜速改之”。在字与情的关系上,不同的咬字技术会使歌唱的情感和韵味产生很大的变化。

二、美声唱法的咬字吐字技术

美声唱法的咬字吐字技术相对而言,不及民族民间唱法那么复杂,这在很大程度上应归结为意大利的语言结构特点和意大利人对声音美的观念的认识。有人说“意大利语是世界上最适合歌唱的语言”这句话不无道理。尽管意大利语与其他欧洲国家语言一样属于拼音文字,多音节词在其语言中所占比例很大,但意大利语元音和辅音的拼合非常简单方便,语言清晰,音序均匀,节奏明显,元音都很平正而圆润,浑厚而流畅。在意大利语发声中,即使以辅音结尾,喉咙、口、咽、鼻腔还是以最后的元音状态为基本状态,鼻腔、口腔同时出气,扩张的适当紧张度比较容易形成歌唱需要的空间,有利于发声歌唱,它的语言重音一般都落在倒数第二个音节上,也有部分落在倒数第三个音节上,形成语言比较响亮,韵律比较鲜明,抑扬顿挫的特点,容易产生各种音的光彩,意大利人更为看中嗓音的柔和,圆润、丰满、松弛和带有掩盖色彩的明亮纯正的音质,这在另一方面也促进了美声唱法的歌唱咬字吐字技术。美声唱法的辅音咬字吐字技术与我国民族唱法有很多的相同之处,都很注重辅音的咬字力度和喷口速度,只是在咬字力度的紧张度和喷口速度的快慢上稍有差异。美声唱法的吐字技术与共鸣和气息结合的更紧密。民族民间唱法的吐字技术与“行腔”的结合更紧密。

三、声与情的完美结合是歌唱艺术表现的最高境界

在掌握正确的咬字吐字技术的同时还应从几个方面注意字与音、声与情的关系:(1)重声轻情。在歌唱的艺术表现上往往存在只重视声音技术,忽略情感表现的问题。声音是表现的手段,情感才是目的。应避免因为大量训练声音的技能技巧而形成单一追求声音、炫耀声音技巧现象,在歌唱的意识中努力把声音的圆润、气息的支持与声区的统一,共鸣位置运用到歌曲情感的表达上,才能做到歌唱的艺术表现。(2)重声轻字。语言是美好的声音的基础,是情感表达的灵魂。通过字的内容和意义,表达我们的思想目的,声音则是音乐的辅助者。在歌唱中应重视吐字咬字技术和声音表现的合理结合。不能一味地追求声音的色彩、音量、位置等而唱不清楚歌词,失去歌唱本身的意义。这一现象在所谓一些“美声唱法”的人唱中国歌曲时尤显得突出。(3)重情轻声。在歌唱中也有盲目追求“情感”表现的,激动时会声嘶力竭地“真实”表现,低声区时像谈话一样“情感”表达,这样表现是因为歌唱者缺乏正确的技术支持及完美的艺术思想准则,是假情感。这种情感失去了歌唱艺术的审美标准,缺乏自如的声音运动的技术能力,随意性很强,是不可忽视的。(4)声情并重。“凝情与音,以音言情”,情融于音就像盐融于水。声含情,情满声,从而达到声情并茂的歌唱目的。有技术支持及艺术规格的声音才是歌唱艺术表现的手段,唱出具有丰富情感的歌声应依存于正确的发声技巧,才是真正的歌唱艺术的情感表现。

歌唱的艺术表现应注重声情并进,要求声音与情感的完美结合,只有这样歌唱艺术的表现力才越强。声与情的高度完美结合,以声传情、以情带声,互相依靠,互相促进,才能使歌唱赋有更强的生命力,实现声情并茂,达到歌唱艺术表现的最高境界。

参考文献:

[1].宋笃刚:《声乐语言艺术》,高等教育出版社,1997。

[2].薛 良:《歌唱的艺术》,:中国文联出版社,1986。

语音合成技术范文第5篇

【关键词】LTE IMS VoLTE

中图分类号:TN929.53 文献标识码:A 文章编号:1006-1010(2014)-03-0052-05

1 概述

IP技术是互联网主导技术,可方便灵活地提供各种信息服务,还能根据客户需求快捷创建新的服务。但在电信级语音方面只支持固定接入,安全性和计费控制等不尽如意。传统的基于电路交换的移动网络,如GSM,虽具有接入的灵活性,可随时随地语音交换,却不支持IP技术,只能形成一种垂直的业务展开方式;横向的不同业务应用只能分别进行业务接入、网络搭建、业务控制和应用开发,像业务计费等主要网络单元也须建立独立的运营系统。利用GPRS虽能使GSM用户接入IP,却是一种电路域与分组域完全分离、彼此独立的补充性应用,网速低、性能差,还存在语音和数据对无线资源的争用问题。

将IP技术引入到移动电信级语音通信领域,不仅要考虑电路域与分组域的灵活接入性,还要考虑运营商现有网络资源的续用。根据GSMA IR.92的定义,VoLTE(Voice over LTE,语音LTE)是一种基于IMS(IP Multimedia Subsystem,IP多媒体子系统)的语音技术,可保障较高的QoS(Quality of Serivce,服务质量)和用户体验,解决数据互通和漫游问题,还能在给用户带来电信级语音质量的同时,实现在IMS框架下的语音、视频、数据、紧急呼叫等业务的融合,因而成为TD-LTE系统的终极语音解决方案。

2 IMS体系架构

IMS是一组全IP核心网络技术规范,是一种基于IP电话和多媒体服务业务融合的下一代网络开放式体系架构。IMS实现了在IP基础上对语音、数据、视频和移动网络等技术的相融,支持多种接入方式,具有丰富的多媒体业务,并可完成移动电话、固定电话和互联网等通信模式的整合,配合LTE核心网络实现VoLTE端到端的基于分组域的语音和视频的电信通信业务。由于VoLTE采用了高清语音和视频编码,可显著提高语音通信质量,又因采用了SIP(Session Initiation Protocol,会话发起协议)进行端到端呼叫控制,使呼叫接续时长仅为CS(Circuit Seitch,电路交换)域的一半,其QoS技术的应用也使语音体验明显优于CS。

IMS体系可分为三层,其中应用层由各种服务器和Web业务组成,用户可通过IP或传统电话方式访问这些语音和非语音业务,所以IMS应用层的作用是负责为用户提供IMS多媒体业务;控制层也叫信令控制层,负责管理呼叫或会话设置、修改和释放,所有IP多媒体业务的信令控制都在这一层完成,是IMS的核心网;传送接入层也叫承载层,是一个IP分组交换网,可通过SIP信令建立会话,并提供承载服务,专门负责IMS SIP会话接入和传输。IMS体系架构如图1所示:

图1 IMS体系架构

3 基于IMS的VoLTE技术分析

VoLTE语音业务由LTE网络数据域提供支持,而借助IMS系统,不仅可实现语音呼叫控制等功能,还能够合理、灵活地对多媒体会话进行计费。IMS定义了为业务开发商使用的标准接口,通过这些接口运营商能够在多厂商环境下提供业务,避免绑定在单一厂商获取新业务。由于LTE系统只有PS域,所以在LTE上承载语音只能用VoIP(Voice over IP,语音IP)技术,要想在LTE网络中应用VoLTE语音业务,还需要用IMS作为会话类业务的控制网络,需要在LTE/EPC网络基础上叠加IMS网络来提供呼叫控制和业务功能。所以,VoLTE语音业务是以IMS网络作为业务控制层,以LTE网络作为业务承载层的VoIP语音业务。

2011年11月中兴通讯宣布成功地完成了业界首个VoLTE语音互通测试,在中德两地远距离测试站点中,验证了在厂商测试环境下,基于LTE/EPC/IMS技术的VoLTE接口的互联互通、全球漫游和全IP技术下的VoLTE语音通信。在测试场景提供的端到端的网络方案中,IMS核心网中包括了CSCF、HSS和IMS应用服务器MMTel AS等,LTE网络中包括了eNodeB、MME、S-GW、P-GW、PCRF等,DRA(Diameter Routing Agents,Diameter路由)模块起到了将两个核心网络连接的作用,如图2所示:

图2 基于IMS系统的VoLTE网络架构

由图1、图2可以看出,将LTE接入IMS体系,DRA模块起到了决定性的作用。作为Diameter路由,DRA可实现归属网络和被访网络间的互联与控制,完成各主机间的LTE漫游。引入Diameter信令,则可实现LTE用户的鉴权、位置更新和计费管理。所以,DRA节点的引入,可负责LTE Diameter信令目的地地址翻译和转接,为LTE提供漫游服务,保证全网MME-HSS之间、PCRF-PCRF之间的全IP连接关系。当然,归属地HSS、PCRF等网元也需要通过IMS索引和路由。

VoLTE技术透过LTE网络的空中接口来传输语音流量,使用传统互联网语音技术VoIP和以IMS体系为基础的核心网络,提供包括视频电话在内的语音服务,语音业务流程如图3所示,可简单地分解为开机、呼叫建立和呼叫释放等三个过程。开机过程是LTE终端UE附着过程,即所谓永久在线建立过程,与所有LTE终端附着不同的是,因加入IMS系统,终端需要申请VoLTE语音会话建立和IMS鉴权与注册;呼叫建立过程是VoLTE语音呼叫过程中的主被叫链路的建立,该链路一旦建立,主被叫之间就可进行VoLTE语音通话;释放过程是使主叫回到开机过程中的附着状态,一旦发起呼叫,则可快速连接被叫,大大缩短了起呼时间。

图3 VoLTE语音业务流程

LTE终端在执行VoLTE语音业务时,在LTE网络和IMS网络中,主要经历的网元有eNodeB、MME、S-GW、P-GW、HSS、PCRF、CSCF和AS。从图2中可以看出,LTE网络不仅要完成语音业务的空中传输,还要负责通话终端间的EPS注册、IMS注册、用户鉴权和EPS专用信道的建立,虽然IMS网络也需要辅助响应,但在整个VoLTE语音业务应用过程中,LTE网络是其业务承载的传输主体。当这种业务承载的传输网络建立后,获取多媒体业务、VoLTE视频语音业务就需要IMS网络支持了。

VoLTE语音业务遵循IMS语音业务流程,包括漫游和非漫游场景下的起呼和被叫。VoLTE使用PS域业务的VoIP语音技术,与PS域所有数据业务一样,VoLTE语音也只是一种互联网业务,一种多媒体语音数据业务。所以,VoLTE语音业务实现视频语音是一件很简单的事。另外,在VoLTE解决方案中,实现VoIP语音业务时,LTE系统将VoIP语音视为一种移动宽带业务提供一种承载,业务控制则由IMS系统提供,这样用户业务的QoS和计费策略控制可由PCC(Policy Control and Charging,策略控制与计费)系统与之保证。

PCC是3GPP R7中提出的一种基于分组域实现流的业务策略和控制的逻辑架构,在R8中增加了包括LTE在内的多种接入方式、漫游和PCRF寻址功能。PCC架构主要由PCRF、PCEF(Policy and Charging Enforcement Function,策略和计费执行功能)、AF(Application Function,应用功能)、SPR(Subscription Profile Repository,签约型存储)等功能实体组成。PCRF主要实现策略控制决策和基于流计费控制功能;PCEF主要实现数据流检测、策略执行和基于流的计费功能;AF在IMS架构中由P-CSCF网元替代,主要实现与PCRF通信交互以传输动态会话信息以便PCRF决策;SPR包含与所有签约用户或签约相关的信息,而PCRF使用这些信息可决定基于签约的策略。

在LTE网络中引入PCC后的网络架构如图4所示,其中PCRF为LTE核心网中重要模块,P-CSCF是IMS核心网中CSCF的一个子模块,功能相当于存储器的SPR是新增网元,同为新增网元的PCEF,却非常重要,负责执行已选策略和计费功能。在PCC策略实现中,PCRF首先需要查询包括用户签约信息、运营商用户数据、从承载层和应用层获得接入网络信息、了解用户位置、协商QoS、用户设备信息和用户计费方式等信息来确定用户QoS策略。而后PCRF根据这些查询信息,为用户配置相应QoS策略,与其他核心网元交互,分配相关资源以保证业务服务质量。显然,在PCC策略实施中,包括了VoLTE语音业务在内的所有PS域业务,而上面所述的亦是VoLTE语音业务的QoS策略实施过程。

图4 引入PCC架构后的LTE网络

4 VoLTE技术应用思考

将VoLTE语音建立在IMS体系架构和LTE网络基础上,是保证VoLTE语音质量的重要前提。LTE的扁平化结构使得接入网E-UTRAN仅由基站eNodeB组成,简化了网络信令,能将更多会话(In-Session)资料管理责任交给eNodeB节点,大大缩短了等待时间,从而能让分组语音服务包和高速数据服务包如同串行流媒体(Streaming Media)一样可行。LTE可使VoLTE在语音业务上拥有更高的频谱效率,单位频谱上也可承载更多的语音用户,特别是通过引入电信级QoS和高清编解码技术,理论上VoLTE完全可以拥有比2G/3G语音、OTT语音更好的用户体验。

2012年韩国电信运营商SKT和LGU及美国MetroPCS同时宣布推出可在LTE网络中应用的基于IP语音技术的VoLTE,数月后,韩国三星又宣布推出了具备VoLTE能力的Galaxy Note 10.1移动设备,加上2011年中兴通讯宣布的已成功地完成业界首个VoLTE语音跨国互通测试报道,说明基于IP数据传输技术和LTE语音传输技术的VoLTE语音技术,在PS域已经具备了商业应用能力。然而现实中,全球正在加速部署的LTE网络大部分仍然只支持数据传输,不能处理语音通信,用户电话只能被转移至传统的2G/3G网上。这并非完全是技术因素,还与运营商2G/3G成熟网络的投资保护有关。VoLTE的广泛应用还有一段路要走。

目前通过互联网协议提供语音服务的技术主要是OTT服务商提供的、资费很低的、技术简单的、使用VoIP技术的网络电话,该网络电话因其只需SIP软件就可以通过IP地址和帐号注册通话,所以如同互联网上所有数据业务一样,没有区域和漫游的概念(只需IP地址),更不能提供语音质量的QoS保证(非实时和随机的语音包串联没有QoS支持)。这说明VoLTE语音技术所面对的竞争对手,不仅价廉易用,而且已广泛普及。VoLTE语音技术要想塑造移动互联网语音神话,一方面要保证语音品质远远超越普通网络电话,甚至超过固定电话;另一方面要使可视电话音视频品质有质的飞跃,使用户有完美的体验。

因此,要在LTE网络中应用VoLTE业务,分阶段发展和重点区域应用是较好的选择,即将VoLTE语音应用分三个阶段:

第一阶段为初始应用阶段,主要考虑LTE初期应用是以热点覆盖为主,LTE网络覆盖区域有限,而2G/3G网络不仅覆盖全面,用户群体还占有绝对优势,尤其是存在高成熟度的CS语音技术与有待完善的VoLTE语音技术的矛盾。所以,在这一阶段的LTE网络中,有的地方可采用VoLTE语音技术,有的地方则采用切换到CS域语音技术。这就要求运营商先有一个市场应用调研和用户应用引导。如考虑在大专院校布局支持VoLTE语音技术的热点LTE网络覆盖,在校园开展各类有意义的支持VoLTE语音技术终端设备的市场优惠销售活动,开展有针对应用目标的、性价比较高的具有VoLTE语音技术应用模式指导的互动活动等。

第二阶段为支持VoLTE技术的LTE网络的发展期,特点是LTE网络覆盖规模不断扩大,用户认知也达到一定程度,LTE网络技术、VoLTE语音技术和LTE终端技术开始走向成熟,LTE网络覆盖水平达到了可以在城市和人口密集地区运营VoLTE语音业务的条件。尤其是LTE智能手机的大量应用,IMS架构的不断完善,CS语音系统开始逐渐退出,基于IMS架构的多媒体业务类型的大量涌现,VoLTE语音品质得到较大提升……总之,本阶段是基于IMS架构VoLTE语音技术应用的普及时期,运营商需要做的工作主要是在优化VoLTE多媒体语音品质的基础上,提供内容丰富的IMS多媒体应用业务和种类繁多的智能手机。

第三阶段为LTE网络全覆盖和VoLTE成为主流语音应用时期,相当完善的LTE覆盖和相当成熟的VoLTE多媒体语音应用,已促使传统的CS开始退出移动通信舞台。

第一阶段是一个非常重要的应用推广阶段,是IMS架构初建与集成和VoLTE语音技术完善过程中必要的测试和试验阶段,也是LTE网络、IMS多媒体业务与VoLTE终端应用的磨合阶段,因而也是决定LTE网络应用在短期内能否占领一定市场份额的重要阶段。所以,运营商应在第一阶段的营销策略中做足文章。第二阶段和第三阶段是移动多媒体业务发展和创新阶段。

5 总结

基于IMS体系架构的VoLTE语音技术是LTE运营商开启通往移动宽带语音的一扇大门,也是移动通信、固定通信和互联网通信,语音业务、数据业务和视频业务大融合的基础。LTE语音通信技术最终是以VoLTE分组业务形式取代,但却取决于VoLTE技术的臻如至善,取决于LTE网络的无缝覆盖程序,取决于IMS多媒体业务类型的丰富多彩,取决于智能终端的智能情况,最终还是取决于用户的应用普及程度。

从语音业务方面看,IMS体系架构支持的基于IP的电话和多媒体服务业务的融合,不仅可为VoLTE语音贯通包括2G/3G和固定电话的所有语音,还能使视频电话与互联网视频的相互通信变得十分方便,更重要的是为完全VoLTE语音技术应用创造了安全的过渡环境。对于运营商来讲,IMS体系架构力助VoLTE实现了数据与语音业务在同一网络下的统一,可帮助运营商降低运营计费复杂度,提升运营效率,减少运营成本。

从技术角度看,VoLTE是一种在LTE协议层上封装语音数据的新型语音标准,与Voive over ATM、Voice over Frame Relay类似。借助成熟的技术和工艺,VoLTE技术完全可以简化终端芯片设计,降低语音设备成本。所以笔者认为运营商应加快LTE网络覆盖速度,增加LTE网络覆盖率,尤其是完善IMS体系架构的建立,为VoLTE语音技术的普及打下良好的网络基础。

另外,许多运营商采用电路回退等相关技术兼容2G/3G语音。对于运营商来讲,这似乎可以在LTE时代继续发挥2G/3G设备的效益,降低建网投资,但却加重了用户终端设备的成本,这无疑要影响LTE网络应用的推广和普及,影响LTE网络的成本效益。所以,在使用VoLTE语音技术的LTE网络覆盖建设中,采用重点区应用模式有一定的现实意义。

参考文献:

[1] 付航. IMS体系研究与网络架构演进[J]. 移动通信, 2007(3): 73-76.

[2] 周峰,许正锋,罗俊. VoLTE业务与技术实现方案的研究与分析[J]. 电信科学, 2013(2): 31-35.

[3] 张长青. TD-LTE演进型分组核心网技术分析[J]. 移动通信, 2013(8): 51-57.

[4] 冯传奋,王少波,李爱娇,等. IMS域引入QoS架构探讨[J]. 移动通信, 2010(24): 71-74.