语音视频(精选5篇)

首页文章中心学术期刊科普订阅 SCI期刊 SCI发表

会员中心购物车(0)

首页 > 文章中心 > 语音视频

语音视频

时间：2023-05-11 14:37:35

语音视频

语音视频范文第1篇

关键词：数字视频；TTS；SpeechSDK；讲解

中图分类号：TP315 文献标识码：A文章编号：1006-4311（2012）08-0117-02

0引言

盲人因特殊的视觉障碍，无法欣赏影视艺术。当一个盲人观看电影时，必须有一个人随着剧情的发展给他讲述故事情节的发展。美国教授格雷戈里・弗雷泽对此感触很深，于是他创造了一种描述影像的理论：听视法。这种方法就是把人物、光线、布景、空间和场景分解，与对话进行同期录音。有了这套听视系统，盲人戴上一个装有红外线的头盔就可以独自一人去看电影了。

国内，还没有专门针对盲人研制类似的系统。2004年，北京的王伟力（又被亲切地称为大伟）开办“心目影院”，做盲人的眼睛，通过其娓娓道来的讲述，让盲人朋友看到精彩的电影。“心目影院”的故事经新闻联播报道后，在全国各地引起强反响，各地涌现出了许多类似的“心目影院”。

无论是国内或者国外的解决方案来说，均存在一定的不足，不便推广。

国外的视听系统需要相关的片源及硬件播放设备支持，成本较高，不便推广。

国内的“心目影院”虽然对片源及硬件播放设备没有什么特殊的要求，但由于对影片讲解者的素质有较高要求，且对于欲讲解的影视节目，讲解者需提前观看、准备，讲解时又受讲解者自身时间、地点、体力等因素制约，不能满足盲人朋友即时、个性化的影视欣赏需求。

目前，互联网宽带已进入千家万户，大街小巷网吧遍布，宽带影视伸手可及。而TTS语音合成技术又相当成熟，我们完全可以借助TTS语音技术实现宽带影视作品的自动讲解，也就是说利用TTS语音技术来代替“心目影院”的讲解者，来实现宽带影视作品的计算机自动讲解。

1TTS语音技术

TTS（Text-to-Speech）语音合成又称为文语转换，是指计算机可以自动把输入的文本信息转换成语音的技术[1]。Microsoft、NeoSpeech等均推出了技术成熟的SDK开发包，Microsoft Speech SDK（5.1）开发包提供了英文语音合成引擎（TTS），支持C++、VB及Web编译开发环境，中文、日文的语音合成引擎需要另外下载安装SpeechSDK51LangPack.exe文件。[2]比较而言，NeoSpeech提供的中文Lilly（女声）、Wang（男声）语音库，更为丰富，最为流畅。考虑到Microsoft windows操作系统的市场覆盖面及NeoSpeech语音库的流畅性，我们采用Microsoft Speech SDK 5.1开发包与NeoSpeech的Chinese（Lilly、Wang）语音库相结合的技术来进行本系统的开发。

系统调用ActiveXObject对象，通过var VoiceObj=new ActiveXObject（"Sapi.SpVoice"）方法产生Sapi SpVoice对象VoiceObj。VoiceObj对象使用后，通过delete VoiceObj方法清除VoiceObj对象。VoiceObj对象通过VoiceObj.GetVoices().Item（i）方法取得语音引擎的Item序列号，通过VoiceObj.Voice方法设置语音引擎的具体类别（英文男声、英文女声、中文男声、中文女声等），通过VoiceObj.Rate方法设置或取得语音的语速，通过VoiceObj.Volume方法设置或取得语音的音量大小，通过VoiceObj.Speak方法进行文本到语音的转换输出。

影视作品播放时，是按顺序一个画面一个画面显示，这一个画面称为一帧。我们可以对影视作品进行“视听转换”处理，建立起影视作品的“视听转换”信息数据库，保存相关帧的需要讲解的文本信息。播放控制单元利用TTS语音合成技术，在相应帧位置处播放相应的“文本信息”，完成影视节目的“视听转化”，从而来实现宽带影视作品的自动讲解。

2需求分析

系统参与者包括常人即视力正常的明眼人，以及盲人用户。常人可根据盲人朋友的需要，进行个性化的语音设置、音量设置、语速设置等系统设置。盲人朋友选择视频，播放视频，系统根据相应的语音、音量、语速等系统设置，对盲人朋友选择的数字视频进行在线语音自动讲解，实现系统功能。系统总体用例图如图1所示。

3系统设计

FLV是随着Flash MX的推出而发展起来的一种新兴视频格式，它的文件小，加载速度快，FLV视频是当前互联网视频的主流视频格式文件。为支持FLV视频格式，系统通过Adobe Flash CS4技术，将选择欲播放的视频功能封装在一个flash文件flvplay中，系统参与者即盲人用户仅需通过上、下方向键即可选择欲播放的视频，并向web窗体发送FSCommand消息[3]。web窗体通过Internet Explorer 的挂钩及DoFSCommand（command，args）处理 Flash 影片中的所有 FSCommand 消息，调用VoiceObj.Speak方法输出语音提示信息，告知盲人用户当前所选择的视频的名称，盲人用户可通过回车键，播放所选择的视频。播放过程中，flvplay向web窗体发送当前视频帧的帧数据FSCommand消息。web窗体通过Internet Explorer 的挂钩及DoFSCommand处理获取的当前视频帧的帧数据FSCommand 消息，在数据库中检索对应的讲解文本，调用VoiceObj.Speak方法输出即时讲解语音，实现系统功能。系统总体程序流程图如图2所示。

4系统实现

NET Framework是微软用于Windows的新托管代码编程模型，它将强大的功能与新技术结合起来，用于构建具有视觉上引人注目的用户体验式的应用程序，实现了跨技术边界的无缝通信，并且能支持各种业务流程。本系统即采用.省略结合jsp、JavaScript、ajax、flash等技术，配合SQL数据库，完成系统功能。相关程序代码如下：

var currentP=Math.floor(document.all.item("curpos").value);

if (document.all.item("MdbString").value != "跳过"){

if ((document.all.item("MdbString").value=="") ||

(StartFlag=document.all.item("MdbStart").value!=document.all.item("volstart").value )){

if ((document.all.item("MdbStart").value

(document.all.item("MdbEnd").value>= currentP)){

StartFlag =document.all.item("MdbStart").value;

StopFlag=document.all.item("MdbEnd").value;

SpeakStr=document.all.item("MdbString").value;

if (document.all.item("MdbString").value == "跳过"){}

else{

VoiceObj.Speak( SpeakStr,0);

VoiceObj.Speak( "", 2 );

SpeakStr ="已读";

document.all.item("volstart").value= StartFlag;

document.all.item("volend").value=StopFlag ;

document.all.item("volstring").value=SpeakStr;

}}}}

5总结

数字视频在线语音讲解系统，在线播放flv视频，借助TTS技术，为盲人朋友动态语音讲解视频，做盲人的眼睛，满足盲人朋友即时、个性化的影视欣赏需求。

参考文献：

[1]袁嵩.一个TTS系统的实现方案.计算机工程与应用，2004，(21).

语音视频范文第2篇

针对集合了先进连接技术和设备在政府视频会议系统具体优化设计视频会议系统语音备份机制，利用TP语音备份系统进行集成系统建设。进而达到政府会议过程中各种要求的标准，提升视频会议系统的整体维护水平。

【关键词】视频会议备份语音备份机制优化设计

随着信息化发展的逐步深入，越来越多的政府部门引入了大量的视频会议系统。视频会议系统的建设提升了政府部门整体的自动化应用水平，使各级领导均能更加方便、快捷地进行决策，一旦发生突发事件，就可以利用视频系统进行指挥、监控、以及处理，使整体政府部门的办事效率提升，同时更方便对各部门工作人员进行培训，既提高了工作效率，又节约了大量资金。

1 政府视频网络系统概述

政府视频会议系统中包括了：H323以及SIP协议的通信设备，可以使视频系统中的各个功能之间进行转换；视频系统中的终端设备，其中有摄像头、解码器以及显示器等；视频系统中各种管理系统，其中包括了硬件终端等设备；录播器要有大容量的存储功能，支持多个会议的语音存储功能，实现高清视频的接收；还有交换机或者是路由器等设备。建设有保障性的视频系统，要有足够的扩展能力，可以随时应变用户在使用过程中的各种要求。使其有良好的系统管理能力，良好的系统兼容，健全的接入能力以及系统更加的安全性。

一般的视频会议都是利用一些硬件设施进行架构整个系统的体系，通常是利用比如冗余电源及路线进行系统的可靠性辅助。不过实际系统工程的建设当中仍然有着一定的风险。

来自终端设备的风险：由于终端出现了异常情况，导致无法进行正常工作。

来自服务器的风险：MCU以及服务中心出现故障，进而整个系统不能进行视频会议，导致工作无法正常进行。

来自于各视频的连接风险：在视频系统中的广域网中出现了系统故障，也有可能使整个系统瘫痪，整个会议无法正常进行。

来自于网络设备的风险：在视频会议系统中的运行视频会议的网络配置出来了问题，也会导致会议的中断以及无法进行正常工作。

以上几种风险的阐述，可以看出，在进行视频会议系统的建设当中，硬件以及设计技术都要可靠性的保障，否则将会导致其工作无法正常进行，而且还会给工作带来许多的困扰。

2 视频会议备份系统优化设计与实践

视频会议是非常典型的多媒体业务，和通信网络的发展有着直接的联系。不管是在PSTN、DDN等一些其它的移动通信中进行视频会议都是需要多方控制技术。一般情况下多方控制技术在视频会议中都是利用MC或者是MCU分出的MC进行独立性的操作系统的。在整个系统中MCU负责系统的各方面的建立以及各种音频的混合、切换功能，MC只负责系统的建立和控制。

2.1 采用MCU进行视频会议系统的多方控制

在MCU中通过进行集合多个单元模块处理视频会议系统中的音频、视频、数据以及多路复元等功能，其各个模块中的功能信息在内部进行传递。在实际工作当中，可以实现一个MCU共同服务于多个会议的终端操作，如果超出一个MCU所负责的范围内，MCU将不能完成对系统的终端控制。一会在会议视频系统中如果有一个MCU进行系统结构的控制时，系统则会利用星型架构，如果是大型会议的系统控制时，则需要有两级MCU星形结构系统。

2.2 IP网络下的视频会议系统

IP主要是通过最新的视频技术协议H.323标准采用VOIP技术得以实现的。VOIP是利用IP技术进行信息传输以及分化，它运行的基本原理是，将语音以及图像进行压缩打包到编码处，然后再根据IP协议进行传输到信息的接收处，再利用解码器将这些数据进行处理后还原成最初的视频信号，进而达到视频通过IP网络进行传输的目的。

采用IP语音技术，覆盖整个会议系统中。它是基于现有的广域网的数据平台中，给会议系统提供各种数据平台的服务功能，实现两者之间的独立合作。这样两者之间不会由于其中一个故障而且影响另一个系统的运行。这样既可以提供备份功能还可以实现语音会议的协同发展。

备份系统中的各种组件有：

（1）IP电话会议桥：对会议系统中的各个音频编码进行处理和整合到一起，并且可以容纳下视频会议中所有的IP电话接入会议的接口，使IP电话会议终端中的各个接口都可以连接。

（2）呼叫信令处理：对IP电话所有的终端进行数据处理和信令管理；并且由呼叫信令进行统一管理，在保护投资的情况下进行冗余配置。

（3）网守（Gatekeeper）：进行翻译和控制IP电话终端的各种功能。还可以实现管理带宽以及定位服务功能。还将各个设备的登记信息进行备份保存。会议系统启动后网守记录设备再与接入的网关在一个语音路由器上得以实现。

（4）IP电话会议终端：主要应用在大中型的会议IP电话中，其中包括了多个移动有线麦克风，方便会议部署。

（5）接入网关：基于IP电话系统与 PSTN网关的连接，实现IP网络连接于各个运营商以及移动电话中的通话作用。接入网关后，运营商的移动、固定电话都可以与IP电话系统进行通话。使备份系统链得以满足外呼要求。还可以同时提供给内部IP内部电话许多个备份外线号码使用。

2.3 会场的优化设计实践

在进行实际会计设计中，基于会场的实际情况，采用会场集成设计。将会场的音频进行备份，然后连接到视频会议系统中；开会过程中IP网络与会议系统进行连接，而且需要调到静音状态，将扬声器关闭，进行备份音频系统的等待状态中。如果出现在会议过程中由于MCU终端的故障导致不能正常进行时，要立即启动系统备份方案，直接进入音频会议模式。这样即使会议系统中的视频出现故障，利用音频会议也可以使会议继续工作下去。

3 总结

通过进行系统的实际认证，使整体的视频网络系统一旦出现故障可以利用IP语音系统的集成管理，实现两套系统的平衡运行，并且利用IP语音系统替代视频系统，保障了会议的正常运行，达到建设视频会议系统的初始目的。

参考文献

[1]刘建磊.政府视频会议系统语音备份机制设计实践[J].通信与信息技术，2012（05）：67-69.

[2]隆益民.视频会议系统的设计与实现[J].网络安全技术与应用，2006（02）：57-59+62.

语音视频范文第3篇

舌尖抵住上牙堂前三分之一的位置，保持这个状态呼气，让气流“冲破”舌尖，使舌头震动，声音是震动产生的嘛，就像风吹过塑料布那样，然后结合单词练习发音。把你的舌尖轻轻放在上颚上，记住是轻轻的搭上，不是重重的放在上面。然后发啊的音，期间如果舌尖震动，顺其自然。要多练，别发个“得”的音。要发出р!然后练ра,ро,ру,ры,рэ,ря,ре,рю,ри,带点的е和р连起来！慢慢就好了，但是落实在单词中还是麻烦。

（来源：文章屋网 http://www.wzu.com）

语音视频范文第4篇

0 引言

外语教学具有很强的实践性，要获得好的教学效果，学生须经常进行反复的视听训练，训练元素可以是单句、段落或意群。然而，无论是传统的录音/录像带，还是当前的数字化音像制品，要迅速精确地选定训练元素（如：句段），单靠人工操作是一件很困难的事情。

此外，有效的视听训练不仅需要生动的音视频资源，还需要内容丰富的文本资源（如中外文字幕、生词注释、句段讲解、背景知识等），以及经科学整合而形成的一个声（像）文一体、同步可控、操作便捷的语言训练环境。

总之，实现句段的精准定位和视听资源的科学整合，是有效改善视听教学的两个重要条件。语音自动断句则是实现这两个重要条件的关键技术，是高效率地进行复读、跟读、听抄、会话等多种语言训练的技术基础。

1 外语教学资源概述

“教学资源已成为影响课程教学质量的一个制约因素，教学资源建设不仅需要媒体资源的数量，更需质量[1]。”外语教学资源是实施外语教学的重要元素，特别是视听资源，它在整个语言学习过程中起着至关重要的作用。丰富生动的高质量音视频资源，可为学生提供一个最真实，最具趣味性的语言环境，通过视、听、说、读等全方位的综合训练，使各种语言感官同时受到刺激，进而取得良好的教学效果。

1.1 外语教学资源的类型

从广义角度来说，教学资源是实施教学所需的包括人力资源、教材资源、环境设备资源、教学信息资源等在内的各种软件和硬件资源，比如：教学场地、教学设备、教育制度、师资、教法、教材、课件、参考资料等。

本文所说的外语教学资源，主要指教学课件、教学素材及教学平台等软件资源，从媒介形式上分，有音频、视频和文本等。

⑴ 音频资源

语言本身是通过声音来传递的，因此音频资源是外语教学中普遍使用的、最基本的教学资源。传统的音频资源是以录音带为载体的模拟信息，目前已不能满足现代外语教学的需要；而现代的音频资源则是以光盘、磁盘或网络为载体的数字化信息，它在外语教学中越来越表现出明显优势和不可替代性。

⑵ 视频资源

视频是声像一体的教学资源（如电影、教学片等），它在外语教学中是不可或缺的。认知心理学的研究结果表明，人的一生中所掌握的信息有94%是通过视觉和听觉获得的，其中88%通过视觉，12%通过听觉[2]。可见，如果能够充分利用视频资源进行生动、形象的外语教学，使各语言感官同时受到刺激，学生会有身临其境的感觉，学习效率和教学效果将得到明显提高。

⑶ 文本资源

文本（如字幕、生词注释、句段讲解及背景知识等）探讨最基本的外语视听教学资源，它能精准地表达语言本意，可描述任何语法现象和语篇细节，这是音像资源所不及的。尽管有越来越多新型的教学媒体和资源产生，但文字资源始终占有重要地位，是其他资源无法替代的。一九八一年三月十六日，被美国媒体称为“打破寂静的日子”的首部字幕电视剧播出，从此，失聪及听觉有障碍的观众便可以通过字幕来欣赏电视节目了[3]。这充分表明，字幕就是一种很好的教学资源，具有较强的学习功效。充分发挥文本资源的优势，将其与音视频资源进行有机结合，可使外语教学获得良好的效果。

1.2 教学资源的开发现状

目前，随着网络与多媒体技术的发展，人们可通过多种途径轻易获得各式各样的外语视听素材，如：录音、录像、讲座、教学片及相关文本素材。但由于多种因素的制约，这些素材还远未发挥出其应有的作用，还存在着如下几个问题。

⑴ 自动化程度低

学好外语要靠大量反复的听、说、读、写训练。这有赖于操作简单、自动化程度高的视听资源的支持。学生要反复进行某一句段的训练时，希望视听环境能提供迅速精准的句段定位功能，只需轻点一下鼠标即可如愿，以利于实现强化训练。然而，经笔者进行大量的调查统计发现，目前97%以上的教学资源不具备这些功能，自动化程度极低。比如，音视频文件一般都未进行句段标识和断句处理，直接导致句段查找与精确定位的困难，以及学习效率的低下。分析其原因，主要是目前能够提供自动断句功能的软件很少，只有Aboboo、RepeatPlayer、EditLrc等为数不多的几个，且自动断句及资源整合功能大多较弱；而手工断句的工作量大，开发效率低，极大影响了外语教师对教学资源开发的热情。

⑵ 整合度差

外语视听教学资源涉及到音频、视频、文本等多种形式和多项元素。各元素须经过科学整合才能形成一套完备实用的教学资源或教学系统。并且，“一个好的视听教学系统，必须考虑对上述教学元素的同步控制，使其在视音频信息流动的同时自动定位或展示其他教学元素。这样，受训者随时都能受到多角度、全方位的训练，也能极大提高训练效率和教学效果[4]。”然而，目前相当一部分视听素材都是从网上下载的，缺乏科学整合，音视频与文本素材相互脱节、杂乱无序、系统化程度较低，如直接使用，则难以收到良好的教学效果。

造成外语教学资源整合度差的原因主要有：①资源类型较复杂，既有文本又有音视频，整合难度大；②资源的开发整合技术较复杂，涉及计算机、多媒体、网络及教育技术等，较适用的开发平台不多。

⑶ 通用性不强

目前，很多外语视听教学资源的开发都是外语教师自发进行的，既没有明确的标准，又缺乏技术人员的支持，开发工作不少还停留在较初级阶段；开发的资源不具有较强的规范性、适应性和共享性，难以进行交流和推广，重复开发现象比较普遍。

2 语音自动断句技术

语音自动断句是开发具有较高自动化程度的外语视听教学资源的关键技术。采用该技术可对音视频资源进行语音句段的自动分割，有利于提高外语视听教学资源的整合水平。下面介绍语音断句的概念、基本算法以及自动断句的实现方法。

2.1 语音断句的概念

语音断句，就是对数字音视频素材的语音信号以句段为单位进行切分处理。语音断句是通过形成一组句段标识数据而实现的对音视频文件进行的逻辑分割。这组标识数据用来标识一整段音频（或视频）中每个句段的起止位置，进而在程序的控制下，实现播放句段的灵活选择。

语音自动断句，实质上就是通过程序设计的方法来自动获得各句段的标识数据。这有利于学习者和课件制作者能够专注他们的教学活动。

语音自动断句是进行视听资源整合的基础，其自动化程度，直接关系到外语视听教学的训练效率、训练强度和学习效果，也决定着相关教学课件的开发水平。

2.2 语音断句的相关算法

目前，语音断句技术所涉及的主要算法有：基于隐形马尔科夫模型（HMM）方法、基于动态时间伸缩（DTW）方法、基于小波变换（wavelet transform）方法，以及基于粒计算（granular computing）方法等。

由于音视频样本中声音信号的复杂性，尽管语音断句的研究工作已有较长历史，并取得了很大成绩，但仍面临许多困难，如：算法的适应性较差、强背景噪音下分段困难、一些能量较低的爆破音和鼻音难以判断等。要克服这些困难，需对现有方法进行详细研究和比较，再辅以其他手段并施加一定的人工干预（比如，人工判断背景噪音等情况并设置相关语音参数）。

笔者在编程实践中，自动断句的语音参数主要采用背景噪音、句间停顿、最短句长、允许杂音数等四个。通过改变它们的设定值，可灵活寻找句间停顿，并收集断点信息，能有效提高断句的精度。这四个参数的意义如下（如图1所示）。

⑴ 背景噪音：小于该值的样本算做静音，设定值越大，切分出的句段越多。

⑵ 句间停顿：大于该值的停顿才算句段，设定值越大，切分出的句段越少。

⑶ 最短句长：大于该值的非静音采样才被认定为句段，设定值越大，切分出的句段越少。

⑷ 允许杂音数：句间停顿允许存在的杂音数，设定值越大，切分出的句段越多。

2.3 自动断句的实现方法

考虑到语言训练重复性强的特点以及与其他资源整合的需求，我们采用将音视频中的句段起止时间记录于媒体播放器外挂文件的方法，来实现逻辑上的语音断句。外挂文件有多种，我们开发的FLAVS针对的是lrc文件。

⑴ lrc文件的作用与结构

对于lrc文件，经常听音乐的朋友一定不陌生，它记录的是音视频文件中各句段的起始时间和同步歌词（或字幕），其作用就是为自动断句程序提供断点数据，为视听资源的整合提供同步数据。基于此，我们就可以设计程序，通过外挂文件来控制音视频文件的播放进度，进而实现语音自动断句。

外挂文件的文件名一般与相应的音视频文件相同，其扩展名则决定于外挂文件的类型，如lrc外挂文件的扩展名为“.lrc”。lrc外挂文件的结构如下：

上述文件中的前4行是通用信息，不是我们关注的重点。第5行以后的内容是文件的主体，每行都由“时间”和“文本”这两个字段组成。其中，[ ]中的内容是时间字段，表示当前句段的开始时间，格式为“HH：MM：SS.mmm”，若时间小于60分钟，则表示为“MM：SS.mmm”；[ ]后的内容是文本字段，是本句段的同步显示文本，可设置歌词（或中外文字幕）、生词注释、句段注解等。

⑵ 断句的实现

实现语音自动断句需做两个方面的工作：一是准确采集音视频样本中各句段的时间轴（即时间字段）数据，并将其写入lrc文件；二是根据时间轴，来控制播放指针的启停位置。这里的关键是如何准确采集时间轴数据。

为此，我们在FLAVS早期版本的基础上，为其增加了语音自动断句功能，形成了FLAVS（v3.2）。程序中对时间字段的采集主要采用上述基于语音参数的断句算法，并设置了“背景噪音”、“时间停顿”、“最短句长”和“允许杂音数”等4个调节钮（如图2所示）。当各参数值调节到满意效果时，程序自动对音视频样本中各句段的起止时间进行采集，并写入一个与音视频文件同名的lrc文件中，进而可实现语音自动断句。

下面是使用FLAVS（v3.2版）进行语音断句的操作过程：

① 先通过“打开”按钮打开要断句的音视频文件（如The_Sound_of_Music.avi）；

② 再通过“断句”按钮进入断句参数调整窗口，来调节“背景噪音”、“句间停顿”、“最短句长”、“允许杂音数”等参数（见图2）；

③ 最后按“保存”按钮即可自动生成一个与音视频文件同名的包含时间字段的句段切分文件The_Sound_of_Music.lrc，并将句段切分情况显示于句段编辑面板中，如图3所示。

从位于图3下半部的句段编辑控制板中可以看出，经FLAVS（v3.2）的断句处理后，影片《The Sound of Music》的所有句段已全部被自动切分。之后，学习者只需轻轻点击句段编辑控制板中的某个句段，播放指针便会迅速准确地自动指向该句段的开始，以利于反复进行视听训练。

3 视听资源的同步整合

前面我们对视听资源之一的音视频样本进行了断句处理，为句段的快速选择和精准定位提供了必要条件。然而，要全面有效地提升学生的外语实践能力，仅有音视频资源是不够的，还需扩展和提供中外文字幕、生词注释、句段注解、背景知识等文本资源，并实现声文资源的同步联动，使之形成一个句段选择精准、声（像）文一体、融合度高的资源结构体。

3.1 何谓同步整合

所谓“同步”，是指音视频资源与相关文本资源（如字幕、生词注释、句段讲解、背景知识等）在播放与展示时间上的吻合，即：在音视频文件的播放过程中，相应的文字信息以句段时长为切换节点而进行的同时展示。

所谓“同步整合”，则是指对视听教学中需要同时展示的相关资源所进行的同步设置和有机融合，实现对音视频资源与文本资源的联动和灵活控制。

“混合性、整合性、技术性是屏性媒介具备的重要的视觉特质”[5]，在传统的音像作品中，有的嵌入了歌词或字幕，这勉强也算是一种同步整合，但不是真正意义的整合。真正的资源整合，是各种资源的表现方式不是呆板的、固定的，而是既相互关联又灵活可控的。这种灵活可控性（以字幕为例，其他资源类同）主要表现在：字幕的出现时机和文种变化，应由学习者根据学习进度来自主选择，自由控制。

此外，在外语视听训练的不同阶段，字幕及文种变化，对学习效果的影响是确定的。调查统计表明：在训练的初始阶段，外文字幕的同步展示有助于“听清”，即听清楚每个句段的正确发音；在训练的中级阶段，中文字幕的同步展示有助于“听懂”，即听懂每个句段的真正含义；在训练的高级阶段，字幕的隐藏有助于“听熟”，即听说能力的加强、巩固和熟练。

3.2 同步整合方法

视听资源的同步整合需在自动断句的基础上，通过程序设计的方法进行。

⑴ 程序设计思想

同步整合的实质是以lrc文件中的每个句段为单位，将各文本字段写入相应的时间字段之后，并控制其内容（如字幕、生词注释、句段注解等）跟随音视频的播放进度，在时间轴指示的节点上得到同步展示。

FLAVS（v3.2）系统就是依照上述设计思想而开发的。该系统具有整合效率高、性能稳定、资源灵活、操作简单等特点，既适于音频文件，又适于视频文件，还可将外文字幕、中文字幕以及句段注解等内容分类录入。

由于lrc文件是很多播放器共同知识的外挂文件，所以采用这种思想整合的视听资源具有很强的规范性和通用性。

⑵ 同步整合的具体实现

在完成断句的基础上进行视听资源的同步整合，其主要任务有两个：一是向lrc文件布局各句段的文本字段；二是控制相关资源的同步展示。后一项任务完全由程序自动完成，只有前一项任务需要人工干预和手工录入。

具有资源整合功能的软件有Aboboo、EditLrc、EnMp3Player及FLAVS（v3.2）等，建议优先选择FLAVS（v3.2）。

使用FLAVS（v3.2）进行资源的同步整合，可在如图4所示的听抄窗口中进行，以句段为单元将各类文本分别输入相应文本框，待所有句段都输入完毕，按“确认退出”按钮保存。

实现视听资源同步整合的前一项任务，还可不通过纯手工的方法完成。该方法不需要专门的软件，而是使用任何一种普通文本编辑器（如Windows系统自带的“记事本”）直接对lrc文件进行编辑，将需要同步的字幕、生词注释、句段注解等文本资料录至相应的时间字段后。使用该方法，要注意“|”和“^”这两个字符的使用，因为FLAVS（v3.2）使用这两个特殊字符对lrc文件进行了兼容性扩展，其中“|”用于分割外文字幕和中文字幕，“^”用于分割中文字幕和注解。比如，图4中的句段内容在lrc文件中表示为：

语音视频范文第5篇

关键词：语音识别技术；内容监管；应用

中图分类号：TN912.34 文献标识码：A 文章编号：1671-2064（2017）08-0020-01

随着广播电视管理的不断完善，对电视节目内容的监管也越来越严格，对音频搜索等技术的需求也在逐渐增加。但是，音频搜索技术还有很多难题尚未解决，如中文分词瓶颈、第三方数据存储量限制、数据处理分析瓶颈和音频识别准确度等等，这样在应用时会出现很多问题，相关部门需加大研发力度，让音频识别技术更加完善和规范。

1 语音识别关键技术介绍

1.1 语音模型自适应技术

因为环境、人的性别和口音等因素的干扰，语音数据会产生较大变化，在特殊条件下的训练无法推广应用，而自适应就可以根据测试数据进行调整避免误判。在变换的自适应中，采用相同的变换更新参数，当自适应模型参数确定后，就可以用少量自适应数据变换方程，利用变换方程来重新估计模型参数[1]。一般来说，变换方程的数目小于目标模型参数，所以使用少量自适应数据就可以估计出变换方程。但是变换方程并不能探测出单个模型的特征，其渐进性较差，无法估计特征相近人模型。

1.2 说话人识别技术

说话人识别也被称为声纹识别，通过语音信号来识别说话人的身份。说话人识别主要分为两类，即开集识别和闭集识别，两者主要通过是否需要拒识来区别。开集识别更具普遍性，相比闭集识别技术更难。比如说，我们同时监听多个人说话，开集识别需要在多个说话人中找到指定的说话人。开集说话有两大缺陷：虚警错误和漏报错误，两者之间互相制约互相影响。在应用过程中，可调整识别模块更倾向于少虚警错误或漏报错误。研究中会通过等错误率去判断说话人识别系统的性能是否达标，如果虚警错误率和漏报错误率相等就是等错误率[2]。等错误率会受到测试语音长短、样本语音信道匹配度和说话人语音长短等因素的影响，如果说话人语音越长，测试语音也就越长，两者的差异也就越小，等错误率也会相应降低。

1.3 P键词识别技术

关键词识别技术分为单阶段系统和两阶段系统两大类，单阶段系统识别主要是在关键词系统中进行识别，当关键词出现变化，系统就要重新识别。两阶段系统是将一般意义的连续语音转换为文本，然后借助文本匹配途径找到关键词。这种系统比较灵活，可以随时变换关键词，是目前使用最多的关键词识别技术。通过语音关键词检测特定内容具有两个优势：首先是准确率更高，其次是关键词会多次出现。这样在内容监管中就可以允许出现漏检错误，不必每次都准确地识别关键词。

2 语音识别技术的具体应用

2.1 音频模板匹配技术

在已知节目片头曲的条件下，可以使用音频模板匹配技术进行自动打点和分割。因为受到音频压缩和信号传输的影响，导致模板之间存在差异，就可以通过提取多频带能量相对比率，利用各个频带能量分布趋势稳定的特点，就可以解决音频信号扭曲造成的不稳定问题。

2.2 音频切分和分类技术

在处理广播电视音频信息的时候，例如语音识别和检测关键词，需要先对广播电视的音频进行切分，一般都会采用静音检测法来切分，这样可以准确定位，为音频分类工作奠定了基础。对切分的音频片段进行分类，需要根据音频类型采取不同的处理方法。非静音主要分为语音和非语音两类，而语音又分为纯语音和非纯语音，非语音分为音乐和环境音。

2.3 自动发现技术

将广告识别作为案例，利用音频检测获取新广告：首先是针对未知节目和广告而设计，因此需要去除已知模板，这样可以减少计算量。接着是利用音频向量的快速搜索算法确定重复片段的预留位置，因为音频向量都是通过音频段的信息展开检索，就会出现音频字分布相同、但排列不同的音频片段，也会有一些错误片段，所以需要筛选过滤一遍。最后是利用音频指纹搜索找出音频向量模型的重复片段。因为音频指纹检索技术是利用音频帧的排列信息开展工作，所以准确度更高，可以检测出误报片段。完成上述步骤以后，就可以通过图像帧变化率来区分非广告的重复部分。因为广告的播出费用是按照播放时间来定的，所以广告商需要在有限的时间内向观众传递更多的信息，所以视频帧的变化率就比较大，而电视剧的变化率较小，这样就可以去除重播的非广告类节目[3]。

3 结语

随着科学技术的不断发展，语音识别技术的应用范围也越来越广，识别的准确度也在不断提高。广播电视对语音监管的要求也在提高，语音识别技术必须达到要求，这样不仅可以提高节目的搜索速度，对关键内容进行快速定位，还可以减轻工作人员的工作压力，提升监管水平。

参考文献

[1]陈彪，丁鹏.一种基于语音关键词识别的广播电视内容监测系统[J].广播与电视技术，2015，26（12）：31-32.

上一篇：师德建设活动总结下一篇：有意义的话

语音视频

相关推荐更多

热门文章排行更多

精品文章排行更多

相关期刊更多

引进与咨询

出版与印刷

婚姻与家庭