ISSN1009-3044
E-mail:eduf@cccc.net.cn
http://www.dnzs.net.cn
Tel:+86-551-56909635690964
基于视频教室的音视频编码的研究
吴爱兰1,楼建列2(1.浙江公路技师学院,浙江杭州310014;2.浙江经济职业技术学院,浙江杭州310018)
摘要:文章分别从视频教室的音频编码和视频编码的角度展开,介绍了各类相关的技术,并引出了系统所采用的先进的音视频编码技术。最后,说明了系统采用的音视频流控技术的几个优点。关键词:视频教室;音视频;H.264中图分类号:TP309
文献标识码:A
文章编号:1009-3044(2009)15-4017-02
ReacherAudio-videoCordingBasedonVideo-classroomWUAi-lan1,LOUJian-lie2
(1.Zhejianghighwaytechnolgycollage,Hangzhou,310014,China;2.ZhejiangtechnologyinstituteofEconomy,Hangzhou310018,China)Abstract:Thispaperintroducedaudio-videocodingtechnology,andgivesoutsystem’sAdvancedaudio-videocoding.Finally,thispa-perexplainedadvantageofstreamingcontroltechnology.Keyword:vedio-classroom;audio-video;H.264
自“信息高速公路”提出以来,网络在全世界以惊人的速度发展着。因特网将全世界联系起来,LAN、WAN使局域网内资源、信息得以传播和共享。网络改变了人们的学习方式、生活方式、工作方式、管理方式、金融方式、文化教育方式、娱乐休闲方式。进入数字化、信息化的二十一世纪网络令信息的传播速度加速、人们的工作效率提高、世界经济发展的步伐加快。视频教室系统就是在这种背景下蓬勃发展起来。
视频教室系统(Videoconference)是指两个或两个以上不同地方的个人或群体通过传输线路及多媒体设备将声音、影像及文件资料互传达到实时互动的沟通从而完成会议目的的系统设备。视频会议系统是集通信技术、计算机技术、多媒体技术、微电子技术于一体的远程异地通信方式,它将计算机的交互性、通信的分布性以及电视的真实性有机地结合在一起。
1音频编码
表1几种语音压缩方式的比较通过Internet传输实时的语音或图像与传输普通数据是不一样
的,应用网络的组成必须符合这种实时传输的需要。表1列出了国际电信联盟G系列典型语音压缩标准的参数。
表1中的语音质量是在理想情况下的比较,实际上,不同的编码方法在语音质量上的性能,在不同的具体条件(如背景噪声、多重编码、丢帧影响)下有不同的表现。
在实际选择语音压缩的算法时,要综合考虑各种因素。例如,高比特率可以保证良好的话音品质,但要占用大量存储空间,耗费更多的系统资源;而过低的比特率又会影响话音的品质和增加延迟。所以,在较低比特率的前提下,保持较好的话音质量,是选择压缩算法的原则。
我们选用了G.729A标准采用的算法,可以仅用8Kbps传输话音,话音质量与32KbpsADPCM(G.724)相同(ADPCM(差分脉冲编码调制)在全球的公共电话网络中被用于提供长话级话音)。G.729A标准在标准PCM或线性PCM的话音采样基础上,每10ms生成一个10字节长的话音帧。这个算法提供了优秀音质,且延时很小,采用G.729A能最好的满足我公司在视频会议系统对音频实时性和高清晰方面的高要求。
静噪抑制技术,节省您的带宽提高其他应用的质量:
所谓静噪抑制技术,是指检测到通话过程或传真过程中的安静时段,并在这些安静时候停止发送语音包。大量的研究表明,在一路全双工电话交谈中,只有36%~40%的信号是活动的或有效的。当一方在讲话时,另一方在听,而且讲话过程中有大量显著的停顿。通过静噪抑制技术,大量的网络带宽节省下来用于其他话音视频或数据通信。
1.1回声抑制技术
在视频会议的实际应用中,特别是会议室场景中,音箱放出的声音又回到麦克风返回到远程说话人那里,说话人会明显听到系统中有自己的回音。而系统允许多人同时发言,这样发生回声的可能性大大提高。为了防止类似回声对系统效果的影响,我们采用了回声消除技术,使用特殊的软件代码监听回声信号,并将它从听话人的语音信号中排除掉。
1.2话音丢包处理技术
网络的一个特征就是网络延时与网络抖动,这可能导致音质下降。网络延时是指一个IP包在网络上传输平均所需的时间,网络
收稿日期:2009-03-16
作者简介:吴爱兰(1980-),女,浙江温州人,浙江公路技师学院,讲师,主要研究方向:计算机通讯;楼建列(1977-),男,浙江杭州
人,浙江经济职业技术学院,讲师,主要研究方向:计算机通讯。
本栏目责任编辑:唐一东多媒体技术及其应用4017
ComputerKnowledgeandTechnology电脑知识与技术
第5卷第15期(2009年5月)
抖动是指IP包传输时间的长短变化。如果网络抖动较严重,那么有的话音包因迟到而被丢弃,会产生话音的断续及部分失真,严重影响音质。目前互联网的质量,尤其是中国互联网的质量参差不齐。很多时候,用户即使有较高的带宽,但却同样存在较高的网络丢包率和较大的网络抖动,这些都会对用户在实际使用中的视频会议质量尤其是声音质量产生严重影响。
为了防止这种抖动,我们采用了独特的语音数据包缓冲和纠错技术,该技术可以在高达20%丢包率的网络环境下仍然保持声音的连贯性和良好的音质,采用上述技术山大联润视维TM网络视频会议系统在与同类产品竞争中因为语音质量的优秀脱颖而出。
1.3话音优先技术
话音通信实时性要求较高。为了保证提供高音质的IP电话通信,在广域网带宽不足(拥挤)的IP网络上,一般需要话音优先技术。针对音频和视频的传输特点,我们对RTP线程的设置很高的优先级别,把其音频的级别设置为最高。
2网络视频技术(H.264/AVC)
我们在系统中首先引入了新兴的视频编解码标准H.264。由国际电信联盟、国际标准化组织(ISO)以及国际电工委员会(IEC)组成的一个联合视频小组的成员对该系统的技术设计基础达成了一致意见。国际电信联盟将该系统命名为H.264/AVC,国际标准化组织和国际电工委员会将其称为14496-10/MPEG-4AVC。
在互联网技术方面,H.264/AVC同以往的标准如广泛使用的H.262/MPEG-2或H.263等格式相比,在设计上能够更好地处理信息包和数据丢失。在视频质量、压缩效率和数据包恢复和数据丢失等方面,超越了现有的MPEG-2、MPEG-4和H.26X视频通讯标准,得到了显著的提高目前,该系统已吸引了视频和广播行业的极大关注。
H.264不仅比H.263和MPEG-4节约了50%的码率,而且对网络传输具有更好的支持功能。它引入了面向IP包的编码机制,有利于网络中的分组传输,支持网络中视频的流媒体传输。H.264具有较强的抗误码特性,可适应丢包率高、干扰严重的无线信道中的视频传输。H.264支持不同网络资源下的分级编码传输,从而获得平稳的图像质量。H.264能适应于不同网络中的视频传输,网络亲和性好。
经过我们研究发现,互联网络的丢包率与包的大小及数据包的发送间隔相关如图2。
根据上述结果,我们对不同的带宽条件规定了视频数据包的大小范围,可能把数据大包拆成小包传送,到缓冲区后,再装配;也可能将数据小包组成大包后发送。关键帧的数据包理所当然的被优先传送。
图1几种视频编解码标准的历史
表2MPEG2、H.263、MPEG4、H.264平均码率带宽比较
图2丢包率与发送时间及大小关系图
3音视频数据的流控技术(RTP/RTCP)
RTP(Real-TimeTransportProtocol)/RTCP(Real-TimeTransportControlProtocol)是一种应用型的传输层协议,它并不提供任何传输可靠性的保证和流量的拥塞控制机制。它是由IETF(InternetEngineeringTaskForce)为音视频的实时传输而设计的传输协议,定义在RFC1889中。
RTP协议位于UDP协议之上,在功能上独立于下面的传输层(UDP)和网络层,但不能单独作为一个层次存在,通常是利用低层的UDP协议在组播(Multicast)或单播(Unicast)网络服务中传输实时数据,而实时数据的传输则由RTCP协议来监视和控制。
顺序号(SequenceNumberField)域的长度为16位。每发送一个RTP信息包顺序号就加1,接收端可以用它来检查信息包是否有
丢失以及按顺序号处理信息包。
时间戳(Timestamp)域的长度为32字节。它反映RTP数据信息包中第一个字节的采样时刻(时间)。接收端可以利用这个时间戳来去除由网络引起的信息包的抖动,并且在接收端为播放提供同步功能。
同步源标识符(SynchronizationSourceIdentifier,SSRC)域的长度为32位。它用来标识RTP信息包流的起源,在RTP会话或者期间的每个信息包流都有一个清楚的SSRC。
实时传输控制协议(Real-TimeControlProtocol,RTCP)也定义在1996年提出的RFC1889中。RTCP是RTP的控制协议,它单独运行在底层协议上。RTCP是由接收方向发送的报文,它负责监视网络的服务质量、通信带宽以及网上传送的信息,并将这些信息发送给发送端。
RTCP的主要功能包括,数据传输的质量提供反馈,并提供QoS的检测;根据时间戳提供不同媒体间的同步;在会话的用户界面上显示会话参与者的标识。
我们知道,视频流和音频流在时间轴上的连续性要求网络的实时传输及高带宽,同时又允许传输中存在一定的数据错误率及数据丢失率。由于RTP本身并不具有一种独立传输能力,它必须与低层网络协议结合才能完成数据的传输服务。又由于视频和音频在时间轴上的相关性不强,而数据的实时性要高于其可靠性,所以在UDP之上利用RTP/RTCP协议对媒体(视频和音频)流进行封装、打包和同步,可以使数字视音频信号的网络传输延时达到最小。
3.1自适应带宽适应
在网络会议过程中,经常会出现网络带宽波动的情况。如果带宽的波动幅度使得视频会议本身的音视频数据无法正常传输,就会造成音视频质量的下降。这时候往往会出现以下情形:声音断断续续,视频出现大量马赛克甚至完全模糊不可辨认。这就要求系统对网络带宽的异常波动做出相应的处理。(下转第4021页)
4018多媒体技术及其应用本栏目责任编辑:唐一东
第5卷第15期(2009年5月)
行函数的功能是:收到用户的点播信息(RTSP的方法,节目名称,发送时间,机顶盒IP地址)发送给计费管理程序。这样前台程序收到用户的信息执行相应的算法就可以进行计费了。
6)测试:在linux下按照本文的方法添加了计费模块,并进行了测试。测试环境基于百兆网络,一台普通的PC可以支持100个码率为800Kbps的h.264的ts流,客户端采用虚拟客户端和机顶盒,正确记录了用户的基本信息,并实现了计费功能。
4结论
设计并实现了一个基于LiveMedia的视频点播系统,实现了计费功能,达到了满意的效果,并成功应用于酒店中,但是随着用户并发量的增加,需要多台PC机才能满足应用,负载均衡模块的设计,还有待进一步的研究。
参考文献:
[1]SchulzrinneH,CasnerS,FrederickRandJacobsonV,RTP:aTransportProtocolforReal-TimeApplications,RFC1889[Z],January
1996.
[2]SchulzrinneH,RaoA,LanphierR,RealTimeStreamingPro-tocol(RTSP)[R].TechRep:RFC2326,1998.[3]张文钟.stream-live555[EB/OL].http://140.113.13.90/material/multimedia%20com/stream-live555.pdf.[4]LiveMedia网站[EB/OL].[2009-04-10].http://www.live555.com/.
[5]高建水,陈耀武,李岚岚.基于RTSP协议的视频点播系统设计[J].电子器件,2006,(4).
[6]吕慰欣,王芙蓉.一种基于RTSP协议的电信级VOD系统[J]计算机与数字工程,2006,(11).
(上接第4018页)
经过大量的用户调查我们发现,当网络发生波动的时候,用户可以接受视频效果的一点降低但要求声音仍保证连续、清晰。所以,视频会议系统的设计为:当系统检测到网络带宽变化时,会首先降低视频帧率以保证声音的连续性。帧率变化的机制完全建立在对国内互联网络环境的研究和测试的基础之上的,在整个帧率调整过程中,语音的码率是保持不变的。
3.2宽带环境下的高质量音视频
随着宽带的不断普及,用户对宽带环境下的高质量音视频效果的要求也越来越强烈。针对这样的需求,针对宽带专门做了音视频质量的优化。在宽带环境下,用户的视频幅面可以达到CIF(352x288),25帧/秒,并可放大到全屏,在带宽允许的情况下(每路视频带宽大于500Kbps),视频质量甚至可以超过VCD的画质。同时,在宽带环境下选择了G.711的宽带语音压缩算法,保证声音更清晰,混音效果更好,同时大幅度降低了对用户机器资源的消耗。
4总结
视频教室系统在H.262标准不断的发展和完善的同时得到了很大的发展,它应用的日渐普遍表明了视频技术的发展符合了当今社会发展的趋势,得到各界的肯定和支持,它将朝着多功能、高性能、智能化、集成化的方向不断发展,我们相信,视频教室系统在学校教育中的应用将会越来越广泛,越来越好。
参考文献:
[1]张启浩.视频会议系统技术架构浅析[J].智能建筑,2005(8).
[2]徐迎川等.基于IP网络的多点视频会议系统的设计与实现[J].电信科学,2004(11).[3]朱小键.视频会议系统设计[J].中国金融电脑,2001(7).
本栏目责任编辑:唐一东多媒体技术及其应用4021
因篇幅问题不能全部显示,请点此查看更多更全内容