您好,欢迎来到钮旅网。
搜索
您的当前位置:首页基于多帧灰度差异的视频对象分割

基于多帧灰度差异的视频对象分割

来源:钮旅网
基于多帧灰度差异的视频对象分割

陈国锋

何南忠

施保昌

(华中科技大学数学系,武汉430074)

E-mail:henrycgf@tom.com

在新一代MPEG-4视频编码标准中,为了支持面向视频对象的编码和实现基于内容的应用,自动、快速地从视

频场景中提取视频对象已成为一项关键技术,为此文章提出了一种基于多帧灰度差异的视频对象分割新算法。该算法首先采用多帧序列图像灰度差异的4次高阶统计量假设检验(HigherOrderStatistics,HOS),自动提取运动对象模板;然后利用数学形态学对模板作平滑和内部填充处理;最后将模板投影到原始灰度图,得到运动对象。实验结果表明,该方法能比较有效地分割视频对象。关键词

运动对象

视频对象分割

高阶统计量

形态学

中图分类号TP391

文章编号1002-8331-(2006)12-0066-02文献标识码A

SegmentationofVideoObjectBasedonChangeof

Multi-frames’GrayValue

ChenGuofengHeNanzhongShiBaochang

(MathsDepartment,HuazhongUniversityofScienceandTechnology,Wuhan430074)

Abstract:InthenewMPEG-4codingstandard,afastandautomaticsegmentationofvideoobjectplaysakeyroleinsupportingobject-orientedcodingandenablingcontent-basedfunctionalities.Inthispaper,anewalgorithmforextractingmovingobjectisproposed.First,abinarymaskisdrawnbyfourth-orderstatisticsdetectionmethodbasedonthegraydifferencesbetweenmultiplyframes.Then,weusemorphologicmethodstosmoothandfillthemask.Finally,themovingobjectisextractedbyprojectingthemaskontheoriginalgraypicture.Experimenttalresultsdemonstratethatthismethodiseffective.

Keywords:movingobject,videoobjectsegmentation,HigherOrderStatistics,morphologicaloperator

1引言

随着多媒体技术和视频编码技术的发展,人们对多媒体信

分割。

本文研究的重点是基于多帧序列图像间的灰度差异,利用

息的需求已从简单的播放转向基于内容的访问、检索和操作,为此具有高压缩率的基于对象的编码技术也日益成为研究的热点。MPEG组织在新一代视频编码标准MPEG-4中,引入了视频对象(VideoObject)的概念,这一概念不仅大大提高了数据压缩效率,而且使基于内容的交互功能成为可能。MPEG-4标准假设在编码之前,视频序列已经被分解为若干视频对象,所以,视频对象的获得(即视频分割)对于MPEG-4以及其相关特性的实现至关重要。

视频对象分割通常分为自动分割和半自动分割。自动分割技术[2,3]难度比较大,其分割效果与视频的场景复杂程度关系较大。主要是面向特定应用,如车辆检测系统、大厅监测系统、可视电话和电视会议等等。从背景静止视频流中提取视频对象是一种比较有效的方法,常用的有变化检测法[1]。主要思想是根据两帧图像中亮度、颜色或纹理信息的变化来检测和分割出视频对象。半自动分割技术[4,5]适用于复杂场景下的对象分割且分割质量较好,但其不具有实时性。其主要方法是用户通过图形用户界面(GUI)对视频图象进行初始分割,给出视频对象初始的精确轮廓,然后对后继帧采取对象跟踪和自动分割方法进行

基金项目:国家自然科学基金资助项目(编号:60473015)

4次高阶统计量(HigherOrderStatistics,HOS)假设检验,确定

运动对象的位置,自动分离运动区域和背景。具体算法流程图如图1所示。

作者简介:陈国锋,男,硕士研究生,研究方向:图像处理,多媒体技术。何南忠,男,副教授,研究方向:图像处理,多媒体技术,高性能计算。施保昌,

男,教授,博导,研究方向:快速变换,高性能计算,计算流体力学。

662006.12计算机工程与应用2时域分割

2.1利用帧差的高阶统计提取运动区域

文献[1]指出视频序列中的背景变化主要是由噪声、亮度和图像纹理的慢变化(如云、草、海、或树叶等)等所构成,它们的统计量一般符合高斯特性,因此,在假设背景静止的前提下,如果连续两帧图像之间的灰度差非零,则可认为该灰度变化是由噪声或对象的运动引起的。噪声具有高斯特性,而运动对象有较强的结构性,我们可采用高阶统计量假设检验来判决运动对象。采用帧差的2次方作为判决条件,需考虑运动对象的旋转、局部变形及透视变化等,分解较复杂,因此,采用帧差的4次方来判决。具体就是将帧差图像中各像素所对应的局部4阶矩平均值与背景区域所估计的高斯噪声的均方差的平均值进行比较,自动判定运动区域和背景区域。

设帧差灰度图像为d(s,t),取以(x,y)为中心的移动窗口

不仅包含了运动对象,还包含了被运动对象所遮挡和重现的纹理背景。为了减少这种被误判入运动区域的纹理背景,运动对象在两帧之间的相对位移要很小。但是,如果对象的位移太小了,则运动区域检测的效果会很差。由于系列图像中运动对象边缘和帧差图中运动区域边缘具有很强的相关性,我们可以将中间帧向前帧差和向后帧差所提取的运动区域边缘重合的部分作为中间帧运动对象的边缘。这样可以有效地消除运动对象遮挡和重现的纹理背景[6]。

对于非整体运动的对象,如非刚体,由于部分运动缓慢,仅仅利用连续的三帧图像通常无法得到其完整的轮廓,我们可采用连续多帧灰度差异信息来进行处理。具体地说就是在连续多帧序列图像中,如图2,f1~f5帧中取中间帧f3,分别计算f1,f2,f3和f3,f4,f5的多帧灰度差(图2(f),(g));利用4次高阶统计量假设检验分别得到向前帧差和向后帧差的运动区域二值图(图

!(x,y)(3×3的矩形窗口),则像素点(x,y)所对应的窗口内帧

差灰度图像的4阶矩平均值为:

2(h),(i));最后,我们对以上两二值图相乘,提取出中间帧f3

的运动对象边缘(实验过程中,我们将二值图中白色区域像素设置为1,黑色区域像素设置为0)。

!4(x,y)=1md

N!(x,y)=1md

N!(s,t)∈!(x,y)

\"!(x,y))(d(s,t)-md

2.3后期处理

通过以上步骤,我们可以得到粗略的运动对象二值化模

其中窗口内帧差灰度图像的平均值:

!(s,t)∈!(x,y)

\"

d(s,t)

板。由于对象内部纹理的相似性,模板内部可能出现空洞,所以首先采用形态学闭、开运算对二值化图像进行边缘平滑处理和去噪,然后填充边缘内部,最终得到完整的运动对象二值化模板。

!(x,y),并与一阈值作比较,其中阈值与此逐像素计算md

!2成正比,可记为C!2)2的形式。帧差灰度图像的噪声方差\"・(\"odod!(x,y)大于阈值,则认为该像素属于运若像素(x,y)所对应的md

动对象或覆盖/显露的背景H1;否则,判定它属于背景或对象常量C可由实验确定,一般可取为75。噪声方的静止部分H0。差:

3实验结果

为了验证本文算法的效果,我们选择MPEG-4的测试序

列HallMonitor进行实验。实验中,我们选取连续9帧进行对由于仅仅利用高阶统计量假设检象的提取,常量C设定为75。

验无法完全抑制噪声,因此,实验前,我们对序列图像进行高斯平滑预处理。图3为部分实验结果,分别对应于HallMonitor第39帧,第44帧,第50帧的原图、基于多帧灰度差异提取的二值化模板和最终的分割结果。

!=1\"od

N2

S(s,t)∈S

\"!)(d(s,t)-md

!为S区域内帧差灰度图像的平S为静止的背景区域,md

均值。由于视频序列中运动对象一般位于图像的,所以实验中选取帧差灰度图像的4个角的7×7pixel大小的区域,对获得的4个区域的噪声方差取平均值作为背景噪声方差。

4结论

本文针对视频序列对象分割,提出了一种基于多帧灰度差

2.2利用多帧灰度差异提取对象边缘

通过上述的帧差4阶矩统计假设检验所提取的运动区域

异的高阶统计量假设检验分割方法。实验结果表明,本文算法具有较好的抗干扰性,计算量小,需调整的参数少,在室内场景

(下转88页)

计算机工程与应用2006.1267

相对大小。另外等错误率(ERR)也是衡量系统性能的一种直观指标,即FAR与FRR相等时的错误率。三种指标的测试结果如下表所示。

表2

K取值1.551.671.761.80

后研究的一个发展方向。(收稿日期:2005年7月)

参考文献

表3

K取值1.151.271.331.37

文本有关确认结果

FAR/%0.000.040.070.09

FRR/%2.001.000.330.00

文本无关确认结果

FAR/%0.040.210.560.79

FRR/%6.670.670.330.00

1.姚鸿勋,高文等.视觉语言-唇读综述[J].电子学报,2001;29(2):239~2462.JLuettin,NAThacker,SWBeet.SpeechreadingUsingShapeandIntensityInformation[C].In:ProcIntConfOnSpokenLanguagePro-cessing,1996

3.JLuettin,NAThacker,SWBeet.Speakeridentificationbylip-read-ing[C].In:Proceedingsofthe4thIntconfonSpokenLanguagePro-65cessing(ICSLP`96),1996;1:62~

4.MAcheroyetal.Multi-modalpersonverificationtoolsusingspeechandimages[C].In:ProcEuropConfOnMultimediaApplications,Der-vicesandTechniques,1996

5.单卫.计算机唇读系统的研究与实践[D].工程硕士毕业论文.哈尔滨工业大学,2002-07

当K=1.797时ERR=0.09%当K=1.295时ERR=0.33%

7结论

本文提出了一种基于唇动的说话人识别技术,在一个小型

的说话人语料库上对说话人辨认系统与确认系统分别加以实在说话人辨认系统,文本有关与文本无关现,并进行实验测试。

在说话人确认系统,模式的正确率分别达到了100%和99.7%。

文本有关与文本无关模式的等错误率分别为0.09%与0.33%;从对应不同K值的FAR与FRR可以看出,我们的系统对FAR控制较为严格。这与系统假冒者数据相对较为充分也有一定关系。

考虑到我们的语料库规模较小,语料库的扩建仍然是我们下一步的工作重点,扩建工作不仅包含对说话人的扩充,还应当尽量使语料包含说话人在多种环境、多种状态下的数据,以更加真实自然的反映说话人的身份信息。在大规模语料库下,如何保证算法的鲁棒性是我们今后研究工做的重点与难点。另外,唇动说话人识别与其他身份识别相融合的技术也是我们今

6.姚鸿勋,高文,李静梅等.用于口型识别的实时唇定位方法[J].软件学报,2000;11(8):1126~1132

7.NAFox,RBReilly.Audio-VisualSpeakerIdentificationBasedontheUseofDynamicAudioandVisualFeatures[C].In:Proceedingsofthe4thInt.Conf.onAudio-andVideo-BasedBiometricPersonAu-thentication,AVBPA,Guildford,UK,2003:743~751

8.SLucey,TChen.Improvedaudio-visualspeakerrecognitionviatheuseofahybridcombinationstrategy[C].In:ConfofAudio-andVideo-BasedPersonAuthentication(AVBPA),GuildfordUK,2003

9.LRRabiner.ATutorialonHiddenMarkovModelsandSelectedApplicationsinSpeechRecognition[C].In:ProceedingsoftheIEEE,1989;77(2)

10.易克初,田斌,付强.语音信号处理[M].国防工业出版社,2000

(上接67页)参考文献

1.NeriA,ColonneseS,RussoGetal.Automaticmovingobjectand232backgroundseparation[J].SignalProcessing,1998;66(2):219~2.ThomasMeier,KingNNgan.Automaticsegmentationofmovingobjectsforvideoobjectplanegeneration[J].IEEETransactionsonCircuits538andSystemsforVideoTechnology,1998;8(5):525~

3.ChangickKim,Jenq-NengHwang.Fastandautomaticvideoobjectsegmentationandtrackingforcontent-basedapplications[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2002;12(2):122~129

4.GuChuang,LeeMing-Chieh.Semiautomaticsegmentationandtrackingofsemanticvideoobjects[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,1998;8(5):572~584

5.KimMunchurl,JeonJG,KwakJSetal.Movingobjectsegmentationinvideosequencesbyuserinteractionandautomaticobjecttracking[J].260ImageandVisioncomputing,2001;19(5):245~

6.DubuissonMP,JainAK.Contourextractionofmovingobjectsincomplexoutdoorscenes[J].InternationalJournalofComputerVision,

较为复杂的视频序列中,可以比较有效地提取非刚体的视频运动对象。

纹理下一步的研究工作是,如何充分结合图像里的颜色、信息和序列图像中的对象跟踪技术,进一步提高本文算法的性能。(收稿日期:2005年7月)

1995;14(1):83~105

7.韩军,熊璋,孙文彦等.自动分割及跟踪视频运动对象的一种实现方法[J].中国图象图形学报,2001;6A(8):732~738

8.杨莉,张弘,李玉山.视频运动对象的自动分割[J].计算机辅助设计与图形学学报,2004;16(3):301~330

882006.12计算机工程与应用

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- niushuan.com 版权所有 赣ICP备2024042780号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务