站长资讯 | 站长常用软件 | 站长工具 | 为奥运祝福!
文章投稿 当前位置:主页>新闻资讯>业界动态>文章:用声音“看”视频

用声音“看”视频

来源:互联网周刊 作者:李洋 发布时间:2007-10-22 阅读次数:  

计算机可以轻松处理文本,但对语音却没那么轻易。在过去的20年里,研究人员一直在努力让人和计算机搭上腔。语音识别技术因此变得成熟。现在,你已经可以通过声音来命令计算机做一些简单的操作,你所讲的话也能够被顺利地识别为一段文字。而当视频互联网时代到来后,人们对语音技术又有了新的期望。

随着互联网上音视频文件的不断增多,如何进行准确的检索成为一大难题。目前,大多数搜索引擎的做法是根据视音频文件自带的文字介绍,以及上下文环境来判定;或者通过Web2.0常用的Tag(标签)及朋友的推荐信息来确定视频内容。但这些方式的缺点也像其优点一样显而易见。一旦视频名称或者文字信息不全面,就会使你跟很多出色内容擦肩而过。

另一种做法是从内容和视觉方面做文章。比如,微软亚洲研究院华先胜研究员的一项基于内容的视频搜索技术,可以通过练习计算机对内容场景进行学习,从而能够弥补上述的不足,搜索到视频里面去。但这种方法在有些场合也有其局限性。比如,类似《锵锵三人行》的谈话类节目,每期的场景和人物都相对固定,视频内容提供的信息就非常有限了。而对于这类以谈话、评论或播报为主的节目来说,利用语音识别技术针对语音内容进行检索,便成为一种更为有效的方法。

互联网上的视频、声音质量参差不齐,内容更是包罗万象,假如将传统的语音识别技术直接应用于互联网视频搜索,识别准确性很低(通常只能达到50%~70%),而信息丢失率很高。因此,微软亚洲研究院的余鹏研究员所在的研究小组提出了一项词格索引技术。简单来说,这项技术的原理就是在分析语音内容的时候为系统提供多个候选信息。据余鹏介绍,通过实验得出的结论,这一方式可以将准确性提高50%~150%。

举个例子。当我们识别欢迎来到微软研究院这样一段语音片段时,系统将会提供多个候选信息,欢迎可能是幻影,来到可能是来道,微软也有可能是未来,研究院也可以分解产生烟酒业、洋酒、眼镜院等多种候选信息。

被识别出的每个短词都带有起止的时间信息作为标识这一词的节点。时间点接近的短词便可以连接为一句话。比如上面的例子,除了出现正确的答案外,还可能会出现幻影来到未来烟酒业等多种可能的候选。

看到这里你可能会问:在如此多的候选句子中,系统会优先选择哪个识别结果呢?实际上,对于每个识别出的短词,这项技术还配有一个代表置信度的得分。而这个得分来自系统的概率统计,代表该词成立的可能性。系统有声音和语言两个模型,分别从发声和人类语言习惯的角度来对计算机进行练习,使之可以在识别时做出基于概率统计的判定。

如此一来,丢失率的问题便获得了很好的解决。同时,通过对时间节点接近的多候选信息采用类似合并同类项等优化方法,可以剔除大批的冗余信息,从而可最终获得较高的准确性和搜索效率。

而你能想象这项技术带来的便捷吗?你将再也不用花时间点击每个视频文件了—当你输入一个要害词,比如北京奥运会,系统给出的每个搜索结果中都会实时列出包含要害字的上下文。你可以以此来确认内容,也可以直接点击其中标粗的要害字,位于搜索页面右边的播放器便会自动转到相关内容进行播放。还记得上面提到的时间节点吗?对,它存在的另一个意义便在于此。而你甚至还能从每个结果下方的音频条,形象地了解这一要害词在这段视频中出现的位置和频率。

科技总是这样让人赞叹。



文章地址:   http://www.xinasp.com/html/wangzhanyunying/yumingxinwen/20071022/19078.shtml
tag: 视频 声音
    评论加载中…
关于站点 - 广告服务 - 联系我们 - 版权隐私 - 免责声明 - 成员列表
© CopyRight 2002-2008, XINASP.COM, Inc. All Rights Reserved 客服QQ:762264 MAIL:QESY#163.COM
浙ICP备06014044号