安防監(jiān)控,僅僅將畫面記錄下來只是第一步。當事件發(fā)生后,準確而快速地找到所需監(jiān)控工來完成,浪費了檢索人的大量精力。治安管理者迫切需要一種能夠快速查找視頻信息的方式,加快辦案速度。在基于內容的視頻檢索技術、存儲技術以及智能分析技術共同提升的環(huán)境下,海量視頻檢索離安防漸行漸近。 基于內容視頻檢索技術原理 視頻數據按照由粗到細的順序可以劃分為四個層次結構:視頻(Video)、場景(Scene)、鏡頭(Shot)和圖像幀(Frame)。由于一個鏡頭內的相鄰幀間的變化不是很大,它們之間的特征差值會限定在某個閾值范圍內。而在鏡頭突變時,突變點前后兩個相鄰幀在內容上顯示會有很大的變化,如果特征差值超過了給定的閾值,則意味著出現一個分割邊界。鏡頭的關鍵幀就是反映該鏡頭中主要信息內容的幀圖像。將各鏡頭檢測出來后,對每個鏡頭可提取關鍵幀,并用關鍵幀簡潔地表達鏡頭。關鍵幀數目的確定是關鍵幀提取中的一個重要問題,其確定方法可以根據鏡頭內幀的差異進行統(tǒng)計,求出其方差,用方差來衡量鏡頭視覺內容的復雜程度。方差越大,該鏡頭提取的關鍵幀數就越多。 從內容上對視頻進行搜索,其特點包括:第一,直接從媒體內容中提取信息線索;第二,基于內容的檢索是一種近似匹配,這一點與常規(guī)數據庫檢索的精確匹配方法有明顯的不同;第三,動態(tài)特征提取和索引建立可由計算機自動實現,這避免了人工描述的主觀性,也大大減少了工作量;趦热輽z索時,根據媒體特征進行相似性匹配檢索的媒體特征有:顏色、紋理、輪廓、形狀、空間約束、動態(tài)、概念、結構描述及其他的圖像信息。 視頻檢索技術當前的發(fā)展 檢索技術源于互聯(lián)網發(fā)展需求。基于文本索引的方法進行檢索是當今最成熟的信息檢索技術。各類搜索引擎,如Baidu、Google、Bing以及Yahoo等都是以此技術為基礎的。隨著網絡帶寬不斷的提高,人們可以更加快捷地將自己采集到的各種多媒體信息進行共享,或者進行多媒體信息的交互,越來越多的信息通過視頻等多媒體的形式展現在互聯(lián)網中,這對以圖像、視頻為代表的多媒體信息檢索技術提出了越來越高的要求。20世紀90年代初,國際上開始了對視頻方面的檢索研究。區(qū)別于文字信息檢索,圖像視頻的檢索是建立在圖像視頻內容分析的基礎上,所以常稱之為基于內容的圖像視頻檢索。1992年,“基于內容的視頻檢索”一詞開始使用。十多年來,視頻數據在獲取、存儲、操作及傳輸技術方面取得了重大的理論突破和技術進步。 基于內容的視頻檢索技術是針對音視頻這類非結構化數據,使用了視頻分割、自動數字化、語音識別、鏡頭檢測、關鍵幀抽取、內容自動關聯(lián)、視頻結構化等技術,以圖像處理、模式識別、計算機視覺、圖像理解等領域的知識為基礎,從認知科學、人工智能、數據庫管理系統(tǒng)及人機交互、信息檢索等領域引入新的媒體數據表示和數據模型,從而設計出可靠、有效的檢索算法、系統(tǒng)結構以及友好的人機界面。
|