一、物體識別的發展史
1)物體識別的理解
物體識別是計算機視覺領域中的一項基礎研究,它的任務是識別出圖像中有什麽物體,並報告出這個物體在圖像表示的場景中的位置和方向。目前物體識別方法可以歸爲兩類:基于模型的或者基于上下文識別的方法,二維物體識別或者三維物體識別方法。對于物體識別方法的評價標准,Grimson 總結出了大多數研究者主要認可的 4 個標准:健壯性(robustness)、正確性(correctness)、效率(efficiency)和範圍(scope)。
2)物體識別的發展簡史
(1)20世紀60年代:
當時MIT的計算機教授組織了一個面向本科生的兩個月的Summer Project。這個Project的目的是設計一個系統,能夠智能識別場景裏頭的物體,並區分出類別。當時他們低估了這個問題的難度,結果可想而知。
原因是我們看到的這個物體的樣子,只是它在某種背景下某一種光線條件下特定角度的投影的,換一個角度可能就是完全不同的樣子。即使是同一個物體,例如人,躺著或者站著,形態都是不一樣的。
(2)20世紀50年代初到90年代
這個時期基本都是嘗試用創建三維模型方法去做物體識別。通常,事先定義一些基本的幾何形狀,然後把物體表示爲基本幾何形狀的組合,然後去匹配圖像。這時候識別問題變成了一個匹配問題。在三維模型庫中去搜索可能的視角投影,跟待識別的圖像進行匹配。如果找到最合適的匹配,就認爲是識別成功了。
但是這麽做並不是很有效。首先,很多物體很難用所謂的基本幾何形狀去描述它,特別是一些非剛體,比如動物;其次,對于一類物體,它可能會有豐富的類內差異性,即使是同一個物體在不同的姿態下也不一樣,不可能每一種姿態都預先創建一個三維模型模板;第三,即使解決了之前的問題,如何才能准確地從圖像中提取出 這些幾何形狀也存在困難。
(3)20世紀90年代之後
此時的主流方法是只從圖像本身考慮,而不去管物體原來的三維形狀。這類方法統一叫做appearance based techniques。所謂appearance, 從模式識別的角度去描述的話,就是圖像特征(feature),即對圖像的一種抽象描述。有了圖像特征,就可以在這個特征空間內做匹配,或者分類。然 而這個方法還是存在很多問題,首先它需要我們對所有的圖片進行對齊,像人臉圖像,就要求每一幅圖中五官基本在固定的位置。但是很多應用場景下,目標並不是 像人臉那麽規整,很難去做統一對齊,而且這種基于全局特征和簡單歐式距離的檢索方法,對複雜背景,遮擋,和幾何變化等並不適用。
(4)2000年之後
物體識別領域有了較大的發展。首先圖像特征層面,人們設計了各種各樣的圖像特征,像SIFT,HOG,LBP等等。與此同時,機器學習方法的發展也爲模式識別提供了各種強大的分類器。後來人們還在對物體建模方面做了一些工作,旨在用更靈活的模型,而不是單一的模板去定義物體。
隨著人工智能、大數據和深度學習技術的不斷發展,以及3D傳感器、深度攝像頭等硬件的不斷升級,利用深度信息進行三維物體識別的技術,逐漸受到蘋果公司等科技大牛和高通等廠商重視,並被植入到硬件産品中。
舉個例子,蘋果即將推出的新一代手機中可能搭載3D掃描識別技術,即在傳統平面識別的基礎上,能夠識別出人臉或者物體的3D外部輪廓,比如系統能夠掃描出一個立體的臉部,從而大幅度增加識別的准確性,這種技術也避免了過去用一張照片就欺騙平面識別系統的問題。
二、物體識別的主要技術及流程
1)物體識別的步驟
(1)圖片的預處理
預處理幾乎是所有計算機視覺算法的第一步,其動機是盡可能在不改變圖像 承載的本質信息的前提下,使得每張圖像的表觀特性(如顔色分布,整體明暗, 尺寸大小等)盡可能的一致,主要完成模式的采集、模數轉換、濾波、消除模糊、減少噪聲、糾正幾何失真等操作。
預處理經常與具體的采樣設備和所處理的問題有關。例如,從圖象中將汽車車牌的號碼識別出來,就需要先將車牌從圖像中找出來,再對車牌進行劃分,將每個數字分別劃分開。做到這一步以後,才能對每個數字進行識別。以上工作都應該在預處理階段完成。在物體識別中所用到的典型的預處理方法不外乎直方圖均衡及濾波幾種。像高斯模糊可以使之後的梯度計算更爲准確;而直方圖均衡可以克服一定程度的光照影響。值得注意的是,有些特征本身已經帶有預處理的屬性,因此不需要再進行預處理操作。
預處理通常包括五種基本運算:
(1)編碼:實現模式的有效描述,適合計算機運算。
(2)閥值或者濾波運算:按需要選出某些函數,抑制另一些。
(3)模式改善:排除或修正模式中的錯誤,或不必要的函數值。
(4)正規化:使某些參數值適應標准值,或標准值域。
(5)離散模式運算:離散模式處理中的特殊運算。
(2)特征提取
1、簡介:
特征提取是物體識別的第一步,也是識別方法的一個重要組成部分,好的圖像特征使得不同的物體對象在高維特征空間中有著較好的分離性,從而能夠有效地減輕識別算法後續步驟的負擔,達到事半功倍的效果,下面對一些常用的特征提取方法進行介紹。
近年來,子空間方法,如主成分分析(PCA),辨別成分分析(LDA),也成爲 一種相對重要的特征提取手段。這種方法將圖像拉長成爲高維空間的向量,並進行奇異值分解以得到特征方向。人臉識別便是其較爲成功的應用範例。此類方法能處理有全局噪聲的情況,並且模型相當簡單易實現;然而這種算法割裂了圖像的內部結構,因此在本質上是非視覺的,模型的內在機制較難令人理解,也沒有任何機制能消去施加于圖像上的仿射變換。
2、圖像特征提取方法:
圖像特征提取就是提取出一幅圖像中不同于其他圖像的根本屬性,以區別不同的圖像。如灰度、亮度、紋理和形狀等等特征都是與圖像的視覺外觀相對應的;而還有一些則缺少自然的對應性,如顔色直方圖、灰度直方圖和空間頻譜圖等。基于圖像特征進行物體識別實際上是根據提取到圖像的特征來判斷圖像中物體屬于什麽類別。形狀、紋理和顔色等特征是最常用的視覺特征,也是現階段基于圖像的物體識別技術中采用的主要特征。
3、圖像顔色特征提取:
圖像的顔色特征描述了圖像或圖像區域的物體的表面性質,反映出的是圖像的全局特征。一般來說,圖像的顔色特征是基于像素點的特征,只要是屬于圖像或圖像區域內的像素點都將會有貢獻。
典型的圖像顔色特征提取方法:顔色直方圖,顔色集,顔色矩。
1) 顔色直方圖是最常用的表達顔色特征的方法.
優點:能簡單描述圖像中不同色彩在整幅圖像中所占的比例,特別適用于描述一些不需要考慮物體空間位置的圖像和難以自動分割的圖像。
缺點:它無法描述圖像中的某 一具體的物體,無法區分局部顔色信息。
2) 顔色集方法可以看成是顔色直方圖的一種近似表達。具體方法是:首先將圖像從 RGB 顔色空間轉換到視覺均衡的顔色空間;然後將視覺均衡的顔色空間量化;最後,采用色彩分割技術自動地將圖像分爲幾個區域,用量化的顔色空間中的某個顔色分量來表示每個區域的索引,這樣就可以用一個二進制的顔色索引集來表示一幅圖像。
3) 顔色矩方法是基于圖像中任何的顔色分布都可以用相應的矩來表示這個數學基礎上的。由于顔色分布信息主要集中在低階矩中,因此,表達圖像的顔色分布僅需要采用顔色的一階矩、二階矩和三階矩。
4、圖像紋理特征提取:
圖像的紋理是與物體表面結構和材質有關的圖像的內在特征,反映出來的是圖像的全局特征。圖像的紋理可以描述爲:一個鄰域內像素的灰度級發生變化的空間分布規律,包括表面組織結構、與周圍環境關系等許多重要的圖像信息。
典型的圖像紋理特征提取方法:統計方法,幾何法,模型法,信號處理法。
1) 統計方法是灰度共生矩陣紋理特征分析方法;
2) 幾何法是建立在基本的紋理元素理論基礎上的一種紋理特征分析方法;
3) 模型法是將圖像的構造模型的參數作爲紋理特征;
4) 信號處理法主要是小波變換爲主。
5、 圖像形狀特征提取:
形狀特征是反映出圖像中物體最直接的視覺特征,大部分物體可以通過分辨其形狀來進行判別。所以,在物體識別中,形狀特征的正確提取顯得非常重要。
常用的圖像形狀特征提取方法有兩種:基于輪廓的方法和基于區域的方法。
這兩種方法的不同之處在于:對于基于輪廓的方法來說,圖像的輪廓特征主要針對物體的外邊界,描述形狀的輪廓特征的方法主要有:樣條、鏈碼和多邊形逼近等;而在基于區域的方法中,圖像的區域特征則關系到整個形狀區域,描述形狀的區域特征的主要方法有:區域的面積、凹凸面積、形狀的主軸方向、縱橫比、形狀的不變矩等。這些關于形狀的特征目前已得到了廣泛的應用。典型的形狀特征描述方法有:邊界特征法,傅裏葉形狀描述符法,幾何參數法,形狀不變矩法。
6、空間特征提取:
空間特征是指圖像中分割出來的多個目標之間的相互的空間位置或者相對方向關系,有相對位置信息,比如上下左右,也有絕對位置信息,常用的提取空間特征的方法的基本思想爲對圖像進行分割後,提取出特征後,對這些特征建立索引。
(3)特征選擇
再好的機器學習算法,沒有良好的特征都是不行的;然而有了特征之後,機器學習算法便開始發揮自己的優勢。在提取了所要的特征之後,接下來的一個可選步驟是特征選擇。特別是在特征種類很多或者物體類別很多,需要找到各自的最適應特征的場合。嚴格地來說,任何能夠在被選出特征集上工作正常的模型都能在原特征集上工作正常,反過來進行了特征選擇則可能會丟掉一些有用的特征;不過由于計算上的巨大開銷,在把特征放進模型訓練之前還得進行特征選擇。
(4)建模
一般物體識別系統賴以成功的關鍵基礎在于屬于同一類的物體總是有一些地方是相同的。而給定特征集合,提取相同點,分辨不同點就成了模型要解決的問題。因此可以說模型是整個識別系統的成敗之所在。對于物體識別這個特定課題,模型主要建模的對象是特征與特征之間的空間結構關系;主要的選擇准則,一是模型的假設是否適用于當前問題;二是模型所需的計算複雜度是否能夠承受,或者是否有盡可能高效精確或者近似的算法。
(5)匹配
在得到訓練結果之後(在描述、生成或者區分模型中常表現爲一簇參數的取值,在其它模型中表現爲一組特征的獲得與存儲),接下來的任務是運用目前的 模型去識別新的圖像屬于哪一類物體,並且有可能的話,給出邊界,將物體與圖像的其它部分分割開。一般當模型取定後,匹配算法也就自然而然地出現。在描述模型中,通常是對每類物體建模,然後使用極大似然或是貝葉斯推理得到類別信息;生成模型大致與此相同,只是通常要先估出隱變量的值,或者將隱變量積分,這一步往往導致極大的計算負荷;區分模型則更爲簡單,將特征取值代入分類器即得結果。
(6)定位
在成功地識別出物體之後,對物體進行定位成爲進一步的工作。一些模型, 如描述生成模型,或是基于部分的模型天生具有定位的能力,因爲它們所要處理的對象就是特征的空間分布,而特征包方法相對較難定位,即使是能定位,准確程度也不如前者。不過近年來經過改進的特征包方法也可以做相當精確的定位。一部分是因爲圖像預分割及生成模型的引入,另一部分則歸功于一些能夠對特征包得到的特征進行重構的方法。
2)物體識別的主要方法(由于方法太多,只列舉幾種)
(1)基于統計的方法與基于物體部件的方法:
根據識別方法是否對局部特征之間的關系建模,可以把識別方法分爲基于統計的方法與基于物體部件的方法。
1、基于統計的物體分類方法(BoW:Bag of Words)
BoW模型嚴格上講並不是一種物體識別方法,而是一種物體分類方法。這種模型的靈感來自于NLP中的BoW模型。。一幅圖像可以看作是一篇“文檔”,而圖像中提取出的特征認爲是“詞語”。
1)生成性方法的學習與識別
生成性的學習方法通過先驗知識去擬合並解釋圖像中的信號。在中,有兩種主要的生成性方法,一種是NB(樸素貝葉斯),另外一種是pLSA(概率潛語義分析)與LDA(線性判別分析)。
在NB中,根據特征在圖像中出現的頻率,利用後驗概率來推斷圖像的類別屬性:
pLSA在上述模型中引入了一個隱藏變量z,用來表征物體類別。其基本出發點是圖像按照某種概率來産生各種物體,這些物體再按照某種概率來産生特征詞語。
2)鑒別性方法的學習與識別
如果說生成性方法最後要得出的結論是圖像中包含某類物體的可能性有多大的話,鑒別性的方法最後要得出的結論是圖像中包含某類物體的可能性相比于包含其它類物體的可能性的比值是多少,或者說比較哪種可能性更大,從而幫助做出推理判斷。
2、基于物體部件的識別
前述BoW的一個主要缺陷就是沒有對特征之間的關系進行建模,因此無法刻畫各個特征在空旬中的順序關系。基于物體部件方法的出發點正是要解決這個問題。在這裏物體部件的定義並不一定是指高層語義上的物體部件例(如眼睛、鼻子之于人臉),也可以是一些底層的圖像特征,例如圖像或者點特征。
(2)自頂向下的識別方法與自底向上的搜索方法
根據識別方法的搜索方向,可以將識別分爲自頂向下的識別方法與自底向上的搜索方法。前一種方法通常有一個先驗物體模型,通過在圖像中尋找這個先驗模型來實現物體檢測。後一種方法從圖像的底層或中層信號例如圖像分割塊,輪廓線條出發,按照某種規則從物體部分逐步構造至物體整體,在構造過程中通常采用一定的能量函數對構造結果進行評估與驗證。
雖然自頂向下的方法可以快速定位到物體,但是由于特征匹配的局部性,容易産生較多的假檢測,這些假檢測往往會破壞底層圖像的完整性語義。自底向上的方法在搜索過程中保持了底層圖像語義圖像分割、輪廓線等的完整性,但通常需要設計良好的搜索規則與策略,並花費很大的力氣來完成搜索。因此,越來越多的方法開始結合這兩個方向來進行物體識別,利用自頂向下的過程快速定位到可能的物體,然後在自底向上的過程中,加入圖像底層語義不可再分割的約束對檢測到的可能物體進一步驗證,最終達到好的檢測效果。
(3)生成性方法與鑒別性方法(基本原理上面已提到過)
1、生成性方法的一個優點在于,給定一個模型,進行學習之後,可以根據學到的規則在圖像中找到模型中沒有的物體,只要這個物體不違反模型的定義。這種方法可以達到較高的識別率,但是識別精度不高。例如,如果只給定一些蘋果的模型,一個具有良好的生成性方法會把圖像中凡是與圓形相似的形狀都找出來。
2、鑒別性方法通過增加反例來排除假檢測,例如,給定蘋果的同時再給出一些梨的圖片作爲反例,通過學習到這兩類的差別,檢測器就有可能把貌似蘋果但更像梨的結果去除掉。
(4)基于模型(model)的物體識別方法
現在主流的物體識別的基本方法都可以集合爲一類:基于模型的物體識別。基于模型的物體識別方法首先需要建立物體模型,然後使用各種匹配算法從真實的圖像中識別出與物體模型最相似的物體,它的主要任務就是要從二維或三維圖像抽取的特征中,尋找出與模型庫中已建好的特征之間的對應關系,以此來預測物體是什麽。
這個方法主要涉及到兩個難點,一是如何選取合適的圖像特征以及如何改進,二是如何恰當的定義物體模型並建立抽取的特征與模型庫中特征的對應關系。
(5)基于上下文(context)物體識別方法
在現實世界中,物體所處的情景爲識別物體提供了更加豐富有用的信息,在現實世界中任何一個物體都不會單獨的出現,它會出現在某些情景中,或者伴隨其他物體一起出現,當人們觀察並推測一個物體是什麽時,除了根據物體自身具備的特征之外,還有就是基于物體所處的上下文來推斷。雖然基于模型的物體識別方法僅僅利用了物體的特征信息,有效縮減了識別物體的時間,但是卻完全忽略了物體出現的情景,這時就會引出一些錯誤的判斷,比如在網球場,如果不考慮網球場這個場景,那麽網球就會被識別爲檸檬,當考慮到場景時,網球會很快並且被識別出來,並且不會被識別錯,于是研究者們在研究物體識別的方法時,開始考慮物體所處的上下文,結合上下文,有助于更好的解釋物體,比如玩具車和真實的轎車,他們所處的場景是不同的,有些物體也只能出現在某些場景。
基于上下文識別物體的難點在于如何對物體與其上下文之間建立關系,這些關系比如有,桌子和椅子很容易同時出現,大象和床非常不可能同時出現,車很多時候都是出現在馬路上等,物體與其上下文之間的關系也有強弱之分,比如一個盤子大部分時候是出現在桌子上,但是出現在其他地方也是有可能,但是消火栓會一直在人行道上,對于這些物體與上下文之間的強弱關系,現在已有相關工作進行了概述。物體與其上下文之間的關系是通過對包含此物體的圖像的低級特征進行統計得出的。
3)物體識別的性能評估方法
判定物體識別的性能通常采用PR曲線。其中P(Precision)指精度(精確率),一般爲y軸;R(Recall)指識別率(召回率),一般爲x軸。
P=(識別正確的結果)/(所有識別結果);R=(識別正確的結果)/(實際上正確的結果)。識別結果的類型如下:
一個好的識別方法應該同時具備高的精確率與高的召回率。精確率等于0.5是一個界限,當精度低于0.5時,說明該方法的效率己經低于隨機猜測的結果,(因爲隨機猜測的精確率爲0.5)。除了PR曲線,也有文獻使用其它曲線來度量識別結果,如ROC曲線或FPPW等。
4)物體識別的困難與前景
雖然物體識別已經被廣泛研究了很多年,研究出大量的技術和算法,物體識別方法的健壯性、正確性、效率以及範圍得到了很大的提升,但是現在依然存在一些困難以及識別障礙。這些困難主要有:
(1)獲取數據問題:
在不同的視角對同一物體也會得到不同的圖像,物體所處的場景的背景以及物體會被遮擋,背景雜物一直是影響物體識別性能的重要因素,場景中的諸多因素,如光源、表面顔色、攝像機等也會影響到圖像的像素灰度,要確定各種因素對像素灰度的作用大小是很困難的,這些使得圖像本身在很多時候並不能提供足夠的信息來恢複景物。
(2)知識導引問題:
同樣的圖像在不同的知識導引下,會産生不同的識別結果,知識庫的建立不僅要使用物體的自身知識,如顔色、紋理、形狀等,也需要物體間關系的知識,知識庫的有效性與准備性直接影響了物體識別的准確性。
(3)信息載體問題:
物體本身是一個高緯信息的載體,但是圖像中的物體只是物體的一個二維呈現,並且在人類目前對自己如何識別物體尚未了解清楚,也就無法給物體識別的研究提供直接的指導。目前人們所建立的各種視覺系統絕大多數是只適用于某一特定環境或應用場合的專用系統,而要建立一個可與人的視覺系統相比的通用視覺系統是非常困難的。
(4)前景展望:
雖然存在著很多困難,但是隨著人類對自己視覺的逐步了解,一個通用的物體識別技術終會被研究成功。人們一直致力于開發各種智能工具輔助人們的生産生活,比如機器人的研制,但是要想使得機器人可以像人一樣運動,輔助人們的工作生活,那麽前提是機器人必須具備類似于人的視覺系統,能夠識別物體以及場景,真正的智能工具應該要具備“視覺”。物體識別技術的成功將會極大改變提高智能工具的能力,成爲計算機技術裏程碑式的一項研究。
三、物體識別的市場
1)全球物體識別市場規模
根據KBV Research發布的“全球圖像識別市場(2016-2022)”報告,2022年,全球物體識別(商品識別、車輛識別等)將達到94.5億美元,年複合平均增長率在20.3%左右。
2)中國物體識別市場
根據 重磅數據 發布的“中國圖像識別市場(2016-2022)”報告,2022年中國圖像識別市場預計將達到11.6億美元左右。年複合平均增長率在18.1%左右。占全球市場平均爲11.6%左右。
3)國內外主要玩家分布
從表中可以看出,物體識別應用最多的就是在商品識別領域。
(1)碼隆科技:
2014年,兩名從微軟離職的中美好搭檔黃鼎隆、碼特獲得¥1200萬的天使輪投資後創立了碼隆科技;其主營業務是利用圖像識別技術打造Product AI平台,針對客戶需求建立以圖搜圖引擎,公司主營業務有智能搜索同款衣服,服裝風格分析,家具識別、面料識別、藥品識別等。與國內的穿衣助手(時尚穿搭)、卷皮網(電商平台)、優料寶(紡織面料)、視覺中國(圖片版權平台)等公司有長期的合作。
2017年,碼隆科技獲得軟銀中國領投的2.2億元B輪融資,預備將此次融資用于人工智能人才儲備,增加研發投入,並進軍拓展海外市場。碼隆科技會繼續專注人工智能商品識別領域技術落地,持續深挖人工智能與傳統行業的深度結合點,並進一步加快國際化步伐。
(2)Yi+:
“Yi+”(北京陌上花科技有限公司)由美女張默創立于2014年,爲企業提供視覺內容智能化和商業化解決方案。致力于”挖掘視覺信息的價值”。公司旗下品牌Yi+是人工智能計算機視覺引擎,衣+是時尚商品搜索引擎。
目前,Yi+以視頻、圖像中的人臉、物體、場景檢測、識別、搜索、推薦技術的積累,布局在視頻媒體、智能電視、智能相機、廣播電視系統等領域,提供”電視+AI”、”相機+AI”及”營銷+AI”的解決方案。已通過基于視覺識別技術的數據結構化産品服務4億用戶,幫助媒體內容方實現智能分析、內容互動和場景營銷。團隊成員來自于斯坦福、帝國理工、耶魯、新加坡國大、南洋理工、清華、北大、中科院等名校及谷歌、微軟、IBM、英特爾、阿裏巴巴、騰訊、百度、華爲等名企。2017年公司獲得了億元B輪投資。
(3)圖普科技:
圖普科技是一家基于深度學習技術解讀圖片和視頻內容的公司。在2014年初創建並開放了提供各類圖像識別能力的雲服務平台,目前圖普雲平台涵蓋黃暴識別、人臉識別、證件識別、場景識別、圖像風格化等數十種圖像識別接口,日均圖像接口調用數億次,累計處理超過1000億圖像。憑借穩定靠譜的服務和超越用戶期待的産品,贏得了包括映客、秒拍、今日頭條、唱吧、酷狗、花椒直播等數百家互聯網企業和政企機構的穩定合作,是較早將人工智能成功商業化落地的企業,在人工智能領域獨樹一幟。
其中在物體識別領域的業務有自然場景識別、多物體檢測、服裝屬性識別(自動檢測和識別圖片、視頻中的服飾,准確識別服飾品類、風格,美觀度等特征)、汽車識別(可識別10種細分車型,上百種車標品牌,12種顔色)等。
4)商業模式
四、行業應用
1)電商行業
(1)市場規模
隨著電子商務的蓬勃發展,基于物體圖像識別技術的以圖搜圖正發揮重大作用,以移動端爲例,其中適合圖像搜索的圖片爲20 %,假設 0.5%人次成功轉移,1% 平均購買轉化率,平均購物單價爲20 0元,如,按平均10%的傭金計算,那麽一年産業規模也超過220億元。加上其他收入,比如:廣告、手機搜索等,總體市場規模不低于600億元。隨著移動電子商務日益興起,圖形圖像搜索已能爲客戶帶來全新的用戶體驗。在購物領域,非常典型的就是服裝服飾等非標類産品,占到整個電子商務的55%市場份額。
(2)圖片檢索原理
1、目錄式圖像檢索
目錄式檢索是將圖片進行分類,用戶按照分類結構逐漸細化查詢範圍。目錄式檢索方式經常需要人工來進行大部分的分類工作,因此效率較低。現在仍有大部分的圖像搜索引擎結合關鍵字搜索保留了這一檢索途徑,但類目也通常限于大衆用途的圖片,這些類目下的圖片主要源自專題網站,如壁紙就多來源于專門的壁紙網站。
2、關鍵詞圖像檢索
關鍵詞圖像檢索原理是基于圖像外部信息的檢索,這種方式是根據圖像的文件名、路徑名、鏈路、ALT 標簽及與圖像在同一頁面的文本信息等外部信息進行檢索,實質上是將圖像檢索轉化爲文本檢索,這是目前搜索引擎普遍采用的方法。這種檢索方式最顯著的優點是檢索速度快,很好地利用了成熟的基于文本的檢索技術。不足在于過于依賴網頁標題與文件名的准確性。以上兩種檢索方式可歸結爲基于文本的圖像檢索,它們往往只分析圖像的外部信息即文本信息,而沒有考慮圖像本身的視覺信息。隨著圖像數量的大量增長,語言表達的限制性及語種的複雜性,這種只是基于文本的圖像檢索技術已經不能滿足用戶的需求,于是有了基于圖像內容檢索技術的發展。
3、視覺圖像檢索
基于內容的圖像檢索技術主要就是圖像視覺檢索,將圖像自身的視覺內容特征作爲其索引,如顔色、紋理、形狀以及空間關系等底層視覺特征,通過對這些圖像特征的比較來實現檢索。這是一種基于圖像本身特征層次的自動匹配,融合了圖像理解、模式識別和計算機視覺等理論,特別適用于檢索目標明確的查詢。
視覺圖像檢索原理在實際應用中有兩種檢索方式 :層次性和實例式。層次性圖像搜索是將關鍵字檢索與簡單的視覺圖像檢索相結合,不再是“關鍵詞 + 關鍵詞 + ”的過程,而是將關鍵詞與某些主要的視覺特征由用戶自由組合。實例式圖像檢索在較新的專業圖像搜索引擎中應用較多,該方法是提供一張圖片實例或者由用戶繪制一個大概的形狀,系統自主綜合可視特征尋找相似圖片。不過,有時候需要用戶提供圖片實例會使系統變得很不友好,因此通常有實例式圖像檢索功能的搜索引擎也包含層次性圖像搜索功能。
(3)商品識別中的圖像搜索系統結構
(4)具體應用
1、商品分類:
在電商平台中,商品的種類繁多,有衣服、鞋、帽子、圍巾等。其中衣服的分類品種複雜多樣按性別分有男裝、女裝;按季節分有春、夏、秋、冬季的服裝;按年齡來分有童裝、青少年裝、中年裝、老年裝;按群體來分有學生裝、白領裝、孕婦裝等;一件衣服可能同時有好幾個標簽,可能是男裝、春裝、中年裝、白領裝,因此單憑人眼來分十分吃力。因此基于圖像識別技術可以將衣服的款式進行分類,對同類衣服進行標簽的標注。
2、價格比對
以淘寶爲例,消費者在通過關鍵字“風衣”進行檢索,得到幾萬個不同的結果,如圖一所示的商品就有上百個,細心的消費者可能會一頁一頁的翻找比對這些商品,但是效率非常低,也不容易察覺到價格間的差異。消費者越來越迫切地希望能基于描述商品的圖像進行檢索,通過商品可視特征的提取和匹配,對數以百萬計的商品圖片實現圖片到圖片的智能化檢索。
3、款式識別
幫助商家和用戶將每件衣服打上不同的款式標簽,如吊帶衫、打底褲、直筒褲、Polo衫、短袖等。
4、時尚穿搭
當用戶看到街上的某個時尚穿搭時,可拍照上傳搜索同款的衣服,系統提供不同的穿搭建議,給予用戶隨時隨地的穿搭體驗。
5、真僞識別
可通過對商品的材質、標簽識別,幫助用戶來識別正品和高仿,防止用戶受騙,以至于電商平台的信譽受損。
2)新零售行業
(1)商品的分類監測
通過識別商品的包裝,判斷商品的屬性。比如消費者進店後拿了又放到其他位置打亂商品原來的的順序與管理。可在後台鏈接語音系統,當商品發生錯亂時,基于用戶語音提醒,方便商品的管理,減少了商超的分揀員;當商品的貨架缺貨時,可自動提醒後台增補貨源以對貨倉進行清查;以及對該類商品的統計分析,每周每月的消費量等。
(2)食品安全的監控與管理
通過對零售食品包裝袋的識別,判斷食品的生産日期、保質期是否滿足食用要求等。
(3)用戶的精准畫像
結合人臉識別,通過追蹤用戶的購買行爲和商品的購買量來爲用戶畫像,比如發現用戶在購買牙膏的之後會去順手在買一個牙刷,再買了洗面奶之後會在買一瓶乳液等。幫助商家更好的了解用戶的需求,以及對商品擺放位置對用戶行爲的影響等。
(4)完美連接線上線下:
識別系統獲得的用戶偏好還能反哺線上,將所得數據通過線上反饋給廠商,助力于廠商更全面地了解消費者需求,進而精准地研發産品,設計營銷策略。這些都是完美實現新零售“打通線上線下”內在要求的極佳方式。
3)汽車行業
(1)車型識別
1、車型識別研究的主要方向:
1)基于神經網絡的方向
2)基于小波變換的車型識別方向
3)利用地震動信號進行分析處理判斷車型
2、車輛的檢測方法:
1)基于背景差分的方法
2)基于幀間差分的方法
3)基于光流法的方法
3、車型特征提取:圖像目標識別特征的提取可采用多種方法,主要方法有傅立葉描述子、矩特征、變換域特征、邊緣輪廓特征、角點特征等。
4、車型識別技術:
1)基于模板匹配的識別方法
2)基于統計模式的識別方法
3)基于神經網絡的識別方法
4)基于仿生模式(拓撲模式)的識別方法
5)基于支持向量機的識別方法
(2)車牌識別(摘自百度,可自查原版)
1、簡介:
車牌識別技術要求能夠將運動中的汽車牌照從複雜背景中提取並識別出來,通過車牌提取、圖像預處理、特征提取、車牌字符識別等技術,識別車輛牌號、顔色等信息。
2、技術原理:
1)基本步驟:
A. 牌照定位,定位圖片中的牌照位置;
B. 牌照字符分割,把牌照中的字符分割出來;
C. 牌照字符識別,把分割好的字符進行識別,最終組成牌照號碼。
2)識別流程:利用車輛的動態視頻或靜態圖像進行牌照號碼、牌照顔色自動識別。
3、應用方式:
1)監測報警:
對于納入“黑名單”的車輛,例如:被通緝或挂失的車輛、欠交費車輛、未年檢車輛、肇事逃逸及違章車輛等,只需將其車牌號碼輸入到應用系統中,車牌識別設備安裝于指定的路口、卡口或由執法人員隨時攜帶按需要放置,系統將識讀所有通過車輛的牌照號碼並與系統中的“黑名單”比對,一旦發現指定車輛立刻發出報警信息。
2)超速違章處罰:
車牌識別技術結合測速設備可以用于車輛超速違章處罰,一般用于高速公路。具體應用是:在路上設置測速監測點,抓拍超速的車輛並識別車牌號碼,將違章車輛的牌照號碼及圖片發往各出口;在各出口設置處罰點,用車牌識別設備識別通過車輛並將號碼與已經收到的超速車輛的號碼比對,一旦號碼相同即啓動警示設備通知執法人員處理。與傳統的超速監測方式相比,這種應用可以節省警力,降低執法人員的工作強度,而且安全、高效、隱蔽,司機需時刻提醒自己不能超速,極大地減少了因超速引發的事故。
3)車輛出入管理:
將車牌識別設備安裝于出入口,記錄車輛的牌照號碼、出入時間,並與自動門、欄杆機的控制設備結合,實現車輛的自動管理。應用于停車場可以實現自動計時收費,也可以自動計算可用車位數量並給出提示,實現停車收費自動管理節省人力、提高效率。應用于智能小區可以自動判別駛入車輛是否屬于本小區,對非內部車輛實現自動計時收費。在一些單位這種應用還可以同車輛調度系統相結合,自動地、客觀地記錄本單位車輛的出車情況,車牌識別管理系統采用了車牌識別技術,達到不停車、免取卡,有效提高車輛出入通行效率。
4)自動放行:
將指定的牌照信息輸入系統,系統自動地識讀經過車輛的牌照並查詢內部數據庫。對于需要自動放行的車輛系統驅動電子門或欄杆機讓其通過,對于其它車輛系統會給出警示,由值勤人員處理。可用于特殊單位(如軍事管理區、保密單位、重點保護單位等)、路橋收費卡口、高級住宅區等。
5)高速公路收費管理:
在高速路的各個出入口安裝車牌識別設備,車輛駛入時識別車輛牌照將入口資料存入收費系統,車輛到達出口時再次識別其牌照並根據牌照信息調用入口資料,結合出入口資料實現收費管理。這種應用可以實現自動計費並可防止作弊,避免了應收款的流失。
6)計算車輛旅行時間:
在交通管理系統中可以將車輛在某條道路的平均旅行時間作爲判斷該道路擁堵狀況的一個參數。安裝車牌識別設備于道路的起止點,識讀所有通過車輛並將牌照號碼傳回交通指揮中心,指揮中心的管理系統根據這些結果就可計算出車輛平均旅行時間。
7)牌照號碼自動登記:
交通監管部門每天都要處理大量的違章車輛圖片,一般由人工辨識車牌號碼再輸入管理系統,這種方式工作量大、容易疲勞誤判。采用自動識別可以減少工作強度能夠大幅度提高處理速度和效率。這種功能可用于電子警察系統、道路監控系統等。
(3)車輛識別的難點
1、受人自身對對象識別過程的只是限制,對自然界的認識不足,缺乏先進的科學知識;
2、車輛繁多但差別不大,沒有明顯的區別特征;
3、受具體應用環境的影響太大,各類檢測算法要求的條件太苛刻,攝像機的位置和角度要求高;
4、受視覺變化的影響大,從不同角度所攝的汽車特征差別大;
5、受自然環境影響太大特別是光照影響,嚴重的光照反射使得車輛輪廓線不分明,顔色偏離、變化太大,難以辨認;
6、汽車的外形更新太快,特征變化太快,使得算法適應性較差;
7、汽車的管理規則變化太快,使得智能交通中的應用系統算法修改頻繁。
8、複雜背景多車輛的特征的同時提取。複雜背景多車輛的檢測,較容易實現,但是多車輛的特征同時提取比較困難,實現多車輛特征的同時提取,對以後的分類識別、跟蹤等都有很大的幫助;
9、汽車遮擋情況的研究。在交通口,因車速行駛速度相對較慢,汽車遮擋情況雖然出現的比較少,但爲樂萬山系統,增加系統的魯棒性,這種情況下的汽車識別有待于進一步的研究;
10、運動車輛的三維建模。運動車輛是一個三維物體,因而獲取運動車輛的三維信息並利用它進行識別將是車型識別發展的最終目標和解決途徑。隨著信息獲取技術手段的不斷改進,這一途徑必將得到應有的發展;
11、非正常天氣條件下車型的識別。車型識別的相關資料顯示,天氣、光線等對車型識別准確性的影響不大,如何降低天氣條件的影響,增加系統的自適應性,也是汽車分類識別有待解決的關鍵問題;
12、支持向量機還處在繼續發展階段,很多方面還不完善,現有的算法都是采用多個支持向量機分類器進行組合,從而實現多值分類目的。但目前多分類算法不是特別理想。
4)醫藥行業
(1)藥品標簽處理
1、圖像采集與預處理:
1)藥瓶圖像采集:
圖像采集的原理是通過光學感光元器件將目標物的光線轉換成電信號,然後對電信號做采樣和量化即得到數字圖像。
2)圖像預處理:
圖像傳感器采集到的數字圖像難免會夾雜各類噪聲和畸變信號,無法直接應用于視覺識別。主要包括圖像灰度化、圖像平滑和圖像增強。
2、藥瓶圖像提取:
1)藥瓶邊緣檢測:
邊緣檢測的實質是利用相關算法提取圖像中目標物與背景間灰度變化明顯的分界線,而藥瓶邊緣檢測是實現藥瓶圖像分割的先決條件。
2)藥瓶圖像分割:
經過Canny算法邊緣檢測後的圖像是二值圖像,爲提取出藥瓶的有效分割邊界,考慮到藥瓶兩側具有豎直邊緣特性,因此常用豎直邊界分割檢測的方法,根據檢測出的藥瓶上下左右邊界,完成藥瓶圖像分割
3、藥瓶圖像矯正:
西林瓶表面貼附的藥品標簽呈現圓柱表面特征,成像後標簽兩側區域會出現非線性擠壓變形,因此爲了能正確識別藥品國藥准字編號,有必要對這部分畸形圖像做平面化矯正,恢複字符的正確形態,並拉開字符間距。
1)圖像矯正算法:
藥瓶圖像矯正的根本目的是把圓柱面藥瓶圖像矯正爲柱面圖案平面展開時的成像效果。
2)矯正實驗:驗證矯正算法後的有效性。
(2)藥品標簽字符識別
1、藥品標簽識別原理(原理圖如下):
2、藥品標簽識別流程:
1)字符預處理:字符切分、字符大小歸一化、字符筆畫寬度歸一化
2)候選字符提取:選取統計特征、創建字符模板、分類器設計
3)藥品標簽字符識別:基于 BP 神經網絡的字符識別、基于圖像異或增強算法的字符識別
3、應用:
1)醫院和藥店藥品分類與管理:
目前醫院和藥店的藥品種類繁多,利用藥品識別技術可以快速的幫助醫療人員對藥品的分類管理。
2)藥品生産商的流程管理:
通過對藥品生産線上藥品的標簽識別,幫助廠商快速發現藥品的標簽撿漏、質量檢測等。
3)違禁藥物的管理:
對實驗室的一些危險化學品的監測與管理。
4)幫助用戶快速了解藥品:
大多用戶都是醫生開藥後,並無閱讀說明書的習慣或者說明書不夠詳細,隨著智能終端的普及,用戶可 以使用移動終端拍照搜索藥品的詳細資料快速幫助用戶了解一款藥品的用途以及注意事項等。