Title: Where’s Waldo: Matching People in Images of Crowds
Author: Rahul Garg, Deva Ramanan, Steven M. Seitz, Noah Snavely
Publication: CVPR, 2011
這篇paper主要的目的就是想要在一大群照片中找出特定的人。
就跟Where’s Waldo這個遊戲一樣。
下面的圖是system overview
過程是這樣:
- 使用者先輸入一大群的照片(必須是single event)。[圖上排最左]
- 使用者要挑出一張照片,標出想要的人物(必須標出head, ground, 3 different part) 。[圖上排左邊數來第二]
- 利用使用者標出的part training color model。使用color model的主要原因是因為圈出的人物可能會很小,以及解析度很低等問題,用SIFT之類的feature效果見得比較好。[圖上排右邊數來第二]
- system註冊使用者輸入的照片,找出照片之間的相對3D空間位置,以及相機角度(by Model the world from Internet photo collections.)。[圖下排最左]
- 利用步驟4找出的3D 相對位置找出可能的candidate location,利用前面train出來的appearance model算分數。[圖下排中間]
- 最後加上contextual的資訊,建MRF model,來提高performance。[圖上排最右]
該篇paper有幾個重要的假設:
- 照片必須是single event,且必須在相同場景中。因為是利用3D空間來搜尋,所以如果照片來自不同的場景,就無法找出相對位置。
- 假設人在短時間內是相對靜止的,如果人在短時間內一直移動,就很難利用3D空間的相對位置來找人。
這篇paper提出的一個利用3D空間來搜尋人位置的想法是很特別方式,以及結合了一些圖片時間和人co-occurrence的特性,來增加找到的機會。
限制是,如果當人快速移動或是相同的人出現在不同場景中,這個方法就會失敗。
還有color base的appearance model,如果在場景中大家都穿相同的衣服(ex. 制服),還是同一個part上有太多不同的顏色,就會造成辨認的效果不好。

沒有留言:
張貼留言