2011年5月5日 星期四

[aMMAI] Paper Summary: Where’s Waldo: Matching People in Images of Crowds

Title: Where’s Waldo: Matching People in Images of Crowds
Author: Rahul Garg, Deva Ramanan, Steven M. Seitz, Noah Snavely
Publication: CVPR, 2011



這篇paper主要的目的就是想要在一大群照片中找出特定的人。
就跟Where’s Waldo這個遊戲一樣。

下面的圖是system overview
過程是這樣:
  1. 使用者先輸入一大群的照片(必須是single event)[圖上排最左]
  2. 使用者要挑出一張照片,標出想要的人物(必須標出head, ground, 3 different part) [圖上排左邊數來第二]
  3. 利用使用者標出的part training color model。使用color model的主要原因是因為圈出的人物可能會很小,以及解析度很低等問題,用SIFT之類的feature效果見得比較好。[圖上排右邊數來第二]
  4. system註冊使用者輸入的照片,找出照片之間的相對3D空間位置,以及相機角度(by Model the world from Internet photo collections.)[圖下排最左]
  5. 利用步驟4找出的3D 相對位置找出可能的candidate location,利用前面train出來的appearance model算分數。[圖下排中間]
  6. 最後加上contextual的資訊,建MRF model,來提高performance[圖上排最右]



該篇paper有幾個重要的假設:
  • 照片必須是single event,且必須在相同場景中。因為是利用3D空間來搜尋,所以如果照片來自不同的場景,就無法找出相對位置。
  • 假設人在短時間內是相對靜止的,如果人在短時間內一直移動,就很難利用3D空間的相對位置來找人。



這篇paper提出的一個利用3D空間來搜尋人位置的想法是很特別方式,以及結合了一些圖片時間和人co-occurrence的特性,來增加找到的機會。

限制是,如果當人快速移動或是相同的人出現在不同場景中,這個方法就會失敗。
還有color baseappearance model,如果在場景中大家都穿相同的衣服(ex. 制服),還是同一個part上有太多不同的顏色,就會造成辨認的效果不好。



沒有留言:

張貼留言