aMMAI: [aMMAI] Paper Summary: Where’s Waldo: Matching People in Images of Crowds

Title: Where’s Waldo: Matching People in Images of Crowds

Author: Rahul Garg, Deva Ramanan, Steven M. Seitz, Noah Snavely

Publication: CVPR, 2011

這篇paper主要的目的就是想要在一大群照片中找出特定的人。

就跟Where’s Waldo這個遊戲一樣。

下面的圖是system overview

過程是這樣:

使用者先輸入一大群的照片(必須是single event)。[圖上排最左]
使用者要挑出一張照片，標出想要的人物(必須標出head, ground, 3 different part) 。[圖上排左邊數來第二]
利用使用者標出的part training color model。使用color model的主要原因是因為圈出的人物可能會很小，以及解析度很低等問題，用SIFT之類的feature效果見得比較好。[圖上排右邊數來第二]
system註冊使用者輸入的照片，找出照片之間的相對3D空間位置，以及相機角度(by Model the world from Internet photo collections.)。[圖下排最左]
利用步驟4找出的3D 相對位置找出可能的candidate location，利用前面train出來的appearance model算分數。[圖下排中間]
最後加上contextual的資訊，建MRF model，來提高performance。[圖上排最右]

該篇paper有幾個重要的假設:

這篇paper提出的一個利用3D空間來搜尋人位置的想法是很特別方式，以及結合了一些圖片時間和人co-occurrence的特性，來增加找到的機會。

限制是，如果當人快速移動或是相同的人出現在不同場景中，這個方法就會失敗。

還有color base的appearance model，如果在場景中大家都穿相同的衣服(ex. 制服)，還是同一個part上有太多不同的顏色，就會造成辨認的效果不好。

aMMAI