Video-to-Reference Image Indexing

  • Vitaly Zholudev
  • Richard Wildes
Conference paper


This work is concerned with registration of data in geospatial databases, especially with registering images taken by different sensors and from different viewpoints of the same scene. This research has many applications in creating and updating maps, surveys and other geospatial data sources. While considerable work has been performed in image registration, extant approaches break down as viewpoint and/or sensor vary beyond relatively small changes. Further, extant image-based registration technology has only been demonstrated to support video-to-reference image alignment when initialized to within several hundred pixels of the correct result. Due to errors, drop outs and otherwise limited availability of telemetry, ineffective a priori knowledge of relative video/reference image alignment is a real-world problem.

The developed approach allows video-based image descriptors to index directly into a reference image database. Successful indexing into the database implies that approximate position of the video relative to the reference has been recovered; this information can then serve to initialize extant technology for video-to-reference registration. The approach provides uniform representation of video and reference imagery and a corresponding method for quantifying the goodness of match between two image samples. The representation combines image appearance, characterized in terms of texture defined regions, and image geometry, characterized in terms of spatial relationships between textured regions. By construction, the matching method is robust to a range of photometric and geometric distortions between image sources, including changes in grey-level contrast and affine geometric transformations. The developed approach has been algorithmically specified and instantiated in software. Empirical evaluations with a reference image database derived from orthoimages of distinct geographic locations that is indexed via synthetic aerial video document the promise of the approach.

Technical approach: The approach to indexing video to reference imagery involves a novel integration of regional appearance descriptors and geometric relationships between regions. Previous image indexing research has tended to concentrate on only appearance or only geometry. The philosophy of the proposed approach is that the combination of these two sources of information will yield a more discriminative approach than either one alone. Image appearance is characterized in terms of texture descriptors. Texture is employed as it is manifest in any imagery source (e.g., unlike colour, which depends on capture of multiple spectral bands). Geometric relationships are captured in terms of an affine invariant, which provides robustness to the range of variation that is anticipated in matching imagery of concern, i.e., aerial video to orthophoto reference imagery.

To combine geometry with appearance, geometry is used as a prefilter for appearance-based matching. In particular, coarse quantization of the geometric parameters, are used to define a two-dimensional (2D) look-up table. Each cell in the table is filled with the appearance vectors (i.e., oriented energy vectors) for reference images whose derived geometric parameters are covered by the cell’s range. During matching, a probe indexes a cell based on its recovered geometric parameters; subsequently, the best match is based on the largest inner product between the appearance vector of the probe and all appearance vectors contained in the indexed cell.

Empirical results: Individual database entries and probes are characterized in terms of quadruples of texture-defined image regions. The appearance of individual patches is captured via their 16D oriented energy vectors. The relative geometry of patches is captured via their 2D affine invariants. The database was constructed from orthoimages corresponding to five different geographical locations. The orthoimages were captured in the visible portion of the spectrum at 8-bits/pixel intensity resolution and at approximately 1 ground meter/pixel spatial resolution. The affine parameters were uniformly quantized into bins of size 0.5, with 1.0 overlap between adjacent bins. These units were chosen based on empirical inspection so as to ensure that geometric-based match pruning would run the gambit between providing almost complete disambiguation of match to no disambiguation of match. Once populated the database consisted of 587 distinct entries (derived from subregions with the five orthoimages). The probes were constructed as synthetic flyovers of regions corresponding to the five orthoimages used to construct the database. For each region, flyovers were generated in two directions (e.g., strips flown north-south or east-west), at three spatial resolutions (where image support and resolution allowed) and two obliquities (nadir and 30° off nadir). Overall, a set of 48 probes resulted.

Overall, when the 48 probes were indexed into the database by the described method, it was found that the top ranked match was the correct match 75% of the time. Further, the correct match was within the top two ranked matches 85% of the time and within the top three ranked matches 95% of the time. Also considered were attempts to index based purely on the basis of appearance (i.e., ignoring the geometric prefilter); in this case inferior match accuracy was observed, which underlines the importance of joint consideration of appearance and geometry in image indexing.

In this report a method was presented for matching between aerial video and corresponding reference orthoimagery, as typical of geospatial databases. The method combines image appearance, characterized in terms of texture defined regions, and image geometry, characterized in terms of spatial relationships between textured regions. By construction, the matching methods are robust to a range of photometric and geometric distortions between image sources, including changes in grey level contrast and affine geometric transformations. Empirical investigations suggest the promise of the approach. The developed approach can serve as an enabling preprocessing step for extant approaches to video-to-reference image registration. In particular, it can serve to initialize automated image registration algorithms by providing approximate spatial position of the video relative to the reference. An important direction for future research is to subject the method to additional empirical evaluation, especially evaluation that employs real operational data.


Reference Image Image Appearance Texture Region Database Entry Image Geometry 
These keywords were added by machine and not by the authors. This process is experimental and the keywords may be updated as the learning algorithm improves.


Les travaux présentés portent sur le repérage de données dans des bases de données géospatiales, particulièrement sur la superposition d’images acquises par différents capteurs présentant différents points de vue d’une même scène. La recherche offre de nombreuses applications pour la création et l’actualisation des cartes, ainsi que pour les levés et autres sources de données géospatiales. Bien que d’importants travaux aient été effectués dans le domaine de la superposition d’images, les méthodes actuelles sont inopérantes lorsque les différences entre des points de vue ou des capteurs sont plus que mineures. En outre, la technologie existante de superposition d’images ne permet l’alignement d’images vidéo et d’images de référence qu’avec un préalignement à quelques centaines de pixels près de la correspondance exacte. Il est significatif qu’en raison d’erreurs, d’omissions et de la disponibilité limitée de mesures de télémétrie, une connaissance a priori inadéquate de l’alignement d’images vidéo et d’images de référence constitue un problème concret.

Nous avons mis au point une méthode semi-automatique d’indexation directe de descripteurs d’images vidéo dans une base de données d’images de référence. La réussite de l’indexation entraîne que la position approximative de l’image vidéo par rapport à l’image de référence a été récupérée; cette information peut ensuite servir à préaligner les images vidéo aux images de référence pour les superposer avec les outils technologiques. Notre méthode offre une représentation uniforme des images vidéo et des images de référence ainsi qu’une méthode permettant de quantifier le degré de correspondance entre les deux échantillons d’images. La représentation combine l’apparence des images, caractérisée par des régions définies selon leur texture, et la géométrie des images, caractérisée par les relations entre les régions texturées. De par sa conception, la méthode de mise en correspondance est robuste pour toute une gamme de distorsions photométriques et déformations géométriques entre les images, notamment les variations de contraste des tons de gris et les transformations géométriques affines. La méthode élaborée est définie par des algorithmes sur lesquels est basé un logiciel. La seule intervention humaine requise est la sélection de régions d’intérêt sur les images pour focaliser le traitement. Des évaluations empiriques, utilisant une base de données d’images de référence formée de sept orthoimages indexées par des images vidéo aériennes réelles et synthétiques, ont permis de documenter le potentiel de la méthode.

Approche technique: Notre approche en matière d’indexation d’images vidéo d’après des images de référence fait intervenir une intégration innovatrice de descripteurs régionaux d’apparence aux relations géométriques entre les régions. Les recherches antérieures sur l’indexation des images tendaient à se concentrer uniquement sur l’apparence ou sur la géométrie. Notre approche repose sur le principe que la combinaison de ces deux sources d’information produit une méthode plus discriminative que l’utilisation d’une seule de ces sources. L’apparence des images est caractérisée à l’aide de descripteurs de texture. Nous utilisons la texture puisqu’elle est évidente sur toute source d’imagerie (à la différence de la couleur qui dépend de la saisie de multiples bandes spectrales). Les relations géométriques sont définies par un invariant affin qui offre la robustesse nécessaire pour une gamme de variations prévues lorsqu’on fait coïncider les images visées: les images vidéo aériennes et les images de référence.

Afin de combiner la géométrie et l’apparence, nous utilisons la géométrie comme préfiltre pour l’appariement basé sur l’apparence. Nous utilisons notamment une quantification approximative des paramètres géométriques pour définir un tableau de recherche à deux dimensions. Chaque case du tableau contient les vecteurs d’apparence (soit les vecteurs d’énergie orientés) des images de référence dont les paramètres géométriques dérivés sont couverts par l’étendue de la case. Pendant l’appariement, un échantillon sert à indexer une case d’après ses paramètres géométriques récupérés; par la suite, la meilleure correspondance est considérée être celle pour laquelle le produit scalaire entre le vecteur d’apparence de l’échantillon et tous les vecteurs d’apparence contenus dans la case indexée est le plus élevé. L’appariement des vecteurs d’apparence candidats assure l’alignement des énergies dominantes du point de vue de l’échelle et de la rotation.

Résultats empiriques: Les entrées de la base de données et les échantillons individuels sont caractérisés par des quadruplets de régions d’images définies selon la texture, choisies manuellement. L’apparence de chacune des zones est saisie au moyen de leurs vecteurs d’énergie orientés à seize dimensions. La géométrie relative des zones est saisie à l’aide d’invariants affins à deux dimensions. Une fois constituée, notre base de données comprenait 7 × 12 entrées (c.-à-d. que chacune des sept régions géographiques comportait douze entrées redondantes). Pour chacun des cinq échantillons, nous avons effectué l’indexation dans le tableau de recherche fondé sur la géométrie en s’appuyant sur les paramètres affins récupérés. Pour chaque entrée dans la case indexée, nous avons établi la correspondance par rapport à tous les vecteurs d’apparence présents en conformité avec la norme sur les produits scalaires. Les dimensions de chacun des vecteurs d’apparence sont de 16 × 4 (seize énergies orientées, quatre régions de texture par entrée). L’emplacement géographique correspondant au plus grand produit scalaire calculé constituait la correspondance finale.

Il faut remarquer que nous avons également examiné les résultats d’une mise en correspondance uniquement fondée sur l’apparence (c.-à-d. en ignorant le préfiltre géométrique) et que nous avons trouvé des erreurs de correspondance dans ce cas. En général, nous obtenons de bons résultats uniquement lorsque l’apparence et la géométrie sont combinées.

Dans notre rapport, nous avons présenté une méthode permettant de mettre en correspondance des images vidéo aériennes et l’orthoimagerie de référence correspondante, que contiennent habituellement les bases de données géospatiales. La méthode combine l’apparence des images, caractérisée par des régions définies selon la texture, et la géométrie des images, caractérisée par les relations entre les régions texturées. De par leur conception, les méthodes de mise en correspondance sont robustes pour toute une gamme de déformations photométriques et géométriques d’une image à l’autre, notamment les variations de contraste des tons de gris et les transformations géométriques affines. Des évaluations empiriques donnent une indication du potentiel de la méthode. La méthode élaborée peut servir à la mise en œuvre d’une étape de prétraitement pour des méthodes existantes de superposition d’images vidéo d’après des images de référence. De façon particulière, elle peut servir à initialiser des algorithmes pour la superposition automatisée d’images en fournissant une position approximative des images vidéo par rapport aux images de référence. Diverses avenues sont intéressantes pour de futures recherches. Premièrement, il est souhaitable d’automatiser davantage tous les aspects du traitement. À cet égard, il est particulièrement souhaitable d’éliminer l’obligation de sélectionner manuellement des régions d’intérêt des images, tant pour l’élaboration de la base de données d’images que pour la spécification des échantillons vidéo. Deuxièmement, dans cet ordre d’idées, il est important de soumettre la méthode et tous les travaux ultérieurs à des évaluations empiriques supplémentaires, et spécifiquement à une évaluation utilisant des données opérationnelles réelles.


  1. Brown LG (1992) A survey of image registration techniques. ACM Comput Surv (CSUR) 24(4):325-376CrossRefGoogle Scholar
  2. Burt P (1988) Smart sensing within a pyramid vision machine. Proc IEEE 76(8):1006-1013CrossRefGoogle Scholar
  3. Felzenszwalb P, Huttenlocher D (1998) Image segmentation using local variation. In: Proceedings of the IEEE computer society international conference on computer vision and pattern recognition, pp 98-104Google Scholar
  4. Forsyth D, Ponce J (2003) Computer vision: a modern approach. Prentice Hall, Upper Saddle River, NJGoogle Scholar
  5. Freeman W, Adelson E (1991) The design and use of steerable filters. IEEE Trans Pattern Anal Mach Intell 13(9):891-906CrossRefGoogle Scholar
  6. Jahne B (1991) Digital image processing. Springer, BerlinGoogle Scholar
  7. Klein F (1939) Elementary mathematics from an advanced standpoint: geometry (Hedrick EH, Noble CA Trans.). Dover, New YorkGoogle Scholar
  8. Lamdan Y, Schwartz J, Wolfson H (1990) Affine invariant model-based object recognition. IEEE Trans Robot Autom 6(5):578-589CrossRefGoogle Scholar
  9. Lowe DG (2004) Distinctive image features from scale-invariant keypoints. Int J Comput Vis 60(2):91-110CrossRefGoogle Scholar
  10. O’Rourke J (1994) Computational geometry in C. Cambridge University Press, CambridgeMATHGoogle Scholar
  11. Smeulders A, Huang T, Gevers T (eds) (2004) Special issue on content-based image retrieval. Int J Comput Vis 56(1-2):5-6Google Scholar
  12. Snoek L, Worring M (2005) Multimodal video indexing: A review of the state-of-the-art. Multimed Tools Appl 25(1):5-35CrossRefGoogle Scholar
  13. Wildes R, Hirvonen D, Hsu S, Kumar R, Lehman B, Matei B, Zhao W (2001) Video georegistration: Algorithm and quantitative evaluation. In: Proceedings of the eighth IEEE international conference on computer vision, pp 343-350Google Scholar

Copyright information

© Springer Science+Business Media, LLC 2010

Authors and Affiliations

  1. 1.Department of Computer Science and EngineeringYork UniversityTorontoCanada
  2. 2.Centre for Vision ResearchYork UniversityTorontoCanada

Personalised recommendations