Travail De These

Vers une description efficace du contenu visuel pour l'annotation automatique d'images

Thèse effectuée au sein de l'équipe IMEDIA à l'INRIA Rocquencourt sous la direction de Nozha Boujemaa. Soutenue le 8 juin 2009 à l'Université Paris XI Orsay devant le jury composé de :

François YVON professeur Paris XI, président du jury
Patrick GALLINARI professeur Paris VI, directeur du LIP6, rapporteur
Françoise PRETEUX professeur Institut Telecom, chef du département Artemis, rapporteur
François FLEURET chercheur Institut Idiap, Suisse
Michael HOULE professeur, NII, Japon
Nozha BOUJEMAA directrice de recherche, chef de l'équipe Imedia à l'Inria

 

Version électronique du manuscrit

Rapport de soutenance,Rapport F. Preteux, Rapport P. Gallinari

 

Résumé (in english)

Les progrès technologiques récents en matière d'acquisition de données multimédia ont conduit à une croissance exponentielle du nombre de contenus numériques disponibles. Pour l'utilisateur de ce type de bases de données, la recherche d'informations est très problématique car elle suppose que les contenus soient correctement annotés. Face au rythme de croissance de ces volumes, l'annotation manuelle présente aujourd'hui un coût prohibitif. Dans cette thèse, nous nous intéressons aux approches produisant des annotations automatiques qui tentent d'apporter une réponse à ce problème. Nous nous intéressons aux bases d'images généralistes (agences photo, collections personnelles), c'est à dire que nous ne disposons d'aucun a priori sur leur contenu visuel. Contrairement aux nombreuses bases spécialisées (médicales, satellitaires, biométriques, ...) pour lesquelles il est important de tenir compte de leur spécificité lors de l'élaboration d'algorithmes d'annotation automatique, nous restons dans un cadre générique pour lequel l'approche choisie est facilement extensible à tout type de contenu.

Pour commencer, nous avons revisité une approche standard basée sur des SVM et examiné chacune des étapes de l'annotation automatique. Nous avons évalué leur impact sur les performances globales et proposé plusieurs améliorations. La description visuelle du contenu et sa représentation sont sans doute les étapes les plus importantes puisqu'elles conditionnent l'ensemble du processus. Dans le cadre de la détection de concepts visuels globaux, nous montrons la qualité des descripteurs de l'équipe Imedia et proposons le nouveau descripteur de formes LEOH. D'autre part, nous utilisons une représentation par sacs de mots visuels pour décrire localement les images et détecter des concepts plus fins. Nous montrons que, parmi les différentes stratégies existantes de sélection de patches, l'utilisation d'un échantillonnage dense est plus efficace. Nous étudions différents algorithmes de création du vocabulaire visuel nécessaire à ce type d'approche et observons les liens existants avec les descripteurs utilisés ainsi que l'impact de l'introduction de connaissance à cette étape. Dans ce cadre, nous proposons une nouvelle approche utilisant des paires de mots visuels permettant ainsi la prise en compte de contraintes géométriques souples qui ont été, par nature, ignorées dans les approches de type sacs de mots. Nous utilisons une stratégie d'apprentissage statistique basée sur des SVM. Nous montrons que l'utilisation d'un noyau triangulaire offre de très bonnes performances et permet, de plus, de réduire les temps de calcul lors des phases d'apprentissage et de prédiction par rapport aux noyaux plus largement utilisés dans la littérature. La faisabilité de l'annotation automatique n'est envisageable que s'il existe une base suffisamment annotée pour l'apprentissage des modèles. Dans le cas contraire, l'utilisation du bouclage de pertinence, faisant intervenir l'utilisateur, est une approche efficace pour la création de modèles sur des concepts visuels inconnus jusque là, ou en vue de l'annotation de masse d'une base. Dans ce cadre, nous introduisons une nouvelle stratégie permettant de mixer les descriptions visuelles globales et par sac de mots.

Tous ces travaux ont été évalués sur des bases d'images qui correspondent aux conditions d'utilisation réalistes de tels systèmes dans le monde professionnel. Nous avons en effet montré que la plupart des bases d'images utilisées par les académiques de notre domaine sont souvent trop simples et ne reflètent pas la diversité des bases réelles. Ces expérimentations ont mis en avant la pertinence des améliorations proposées. Certaines d'entre elles ont permis à notre approche d'obtenir les meilleures performances lors de la campagne d'évaluation ImagEVAL.