
Partant du constat de l’existence d’un fort déséquilibre entre le fort taux d’équipement en système de diffusion HD des particuliers et la taille encore réduite des œuvres disponibles selon ce format, le projet Sarah a proposé de développer des outils de conversion efficaces des œuvres mono et stéréo vers le multicanal (5.1 et/ou 7.1). Plus précisément, l’ambition du projet Sarah était d’industrialiser le service de remastering 5.1 développé par Audionamix et les studios Copra et déjà validé par les studios Disney, Universal et Warner. Ce service a été utilisé par Olivier Dahan pour remasteriser 5 chansons d’Édith Piaf pour la bande son de son film La Môme.
Le projet Sarah, qui s’est déroulé de 2006 à 2009, a permis de développer de nouveaux outils de démixage basés sur de nouvelles techniques de séparation de sources audio. Ces techniques permettent d’extraire les sources séparées à partir d’un mélange. Si les performances de ces techniques sont encore en phase d’amélioration dans les laboratoires de recherche, elles peuvent être néanmoins utilisées pour réaliser des tâches de démixage sur des signaux musicaux réels quand elles sont mises en œuvre par un opérateur qualifié. Dans le cadre de Sarah, des améliorations ont été proposées pour accroître la qualité de la séparation, ainsi que son automatisation afin de diminuer le coût du service. Les performances des techniques développées dans le cadre de ce projet ont été soigneusement évaluées au regard des techniques existantes, notamment dans des évaluations internationales (SISEC 2010 http://sisec.wiki.irisa.fr/tiki-index.php). Au niveau technique, Sarah a fourni des outils plus efficaces aux chargés de production chez Audionamix, et donc d’industrialiser le processus de démixage.
Le succès du projet SARAH a reposé sur l’automatisation et l’amélioration de la qualité des techniques de séparation de sources. La recherche de l’automatisation a conduit les partenaires à effectuer une étude novatrice sur la reconnaissance automatique des instruments dans des morceaux en contenant plusieurs. L’amélioration de l’automatisation a concerné deux volets : l’automatisation de l’annotation du mélange et l’automatisation de la sélection des modèles de sources sonores. L’annotation du mélange permet d’identifier quelles sont les sources sonores actives (par exemple, les instruments) en fonction du temps. La sélection des sources est quant à elle un processus nécessaire au fonctionnement de l’algorithme de démixage. En effet, avant tout démixage, il était nécessaire d’identifier et de sélectionner manuellement des morceaux où la source joue isolément. Des stratégies d'apprentissage statistique (ou machine learning) ont été mises en œuvre en combinaison avec des techniques automatiques de séparation de sources. Les résultats de la combinaison de techniques sont encourageants, et ce malgré la difficulté de la tâche.
L’amélioration de la qualité de la séparation de source a été permise par une meilleure prise en compte de l’opérateur dans le processus de séparation de source, ainsi qu’en tirant parti de la position des sources dans l’espace dans le cas des morceaux en stéréo.
Le projet Sarah a débouché sur des gains en coûts d’opération. Les technologies développées ont en effet permis de rendre le processus de séparation moins complexe et de rendre la tâche possible à effectuer par des opérateurs, et non plus par des ingénieurs ou chercheurs. Les techniques développées fonctionnent désormais sur des fichiers mono et stéréo. Il a mis en lumière la nécessité de prendre en compte cet opérateur dans le processus de séparation : l’humain dispose en effet de capacités d'analyse du contenu qui lui permettent de paramétrer l’algorithme de façon efficace. Il a enfin renforcé la synergie entre la recherche amont en séparation de source (Télécom ParisTech), la recherche appliquée et le développement (Audionamix) et l’utilisateur (Studios Copra).
Le projet Sarah a permis d’effectuer un travail scientifique fondamental et appliqué dans le domaine de la séparation de sources audio. Il a fait l’objet de plusieurs publications scientifiques (lien vers la page de publication) dans des conférences et revues internationales renommées dans le domaine (IEEE Transactions on Audio, Speech and Language Processing, IEEE ICASSP, WASPAA). Un brevet a été déposé aux Etats-Unis. Il concerne l’une des méthodes développées dans le cadre du projet.