Les technologies clés |
Algorithmes de compression et de décompression de l'image et du son |
Fiche Technologie-clé n : 36
VERSION 3
Les sons et les images, fixes ou animées, nécessitent des capacités de stockage importantes et des débits de transmission élevés. Il s'avère en conséquence fondamental, afin de réduire les capacités et débits nécessaires, de les comprimer. Pour ce faire, on réduit la quantité d'informations utilisée pour définir un son ou une image en exploitant les redondances intrinsèques à ces informations et/ou en adaptant le contenu informationnel aux capacités limitées du système utilisateur (oeil de l'être humain par exemple). Cette opération permet une diffusion davantage optimisée sur les réseaux et/ou un stockage plus efficace sur supports magnétiques ou optiques. Les documents seront ensuite restitués par décompression en fin de cycle.
Afin d'obtenir le meilleur rapport qualité restituée/capacités utilisées, les techniques mises en oeuvre ont pour but de conserver dans le signal les informations les plus significatives (non redondantes et perceptibles par le système utilisateur). D'une manière générale, on distingue deux classes de techniques :
La quasi totalité des normes de codage de l'image comportent des pertes. C'est le cas des normes de visiophonie et visioconférence citées ci-après, de MPEG1 et MPEG2. Il existe un mode sans perte dans JPEG, mais avec un taux de compression faible.
Pour la vidéo, on peut supprimer 2 types de redondances :
Les normes de compression d'images utilisées dans la visiophonie et la visioconférence (H261 et H263) ainsi que MPEG1 et MPEG2 utilisent la DCT et la compensation de mouvements. On utilise également la redondance des valeurs à transmettre en attribuant aux valeurs les plus fréquentes les mots de code les plus courts, ce qui contribue à la réduction des informations à transmettre (technique dite de codes à longueurs variables). Ces techniques de codes à longueurs variables sont réversibles et sont également utilisées pour la compression de fichiers informatiques.
Pour le codage des signaux audio, les phénomènes de masquage auditif sont largement exploités par une analyse fréquentielle (analyse en sous-bandes) et une quantification optimisée.
Les algorithmes de codage de la parole les plus performants utilisent une modélisation du système phonatoire (gorge, cordes vocales), ce qui permet d'obtenir des débits de quelques Kilobits par seconde.
Le monde des télécommunications utilise déjà de manière significative les technologies de compression, notamment pour la téléphonie mobile (GSM, DCS, CT2, DECT ... ). Les techniques numériques de compression/décompression connaissent aujourd'hui un essor très important dans le secteur de la télévision, et ce à la fois pour les aspects professionnels et grand public (cf. les bouquets numériques récemment lancés dans le monde entier). La compression d'images sera également essentielle pour la mise en oeuvre des futurs systèmes à la demande dans lesquels des films (et autres objets multimédia) seront stockés sur des serveurs pour être ensuite mis à disposition des utilisateurs finaux au travers de réseaux de distribution numérique. La radio est également gagnée par le numérique et ses techniques de compression. L'électronique de loisir constitue aussi un marché porteur pour ces technologies. Il en est ainsi des jeux vidéo, en local ou en réseau, qui nécessitent des ressources graphiques et sonores en constante augmentation. Le développement d'Internet et des services en ligne va multiplier la demande en objets multimédia (images fixes, images animées, sons) nécessitant d'être comprimés. Le numérique et ses possibilités de compression/décompression gagnera peu à peu tous les systèmes (téléphonie, télévision, radio, ... ). Les techniques mises en jeu sont, pour chacun des domaines visés, issues d'une connaissance des performances du système utilisateur et des outils électroniques au moyen desquels les algorithmes développés seront mis en oeuvre.
La plupart des normes de compression vidéo (normes de visiphonie et de visioconférence citées ci-dessous, MPEG1, MPEG2) spécifient l'organisation des données compressées générées par un codeur (train numérique) et la façon de les utiliser dans les décodeurs pour reconstruire l'information (récupération des images) ; mais elles ne définissent pas la façon dont l'opération de compression elle-même doit être réalisée. Cela permet l'inter-opérabilité des décodeurs mais ne garantit pas un niveau de qualité pour un train binaire répondant à la syntaxe spécifiée. Les industriels fabriquant des codeurs disposent ainsi d'une marge de manoeuvre importante pour générer des informations compressées conformes à la syntaxe. Il est possible de réaliser des codeurs relativement simples mais peu performants (de mauvaise qualité à bas débit et nécessitant des débits élevés pour une bonne qualité) ou des codeurs plus complexes mais très performants.
Les industriels cherchent, dans la mesure du possible, et en fonction des applications visées (et du prix de la bande passante) pour un débit donné, à réaliser la compression offrant la meilleure qualité d'image et inversement, pour une qualité d'image donnée, à utiliser le plus parcimonieusement possible la bande passante. La mise en oeuvre de telles compressions optimisées permet d'obtenir un avantage compétitif de premier plan vis-à-vis de ses concurrents. Par ailleurs, cette flexibilité dans le codage permet d'adapter au mieux la compression à l'application et permet une large diffusion de la norme MPEG2 dans des domaines très divers.
En matière de codage de la parole, 2 objectifs sont poursuivis :
Implications économiques des progrès réalisés en compression :
Les techniques de compression numérique permettent de rendre la diffusion numérique très attractive car beaucoup moins gourmande en bande passante que la diffusion analogique (8 programmes numériques de qualité standard pour 1 programme analogique par satellite ou sur réseau câblé).
Il faudra de moins en moins de débit pour une application donnée. Par ailleurs, dans le même temps, avec l'introduction de la fibre optique, les réseaux disposeront de capacités de plus en plus importantes et seront de moins en moins coûteux. Les systèmes de stockage (optiques, magnétiques) seront également de moins en moins onéreux. En d'autres termes, l'octet stocké ou transporté, coûtera de moins en moins cher. Les progrès réalisés en compression d'une part, l'augmentation des capacités des réseaux d'autre part nécessitera, pour les opérateurs de réseaux, la recherche de nouvelles applications de plus en plus consommatrices en débits.
Réduction de la quantité d'informations numériques nécessaire pour définir un son ou une image fixe ou animée avant de le stocker (serveurs de production, serveurs vidéo pour services à la demande, DVD, ...) ou de le transmettre (par satellite, câble, hertzien, réseau de télécommunication). Les fonctions de compression ou de décompression trouvent leur place dans les serveurs, les terminaux de type set top box ou PC, les équipements d'accès aux réseaux.
L'emploi des techniques de compression résulte d'un compromis permanent entre :
Il existe différentes méthodes de compression, adaptées aux types d'applications que l'on souhaite mettre en oeuvre :
Toutes ces techniques utilisent la DCT ainsi que l'estimation et la compensation de mouvement.
Les techniques de compression à base de fractales ou d'ondelettes, testées dans le cadre du processus de normalisation MPEG2, n'ont pas montré, en termes d'évaluations subjectives de la qualité des images, à débit constant, d'amélioration significative par rapport aux techniques classiques à base de DCT, ni bien sûr, à qualité égale, de gain significatif (>2) en compression. Pour des applications de type télévision, l'émergence de nouvelles techniques de compression n'est pas envisagée dans les années à venir en raison, d'une part des gains faibles qui seraient apportés par les techniques plus sophistiquées de type ondelettes, fractales, d'autre part des investissements importants qui auront été réalisés dans les techniques actuelles et des parcs qui auront été installés et qu'il faudrait remplacer en cas de saut technologique.
Néanmoins, comme on l'a rappelé plus haut, les spécifications vidéo laissent une importante marge de manoeuvre aux industriels pour la compression proprement dite et l'augmentation des capacités de calculs permet de complexifier de plus en plus les algorithmes de compression, afin d'améliorer les performances des codeurs, en particulier pour les séquences les plus critiques, tout en respectant les principes de la norme.
Les principaux inconvénients des normes de compression à base de DCT et de compensation de mouvement résident dans les effets de blocs (lié au codage par blocs), dans les pertes de détails et l'existence de bruits parasites, dans l'apparence saccadée des mouvements (résultant du traitement de certaines images seulement). En ce qui concerne la visiophonie et la visioconférence, il existe des problèmes de synchronisation du son et de l'image, cette dernière subissant un retard en raison de la plus grande complexité des traitements.
Les programmes de recherche sont orientés vers les techniques d'amélioration de MPEG et des normes H26x (avec adaptation aux mobiles, à l'Internet), et même si ces techniques n'ont pas prouvé pour l'instant qu'elles pouvaient être à même d'apporter des gains substantiels, des travaux sur l'utilisation de nouveaux outils mathématiques tels que les fractales, les ondelettes et les sous-bandes se poursuivent. Les ondelettes et les sous-bandes sont des solutions alternatives à la DCT. Les techniques à base de fractales sont essentiellement étudiées pour les images fixes et nécessitent des calculs très importants, en particulier au codage ; elles sont donc peu compatibles avec le temps réel.
Par ailleurs, de gros progrès sont réalisés dans l'intégration des composants. Ainsi, la fonction de codage vidéo de haute qualité pourra être réalisée prochainement grâce à des cartes au format PC. Les codeurs ainsi que les codeurs/décodeurs pour visiophonie seront mono-chip et des fonctions de modulation et d'interfaces réseaux y seront également intégrées. Du côté des terminaux, pour la 1ère génération, le démultiplexage, le décodage du son, et le décodage de l'image nécessitaient chacun un circuit, son et image ont été regroupés dans la 2ème génération et le démultiplexage est également intégré dans la 3ème.
Les compressions d'images et de sons ont longtemps été effectuées par des matériels (hardware)
spécifiques. La tendance actuelle est d'effectuer ces opérations uniquement par logiciel (software)
, induisant ainsi une baisse des coûts de tels procédés. Par ailleurs, les industriels du composant préparent des super-processeurs qui pourraient révolutionner l'architecture actuelle des terminaux. Ces nouveaux processeurs, qui devraient être à même de traiter les fonctions MPEG-2 (démultiplexage et décodage audio et vidéo) de manière logicielle (donc avec possibilité de supprimer les composants spécifiques MPEG-2) devraient apparaître en 1997. Le côté téléchargeable des algorithmes pourrait ouvrir la voie à des terminaux polyvalents à des coûts raisonnables. Le même terminal, par simple téléchargement, pourrait être à un instant donné un terminal de TV numérique, l'instant d'après un terminal de visioconférence puis un émulateur de console de jeux. Plus raisonnablement, des modifications de norme pourraient être introduites plus facilement.
Pour des applications plus interactives et nécessitant la manipulation d'objets multimédia comprimés, de nouvelles techniques sont mises en oeuvre. Dans cette optique et dans le cadre du processus de normalisation MPEG-4, des études sont menées sur des techniques orientées objet à base de codage de contours et textures ainsi que sur de nouvelles générations de syntaxe de transmission plus adaptées à ces méthodes de compression.
Dans MPEG-4, on décrit les images en objets, ce qui permet une plus grande interactivité, attrayante pour des applications multimédia et une meilleure qualité après codage (moins d'effets de blocs). Le processus de normalisation MPEG-4, qui a débuté en Juillet 1993, a pour but de définir un standard de présentation des informations audiovisuelles numériques et une syntaxe permettant de répondre aux besoins d'une large variété de services multimédia. Les applications envisagées pour MPEG-4 sont tout d'abord la visiophonie sur RTC, la visiophonie mobile, l'accès à des bases de données vidéo, ... Des algorithmes de codage compatibles MPEG-4 sont en cours d'élaboration. MPEG-4 visait au démarrage le codage à bas débit. En réalité, il s'agit aujourd'hui de définir une norme fédératrice générique pour tous les types d'applications multimédia.
Les finalités de MPEG-4 sont :
La clé de MPEG-4 se trouve dans MSDL (MPEG-4 System Description Language), langage permettant de décrire :
et de télécharger les algorithmes nécessaires à la décompression de chaque objet.
Le but est d'arriver à la définition d'un langage universel de description des algorithmes de codage existants et à venir. MEPG-4 doit en principe être publié par l'ISO en 1998.
En ce qui concerne le codage de la parole, et pour les bas débits, les développements, touchent d'une part les techniques CELP avec une amélioration de la quantification vectorielle, d'autre part les techniques spectrales.
Pour la haute qualité, à des débits de l'ordre de 16 à 24 Kbps, il s'agit d'utiliser à la fois des techniques de codage du son (MPEG) à savoir codage par transformée et modèle psychoacoustique, et des techniques utilisées pour la parole (codage prédictif et quantification vectorielle). Des travaux sont également menés pour améliorer la robustesse des codeurs dans des conditions particulières (bruits ambiants, plusieurs locuteurs, musique). Alors qu'en général, les procédés de codage de source et de codage de canal sont développés indépendamment, pour des applications particulières comme la téléphonie mobile des études sont menées sur l'optimisation conjointe de l'ensemble de la chaîne (compression, transmission, décompression).
. Evolutions économiques :
Les enjeux économiques des autoroutes de l'information étant colossaux, les technologies avancent à grands pas dans le domaine. La compression et la décompression d'informations numérisées seront parmi les technologies les plus demandées dans les prochaines années, car elles sont absolument indispensables à la réussite des projets, aussi bien au niveau du stockage que de la transmission de l'information. Les progrès réalisés en terme de composants et l'importance des marchés seront générateurs de fortes baisses de coûts.
Les programmes de recherche en cours et futurs se concentrent principalement sur les différents aspects suivants :
|