Mac Music  |  Pc Music  |  440Software  |  440Forums  |  440tv  |  Zicos
Partager cette page
Bienvenue visiteur
Nos Partenaires

Le MPEG audio (MP3) - part 2

1 avril 1999 - par cbraut
Après avoir retracé l'historique des phases 1 et 2, voici les dernières nouvelles du front MPEG Audio, avec un tour d'horizon de la phase 4, toute fraîche sortie du chapeau de ses concepteurs.

Prévu pour la télévision haute-définition, le MPEG-3 n'a jamais vu le jour : il fut abandonné, le MPEG-2 ayant été jugé suffisant. Nous passons donc directement au MPEG-4, sous titré Very Low Bitrate Audio-Visual Coding. Finalisés en octobre dernier, les travaux avaient démarré en juin 1993 . Sans doute le document officiel ISO/IEC 14496 sera-t-il publié à l'heure où vous lirez ces lignes.
Le bon profil
    Cette troisième phase élargit encore le champ d'action du MPEG, poursuit les efforts menés par le MPEG-2 pour se plier aux exigences des médias à faibles débits, Internet en tête. La télévision numérique et les applications à base de graphisme interactif sont également concernées. Plus conceptuel, le MPEG-4 décrit des éléments visuels, audio ou audiovisuels. Qualifiés de Media Objects, ces éléments pourront être issus de sources enregistrées/numérisées ou générés par ordinateur. Mentionnons-le au passage : le format de fichiers s'appuie sur l'architecture QuickTime Apple.
    Revenons à l'audio, qui occupe toujours la "troisième partie" et fait logiquement l'objet de la norme 14496-3. Sous cette référence sont réunis quatre Profiles, consistant chacun en un ensemble de fonctions et d'outils associés. Dans l'ordre, nous trouvons : Speech (compression de la parole au travers des algorithmes HVXC et CELP, synthèse vocale), Synthesis (synthèse vocale toujours, mais surtout synthèse au sens large, avec transmission des "instruments" mis en équations pour que l'ordinateur puisse générer les sons nécessaires, et de la "partition électronique"... notamment via Midi), Scalable (fonctionnalités de Speech, auxquelles s'ajoute la compression de musique via les algorithmes AAC LC, AAC SSR et TwinVQ), Main (fonctionnalités des trois autres Profiles, auxquelles s'ajoute la compression de musique via l'algorithme AAC Main). En pratique, ces différents outils servent à coder le son, pour des débits compris entre 2 et 64 kbps. Le HVXC est recommandé pour la voix (de 2 à 4 kbps, sur des signaux à 8 ou 16 kHz), le CELP aussi (de 4 à 24 kbps, cette fois), la musique s'appuyant sur l'AAC et le TwinVQ. Les débits couverts par ces deux algorithmes s'échelonnent de 6 à 64 kbps/canal, pour l'encodage de signaux PCM dont les fréquences d'échantillonnage démarrent à 8 kHz.
L'échelle des valeurs
    Par rapport à sa version MPEG-2, l'AAC se voit amélioré et agrémenté de nouveaux outils de codage, au coeur de la technologie exploitée par le MPEG-4 pour véhiculer un contenu audio musical. Parmi les améliorations apportées, nous retiendrons entre autres le concept de "scalability" (terme difficilement traduisible - éventuellement par "mise à l'échelle") : l'un des points clefs de ce standard naissant. On rencontre des termes tels que "bitrate scalability" (moyennant une baisse de qualité, bien sûr, le débit d'un flux de données peut-être réduit, à la transmission ou au décodage), "bandwidth scalability" (même principe, en conservant une même qualité mais en se privant cette fois d'une partie du spectre), ou "decoder complexity scalability" (possibilité de soumettre le décodage d'un même signal à des décodeurs de complexité différentes), sans parler d'un mélange des genres (couche de base encodée en TwinVQ, couche supplémentaire en AAC).
On écoute
    Tout comme avec le MPEG-2, de nombreux tests on été menés pour évaluer la qualité des algorithmes de compression du MPEG-4 et les comparer à des équivalents. Par exemple, le TwinVQ à 6 kpbs se montre meilleur que le MPEG-1 Layer III à 8 kbps, et l'AAC 16 kbps un peu moins performant qu'un dénommé G.722 48 kbps (au débit trois fois supérieur, donc). Destiné à compresser des signaux musicaux, l'AAC, dans sa déclinaison "scal", ou "Large Step Scaleable System" (flux à 56 kbps dont on peut extraire des versions 24 et 40 kbps), affiche une nette supériorité par rapport au MPEG-1 Layer III, mais ne détrône pas l'AAC Main, auquel il est légèrement inférieur en 40 et 56 kpbs (seul le 24 kpbs soutient la comparaison). Enfin, dans sa déclinaison "scal BSAC", ou "Small Step Scaleable" (flux à 56 kbps, dont on peut extraire des versions descendant jusqu'à 40 kpbs), il s'avère quasi-identique à l'AAC Main en 56 kpbs, mais très en-dessous en 40 kpbs. Peut mieux faire ! Signalons que l'AAC scal, BSAC ou non, encode des signaux échantillonnés à 24 kHz.
Vecorisation
    Si le TwinVQ, avec l'AAC, représente une avancée majeure par rapport au MPEG-1 Layer III, difficile de savoir exactement comment il procède. On murmure que le signal serait encodé, non plus selon l'effet de masquage, mais en fonction d'une "table" de variations sonores : une sorte de "vectorisation"... Toujours est-il que la qualité de cet algorithme développé par le géant des télécommunications japonais NTT est étonnante. La plage de fréquence d'échantillonnage des signaux à encoder, mono ou stéréo, en 8 ou 16 bits, s'échelonne de 8 kHz (8 kbps par canal) à 44,1 kHz (48 kbps par canal), ce qui donne des ratios compris entre 1:15 et 1:86. On murmure que les TwinVQ 80 et 96 kbps seraient meilleurs que les MPEG-1 Layer III 128 et 256 kbps. On dit aussi que l'on peut atteindre des ratios de 1:17 à 1:20 sans trop de conséquences sur la qualité, ou encore que le TwinVQ (les fichiers sont flanqués du suffixe ".vqf"), comme d'ailleurs l'AAC, ménage plus les aigus que le Layer III.
Pour conclure
    Le MPEG-4 est encore trop jeune pour que l'on puisse réellement juger de la portée des progrès effectués. Toujours est-il qu'après le succès du MPEG-1 (Internet, Video CD, DAB, DVD...), et de son grand-frère le MPEG-2 (satellite, câble...), on peut s'attendre à ce que cette nouvelle phase accélère la diffusion audio sur le Web. Les outils sont là, semblent faire leurs preuves, et ne demandent qu'à être exploités. Cela n'empêche pas les travaux de poursuivre, avec à l'horizon de l'automne 2001 la concrétisation du MPEG-7, sous-titré Multimedia Content Description Interface. Encore plus abstraite que le MPEG-4, cette nouvelle phase code des objets à un niveau cognitif... pourrait-on dire en toute simplicité !
    Quoiqu'il en soit, entre la facilité avec laquelle télécharger des fichiers ".mp3" sur Internet et les prometteurs AAC ou Twin VQ, nous voici à l'aube d'une petite révolution dans la façon d'écouter de la musique. Un phénomène dont l'ampleur est renforcée par l'arrivée du Rio PMP300 et autres baladeurs à mémoire conçus pour accueillir de tels fichiers. Un phénomène qui récolte les suffrages des internautes et sème la panique chez les ayant-droits. Mais ça, c'est une autre histoire...
Notes
    Abréviations

    BSAC : Bit Sliced Arithmetic Coding
    CELP : Code Excited Linear Predictive
    DAB : Digital Audio Broadcasting
    HVXC : Harmonic Vector eXcitation Coding
    NTT : Nippon Telegraph and Telephone
    TwinVQ : Transform Domain Weighted Interleave Vector Quantization

    En situation

    Pour vous aider à évaluer les mérites comparés du MPEG-1 Layer III (en 128 kbps, soit un ratio d'environ 11), du MPEG-2 AAC (mêmes caractéristiques) et du TwinVQ (en 96 kpbs, soit un ratio d'environ 17), nous avons encodé onze fichiers Wav (44.1 kHz/16 bits), disponibles en téléchargement à l'adresse www.braut.com/album/. De nombreux liens vous y attendent également... Sur PowerPC 233 MHz, 20 mn ont été nécessaires pour encoder en TwinVQ un titre de 3'25". Sur PC, équipé d'un 150 MHz overclocké à 187 MHz, le même encodage a pris 50 mn. Une certaine puissance est également requise en lecture : PowerPC 604 150 MHz ou Pentium 133 MHz pour décoder un flux stéréo encodé à 40 kbps par canal (signal d'origine à 44,1 kHz) ! Même combat en mode Advanced Audio Coding. Il aura par exemple fallu 10 mn pour encoder 1'13" de musique, toujours avec notre Pentium 150 overclocké à 187. Un K6 à 233 MHz, lui, vient à bout d'un fichier .wav de 50 Mo en un petit quart d'heure, tandis que 30% de ses ressources (40% d'un Pentium 133) sont monopolisées au décodage, contre 20% pour le MPEG-1 Layer III.


    P.S. : merci à Sébastien Hubert pour son efficace contribution et à Youssef Saidi (Philips), pour sa relecture attentive.



    © Christian Braut
A propos de l'auteur: cbraut
Soyez le premier à donner votre Avis
Vous devez être identifié comme membre pour pouvoir utiliser cette fonctionnalité!
Pas encore membre?
Devenez membre! C'est rapide, gratuit et cela vous permet de poster vos annonces, vos news, des questions dans les forums, de changer vos réglages d'affichage...
Contribuez
PcMusic est VOTRE site.Participez à son évolution...
Cette section de PcMusic est entretenue par Nantho et l'équipe des traducteurs. N'hésitez pas à lui proposer vos articles.
20:06 CEST - © PcMusic 1997-2017