Principes de Numérisation du Signal Vidéo-fréquence PDF
Document Details
Uploaded by BrighterByzantineArt6111
Tags
Summary
Ce document présente les principes de numérisation des signaux vidéo-fréquence. Le document explore les différents systèmes de numérotation, en particulier le système binaire, et fournit des exemples d’additions et de soustractions en binaire.
Full Transcript
PRINCIPES DE NUMERISATION DU SIGNAL VIDEOFREQUENCE SYSTEME DE NUMERATION On utilise les " systèmes de numération" pour compter des objets et de les représenter par des nombres. Trois notions interviennent dans un système: la base B du système, c'est un nombre entier quelconque. Les digits...
PRINCIPES DE NUMERISATION DU SIGNAL VIDEOFREQUENCE SYSTEME DE NUMERATION On utilise les " systèmes de numération" pour compter des objets et de les représenter par des nombres. Trois notions interviennent dans un système: la base B du système, c'est un nombre entier quelconque. Les digits du système sont des caractères tous différents et représentent chacun un élément de la base; il y en a donc B au total Poids du digit selon son rang (Bit de poids fort (MSB) Bit de poids faible(LSB) SYSTEME BINAIRE Le système binaire est un système de numération utilisant la base 2. On nomme couramment bit (de l'anglais binary digit, soit « chiffre binaire ») les chiffres de la numération binaire. Ceux ci ne peuvent prendre que deux valeurs, notées par convention 0 et 1. C'est un concept essentiel de l'informatique. En effet, les processeurs des ordinateurs sont composés de millions de transistors (imprimés sur un circuit électronique) qui chacun ne gère que des bits 0 (« le courant ne passe pas ») et 1 (« le courant passe »). Un calcul informatique n'est donc qu'une suite d'opérations sur des paquets de 0 et de 1, appelés octets lorsqu'ils sont regroupés par 8. 1-1. Conversions Le codage le plus courant est l'équivalent en base deux de la numération de position que nous utilisons quotidiennement en base 10. ◦ 1-1-1. Énumération des premiers nombres ◦ Les premiers nombres s'écrivent : décimal binaire 0 0000 1 0001 2 0010 3 0011 4 0100 5 0101 ◦ (Sachant que les colonnes binaires correspondent respectivement à 8,4,2 et 1) ◦ On passe d'un nombre binaire au suivant en ajoutant 1, comme en décimal, sans oublier les retenues et en utilisant les tables d'additions suivantes: ◦ 0+0=0 0+1=1 1+0=1 1+1=10 Addition ◦ 1. 1011 + 0110 = 2. 10101+ 1101= 3. 110111 + 111011= 4. 1010111 + 10010 = 5. 11011001 + 110110 = 6. 101010001 + 1011100 = 7. 10110110101 + 1001110 = 8. 1101010011 + 101110 = 9. 100110100 + 10101110 = 10. 1010101010 + 10011111 soustraction Multiplication Division L'arithmétique binaire (plus simplement le calcul binaire) est utilisé par les systèmes électroniques les plus courants (calculatrices, ordinateurs, etc.) car le niveau de tension peut servir à représenter les deux chiffres 0 et 1 ; 0 représentant l'état bas et 1 l'état haut. Tout nombre peut s'écrire en binaire, c'est à dire qu'il se décompose en somme de puissances de 2(1;2;4;8;16;32;64;...), par exemple 35 se décompose en : 5 4 3 2 1 0 (1 * 2 ) + (0 * 2 ) + (0 * 2 ) + (0 * 2 ) + (1 * 2 ) + (1 * 2 ) = 32 + 2 + 1 = 35 donc le nombre décimal 35 se note 100011 en binaire. 1-1-2. Expression d'un nombre Un nombre décimal à plusieurs chiffres tel que 123 s'exprime ainsi : 1 * 100 + 2 * 10 + 3 * 1 = 1 * 102 + 2 * 101 + 3 * 100 Sa représentation en binaire est 1111011 et s'exprime de la même façon : 1 * 64 + 1 * 32 + 1 * 16 + 1 * 8 + 0 * 4 + 1 * 2 + 1 * 1 = 1 * 2 6 + 1 * 25 + 1 * 24 + 1 * 23 + 0 * 22 + 1 * 21 + 1 * 20 suite de 1010-10100 Représentation des entiers positifs Pour trouver la représentation binaire d'un nombre, on le décompose en somme de puissances de 2. Par exemple avec le nombre dont la représentation décimale est 59 : 59 = 1×32 + 1×16 + 1×8 + 0×4 + 1×2 + 1×1 59 = 1×25 + 1×24 + 1×2³ + 0×2² + 1×21 + 1×20 59 = 111011 en binaire 1-1-2-2. Complément à deux Afin de pallier ce défaut, on a introduit la représentation par complément à deux. Celle-ci consiste à réaliser un complément à un de la valeur, puis d'ajouter 1 au résultat. Par exemple pour obtenir -5: 0101 codage de 5 en binaire 1010 complément à un 1011 on ajoute 1 : représentation de -5 en complément à deux Ce codage a l'avantage de ne pas nécessiter de différenciation spéciale des nombres positifs et négatifs, et évite en particulier le problème d'ordinateurs anciens (Control Data 6600) qui avaient un « +0 » et un « -0 » dont il fallait faire comprendre aux circuits de tests que c'était le même nombre ! Voici une addition de -5 et +7 réalisée en complément à deux sur 4 bits : -5 1011 +7 0111 __ ____ 2 (1) 0010 (on 'ignore' la retenue) Avec n bits, ce système permet de représenter les nombres entre -2n-1 et 2n-1-1. 1-1-4. Entre les bases 2, 8 et 16 Du binaire vers octal ou hexadécimal Les bases 8 (octale) et 16 (hexadécimale) sont des bases multiples de la base 2. Ces deux bases ont été couramment employées en informatique et pour des raisons pratiques; ces bases étant fortement liées à la base 2 et les nombres écrits dans ces bases étant plus "manipulables" (car d'écriture plus courte) par l'intellect humain. L'écriture de nombres dans ces bases est facilement obtenue par regroupement de chiffres de l'écriture du nombre en base 2. 0 000 0 1 001 1 2 010 2 3 011 3 4 100 4 5 101 5 6 110 6 7 111 7 ◦ Bit de poids fort (MSB) Bit de poids faible(LSB) SIGNAL VIDEO NUMERIQUE La vidéo regroupe l'ensemble des techniques, technologie, permettant l'enregistrement ainsi que la restitution d'images animées, accompagnées ou non de son, sur un support adapté à l'électronique et non de type photochimique. Le signal analogique ◦ Un signal analogique est un signal a temps et amplitude continus dont la mesure a tout instant t est un nombre reel. La vidéo analogique Ce signal vidéo YUV a longtemps été enregistré sur des cassettes à bandes magnétiques, et sous différents formats : Le format composite (VHS, Vidéo 8,) Les informations de luminance et de chrominance sont combinées en un seul signal et enregistrés sur une même piste magnétique. Vidéo de basse qualité, grand public. Le format S-Vidéo (formats S-VHS, Hi8) Il transmet les informations de luminance et de chrominance via deux câbles différents. Notons que ces deux signaux seront, par la suite, enregistrés sur une même piste sur la cassette. Vidéo de meilleure qualité, longtemps utilisée par les vidéastes amateurs. Le format composante ◦ Les informations de luminance (Y) et les informations de chrominance (R-Y et B-Y) sont transmises et enregistrées sur des pistes différentes. Lors de l’enregistrement, on diminue la quantité d’information concernant la couleur pour réduire le flux d’information. Mais aucune perte de qualité n’est visible puisque la compression porte principalement sur les informations de chrominance inutilisées par l’œil humain. Ce format garantit ainsi une qualité irréprochable. Ce format est le format analogique professionnel. ◦ Une fois ces signaux créés, transmis et enregistrés, ils sont restitués, en chemin inverse dans les téléviseurs, pour recréer une image visible par l’œil humain. Comment passe-t-on de l'analogique au numérique ? ◦ La transformation d'un signal analogique en signal numérique est appelée conversion numérique ou encore numérisation. Un signal analogique, pour être converti en signal numérique, doit être numérisé par un convertisseur analogique numérique (CAN). La numérisation consiste à prélever un certain nombre d'échantillons à une « fréquence d'échantillonnage », puis à les coder sur un certain nombre de bits, « la quantification ». ◦ Le signal numérique fourni par le calculateur est reconverti finalement en signal analogique par un CNA (Convertisseur Numérique-Analogique) Une image numérique Une image numérique est une image (dessin, icône, photographie...) créée, traitée, stockée sous forme binaire (suite de 0 et de 1). Le pixel (abréviation venant de l'anglais : Picture élément) est l'élément de base d'une image ou d'un écran, c'est-à- dire un point Lumi. L'ensemble de ces pixels est contenu dans un tableau à deux dimensions (largeur et hauteur) constituant l'image. Qu’est-ce qu’une vidéo numérique Vidéo = Son + Images Caractéristiques importantes : Nombre d’images par secondes Nombre de pixels par image Codage de la couleur Fréquence d’échantillonnage Niveaux de quantification Nombre d’images par secondes : Cinéma : 24 im/s Télévision : 25 im/s ou 30 im/s (dépend du format) La résolution La résolution d'une image est le nombre de pixels contenus dans l'image par unité de longueur. Elle s'exprime le plus souvent en ppp (point par pouces) ou en dpi (dots per inch), parfois en point par cm. 1 pouce (ou inch) = 2,54 cm. La résolution définit la netteté et la qualité d'une image. Plus la résolution est grande (c'est-à-dire plus il y a de pixels dans une longueur de 1 pouce), plus votre image est précise dans les détails. La définition La définition est le nombre de points (ou pixels) que comporte une image numérique en largeur et en hauteur (le nombre de colonnes et nombre de lignes). On parle aussi de Taille en pixels. Exemple : une image dont la définition est 1600x1200 correspond à une image de 1600 pixels en largeur et 1200 pixels en hauteur. Balayage ◦ Un flux vidéo est composé d'une succession d'images, 25 par seconde en Europe (30 par seconde aux USA), composant l'illusion du mouvement. Chaque image est décomposée en lignes horizontales, chaque ligne pouvant être considérée comme une succession de points. La lecture et la restitution d'une image s'effectue donc séquentiellement ligne par ligne comme un texte écrit : de gauche à droite puis de haut en bas. Résolution de l'image et fréquence de balayage Il existe différents formats d'image vidéo, qui dépendent essentiellement de la fréquence de balayage vertical de l'image. 405 lignes 50 Hz (standard anglais abandonné) noir et blanc 525 lignes 60 Hz : résolution 4/3 utile = 720 x 480 (standard américain) couleur NTSC et PAL-N 625 lignes 50 Hz : résolution 4/3 utile = 720 x 576 (standard européen) couleur PAL, SECAM et NTSC-4.43 819 lignes 50 Hz : résolution 4/3 utile = 1024 x 768 (standard français abandonné) noir et blanc ◦ Il faut distinguer deux fréquences de balayage de l’image : Le balayage vertical, qui s'effectue de haut en bas et sert à composer l'image. Il s'effectue 50 ou 60 fois par seconde. Le balayage horizontal, qui s'effectue de droite à gauche pour chaque ligne de l'image. La fréquence de balayage horizontal est donc égale à la fréquence verticale multipliée par le nombre de lignes et divisée par deux à cause de l'entrelacement. Ce qui donne les valeurs suivantes : ◦ Fh(50Hz) = 50 x 625 / 2 = 15625 Hz ◦ Fh(60Hz) = 60 x 525 / 2 = 15750 Hz ◦ Ce résultat n'est pas dû au hasard. Si les fréquences horizontales sont presque les mêmes en 50Hz et en 60 Hz, c'est que cela permet d'utiliser la même circuiterie de balayage horizontal, donc de réaliser des économies. Numérisation d’un signal La numérisation est un procédé qui transforme un signal électrique (analogique) en un nombre fini de nombres entiers bornés (signal numérique) par une opération de discrétisation du phénomène. On obtient alors un ensemble de données exploitables en informatique/électronique. Les données ainsi « digitalisées » peuvent être stockées et/ou transmises dans une chaine de communication. Ce processus nécessite quatre étapes : le filtrage , l’échantillonnage , la quantification et l’encodage : ◦ Le filtrage ◦ L'échantillonnage consiste à prélever périodiquement des échantillons du signal analogique ; ◦ La quantification consiste à affecter une valeur numérique à chaque échantillon prélevé ; ◦ L’encodage : les ordinateurs ne traitant que des données binaires (0 ou 1), les valeurs numériques retenues sont ensuite traduites en binaire, c'est-à-dire en un ensemble de 0 et/ou de 1 qui constitue le signal numérique. ◦ La numérisation est faite par un convertisseur analogique-numérique (ou « CAN ») : ◦ La qualité du signal numérique dépendra de deux facteurs : - La fréquence d'échantillonnage (appelé « taux d'échantillonnage ») : plus celle-ci est grande (c'est-à-dire que les échantillons sont relevés à de petits intervalles de temps) plus le signal numérique sera fidèle à l'original ; - Le nombre de bits sur lequel on code les valeurs : il s'agit en fait du nombre total de valeurs binaires différentes qu'un échantillon peut prendre (aussi appelé « résolution », et qui vaut 2n, avec n = nombre de bits utilisés pour la numérisation). Plus celui-ci est grand, meilleure est la qualité de la numérisation. ◦A) Le filtrage Avant de passer à l’étape de l’échantillonnage, il est crucial de s’assurer que le signal est bien limité à Une Bande Passante compatible avec La fréquence d’échantillonnage choisie. C’est une opération Qui prépare le signal pour que la conversion s’effectue correctement. On utilise un filtre passe bas dont la réponse est linéaire avant de chuter brutalement. La loi de shannon nyquist indique Fe ≥ 2 x Fmax du signal à numériser On admet que pour la vidéo Fmax = 6 MHz Si cette condition n’est pas respectée, il y a apparition de fréquences aberrantes dans le signal du fait du repliement de spectre. ◦ Pour éviter ce problème, on utilise en amont un filtre anti-Zaliasing (anti-Zrepliement) pour supprimer les fréquences indésirables supérieures à la moitié de la fréquence d’échantillonnage (bruits, parasites etc...) B) L’échantillonnage L’échantillonnage est la deuxième étape de la numérisation : elle consiste à ne conserver que certaines valeurs de tension du signal choisies à intervalle de temps régulier (Te). Cette procédure n’est pas sans conséquence. ◦ Définition Pour numériser un signal, il faut le découper en échantillons de durée égale Te. La fréquence d’échantillonnage correspond donc au nombre d’échantillons par seconde : Fe = 1/Te Plus la fréquence d’échantillonnage sera grande, plus la période d’échantillonnage sera petite, plus le nombre d’échantillons sera grand, plus le signal numérique sera proche du signal analogique et donc meilleure sera la numérisation. Théorème d'échantillonnage de Nyquist--Shannon Pour pouvoir numériser correctement un signal, son échantillonnage (c'est-à-dire sa représentation sous une forme discrète) doit être fait avec une fréquence d'échantillonnage supérieure au double de l'écart entre les fréquences minimale et maximale qu'il contient. Cas de la luminance En 625 lignes et 525 lignes (correspondant aux standard analogiques PAL et NTSC), on considère une bande passante de la luminance limité à 6MHz. 625 x 625 x 4/3 x 25 = 13 millions de points par seconde 525 x 525 x 4/3 x 30 = 11 millions de points par seconde La fréquence d’échantillonnage standard Fe(Y) = 13,5 MHz a été choisie après plusieurs essais de manière à optimiser la qualité de l’échantillonnage et sa mise en œuvre. La fréquence d’échantillonnage a été définie comme 864 fois et 858 fois la fréquence de ligne. Une ligne active numérique contient 720 échantillons. Les 144 autres sont utilisés pour la synchro. Cas de la chrominance On sous échantillonne le signal de chrominance par rapport à la luminance car l’œil est moins sensible à la couleur. On prélève typiquement deux fois moins d’échantillons de chrominance que de luminance. La fréquence d’échantillonnage est alors de 6,75 MHz. soit : 432 et 429 fois la fréquence ligne. 360 échantillons par ligne active L'échantillonnage vidéo correspond donc à un besoin de réduire le poids du signal pour l'enregistrement sur disque ou carte compact flash rappelons que l’espace colorimétrique YUV (YCbCr en numérique) est un espace défini en trois composantes; Y, qui représente la luminance, U et V, qui représentent la chrominance. Ce signal YUV est créé depuis une source RGB; les trois couleurs primaires sont additionnées selon leur poids relatif pour obtenir le signal Y. Le signal U est obtenu en soustrayant le Y du signal bleu, le V est obtenu en soustrayant Y du signal rouge. Voici les quatre échantillonnages utilisés en vidéo : 1) Norme 4:2:2 Les échantillons de chrominance étant moins nombreux, on a choisi de sélectionner les échantillons de la manière suivante : Le premier pixel porte les valeurs de luminance et de chrominance Le second pixel porte seulement la valeur de luminance Ce motif se répète sur chaque ligne Les valeurs manquantes seront par la suite interpolées à partir des valeurs voisines lors de l’affichage. Il existe de nombreuses autres combinaisons possibles, mais celle ci à l’avantage de donner de bons résultats visuellement tout en étant assez simple à mettre en œuvre au niveau des convertisseurs. Ce système est appelé norme 4:2:2 ou CCIR 601. C’est le cas le plus courant. Le premier chiffre indique la fréquence d’échantillonnage de la luminance. Le deuxième chiffre indique la fréquence d’échantillonnage de la chrominance sur les lignes impaires. Le troisième chiffre indique la fréquence d’échantillonnage de la chrominance sur les lignes paires. Est une méthode d’échantillonnage d’un signal vidéo RVB en codage YUV. Pour un bloc de 4 pixels, sur chaque ligne on aura : 4 échantillons de luminance (Y), 2 échantillons de chrominance rouge (U) et 2 échantillons de chrominance bleue (V). Dans ce cas chaque couleur est codée une ligne sur deux. C’est la plus utilisée en vidéo semi-pro. Ce sous-échantillonnage de la chrominance permet d’obtenir un flux moins lourd 2) 4:1:1 Est une méthode d’échantillonnage d’un signal vidéo RVB en codage YUV. Pour un bloc de 4 pixels, sur chaque ligne on aura : 4 échantillons de luminance (Y), 1 échantillon de chrominance rouge (U) et 1 échantillon de chrominance bleue (V). C’est la moins intéressante. 3) 4:2:0 Est une méthode d’échantillonnage d’un signal vidéo RVB en codage YUV. Pour un bloc de 4 pixels, sur chaque ligne on aura : 4 échantillons de luminance (Y) et 2 échantillons de chrominance rouge (U) ou 2 échantillons de chrominance bleue (V). C’est la plus utilisée en vidéo amateur. 4) 4:4:4 Est une méthode d’échantillonnage d’un signal vidéo RVB en codage YUV la plus qualitative. Pour un bloc de 4 pixels, sur chaque ligne on aura : 4 échantillons de luminance (Y), 4 échantillons de chrominance rouge (U) et 4 échantillons de chrominance bleue (V). C’est la méthode utilisée dans les appareil professionnels, notamment le Canon EOS C300 Mark II dévoilé il y quelques jours et bien d’autres YUV 420, YCbCr 422, RGB 444 ◦ La transmission d’un signal vidéo (même noir et blanc) est déjà une tâche complexe en soit. L’arrivée des programmes TV en couleurs a évidemment complexifié la manière de transmettre ces informations surtout une fois que l’on a découvert qu’il était possible de compresser ces données de couleurs et donc d’économiser de la bande passante sans perdre en qualité. Bref, si vous avez déjà vu des 4:2:0 ou des 4:4:4 sans jamais savoir ce que ça voulait dire, alors il est tant de découvrir le chroma subsampling ou sous-échantillonnage de la chrominance en français ! C) Quantification Le nombre de valeurs dont on dispose pour traduire l’amplitude du signal influence aussi le résultat. C’est la quantification et elle s’exprime en nombre de « bit ». En conséquence, plus la quantification est grande, plus on dispose de valeurs fines pour traduire l’amplitude du signal analogique. Remarque : le pas de quantification Le pas p de discrétisation est le plus petit écart de tension entre deux points du signal numérisé. Il est lié à la résolution (nombre de bit) du CAN : P = plage de mesure / 2n plage de mesure = intervalle des valeurs mesurables de la tension analogique n = nombre de bit utilisés par le convertisseur ◦ Exemple : Pour un convertisseur de 12 bits, un calibre de 0 ; 5 V et donc un pas de 1,2 mV, les valeurs permises sont : 0 V, 1,2mV, 2,4 mV, 3,6 mV, 4,8 mV, 6,0 mV … Bruit de quantification Le rapport signal sur bruit en télévision peut être calculé de manière approximative par la relation suivante : S/N = 6*n + 2 (n représente la nombre de bits alloués pour le codage de l’information.) On en déduit que chaque bit supplémentaire améliore le rapport signal/bruit de 6 dB. Pour 8 bits = 6x8+2 = 50 dB Pour 10 bits = 6x10+2 = 62 dB ◦ On utilisait habituellement une quantification de 8 bits soit 256 niveaux disponibles (En pratique seuls 220 niveaux sont utiles). L’œil est capable de percevoir environ 200 nuances de dégradé (dépend des conditions). ◦ On est passé rapidement à 10 bits pour avoir un S/N adapté aux nouvelles caméras et aux exigences de tournage de studio et limiter les imprécisions successives. ◦ On dispose alors de 1024 niveaux différents sur l’échelle de quantification (880 utiles) On obtient un résultat 4 fois plus précis qu’en 8 bits pour seulement 25% de place enplus Structure de la ligne numérique Les lignes analogiques des systèmes à 625 et 525 lignes sont de durées légèrement différentes. Ainsi, la capacité d’une ligne active doit être suffisante pour contenir un nombre suffisant d’échantillons afin de couvrir les lignes des deux systèmes. La norme prévoit 720 échantillons pour le signal de luminance et 360 pour les signaux de chrominance. Ceci est suffisant car les lignes actives analogiques les plus longues sont celles des systèmes à 525 lignes qui nécessitent 710 échantillons pour être totalement analysées. La ligne active 4:2:2 est donc codée sur 1 440 mots (720 +360 +360). Les signaux permettant de positionner la ligne active numérique sont codés respectivement sur 288 mots pour les systèmes à 625 lignes et sur 276 pour les systèmes à 525 lignes Le front avant des impulsions de synchronisation ligne (SAV =Start of Active Video) détermine l’arrivée du premier échantillon et la référence de temps pour la conversion analogique numérique. Le front arrière (EAV=End of Active Video) en détermine la fin. D) L’encodage Définitions Le « Bit » signifie « binary digit », c’est-à-dire 0 ou 1 en numérotation binaire. C’est la plus petite unité d’information numérique manipulable : Avec 1 bit, il est possible d’obtenir deux états : soit 1, soit 0 ; Avec 2 bits il est possible d’obtenir 4 états différents (4 = 2*2 = 2²) : 00, 01, 10 et 11 ; Avec 3 bits on peut obtenir 8 états différents (8 = 2*2*2 = 23) : 000, 001, 010, 011, 100, 101, 110, 111 ; Avec 4 bits, il est possible d'obtenir 16 (= 2*2*2*2), soit 16 états différents ; Plus généralement : Pour un ensemble de n bits, il est possible de représenter 2n valeurs. L’octet est une unité d’information composée de 8 bits. Il permet de stocker une information, un caractère telle qu’une lettre, un chiffre … Remarques : Pour un octet, le plus petit nombre est 0 (représenté par huit zéros 00000000), le plus grand est 255 (représenté par huit chiffres « un » 11111111), ce qui représente 28 ou 256 possibilités de valeurs différentes ; Unités standardisées : 1 kilooctet (ko) = 103 = 1 000 octets 1 mégaoctet (Mo) = 106 = 1 000 ko = 1 000 000 octets 1 gigaoctet (Go) = 109 = 1 000 Mo = 1 000 000 000 octets 1 téraoctet (To) = 1012 = 1 000 Go = 1 000 000 000 000 octets 1 kibioctet (kio) = 210 = 1 024 octets 1 mébioctet (Mio) = 220 = 1 024 kio = 1 048 576 octets 1 gibioctet (Gio) = 230 = 1 024 Mio = 1 073 741 824 octets 1 tébioctet (Tio) = 240 = 1 024 Gio = 1 099 511 627 776 octets Ainsi : 8 bits = 1 octet 1 kilobit = 1 000 bits = 125 oct 1 kibibit = 1 024 bits = 128 oct Conversions binaire ---décimal - Conversion décimal --binaire : cela revient à convertir un nombre de la base 10 en base 2, en réalisant des divisions successives. On réalise une suite de divisions par 2 en divisant par 2 le quotient obtenu, jusqu'à obtenir un quotient nul. On lit les restes en remontant pour obtenir le nombre en binaire. Images numériques i. Encodage d’une image Une image numérique affichée sur un écran est constitué d'un nombre de points colorés appelés pixels. Le mot pixel provient de « picture element », qui signifie en anglais « élément d'image ». Ces pixels sont disposés suivant un quadrillage constitué de m lignes et n colonnes. ◦ Formation d’une image sur un écran LCD : La synthèse additive est utilisée pour l'affichage d'une image numérique sur un écran : en superposant trois lumières colorées rouge, verte et bleue (RVB) d'intensités réglables, on peut recréer un très grand nombre de couleurs. Ainsi, un pixel se compose de trois sous-pixels émettant chacun une lumière rouge, verte ou bleue. Le codage RVB permet d'associer trois nombres à une couleur : un pour la composante rouge (R), un pour la verte (V) et un pour la bleue (B). Chacun de ces éléments dispose de nuances allant de 0 à 255 : 256 couleurs. Pour avoir 256 couleurs, il faut donc 8 bits soit 1 octet. Comme il y a 3 éléments différents RVB, il nous faut donc 3 octets (24 bits) pour rendre bien compte de toutes les nuances : 8 bits sont consacrés à la teinte primaire rouge ; 8 bits sont consacrés à la teinte primaire vert ; 8 bits sont consacrés à la teinte primaire bleu. Le codage des pixels en couleur Le codage le plus utilisé est le codage RVB 24 bits. Chaque couleur primaire est codée sur un groupe de 8 bits, appelé octet, pouvant prendre 256 valeurs différentes comprises entre 0 et 255, correspondant à 256 niveaux d’intensité lumineuse différents. Lorsque la couleur primaire est éteinte, l’octet prend sa plus petite valeur : 0000 0000 Lorsque la couleur primaire a sa plus forte intensité lumineuse, l’octet prend sa plus forte valeur : 1111 1111 Chaque pixel (regroupant les 3 couleurs primaires) est donc codé sur 3 groupes de 8 bits (3 octets), soit 24 bits. Chaque couleur primaire pouvant prendre 256 nuances différentes, chaque pixel peut en prendre plus de 16 millions : 256 × 256 ×256 = 16 777 216 Le codage des pixels en nuances de gris Le codage en nuances de gris consiste à utiliser le codage RVB 24 bits, en limitant le nombre de valeurs possibles prises par un octet : à chaque couleur primaire sera affectée la même valeur de nombre binaire. Puisque un octet peut prendre 256 valeurs différentes, il est possible d’obtenir 256 niveaux de gris différents. Remarques : L'image est codée ligne par ligne en partant du haut ; Chaque ligne est codée de gauche à droite ; En noir et blanc, chaque pixel nécessite un encodage sur 1 bit ; En 256 niveaux de gris ou couleurs, chaque pixel nécessite un encodage sur 8 bits ; En 16 millions de couleurs (= 256 × 256 × 256), chaque pixel nécessite un encodage sur 24 bits (= 3 × 8 bits). ◦ Une image encodée en 24 bits est aussi dite « en couleurs vraies » Exemple : Le carré ci-contre est formé de pixels d'une couleur uniforme dont les caractéristiques RVB sont les suivantes : Composante rouge (R) : 251, soit en codage binaire (sur 8 bits) 11111011 ; Composante verte (V) : 208, soit 11010000 en binaire ; Composante bleue (B) : 151, soit 10010111 en binaire. Le codage binaire sur 24 bits de cette couleur est donc le suivant : 111110111101000010010111 ii. Définition et résolution d’une image Définitions La définition d'une image est le nombre de pixels qui constituent cette image, elle est donc égale à n × m pixels ; La résolution d'une image correspond au nombre de pixels par unité de longueur, souvent exprimée en « ppp» pixels par pouce. Remarques : La résolution d’une image numérique est définie lors de sa numérisation et dépend principalement des caractéristiques du matériel utilisé lors de cette numérisation ; La résolution d'une image numérique définit le degré de détail de l’image : plus la résolution est élevée, meilleure est la numérisation … et plus le nombre de pixels composant l'image est grand ; iii. Taille d’une image numérique ◦ Exemple n°1 : Une image de 1 million de pixels occupera : En noir et blanc (1 bit) : 1 million de bits divisé par 8(3) soit 125 000 octets ; En 256 niveaux de gris ou couleurs (8 bits ou 1 octet) : 1 million d'octets ; En 16 millions de couleurs (24 bits ou 3 octets) : 3 millions d'octets. ◦ Exemple n°2 : ◦ Pour une image en 16 millions de couleurs, chaque pixel est codé sur 3 octets (1 octet par couleur par couleur (Rouge, vert, bleu) ou 1 octet par sous-pixel) soit 24 bits. Si on rajoute le codage de la transparence du pixel (l’alpha) alors il faut rajouter 1 octet. Soit au total 4 octets c'est-à-dire 32 bits. ◦ Pour une image de 1’’ x 1’’, codée sur 4 octets (32 bits) avec une résolution de 720 DPI (ou 720 PPP), la taille sera :, ◦ Définition : 720 × 720 = 518 400 pixels ◦ Taille : 518 400 (pixels) x 4 (octets) = 2 073 600 octets = 2073,6 ko = 2025 kio = 2,07 Mo = 1,98 Mio Exercice : Une image possédant 1600 colonnes et 1200 lignes comporte (Nombre de pixels) 1600 × 1200 = 1,92.106 pixels Cette image a une définition d’environ 2 MPx. Taille : Si l’image précédente de 1,92.106 pixels est codée en 24 bits RVB (3 octets par pixel), sa taille est de : Taille = 3× 1,92.106 = 5,76.106 octets. Si l’image précédente de 1,92.106 pixels est codée en 8 bits N&B (1 octet par pixel suffit alors), sa taille est de : Taille = 1× 1,92.106 = 1,92.106 octets. iiii - Calculs de poids et de débits Il est à présent possible de calculer le poids des informations numérisées. Onconsidérera également le débit en le rapprochant de la durée considérée. ◦ Débit= Poids/Temps iiiiiii- Débit total (brut) Calculons le poids total d’une seconde de vidéo au format Pal échantillonnée en 4:2:2 sur 10 bits. La chrominance est échantillonnée à 13,5 Mhz, on a donc 13,5 millions d’échantillons par seconde. Pour la chrominance, il faut considérer chacun des signaux Dr et Db échantillonnés respectivement à 6,75 Mhz soit 13,5 millions d’échantillons par seconde pour la chrominance. Chacun des échantillons (luminance et chrominance) et quantifié sur 10 bits. On aura donc (13,5 + 6,75 + 6,75) x 10 =270 000 000 bits/s soit 270 Mb/s ◦ Nous venons de calculer le débit total, ou débit brut pour cette vidéo (270 Mb/s). Cela correspond à l’intégralité du signal utile pour la vidéo, pour l’audio et pour la synchronisation. C’est la quantité de données nécessaire pour transférer le signal dans de bonnes conditions. LuminanceY ChrominanceCr ---Cb Bande passante 5,75 MHz 2,75 MHz Fréquence d'échantillonnage 13,5 MHz 6,75 MHz Nombre d'échantillon par ligne 864 432 ---432 Nombre d’échantillons utiles par Quelques valeurs à connaître… ligne 720 360 ---360 Structure orthogonale surdeux Suivant les recommandations de Structure d'échantillonnage trames entrelacées la norme 4 :2 :2 220 niveaux 225 niveaux Quantification 8 bits utiles utiles 880 niveaux 900 niveaux Quantification 10 bits utiles utiles qualité 8 bits : 58 dB Rapport signal sur bruit qualité 10 bits : 70 dB Codage Binaire Binaire décalé 8 bits : 216 Mb/s Débit brut 10 bits : 270 Mb/s 8 bits : 166 Mb/s Débit net 10 bits : 207 Mb/s Exemple : la résolution horizontale en PAL/SECAM (bande passante : 5,5 MHz) est de 430 lignes, tandis que celle du VHS (bande passante : 3 MHz) n’est que de 240 lignes. De manière générale, on retiendra qu’une bande passante de 1 MHz correspond à une résolution horizontale de 80 lignes. La résolution verticale d’une image affichée avec un balayage entrelacé est égale au nombre de lignes multiplié par le « facteur de Kell », de valeur 0,7. Ce dernier indique le rapport entre la résolution verticale mathématique (576 lignes théoriques) et celle réellement obtenue. Ainsi, en 625/50, la résolution verticale de l’image vidéo est de 403 lignes (576 0,7). Avec un balayage progressif, le facteur de Kell est égal à 1 ; la résolution verticale est directement égale au nombre de lignes visibles. Nous allons à présent passer en revue les trois standards vidéo composites utilisés selon les zones géographiques, qui sont, par ordre de création, le NTSC (525 lignes par image, 60 trames par seconde), le SECAM et le PAL (625 lignes par image, 50 trames par seconde). Débits du signal numérisé L ’échantillonnage norme 4:X:X 4:1:1 Luminance 13,5 Mhz : Chaque composante de chrominance 3,375 Mhz 4:2:0 Luminance 13,5 Mhz : Chaque composante de chrominance 6,75 Mhz une ligne sur deux 4:2:2 Luminance 13,5 Mhz : Chaque composante de chrominance 6,75 Mhz 4:4:4 Luminance 13,5 Mhz : Chaque composante de chrominance 13,5 Mhz Débits du signal numérisé 4:4:4 avec une quantification sur 8Bits ◦ 3*13,5*10=405 Mb/s 4:2:2 avec une quantification sur 8Bits ◦ (13,5+6,75+6,75)*10=270 Mb/s 4:1:1 avec une quantification sur 8 Bits ◦ (13,5+3,375+3, 375)*10=202,5 Mb/s EXERcice ◦ Débits du signal numérisé ◦ 4:2:0 Débits du vidéo numérique Exemple : Soit une image de trois coulour (24bits) ayant une définition de 720*480 : · Nombre de pixels : 640 x 480 = 307200 · 24 bits / 8 = 3 octets (1 octet = 8 bits) · La taille de l'image est donc obtenu par le calcul suivant : · 307200 x 3 = 921600 octets · 921600 / 1024 = 900 Ko (1 ko = 1024 octets) ◦ Pour afficher correctement une vidéo possédant cette définition il est nécessaire d'afficher au moins 30images par seconde, c'est-à-dire un débit égal à : 900 Ko * 30 = 27 Mo/s La résolution de l’image vidéo La résolution horizontale de l’image est directement liée à la largeur de la bande passante utilisée pour transporter ou enregistrer le signal vidéo. Elle est traditionnellement exprimée en « lignes TV » (ou plus simplement en lignes), et fait référence au nombre maximal de lignes verticales blanches et noires pouvant être distinctement perceptibles sur l’écran. Elle se calcule au moyen de l’équation suivante, prenant en compte le ratio 4/3 de l’image : résolution H (lignes TV) = (2 * bande passante * durée ligne active) / (4/3) Codec ◦ Un codec est un procédé capable de compresser et/ou de décompresser un signal numérique. Ce procédé peut être un circuit imprimé ou un logiciel. ◦ Le mot-valise «codec» vient de «compression-décompression» (ou «codage-décodage» - COde-DECode en anglais). D'un côté, les codecs encodent des flux ou des signaux pour la transmission, le stockage ou le chiffrement de données. D'un autre côté, ils décodent ces flux ou signaux pour édition ou restitution. ◦ Les différents algorithmes de compression et de décompression peuvent correspondre à différents besoins en qualité de restitution, de temps de compression ou de décompression, de limitation en termes de ressource processeur ou mémoire, de débit du flux après compression ou de taille du fichier résultant. Ils sont utilisés pour des applications comme la téléphonie, les visioconférences, la diffusion de médias sur Internet, le stockage sur CD, DVD, la télé numérique par exemple. La compression du Video La compression LOSSLESS ET LOSSY Introductio n Une vidéo est une succession d'images à une certaine cadence. L'oeil humain a comme caractéristique d'être capable de distinguer environ 20 images par seconde. Ainsi, en affichant plus de 20 images par seconde, il est possible de tromper l'oeil et de lui faire croire à une image animée. La compression vidéo La compression vidéo est une méthode de compression de données, qui consiste à réduire la quantité de données, en limitant au maximum l'impact sur la qualité visuelle de la vidéo. L'intérêt de la compression vidéo est de réduire les coûts de stockage et de transmission des fichiers vidéo. Soit une image true color (24 bits) ayant une définition de 640*480 : Nombre de pixels : 640 x 480 = 307200 · 24 bits / 8 = 3 octets (1 octet = 8 bits) · Le poids de l'image est donc obtenu par le calcul suivant : · 307200 x 3 = 921600 octets · 921600 / 1024 = 900 Ko (1 ko = 1024 octets) Pour afficher correctement une vidéo possédant cette définition il est nécessaire d'afficher au moins 30 images par seconde, c'est-à-dire un débit égal à : 900 Ko * 30 = 27 Mo/s Qu'est ce qu'un codec et quelle est sont utilité ? Une fois qu'une vidéo est compressée, son format d'origine est changé en un La compression vidéo est effectuée via un codec vidéo format différent (selon le codec utilisé). qui fonctionne sur un ou plusieurs algorithmes de Le lecteur vidéo doit prendre en compression. charge ce format vidéo ou être intégré La compression vidéo est généralement effectuée en supprimant les images, les sons et / ou les scènes au codec de compression pour lire le répétitives d'une vidéo. fichier vidéo. Par exemple, une vidéo peut avoir le même arrière- plan, la même image ou le même son lu plusieurs fois ou les données affichées / jointes au fichier vidéo ne sont pas si importantes. La compression vidéo supprimera toutes ces données pour réduire la taille du fichier vidéo. Qu'en est – il de la vidéo numérique ? La vidéo numérique consiste à afficher Pour connaître le poids en octets une succession d'images numériques. d'une image, il est nécessaire de Puisqu'il s'agit d'images numériques compter le nombre de pixels que affichées à une certaine cadence, il est contient l'image. Le poids de l'image possible de connaître le débit est alors égal à son nombre de pixels nécessaire pour l'affichage d'une que multiplie le poids de chacun de vidéo, c'est-à-dire le nombre d'octets ces éléments. affichés par unité de temps. Ainsi le débit nécessaire pour afficher une vidéo (en octets par seconde) est égal à la taille d'une image que multiplie le nombre d'images par seconde. les formats les plus couramment rencontrés: Tableau comparatif des différents formats vidéo Format vidéo Créateur Année de parution Domaine d’application Format conteneur ? MP4 Moving Picture Experts Group 2003 Apple au départ, progressivement sur toutes sortes Oui d’appareils AVI Microsoft 1992 Toutes les plateformes vidéo et appareils courants Oui MKV Matroska 2003 Fonctionne uniquement avec certains lecteurs Oui MOV Apple 1991 Utilisé principalement sur les appareils de la Oui marque Apple OGG Xiph.Org Foundation 2008 Utilisé par beaucoup de plateformes vidéos et de Oui lecteurs VOB DVD Forum 1997 Avant tout pour les DVD Oui WMV Microsoft 2000 Utilisé pour tous les médias protégés contre la Non reproduction Sous-échantillonnage et interpolation La plupart des techniques de codage qu’on Les yeux humains sont plus décrira dans cette partie, font sensibles aux variations de un échantillonnage et une quantification avant la luminosité que de couleurs. A de coder l’information. Le concept de base du sous-échantillonnage est de réduire cause de ce défaut de l'œil, la les dimensions (horizontale et verticale) de majorité des algorithmes de l’image vidéo et donc de diminuer le nombre compression vidéo représentent les de pixels à coder. images dans l'espace couleur YUV, Certaines applications vidéo sous- qui comprend une composante de échantillonnent aussi le mouvement temporel luminosité et deux de chrominance. pour réduire le débit des images avant de Ensuite les composantes coder. Le récepteur doit donc décoder les chromatiques sont sous- images et les interpoler avant de les afficher. échantillonnées en fonction de la Cette technique de compression peut être composante de luminance avec un considérée comme une des plus élémentaires, rapport Y : U : V spécifique à une qui tient en compte les caractéristiques particulière application. (exemple: physiologiques de l’œil et qui enlève la redondance contenue dans les données avec MPEG-2 le rapport est de 4 : 1 : vidéo. 1 ou 4 : 2 : 2). La Compression Lossless et Lossy Lorsqu’il s’agit de compressions d’images numériques, il existe plusieurs formats différents parmi lesquels choisir. Ceux-ci portent parfois d’autres noms en fonction de nombreux facteurs. Cependant, à un niveau de base, vous trouverez deux types : Qu’est-ce que la compression avec perte « lossy »? Compression avec perte : L’objectif ici est de fournir la plus petite taille de fichier possible pour une image. À ce titre, la qualité de l’image est souvent en bas de la liste des priorités.La compression avec perte supprime définitivement de l’image les données qu’elle juge inutiles. Elle utilise de nombreuses techniques différentes pour y parvenir, ce qui permet d’obtenir des fichiers beaucoup plus petits. Qu’est-ce que la compression sans pert « losseless » ◦ Compression sans perte : Vous trouverez toujours une réduction substantielle de la taille du fichier avec ce format de compression, mais l’image ne souffrira pas d’artefacts et d’autres problèmes. ◦ La compression sans perte supprime également des données, mais elle peut restaurer l’original si nécessaire. L’objectif est de conserver une qualité élevée, tout en réduisant la taille du fichier. ◦ Codecs, normes et conteneurs ◦ Les notions de codec, norme et conteneur sont fréquemment confondus par les néophytes, ou par abus de langage. La norme décrit le format des données. Le codec est le logiciel ou le matériel qui met en œuvre un procédé capable de compresser ou décompresser les données de format normalisé. ◦ A titre d'exemple, MPEG-4 AVC/H. 264 est une norme vidéo, et x264 est un codec capable de produire un flux vidéo respectant cette norme. Il existe d'autres codecs pour cette norme. Quand il n'existe qu'une seule implémentation, les termes codec et norme sont confondus (exemple : VC-1). Un format conteneur contient des flux audio et vidéo respectant une quelconque norme. Ce format permet d'entrelacer les données audio et vidéo, et contient les informations servant aux synchroniser au moment de la restitution. Un conteneur peut contenir plusieurs flux audio et vidéo, mais également des sous-titres, du chapitrage et des menus. ◦ Le choix d'un conteneur peut par contre limiter les normes utilisables au sein de ce dernier. Ainsi un conteneur MPEG-2 ne peut contenir que des flux vidéo MPEGV2 et des flux audio MPEGA 1, 2 ou 3 ou des flux audio AAC. ◦ Codecs propriétaires et libres ◦ Certains constructeurs de matériels électroniques développent eux-mêmes des codecs audio ou vidéo. ◦ On pourra citer l'Avchd par exemple, qui est en fait un dérivé du x264, une implémentation de H. 264 ; mais ayant certaines fonctionnalités qui sont propres aux fabricants qui l'utilisent ou à l'éditeur du logiciel. ◦ Certains codecs dérivés d'une pré-version de norme ; par exemple DivX, qui était une implémentation de la norme en cours d'élaboration H. 263 et H. 264. ◦ Les codecs propriétaires sont développés par des entreprises, et font fréquemment l'objet de brevets dans les pays où c'est envisageable. ◦ Les codecs libres ou ouverts comme Vorbis, sont découverts et développés par des acteurs du logiciel libre pour permettre aux utilisateurs de garder le contrôle des médias qu'ils produisent eux-mêmes. ◦ Quand une norme ISO est publiée, il est demandé aux entreprises de ne pas déposer de brevets ou de ne pas réclamer de droits sur ceux existant, quant à la décompression. Les normes ISO des formats MPEG ne définissent que la manière de décompresser ; chaque entreprise est alors libre de faire ce qu'elle veut sur les astuces de compression. compression intro ◦ https://prezi.com/nqckwpmkn58k/8-compression- intro/?token=92a52cebc5906e076ef146c86c6df8f31a10476661edb055cab84e5ae652ff02&utm_campaig n=share&utm_medium=copy&rc=ex0share ◦ http://debenedetti.be/ Le codage de canal ◦ Le codage de canal consiste à formater le signal d’une manière spécifique afin de l’adapter au mieux au canal de transmission ou au support sur lequel on souhaite l’enregistrer. Lorsque de longues séquences de 1 ou de 0 se produisent, la lecture du signal devient difficile. On parle alors de composante continue. Comment peut-on découper ces plages pour retranscrire correctement l’information ? Comment distinguer l’absence de signal d’un signal de valeur nulle ? La solution consiste à utiliser un codage particulier qui modifie uniquement l’agencement du signal, sans altérer son contenu ◦ Codage NRZ ◦ Le codage NRZ (No Return to Zero, signifiant Non Retour à Zéro) représente le premier système de codage, car il est le plus simple. Il consiste simplement à transformer les 0 en un niveau de tension X et les 1 en un autre niveau de tension +X. Ainsi, il génère un codage bipolaire où le signal n'est jamais nul. Par conséquent, le récepteur peut déterminer la présence ou l'absence d'un signal. Cependant, il peut être difficile de reconstruire le signal d'horloge en raison des plages continues de tension. ◦ g) Codage NRZ-I ◦ Le codage NRZI diffère sensiblement du codage NRZ. Avec ce codage, lorsqu'un bit est à 1, le signal change d'état après le top de l'horloge. En revanche, lorsque le bit est à 0, le signal ne subit aucun changement d'état. Cependant, il présente un défaut majeur : la présence d'une composante continue lors d'une suite de zéros, ce qui peut perturber la synchronisation entre l'émetteur et le récepteur. Ce type de codage est utilisé dans les liaisons série 4:2:2 en vidéo. ◦ h) Biphase mark (Manchester) "Le codage Manchester est également appelé codage biphase ou PE (Phase Encode). Chaque bit est délimité à gauche par une inversion de phase. Si le bit transmis est ‘1’, une inversion de phase supplémentaire est générée au milieu de la période d’horloge. Le bit '1' produit une transition pendant la demi-période d’horloge. Le bit '0' produit une transition suivie d'un maintien pendant la durée de la période d’horloge. Ce codage a une composante continue nulle. Le code contient tous les fronts d’horloge (transition à chaque période) et est considéré comme un auto-synchroniseur. Il est utilisé par les magnétoscopes pour le LTC et dans le cas des liaisons SPDIF." ◦ i) Miller : Un '1' entraîne une transition pendant la demi-période d’horloge. Un '0' isolé ne produit aucun effet, mais deux '0' consécutifs provoquent une transition à la période d’horloge. Ce code présente une faible composante continue mais permet une extraction relativement aisée du signal d’horloge. ◦ j) Miller2 : Ce code reprend les principes du code Miller avec une règle supplémentaire : une suite de deux '1' ne provoque pas de transition à la demi-période. les formats les plus couramment rencontrés ◦ Le MPEG (Moving Pictures Experts Group) : · le MPEG-1, développé en 1988, est un standard pour la compression des données vidéos et des canaux audio associés (jusqu'à 2 canaux pour une écoute stéréo). Il permet le stockage de vidéos à un débit de 1.5Mbps dans une qualité proche des cassettes VHS sur un support CD appelé VCD (Vidéo CD). · le MPEG-2, un standard dédié originalement à la télévision numérique (HDTV) offrant une qualité élevé à un débit pouvant aller jusqu'à 40 Mbps, et 5 canaux audio surround. Le MPEG-2 permet de plus une identification et une protection contre le piratage. Il s'agit du format utilisé par les DVD vidéos. · le MPEG-4, un standard destiné à permettre le codage de données multimédia sous formes d'objets numériques, afin d'obtenir une plus grande interactivité, ce qui rend son usage particulièrement adapté au Web et aux périphériques mobiles. · le MPEG-7, un standard visant à fournir une représentation standard des données audio et visuelles afin de rendre possible la recherche d'information dans de tels flux de données. Ce standard est ainsi également intitulé Multimedia Content Description Interface. · le MPEG-21, en cours d'élaboration, dont le but est de fournir un cadre de travail (en anglais framework) pour l'ensemble des acteurs du numériques (producteurs, consommateurs,...) afin de standardiser la gestion de ces contenus, les droits d'accès, les droits d'auteurs,... Le DivX : Le format DivX est un format de compression/décompression vidéo permettant d'obtenir des vidéos compressées très peu volumineuses avec une perte de qualité très raisonnable. Ainsi le format DivX permet de stocker un film complet de plusieurs heures sur un CD-ROM de 650 ou 700 Mo Un petit peu d'histoire à présent :) Le format DivX a été mis au point en 1999 par un développeur français de 27 ans, du nom de Jérome ROTA. IL fut développé à partir du codec MPEG-4 v3 de Microsoft. En effet le codec MPEG-4 fourni en standard avec la version Bêta du lecteur multimédia Windows Media Player était parfaitement opérationnel mais à la sortie de la version officielle, celui-ci ne fonctionnait plus correctement, c'est la raison pour laquelle Jérôme ROTA décida de le corriger ainsi que d'y ajouter la possibilité de compresser le son au format MP3 et mit au point ce qui allait devenir le format "DivX ;-)" Il fonda par la suite en 2001 l'entreprise DivX Networks afin de développer un nouveau codec propriétaire entièrement réécrit afin de s'affranchir de la dépendance des droits vis a vis de Microsoft. C'est ainsi que fut développé la version 4 de ce codec : DivX4. Au passage à la version 5 du codec (DivX5), il devint payant (DivX®) alors qu'il fut jusqu'à sa version 3.11 alpha un projet OpenSource. Depuis sa version gratuite contient un spyware ◦Le XviD : Le format XviD est une implémentation OpenSource du codec Divx, développée à partir de 2001, à l'occasion du passage du format DivX original (porté par le groupe Project Mayo) à un format propriétaire. Le format XviD propose ainsi une compression de très bonne qualité. ◦ Le MKV : Le format MKV (Matroska Video) est un format vidéo entièrement libre. Plus exactement il s'agit d'un conteneur (d'où le nom Matroska, en référence aux poupées russes) permettant de contenir de la vidéo (DivX, Xvid,RV9, etc.), du son (MP3, MP2, AC3, Ogg, AAC, DTS, PCM), ainsi que des sous-titres (SRT, ASS, SSA, USF, etc.) dans un même fichier. Le format MKV est basé sur une structure dérivée de XML, appelée EBML (Extensible Binary Meta Language). Ainsi grâce au format Matroska, il est notamment possible de réaliser des fonctions de chapitrage, de créer des menus, de faire des recherches dans le fichier, de sélectionner une source sonore ou bien de choisir un sous-titrage. Définition de GOP Groupe d’images (GOP) - un groupe structuré d’images successives dans un flux vidéo codé MPEG. Les images sont regroupées à des fins de compression inter-images. La compression est nécessaire pour transférer la vidéo sur les réseaux. Le logiciel de l’encodeur compresse les données vidéo afin de réduire leur quantité par rapport aux données vidéo non comprimées (brutes). Un flux compressé est une succession de GOPs. Du côté de la réception, le décodeur prend toutes les images d’un GOP et crée une image que vous pouvez voir. Un GOP se compose d’une image I(I-frame) suivie d’images P(P-frame) et d’images B(B-frame). I-frame Image I ou I-frame (image à codage interne) Image de référence. C’est une image fixe et indépendante des autres types d'image. Chaque GOP commence avec une image de ce type. P-frame Image P ou P-frame (image à codage prédictif). Cette image contient des informations de différence (par prédiction compensée de mouvement) avec l’image I (ou image P) passée. C’est également une image de référence. B-frame Image B ou B-frame (image à codage prédictif bidirectionnel). Cette image contient des informations de différence avec les images I (ou image P) passées et futures à l'intérieur d'un GOP. Afin d'éviter une trop grande propagation d'erreur de prédiction, les images B ne sont généralement pas utilisées en tant qu'image de référence. La structure GOP est souvent définie par deux nombres, par exemple M = 3, N = 12. Le premier nombre M indique la distance entre deux images d'ancrage (de type I ou P). Le second nombre N indique la distance entre deux images complètes (images I) : c'est la longueur du GOP. Pour l'exemple M = 3 N = 12, la structure du GOP est IBBPBBPBBPBBI. Au lieu du paramètre M, on peut utiliser le nombre maximal d’images B entre deux images d'ancrage consécutives.