Différents types de dégradations PDF
Document Details
Uploaded by GladMoldavite1131
Tags
Summary
Ce document présente différents types de dégradations dans les images numériques, notamment 'effet de bloc', 'effet d'oscillation parasites (ringing effect)', 'flou' et 'bruit'. Il détaille les causes, manifestations, et implications de ces dégradations, ainsi que les facteurs qui affectent l'évaluation subjective de la qualité d'une image.
Full Transcript
Différents types de dégradations 1 Effets de bloc La principale source d’erreur lors de la compression JPEG est ce qu’on appelle l’effet de blocs. Visuellement, cette distorsion se manifeste...
Différents types de dégradations 1 Effets de bloc La principale source d’erreur lors de la compression JPEG est ce qu’on appelle l’effet de blocs. Visuellement, cette distorsion se manifeste généralement au niveau des frontières entre blocs et apparaît comme des contours verticaux et horizontaux dont la visibilité dépend fortement de la distribution spatiale du signal image. En effet, tous les blocs sont encodés indépendamment les uns des autres. Il peut donc arriver qu’à la frontière entre deux blocs, il y ait une discontinuité facilement perceptible par l’oeil humain. 2 Effet d’oscillations parasites (ringing effect) Cette dégradation est due en général à l’étape de quantification ou de décimation des coefficients hautes fréquences. Elle se manifeste sous forme d’oscillations au voisinage des régions à fort contraste et est souvent définie comme un bruit autour de ces régions. Ce sont les ondelettes dont le support croise le bord d’un objet qui créent ce type d’artefact. 3 Flou Effet esthétique qui donne à voir un contour imprécis. Ce type d’erreur qui apparaît principalement dans la compression JPEG et JPEG2000 d’où la perte de netteté de l’image. Cela se caractérise par une image plus floue, dont les bords des objets sont plus diffus. 4 En plus, le flou apparait dans l’image de différentes manières à savoir Le flou au niveau de l’acquisition La perte Le mouvement d’informations Le flou volontaire 5 Bruit On peut définir le bruit comme étant une dégradation dans l'image, provoquée par une perturbation externe. Généralement, on peut savoir les types d'erreurs à attendre, et donc le type de bruit sur l'image, d'où nous pouvons choisir la méthode la plus adaptée pour réduire les effets. Bruit poivre et sel On l’appelle aussi le bruit impulsionnel, le bruit de grenaille, ou le bruit binaire. Cette dégradation peut être causée par de fortes perturbations soudaines dans le signal d'image. Son apparence est éparpillée au hasard en pixels blancs ou noirs (ou les deux) sur l'image, Par contre, ce bruit est obtenu en ajoutant n pixels blancs et n pixels noirs aléatoirement dans une image. On le caractérise souvent par le pourcentage de pixels remplacés. 6 Bruit Gaussien Le bruit gaussien est une forme idéalisée de bruit blanc, qui est provoqué par des fluctuations aléatoires dans le signal. Nous pouvons observer le bruit blanc en regardant une télévision qui est mal accordée à un canal particulier. Si l'image est représentée comme I, et le bruit gaussien par N, alors nous pouvons modeler une image bruyante en additionnant simplement les deux : 7 Évaluation subjective La mesure de la qualité visuelle d'images, appelée classiquement "méthode subjective d’évaluation de la qualité d'images", l’évaluation par les observateurs humains c'est le jugement le plus fiable. Un groupe de personnes (expert et non-expert) décide de la qualité d'une image. Ce dernier est amené a juger la qualité des images qui lui sont présentées selon une grille d’évaluation a plusieurs niveaux d'appréciation. A l'issu de ces tests, une note subjective est obtenue. Facteurs influents Pour assurer la fiabilité de l’évaluation subjective, il est essentiel de prendre en compte certains facteurs qui peuvent influencer énormément le jugement des observateurs, les plus pertinents sont : 1. Distance d'observation 2. Conditions de visualisation 3. Écran 4. Le choix des images 5. Les observateurs 6. Facteurs psychologiques 8 Distance d’observation La distance d’observation affecte la visibilité d’un stimulus. Cette distance est fixée entre 4 à 6 fois la hauteur de l’image de projection et qu’il faut conserver tout au long du test. Écran Il est nécessaire de calibrer le support d’affichage qu’est l’écran afin qu’il fonctionne dans des conditions optimales. Sans cette calibration, les couleurs affichées peuvent être différentes du stimulus d’origine. Conditions de visualisation L’environnement et l’éclairage de la salle affecte effectivement la perception des stimuli (séquence de test). Un éclairage élevé risque de troubler l’observateur et ainsi pourrir sa perception. En revanche, la couleur de fond de la salle affecte l’apparence de certaines couleurs. Le choix des images Un panel d’images de contenus visuels assez variés et le plus représentatif possible des scènes, liées à l’application visée, doit être utilisé. 9 Facteurs psychologiques Pour minimiser les effets liés à l’état psychologique de l’observateur, il convient de débuter les tests par une séance d’initiation permettant à l’observateur de mieux appréhender le test. Il est aussi important d’expliquer clairement l’objectif du test et le protocole à respecter sans pour autant influencer le jugement des participants. De plus, il est préférable de mener de nombreux tests de courte durée (environ 10min) et variés plutôt que de contraindre l’observateur à des séances longues (environ 30min) et fatigantes qui risquent de l’amener à un jugement rapide et aberrant. Observateurs Il est recommandé d’avoir un panel d’observateurs le plus large possible, au moins quinze individus. Ils peuvent être experts ou novices, Avant chaque séance, les observateurs seront sélectionnés pour leur acuité visuelle normale ou rendue normale par correction et leur vision normale des couleurs. L'observateur doit avoir ainsi une acuité visuelle de 10/10 pour les deux yeux avec ou sans correction. Le panel d'observateurs choisi dépend à la fois des types de traitement à évaluer et de la nature de l'étude à mener. Il faut donc prendre en compte, lors de la sélection de ce panel, plusieurs critères comme l’âge mais aussi l'origine socioculturelle, professionnelle, etc. 10 Méthodes catégorielles Les méthodes catégorielles d’évaluation de la qualité d’une image (ou vidéo) offrent a l’observateur une échelle de catégories : celui-ci doit attribuer a l’image (ou la vidéo) présentée une note de qualité située dans la catégorie qui lui paraît la plus proche de son jugement personnel. Cette échelle peut être explicitée sous la forme de vocabulaire qualificatif (adjectifs) allant de “mauvaise qualité” a “excellente qualité” par exemple ou bien sous une forme numérique, allant de 0 a 100. Dans ce dernier cas, l’échelle est dite continue. Selon le mode de présentation des images (ou vidéos) a juger, nous pouvons classer les méthodes catégorielles en deux groupes : méthodes a simple stimulus et méthodes a double stimuli. Méthodes a simple stimulus Ces méthodes consistent a présenter a l’observateur l’image (ou vidéo) dont la qualité est a évaluer : il lui attribue une note de qualité puis après une période dite de latence lui sera présentée l’image (ou vidéo) suivante et ainsi de suite. L’échelle de catégories peut être élargie ou réduite selon la dynamique des dégradations a évaluer en se conformant toujours aux normes 11 Méthodes a double stimulus La méthode a double stimulus est appelée "Double Stimuli Continuous Quality Scale (DSCQS)". Ce protocole de test présente a l'observateur l'image a évaluer et la version originale correspondante. Il lui est demande d’évaluer la fidélité de l'image par rapport a sa version originale. La similarité entre les deux images ou la conservation de l'information représentent la fidélité. Généralement, l'image originale est présentée en premier suivie d'un écran gris, puis de l'image a évaluer, suivie d'un second écran gris permettant a l'observateur de donner sa note. Toutefois, il existe d'autres procédés pour présenter les images (image dégradée / image originale) ou (image dégradée / image dégradée / image originale / image originale). Il est toutefois important d'imposer un temps de présentation identique pour les deux stimuli. 12 Méthodes comparatives Les méthodes comparatives d’évaluation de la qualité d’une image (ou vidéo) consistent a noter la différence entre deux versions d’une même image (ou vidéo) a l’aide d’une échelle : les deux images (ou vidéos) sont montrées en même temps et l’observateur juge laquelle est de meilleure qualité. 13 MOS : Score d’Opinion Moyen Lorsque les tests se terminent, on cherche à trouver la moyenne de la qualité. Une note est attribuée à chaque image en combinant les notes de tous les observateurs. Cette note appelée ”Mean Opinion Score (MOS)” est donnée par la formule suivante : où N est le nombre d’observateurs et est la note de l’observateur j pour la dégradation i de l’image. DMOS : Difference mean opinion score Au lieu d'appliquer directement les résultats d’évaluation, les mesures modernes de qualité d’image utilisent les différences de qualité entre les images. Le DMOS est définie comme la différence entre les notes de qualité brutes des images de référence et de test. Le DMOS est calculé à l'aide du équation suivante : 14 Intervalle de confiance Afin de réduire l’impact d’éventuelles erreurs, un intervalle de confiance est souvent associé à chaque note MOS. Il est généralement fixé à 95% et est donné par la relation suivante : Et l’écart-type pour chaque présentation , est donné par : 15 Évaluation objective de la qualité des images fixes 16 Limites des métriques subjectives Ils sont longs et coûteux. Cela est dû au fait que les résultats subjectifs sont obtenus par des expériences avec de nombreux observateurs. Ils ne peuvent pas être incorporés dans des applications en temps réel telles que la compression et la transmission d’images. Leurs résultats dépendent fortement des conditions physiques et de l’état émotionnel des observateurs. De plus, d'autres facteurs tels que le dispositif d'affichage et les conditions d'éclairage affectent les résultats de ces expériences. 17 Le but de l’évaluation objectives de la qualité est de concevoir des modèles mathématiques capables de prédire la qualité d'une image avec précision et automatiquement. L’idéal est que la méthode objective doit être capable d'imiter les prévisions de qualité d’un observateur humain. Les méthodes IQA ont une grande variété applications: Ils peuvent être utilisés pour surveiller la qualité de l'image dans les systèmes de contrôle de la qualité. Par exemple, les systèmes d'acquisition d'images peuvent utiliser une métrique IQA objective pour surveiller et s'adapter automatiquement afin d'obtenir la meilleure Qualité d'image. Ils peuvent être utilisés pour évaluer les algorithmes de traitement d'image. Par Exemple, si un certain nombre d'algorithmes d'amélioration d'image sont disponibles, une métrique IQA objective peut être utilisée pour choisir l'algorithme qui fournit des images de meilleure qualité. Ils peuvent être utilisés pour optimiser les systèmes de transmission et de traitement d'image. Par exemple, dans un réseau de communication visuelle, une métrique IQA objective Peut être utilisée pour optimiser les algorithmes de pré-filtrage et d'attribution de bit dans la partie codage et de post- filtrage et de reconstruction dans la partie décodage. 18 Catégories des métriques IQA En se basant sur la présence du signal original, on peut classer les métrique IQA en trois catégories Métriques à référence complète 19 Métriques à référence réduite Métriques sans référence 20 Métriques à référence complète Métriques simples(sans prendre en compte le HVS) PSNR (Peak Signal to Noise Ratio) MAX représente la valeur maximal que peut prendre un pixel, le MSE (Mean Square Error) peut être défini par la formule suivante 21 Limite du PSNR 22 21,51 dB 27,22 dB 11.06 dB 26,79 dB 26,11 dB 11.06 dB 23 Métriques avec prise en compte des caractéristiques SVH La plupart des modèles HVS dans le traitement d'image utilisent trois propriétés fondamentales de la vision humaine: la sensibilité de fréquence détermine la sensibilité de l'œil à diverses fréquences spatiales, la sensibilité à la luminance mesure l'effet du seuil de détection du bruit Sur un fond constant, l'effet de masquage détermine la visibilité d'un signal en présence d’un autre signal. 24 Indice de similarité structurelle (SSIM) SSIM est une mesure de similarité entre deux images numériques. Elle a été développée pour mesurer la qualité visuelle d'une image déformée, par rapport à l'image originale. L'idée de SSIM est de mesurer la similarité de structure entre les deux images, plutôt qu'une différence pixel à pixel comme le fait par exemple le PSNR. L'hypothèse sous-jacente est que l’œil humain est plus sensible aux changements dans la structure de l'image. La métrique SSIM est calculée sur plusieurs fenêtres d'une image. On dénote x et y l’image originale et l’image déformée respectivement. La similarité compare la luminance, le contraste et structure entre chaque couple de fenêtres. 25 La luminance est estimée par la mesure de l’intensité moyenne de chaque fenêtre: N : le nombre de pixels de chaque fenêtre. xi: l’intensité d’un pixel. 26 Le contraste pour chaque fenêtre est mesuré par: La similarité est déterminée par la perte de corrélation entre les deux fenêtres: 27 La fonction de comparaison de luminance notée par l(x, y) est une fonction de x et y. Le contraste entre deux fenêtres noté par c(x, y), comparent les variances de x et y. La troisième fonction compare les structures des deux fenêtres données par la fonction s(x, y) en fonction de deux fenêtres normalisés. Finalement la fonction mesurant la similarité, est une fonction de l(x, y), c(x, y) et de s(x, y). 28 Wang et Al ont proposé une fonction de comparaison de la luminance de la forme : On remarque que cette équation est conforme à la loi de Weber, largement utilisée pour la modélisation de l’adaptation à la lumière dans le SVH (système visuel humain). Selon la loi de weber, la variation de luminance est proportionnelle à la luminance de fond. En d’autres termes, le SVH est sensible aux variations relatives de luminance entre les deux signaux ou encore entre les deux images. 29 La fonction de comparaison de contraste prend une forme similaire : La comparaison de structure est réalisée par la corrélation entre les deux vecteurs après soustraction de la luminance et normalisation par la variance. Notons que la corrélation entre les deux vecteurs est une mesure simple et effective de la similarité structurelle. Alors la fonction de comparaison structurelle est donnée par : 30 Finalement, la mesure de similarité résultante des trois comparaisons est donnée par une expression simplifiée de l’index de similarité structurelle entre x et y : où encore sous une forme simplifiée: 31 32 33 bases de données de qualité d'image subjective 34 Toyama image database (2000) La base de données d'images Toyama a été publiée en 2000 par le Laboratoire de technologie de l'information multimédia et de communication (MICT) de l'Université de Toyama, au Japon. La base de données a été construite à partir de 14 images de référence couleur haute résolution. Ces images ont été déformées avec les codeurs JPEG et JPEG2000 à différentes débits binaires : 15, 20, 27, 37, 55 et 79 pour JPEG, et 12, 24, 32, 48, 72 et 96 pour JPEG2000. Cela a abouti à 196 images de test pour lesquelles la qualité a été évaluée. Au cours des expériences, les images ont été présentées à chacun des 16 sujets de manière aléatoire une par une (stimulus unique) et l’observateur a été invité à attribuer à chaque image un adjectif indiquant sa perception de la qualité de ces images. Les adjectifs de qualité correspondent à des valeurs numériques discrètes de 1 à 5. Les adjectifs ont ensuite été convertis en valeurs numériques correspondantes, et le score moyen d'opinion (MOS) a été calculé comme la moyenne des 16 scores pour chaque image avec une fiabilité des sujets de 95% d'intervalle de confiance. Une valeur plus élevée de MOS correspond à une qualité visuelle supérieure de l'image. 35 36 37 LIVE image database (2005) La base de données d'images LIVE a été développée au Laboratoire d'Ingénierie des Images et des Vidéos en collaboration avec le Centre des Systèmes Perceptuels de l'Université du Texas à Austin, aux États-Unis. La première version a été mise en ligne en 2003, tandis que la version 2 a été publiée en 2005. Dans les deux versions, la base de données a été créée à partir de 29 images de référence couleur haute résolution. Dans la version 2, la qualité perceptive d'un total de 982 images de test a été estimée de manière subjective. Les images ont été générées en utilisant cinq types de distorsion : JPEG, JPEG2000, bruit blanc dans les composants RGB, flou gaussien et erreurs de transmission dans le flux binaire JPEG2000. Des tests subjectifs ont été réalisés lors de sept sessions où les observateurs étaient instruits pour évaluer les images et fournir leur perception de la qualité. La méthode est similaire à celle utilisée pour la base de données Toyama. Comme la base de données contient plusieurs images de référence qui ont été évaluées, les scores bruts (de 1 à 5) ont été convertis pour chaque sujet en scores moyens d'opinion différenciés (DMOS). Ce dernier représente la différence entre les scores obtenus pour l'image de référence et sa version de test. Un faible DMOS signifie une légère dégradation, tandis qu'une valeur importante correspond à des distorsions sévères dans l'image. 38 39 40 IVC image database (2006) La base de données IVC a été publiée par le Laboratoire d'Image, Vidéo et Communication de l'Université de Nantes, en France. Cette base de données a été dérivée à partir de 10 images de référence couleur haute résolution qui ont été soumises à la compression JPEG, JPEG2000, au flou et à la codification basée sur la résolution adaptative locale (LAR). Ainsi, 160 images de test ont été générées. La base de données comprend également 25 images monochromes pour lesquelles nous n'avons aucune information sur leur processus de génération. Des évaluations subjectives des images ont été réalisées par 15 observateurs selon la méthode de l'échelle d'altération à double stimulus. Contrairement à la méthode à stimulus unique utilisée pour les bases de données d'images Toyama et LIVE, qui affichent les images de test de manière aléatoire, la stratégie à double stimulus consiste à fournir à la fois les images de référence et de test de manière séquentielle. Chaque observateur est ensuite invité à évaluer le niveau d'irritation causé par les artefacts ressentis sur l'image déformée par rapport à l'image de référence. Les échelles d'altération correspondent à cinq classes marquées avec des adjectifs et des chiffres. Les évaluations sont rapportées sous forme de MOS (Mean Opinion Score). 41 42 43 A57 image database (2007) La base de données A57a été construite à partir d'une expérience d'échelle psychophysique réalisée sur un ensemble de 54 images de test pour mesurer les distorsions perçues. Les trois images de référence en niveaux de gris à partir desquelles la base de données a été dérivée ont été traitées avec six types de distorsions : compression JPEG, compression JPEG2000, bruit blanc additif, flou gaussien, compression JPEG-2000 avec quantification basée sur le contraste dynamique (DCQ), quantification des sous-bandes LH d'une transformée en ondelettes discrète (DWT) à 5 niveaux avec des filtres 9/7. Sept experts en imagerie ont participé à l'évaluation en utilisant un système d'évaluation continue. Cette méthode a été utilisée pour mesurer la fidélité entre deux images altérées. Cela se fait en présentant à la fois l'image de référence et son ensemble de versions de test aux observateurs, qui sont invités à positionner les images de test de manière à ce que celles qui seront placées le plus loin de la référence soient jugées de moindre fidélité visuelle. L'avantage de cette méthode est qu'elle donne aux observateurs la possibilité de comparer simultanément plusieurs versions de test d'une image. Cela leur a permis de déterminer si une image est de meilleure ou de moindre qualité par rapport aux autres versions déformées et à l'image de référence, et de faire des ajustements aux évaluations précédentes si nécessaire. Les MOS (Mean Opinion Scores) sur les observateurs et les images de test ont été dérivés à partir des scores de qualité obtenus. Les valeurs des MOS couvrent la plage [0, 1], de sorte qu'un score proche de zéro correspond à une image contenant un artefact imperceptible, tandis qu'une valeur de MOS proche de un indique que l'image correspondante a été affectée de manière à ce que la distorsion soit très gênante. 44 45 46 TID image database (2008) La version 1.0 de la base de données TID2008 (Tampere Image Database) a été publiée en 2008. En mettant la base de données TID à disposition en ligne, les auteurs ont cherché à fournir un outil d'évaluation des métriques d'évaluation de la qualité visuelle d'images en référence complète. La base de données TID comprend 25 images couleur haute résolution, dont 24 sont des images naturelles, tandis que la dernière est une image artificielle synthétisée par les auteurs de la base de données. Les images ont été traitées par 17 types de distorsion différents à différents niveaux, comprenant la compression JPEG, la compression JPEG2000, le bruit additif gaussien et le flou gaussien. Cela a résulté en 1700 versions de test des images de référence. Le MOS a été obtenu à partir des scores subjectifs collectés auprès de 838 observateurs de trois pays, dont 251 en Finlande, 150 en Italie et 437 en Ukraine. Une partie des expériences a été réalisée via Internet. 47 48 49 CSIQ image database (2009) La base de données Categorical Subjective Image Quality (CSIQ) a été développée au laboratoire d'analyse du codage d'images de l'Université d'État de l'Oklahoma, aux États-Unis. Elle se compose de 30 images de référence carrées couleur haute résolution qui ont été déformées à l'aide de six algorithmes de traitement d'images différents, notamment la compression JPEG et JPEG2000, le flou gaussien, le bruit blanc gaussien additif, les décréments de contraste global et le bruit gaussien additif. Cela a abouti à un total de 900 images déformées, dont seules les évaluations subjectives de 866 images de test sont fournies. Trente-cinq observateurs humains ont évalué chaque image. Leurs mesures de dissimilarité visuelle ont été effectuées selon une stratégie de déplacement linéaire. Cela consiste à présenter simultanément toutes les versions de test d'une image sur un écran. Les observateurs sont ensuite invités à placer ces images de manière à ce que la distance horizontale entre deux images de test reflète la dissimilitude perçue entre elles. Les scores de qualité subjectifs ont été publiés en termes de scores de différence de qualité allant de 0 à 9. 50 51 52 Évaluation des performances des métriques de qualité 53 La performance des mesures objectives est évaluée en ce qui concerne leur capacité d'estimer l'évaluation subjective de la qualité visuelle en trois aspects: précision de la prédiction (prediction accuracy): la capacité de prévoir les estimations de qualité subjectives avec une erreur faible, monotonicité de la prévision (prediction monotonicity) : Dans le contexte de l'évaluation de la qualité d'image, la monotonie peut être interprétée comme la capacité de la mesure à évaluer dans quelle mesure la relation entre les scores qualitatifs et quantitatifs de qualité d'image peut être décrite à l'aide d'une fonction monotone. En d'autres termes, cela reflète la capacité de la mesure à rendre compte efficacement de la façon dont les scores quantitatifs évoluent de manière constante et unidirectionnelle avec la qualité perçue de l'image. Cohérence de la prévision (prediction consistency): le degré auquel le modèle maintient la précision de la prédiction sur toute la gamme de la séquences de test d’image, à savoir, que sa réponse est robuste par rapport à une variété de déficience d’image. 54 Coefficient de corrélation linéaire (précision) La corrélation entre les vecteurs X et Y est représentée par le coefficient de corrélation de Pearson (PCC), défini comme le rapport de la covariance entre X et Y au produit de leurs écarts-types respectifs. Il suppose que la relation entre les variables X et Y est linéaire et mesure sa force. 55 Coefficient de corrélation de rang (monotonicité) Dans le contexte de l'évaluation de la qualité d'image, la monotonie peut être interprétée comme la capacité de la mesure à évaluer dans quelle mesure la relation entre les scores qualitatifs et quantitatifs de qualité d'image peut être décrite à l'aide d'une fonction monotone. Les coefficients de corrélation de rang de Spearman et de Kendall, notés respectivement RHO et TAU, sont des estimateurs non paramétriques typiques de la monotonie. Contrairement au coefficient de corrélation de Pearson, ils ne nécessitent aucune hypothèse sur la linéarité entre les variables. Ils sont définis comme suit : 56 Erreur de prédiction de la qualité (précicion) La précision établit la fidélité des valeurs estimées Y pour correspondre aux valeurs réelles X. Elle est mesurée par l'Erreur Quadratique Moyenne (RMSE) et l'Erreur Absolue Moyenne (MAE), définies respectivement comme : 57 Métrique de qualité d’image à référence réduite 58 Le schéma fonctionnel de la métrique à référence réduite proposés est illustré à la figure suivante. Dans le côté de l'expéditeur, la réorganisation du DCT est d'abord appliquée à l'image de référence. Par la suite, la GGD est utilisée pour modéliser la distribution de chaque sous-bande DCT réorganisée. Du côté des récepteurs, la même réorganisation du DCT est appliquée à l'image déformée. Ensuite, l'histogramme de chaque sous-bande DCT réorganisée est construit. En se référant aux caractéristiques GGD extraites de l'image de référence, la distance city-block est utilisée pour représenter la distance de l'histogramme entre les sous- bandes du DCT organisées. Enfin, l'indice de qualité visuelle de l'image est obtenue en regroupant les distances ensemble. 59 60 Permet de calculer da distance city entre deux distribution (histogramme) Calculer la distance entre chaque sous bande (image originale et dégradée), avec introduction des erreurs d’estimation Combinaison des distances obtenues dans les six bande utilisées pour avoir une estimation globale de qualité La fonction GGD et la fonction Gamma 61 62 63 Métrique de qualité d’image sans référence (Métrique aveugle) BRISQUE (Blind/referenceless image spatial quality Evaluator) 64 Principe Cette métrique repose sur le principe selon lequel les images naturelles possèdent certaines propriétés statistiques régulières mesurables qui sont modifiées de manière perceptible par la présence de distorsions. Les écarts par rapport à la régularité des statistiques naturelles, lorsqu'ils sont correctement quantifiés, permettent la conception d'algorithmes capables d'évaluer la qualité perceptive d'une image sans nécessiter d'image de référence. En quantifiant les statistiques des images naturelles et en s'abstenant d'une caractérisation explicite des distorsions, l’approche d’évaluation de la qualité ne sera pas limitée par le type de distorsions qui affectent l'image. 65 Étape de la méthode 66 Étape 1 : Extraction des statistiques de scènes naturelles (NSS) La distribution des intensités de pixels des images naturelles diffère de celle des images déformées. Cette différence de distributions est beaucoup plus prononcée lorsque nous normalisons les intensités de pixels et calculons la distribution sur ces intensités normalisées. En particulier, après la normalisation, les intensités de pixels des images naturelles suivent une distribution gaussienne (courbe en cloche), tandis que les intensités de pixels des images dénaturées ou déformées ne le font pas. La déviation de la distribution par rapport à une courbe en cloche idéale est donc une mesure de la quantité de distorsion dans l'image. 67 68 69 Mean Substracted Contrast Normalization (MSCN) Il existe plusieurs façons de normaliser une image. Une telle normalisation s'appelle Normalisation du Contraste Soustrait à la Moyenne (MSCN). La figure ci-dessous montre comment calculer les coefficients MSCN. 70 71 Pour calculer les coefficients MSCN, l'intensité de l'image I(i,j) au pixel (i, j) est transformée en luminance Î(i,j). Où i є 1,2,….,M, j є 1,2,….,N (M et N étant respectivement la hauteur et la largeur. Les fonction µ (i,j) et δ (i,j) Le champ de moyenne locale (μ) et le champ de variance locale (σ) correspondent respectivement au champ moyen et au champ de variance locaux. Le champ de moyenne locale (μ) n'est rien d'autre que le flou gaussien de l'image originale, tandis que le champ de variance locale (σ) est le flou gaussien du carré de la différence entre l'image originale et μ. Dans l'équation ci-dessous, W est la fonction de fenêtre de flou gaussien. 72 Produits par paires pour les relations de voisinage. MSCN offre une bonne normalisation pour les intensités de pixels. Cependant, la différence entre les images naturelles et déformées ne se limite pas aux distributions d'intensité de pixels, mais aussi à la relation entre un pixel et ses voisins. Pour capturer les relations de voisinage, les auteurs ont utilisé des produits par paires de l'image MSCN avec une version décalée de l'image MSCN. Quatre orientations sont utilisées pour trouver le produit par paire des coefficients MSCN, à savoir : Horizontal (H), Vertical (V), Diagonale Gauche (D1), Diagonale Droite (D2). 73 Étape 2 : Calculer les vecteurs de caractéristiques. Donc 5 images seront dériver de l'image originale - 1 image MSCN et 4 images de produits par paires pour capturer les relations entre voisins (Horizontal, Vertical, Diagonale Gauche, Diagonale Droite). Ensuite, nous utiliserons ces 5 images pour calculer un vecteur de caractéristiques de taille 36×1 (c'est-à-dire un tableau de 18 nombres). Notez que l'image d'entrée d'origine peut avoir n'importe quelle dimension (largeur/hauteur), mais le vecteur de caractéristiques est toujours de taille 36×1. Les deux premiers éléments du vecteur de caractéristiques 36×1 sont calculés en ajustant l'image MSCN à une distribution gaussienne généralisée (GGD). Une GGD a deux paramètres - un pour la forme et un pour la variance. Ensuite, une distribution gaussienne généralisée asymétrique (AGGD) est ajustée à chacune des quatre images de produits par paires. AGGD est une forme asymétrique de l'ajustement gaussien généralisé (GGD). Elle a quatre paramètres - la forme, la moyenne, la variance gauche et la variance droite. Comme il y a 4 images de produits par paires, nous obtenons ainsi 16 valeurs. Par conséquent, nous obtenons 18 éléments du vecteur de caractéristiques. L'image est réduite de moitié par rapport à sa taille d'origine et le même processus est répété pour obtenir 18 nouveaux nombres, 74 portant le total à 36 nombres. Feature Feature Description Procedure Range 1-2 Shape and Variance. GGD fit to MSCN coefficients. 3-6 Shape, Mean, Left Variance, AGGD fit to Horizontal Pairwise Products Right Variance 7 - 10 Shape, Mean, Left Variance, AGGD fit to Vertical Pairwise Products Right Variance 11 - 14 Shape, Mean, Left Variance, AGGD fit to Diagonal (left) Pairwise Right Variance Products 15 - 18 Shape, Mean, Left Variance, AGGD fit to Diagonal (Right) Pairwise Right Variance Products 75 Étape 3 : Prédiction du score de qualité de l'image. Dans une application classique d'apprentissage machine, une image est d'abord convertie en un vecteur de caractéristiques. Ensuite, les vecteurs de caractéristiques et les sorties (dans ce cas, le score de qualité) de toutes les images du jeu de données d'entraînement sont alimentés à un algorithme d'apprentissage tel que la Machine à Vecteurs de Support (SVM). Original Image JPEG2K Compression Gaussian Noise Median Blur 30.7417 79.8751 72.7044 26.8286 76