Artificial intelligence in Imaging-1 PDF

Artificial intelligence in Imaging-1 Introduction to Radiomics and Machine Learning Marko Grahovac, MSc Exam 04.10.2024 at 16:00 – Moodle (+ oral) exam in C.Z.19 computer room - FH Campus Wien 16:00 – Moodle exam start (no open questions, multiple choice with single true answer) Additionally: 16:30 – Oral exam (for students that are not satisfied with Moodle grade) Notenschlüssel 91% - 100% sehr gut 81% - 90% gut 71% - 80% befridigend 60% - 70% genügend 00% - 59% nicht genügend Moodle! About me What is AI and where can we find it? BIG DATA MACHINE LEARNING RADIOMICS Big Data: Definition Professional “Data sets that are so large or complex that traditional data processing application software is inadequate to deal with them” – Wikipedia Casual “Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.” – Dan Ariely The 4V Model https://www.linkedin.com/pulse/20140306073407-64875646-big-data-the-5-vs-everyone-must-know Big Data Fun Facts - There were 5 exabytes of information created by the entire world till 2003. Now the same amount is created every 2 days – Erich Schmidth (2010) - 90% of the world’s data was generated in the two prior years – SINTEF (2013) - 30% of all electronic data in 2012 was generated by healthcare alone – The Phonemon Institute - 90% of all Medical Big Data is imaging data – IBM (2016) Medical big Data for Personalized Medicine Papp L, Spielvogel CP, Rausch I, Hacker M, Beyer T. Personalizing Medicine Through Hybrid Imaging and Medical Big Data Analysis. Front Phys. 2018;6. BIG DATA MACHINE LEARNING RADIOMICS Machine Learning: Definition “Machine learning is way to give computers the ability to learn without being explicitly programmed” – Arthur Samuel (1959) Logical structure - Model to predict based on Data - Fitness to measure model error - Optimizer to identify the optimal model Logische Struktur - Modell zur Vorhersage auf der Grundlage von Daten - Fitness zur Messung des Modellfehlers - Optimierer zur Ermittlung des optimalen Modells Types The data is The data is not labeled, so the The model labeled, meaning model tries to operates in an each data point identify patterns environment with has a known or group similar unknown or outcome or data points complex category. together into characteristics. The fitness is clusters. The fitness is evaluated by The fitness is determined by comparing the measured by rewards or model's the variance penalties the predictions to within the model receives these labeled clusters, which based on its outcomes. is embedded in actions in that the optimization environment. The model uses techniques like process. The image regression or The image shows arrows classification rules illustrates representing the to draw decision clusters of model’s actions boundaries points being as it learns to between different grouped make decisions classes of data, together without that maximize its as shown in the any predefined rewards, image with labels, with adapting its colored points and dashed lines strategy as it dashed lines indicating the interacts with the separating them. separation of environment. these clusters. Most Common Algorithms https://www.datasciencecentral.com/profiles/blogs/machine-learning-an-analytical-invitation-to-actuaries Reinforcement Learning Deep vs. Shallow Learning Deep Learning (DL) is a specific version of Neural Networks (NN), but not all NN is DL! Even if a NN has multiple hidden layers, it does not become a DL (Shallow NN may have multiple hidden layers, but with same type of components in each layer e.g. simple sigmoid neurons) Shallow NN Deep(/Shallow) NN * NN has many layers. NN = DL Original image from: http://www.global-engage.com/life-science/deep-learning-in-digital-pathology/ Input Layer: The process starts with an image, like Deep Learning a collection of faces. Hidden Layer 1: The network begins by identifying basic patterns, such as edges and contrasts (e.g., light and dark areas in the image). Hidden Layer 2: As it moves through deeper layers, the network learns more complex features, like specific facial features (eyes, nose, mouth). Output Layer: Finally, the model combines all the learned features to recognize or classify the entire face. Each layer extracts more detailed information from the image, starting with basic patterns and building up to recognizing full faces. https://www.edureka.co/blog/what-is-deep-learning Deep vs. Shallow Learning: Feature extraction Merkmalsextraktion Deep learning handles feature extraction and classification together, making it more powerful and automatic compared to shallow learning. Shallow learning requires manual feature extraction. A human must identify the important features of the data before it is shallow learning relies on humans for Shallow learning classified. The process is split into two steps: feature extraction and then classification. feature extraction, while deep learning does it automatically. Deep learning, on the other hand, automates feature extraction. The neural network learns important features directly from the data during the training Deep learning process. It combines feature extraction and classification into a single step, making it more powerful for complex tasks, as it can learn patterns on its own. Original image from: https://medium.com/swlh/ill-tell-you-why-deep-learning-is-so-popular-and-in-demand-5aca72628780 Deep Learning is a Magic Wand? DL erfordert eine riesige Menge an Input, der komplex und hierarchisch aufgebaut ist. - Riesige Menge: Komplexere ML-Strukturen erfordern mehr Daten, um eine Überanpassung zu vermeiden. - Komplex: Das wahre Potenzial von DL kann nur ausgeschöpft werden, wenn die Daten auf mehreren Ebenen von Informationsgehalt/Komplexität/Hierarchie analysiert werden können. Short answer: No Long answer: DL requires a huge amount of input having a complex, hierarchical nature. - Huge amount: More complex ML structures require more data to avoid overfitting - Complex: The true potential of DL can be harvested only if the data can be analyzed on multiple levels of information content/complexity/hierarchy Good example for DL: image, sound, text Big Data 3 Tools BIG DATA MACHINE LEARNING RADIOMICS Definition: Old vs. New Lambin P et al. Radiomics: extracting more information from medical images using advanced feature analysis. Eur J Cancer (2012) 48:441–6: “Radiomics is the high-throughput extraction of large amounts of image features from radiographic images” Radiomics ist der Prozess, bei dem große Mengen von Merkmalen (Features) aus bildgebenden medizinischen Daten (wie z.B. CT- oder MRT-Bildern) automatisiert und in hoher Geschwindigkeit extrahiert werden. Diese Daten stammen von lebenden Organismen (also in vivo, was „im lebenden Körper“ bedeutet). Die extrahierten Merkmale können Informationen über die Gewebestruktur, Form, Textur und andere Eigenschaften enthalten, die für die Diagnose oder Vorhersage von Krankheitsverläufen nützlich sind. Zusammengefasst: Radiomics ist eine Methode, um viele detaillierte Informationen aus medizinischen Bildern zu gewinnen, um Krankheiten besser analysieren zu können. “Radiomics is the high-throughput extraction of large amounts of features from in vivo imaging datasets” Radiomics ~ Feature Engineering → Shallow Learning This image illustrates the process of Radiomics using shallow learning to extract important features from medical images. Here’s a simple explanation: Imaging: Medical images (like CT scans or MRIs) are captured. Delineation (VOI/Series): The area of interest in the image (like a tumor) is identified and highlighted. Feature Extraction: From this highlighted area, specific characteristics (features) are extracted, such as texture, shape, and intensity. ML Model Establishment: These extracted features are then used to create a machine learning (ML) model, which helps make predictions or classifications. Reference Values: The model compares the features to reference data or values (e.g., known outcomes or results) to make informed decisions or diagnoses. Overall, the image shows how radiomics turns imaging data into useful features for analysis and prediction using machine learning. Dieses Bild zeigt den Prozess von Radiomics unter Verwendung von Shallow Learning, um wichtige Merkmale aus medizinischen Bildern zu extrahieren. Hier eine einfache Erklärung: Bildgebung: Es werden medizinische Bilder (wie CT-Scans oder MRTs) aufgenommen. Delineation (VOI/Serie): Der Bereich von Interesse im Bild (zum Beispiel ein Tumor) wird identifiziert und markiert. Merkmal-Extraktion: Aus diesem markierten Bereich werden spezifische Eigenschaften (Merkmale) wie Textur, Form und Intensität extrahiert. ML-Modell-Erstellung: Diese extrahierten Merkmale werden verwendet, um ein Machine Learning (ML)-Modell zu erstellen, das hilft, Vorhersagen oder Klassifikationen zu treffen. Referenzwerte: Das Modell vergleicht die Merkmale mit Referenzdaten oder -werten (z. B. bekannte Ergebnisse), um fundierte Entscheidungen oder Diagnosen zu treffen. Das Bild zeigt also, wie Radiomics Bilddaten in nützliche Merkmale für Analysen und Vorhersagen mithilfe von maschinellem Lernen umwandelt. Feature Engineering: Typical features Feature category Feature name In vivo General (6) Minimum, Maximum, Sum, Mean, Standard deviation, Variance In vivo Histogram (6) Mean, Energy, Variance, Entropy, Skewness, Kurtosis In vivo Shape (3) Compactness, Volume, Spherical dice coefficient Inverse difference, Inverse difference moment, Sum average, Sum entropy, Difference variance, Difference entropy, Information correlation, Auto correlation, Cluster shade, Cluster prominence, In vivo GLCM (17) Maximum probability, Entropy, Contrast, Dissimilarity, Angular second moment, Sum of squares variance, Correlation Small zone size emphasis, Large zone size emphasis, Low gray level zone emphasis, High gray level zone emphasis, Small zone low gray emphasis, Small zone high gray emphasis, Large zone low gray In vivo GLZSM (11) emphasis, Large zone high gray emphasis, Gray level non-uniformity, Zone size non-uniformity, Zone size percentage In vivo NGTDM (5) Coarseness, Contrast, Complexity, Busyness, Texture strength Normalized mutual information, Angular second moment, Entropy, Contrast, Correlation, Fusion (14) Dissimilarity, Sum of squares variance, Inverse difference, Inverse difference moment, Information correlation, Auto correlation, Cluster shade, Cluster prominence, Maximum probability Textural Features Example: GLCM and GLZSM Dieses Bild zeigt zwei verschiedene Methoden zur Analyse von Texturmerkmalen in Bilddaten: GLCM (Gray Level Co-occurrence Matrix) und GLZSM (Gray Level Size Zone Matrix). Image GLCM Image GLZSM GLZSM: Die Gray Level Size Zone Matrix beschreibt Zonen von zusammenhängenden Pixeln mit denselben Grauwerten. Beispiel: Auf der rechten Seite des Bildes wird gezeigt, wie oft Zonen gleicher Graustufen (z. B. 1, 2, 3) in bestimmten Größen (1, 2, 3) vorkommen. Diese Methode hilft, die Struktur und Gleichmäßigkeit von Texturen zu analysieren, indem sie nicht nur benachbarte Pixel, sondern größere Zonen gleicher Pixelwerte betrachtet. Brynolfsson P et al. Haralick texture features from apparent thibault.biz/Research/ThibaultMatrices/GLSZM/GLSZM.html diffusion coefficient (ADC) MRI images depend on imaging and pre- GLCM: processing parameters. Sci Rep. 2017;7:4041. Die Gray Level Co-occurrence Matrix beschreibt, wie oft bestimmte Grauwert-Pixelpaare (benachbarte Pixel) in einem Bild nebeneinander vorkommen. Beide Methoden sind Werkzeuge zur Analyse von Texturen in Beispiel: Im Bild links gibt es eine Matrix mit Grauwerten. Die GLCM rechts davon zeigt, wie oft Bilddaten und helfen bei der Erkennung und Klassifizierung von bestimmte Pixelwerte (wie 3 und 2) als Nachbarn in bestimmten Richtungen auftreten. In Mustern in medizinischen Bildern, wie z. B. Tumoren. dieser Matrix wird die Nachbarschaftsbeziehung analysiert, um Texturmerkmale wie Homogenität oder Kontrast zu extrahieren. Detailed information with equations about textural features: Hatt M, Tixier F, Pierce L, Kinahan PE, Le Rest CC, Visvikis D. Characterization of PET/CT images using texture analysis: the past, the present… any future? Eur J Nucl Med Mol Imaging. 2017;44:151-165. Textural Features: Promises Asselin M-C, O’Connor JPB, Boellaard R, Thacker NA, Jackson A. Quantifying heterogeneity in human tumours using MRI and PET. Eur J Cancer. 2012;48:447-455. Textural Features: Challenges Diese Variablen machen es schwierig, Texturmerkmale konsistent zu bewerten, da jede dieser Faktoren zu erheblichen Abweichungen führen kann. High variations in textural matrices due to variations in: - Imaging Dieses Bild beschreibt die Herausforderungen bei der Analyse textueller Merkmale, die durch Variationen in mehreren Faktoren entstehen: Bildgebung: Unterschiede im Bildgebungsverfahren können zu - Reconstruction Inkonsistenzen führen. Rekonstruktion: Die Art und Weise, wie das Bild verarbeitet wird, beeinflusst - Delineation die Textur-Daten. Abgrenzung (Delineation): Abweichungen bei der Definition des Interessensgebiets (wie z.B. bei Läsionen) wirken sich auf die Ergebnisse - Resolution aus. Auflösung: Unterschiedliche Bildauflösungen können die Texturanalyse verändern. - Lesion size Größe der Läsion: Größere oder kleinere Läsionen können zu unterschiedlichen Resultaten führen. Binning und Bin-Größe: Die Art der Diskretisierung der Daten beeinflusst die - Binning (discretization) and bin size Texturberechnungen. Auf der rechten Seite wird der Arbeitsablauf zur Standardisierung dieser This image highlights the challenges in analyzing Merkmale gezeigt, von der Patientenvorbereitung bis zur Extraktion der Radiomics-Merkmale zur Analyse. Die unten stehenden Formeln dienen zur textural features due to variations in several factors: Normalisierung der Intensitätswerte für den Vergleich. Imaging: Differences in the imaging process can cause inconsistencies. Reconstruction: How the image is processed can affect texture data. Delineation: Variations in defining the region of interest (like lesions) impact results. Resolution: Different image resolutions can change the texture analysis. Lesion size: Larger or smaller lesions can lead to varied outcomes. Binning and bin size: How the data is discretized affects texture calculations. The right side shows the workflow for standardizing these features, from patient preparation to the extraction of radiomic features for analysis. The formulas below are for normalizing intensity values for comparison. Leijenaar RTH, Nalbantov G, Carvalho S, et al. The effect of SUV discretization in quantitative FDG-PET Radiomics: the need for standardized methodology in tumor texture analysis. Sci Rep. 2015;5:11075. The Uncanny Valley of Textural Features Wait a minute...Repeatability??? Textural Feature Enthusiasm Promising correlations with disease outcomes, Disease characterization We are all doomed!!! Guidelines Normalization Nuclear medicine Feature optimization utilizes textural features Introduction of textural features Any future? Hold on, not all is lost! 1970 2010 2015 2018 Silver Lining: Imaging Biomarker Standardization Iniative (IBSI) Das Bild zeigt einen Prozess zur Standardisierung von Radiomics (Bildbiomarker) durch die Imaging Biomarker Standardization Initiative (IBSI). Linke Seite (A): Medizinische Bildakquisition: Bilder werden erfasst, um Daten zu gewinnen. Berechnung der Radiomics-Merkmale: Aus den Bildern werden Merkmale (Features) extrahiert. Statistische Analyse und maschinelles Lernen: Diese Merkmale werden analysiert, um Vorhersagemodelle zu erstellen. Vorhersagemodell: Ein Modell wird entwickelt, das z. B. den Krankheitsverlauf vorhersagen kann. Prospektive Bewertung: Das Modell wird überprüft und in der Praxis getestet. Personalisierte Behandlung: Die Ergebnisse des Modells helfen, die Behandlung auf den Patienten anzupassen. Rechte Seite (B): Bilddatenverarbeitung: Bilder werden umgewandelt, verarbeitet und segmentiert, um den interessierenden Bereich (ROI) zu definieren. ROI-Extraktion und Maskierung: Intensitäts- und morphologische Merkmale werden erstellt und berechnet. Merkmalsberechnung: Verschiedene Texturmerkmale wie GLCM und GLRLM werden berechnet. Diskretisierung: Schließlich werden diese Merkmale in Kategorien eingeteilt und analysiert. Zusammengefasst: Der Prozess beschreibt, wie Bilddaten standardisiert, Merkmale extrahiert und zur Vorhersage und Verbesserung der personalisierten medizinischen Behandlung genutzt werden. Vallieres M, Zwanenburg A, Badic B, Cheze-Le Rest C, Visvikis D, Hatt M. Responsible Radiomics Research for Faster Clinical Translation. J Nucl Med. 2017:jnumed.117.200501. BIG DATA MACHINE LEARNING RADIOMICS DISCUSSION → QUESTIONS? MUW ML - use case Marko Grahovac, MSc Radiomics ~ Feature Engineering Radiomics ~ Feature Engineering Imaging methods doi: 10.1016/j.ejca.2011.11.036 nuclear medicine imaging (PET, SPECT, PET/CT, PET/MRI, SPECT/CT) Common types CT of imaging: MRI Ultrasound X-rays PET Positron Emission Tomography https://www.researchgate.net/publication/337736270_Digital_Comprehensive_Summaries_of_Uppsala_Dissertations_from_the_Faculty_of_Pharmacy_202_68_GaExendin-4_Bench-to-Bedside_PET_molecular_imaging_of_the_GLP- 1_receptor_for_diabetes_and_cancer/figures?lo=1 CT Computer Tomography CT https://openwetware.org/wiki/CT_Imaging,_by_Elizabeth_Swanson Reconstruction algorithms There are various algorithms used in CT image reconstruction, the following are some of the more common The image provides an overview of algorithms utilized in commercially available CT today. common algorithms used in CT (Computed Tomography) image reconstruction. The algorithms listed are: Iterative Algorithm without Statistical Modelling: iterative will use an assumption and will compare to the Not commercially used due to limitations in microprocessors at the time. algorithm without not commercially used due to the assumption with its measured data. Then will Assumes initial values and iteratively inherent limitations of microprocessors at statistical that time continue to make iterations until the two data sets compares them with measured data until modelling are in agreement. both agree. Iterative Algorithm with Statistical Modelling: Considers various aspects like optics, iterative algorith noise (photon statistics), physics (data optics (x-ray source, image noise (photon physics (data object (radiation m with statistical voxels and detector) statistics) acquisition) attenuation) acquisition), and object (radiation attenuation). modelling Back Projection: Not used in clinical settings due to its inability to produce sharp images. Known for producing star-shaped artifacts. not used in the clinical setting, as known for its distinctive back projection it is unable to produce sharp artifact that resembles a Filtered Back Projection (Convolution images star Method): Still widely used in CT today. Uses a convolution filter to reduce blurring from back projection. It’s fast but has limitations like noise and filtered back artifact creation. projection utilizes a convolution filter to alleviate still widely used fast, however, has several limitations including noise the blurring associated with back (convolution in CT today projection and artifact creation method) CT https://openwetware.org/wiki/CT_Imaging,_by_Elizabeth_Swanson MRI Magnetic Resonance Imaging US Ultra Sound https://www.informedhealth.org/how-do-ultrasound-examinations-work.html https://www.scienceabc.com/innovation/how-ultrasound-scanning-sonography- 3d-sonogram-work-pregnancy-due-date.html X-Rays https://www.electronicsandcommunications.com/2018/10/x-ray-tube-working-principle.html Different aspect of imaging Resolution DOI: 10.1088/0031-9155/60/14/R239 Pixel Vs Voxel Interpolation Interpolation in der Radiologietechnologie bedeutet, dass fehlende Bilddaten zwischen bekannten Messpunkten berechnet werden. In einem CT- oder MRT-Scan werden nicht alle Bereiche des Körpers direkt abgetastet, sondern nur an bestimmten Punkten. Um das Bild vollständig zu machen, schätzt die Interpolation die Werte zwischen diesen Punkten. Dadurch entsteht ein lückenloses Bild, das Ärzte für die Diagnose nutzen können. Es ist also wie das Verbinden von Punkten, um das Gesamtbild sichtbar zu machen. Binning Das Bild zeigt das Konzept des Binnings in der Bildverarbeitung, speziell hier im Kontext von einem 2x2-Binning. Binning bedeutet, dass mehrere benachbarte Pixel (in diesem Fall 2x2 Pixel) zu einem einzigen Pixel zusammengefasst werden. Das wird genutzt, um die Auflösung eines Bildes zu reduzieren, die Bildgröße zu verringern oder die Bildverarbeitung zu beschleunigen, indem weniger Daten verarbeitet werden müssen. Gleichzeitig kann Binning helfen, das Signal-Rausch-Verhältnis zu verbessern, da die Signale der zusammengefassten Pixel addiert oder gemittelt werden. In diesem Beispiel auf dem Bild: Links sieht man eine größere Anzahl von kleineren Pixeln, die durch rote Linien in 2x2-Gruppen zusammengefasst sind. Rechts sieht man das Ergebnis nach dem Binning, wo die Pixelanzahl verringert wurde, da jedes 2x2-Feld zu einem einzelnen Pixel zusammengefasst wurde. Zusammengefasst: Binning reduziert die Bildauflösung, indem mehrere benachbarte Pixel zu einem einzigen kombiniert werden. Das kann die Bildverarbeitung vereinfachen und beschleunigen. Das Bild zeigt Binning im Kontext von Histogrammen und Datenverteilung. Links: Die linke Grafik zeigt ein Histogramm, bei dem die Daten in viele kleine Intervalle unterteilt sind. Jeder Balken stellt die Anzahl der Datenpunkte in einem Binning kleinen Bereich dar, was eine detaillierte, aber möglicherweise unübersichtliche Verteilung zeigt. Rechts: Die rechte Grafik zeigt ein gebinntes Histogramm. Hier wurden mehrere benachbarte Intervalle (Bins) zu größeren Gruppen zusammengefasst. Dadurch werden weniger Balken angezeigt, und die Datenverteilung wird vereinfacht dargestellt. Man sieht größere Intervalle, wie z. B. „20 < x 30“ oder „30 < x 40“, die jeweils mehrere kleine Bereiche zusammenfassen. Binning bedeutet also hier, dass viele kleine Intervalle zu größeren Bereichen zusammengefasst werden, um die Daten übersichtlicher zu machen. Dies wird oft verwendet, um Muster oder Trends in der Datenverteilung besser sichtbar zu machen. Das Bild zeigt verschiedene Darstellungen, die auf die Auflösung und Verarbeitung von Bilddaten in der Radiologietechnologie, speziell in Bezug auf Voxel, Binning und Bildprofile, hinweisen. Hier eine Erklärung der einzelnen Bereiche: Dieses Diagramm zeigt mehrere Dieses Diagramm zeigt eine Schichten (B, S, DS), die in Voxel-Darstellung. Ein Voxel ist das unterschiedlichen Farbstufen dreidimensionale Äquivalent eines abgebildet sind. Jede Schicht Pixels und stellt einen Datenpunkt im könnte eine unterschiedliche Raum dar. Die Größe eines Voxels Auflösung oder Bildebene bestimmt die Detailgenauigkeit der darstellen, wobei die innere (B) 3D-Bildgebung. Hier wird die einen bestimmten Bereich mit Voxelgröße als quadratische Fläche feinerer Auflösung anzeigt, der angezeigt, die den minimalen durch größere Regionen (S, DS) Auflösungsbereich bestimmt. umgeben ist. Dies deutet auf eine gestufte Verfeinerung der Bildauflösung hin, die oft in der radiologischen Bildgebung verwendet wird. Zusammengefasst: Diese Abbildungen verdeutlichen, wie Binning, Voxel und Profilkurven in der radiologischen Bildgebung verwendet werden, um Bilddaten zu verarbeiten, darzustellen und zu analysieren. Dieses Diagramm zeigt eine Profilkurve. Die gestrichelte Linie Dieses Bild könnte eine repräsentiert ein Höhenprofil oder 2D-Darstellung eines 3D-Bildes sein, Intensitätsprofil über ein Bild (z. B. in dem verschiedene Bildschichten in entlang einer Linie durch eine unterschiedlichen Intensitätsstufen Struktur). Der Begriff Bin size zeigt angezeigt werden. Es könnte sich um die Größe der Bins (Gruppierungen die Abbildung einer Struktur (z. B. von Voxelwerten oder Tumor oder Organ) handeln, bei der Intensitätsstufen), die für die Analyse die Intensitäten auf die Dichte oder oder Darstellung der Daten Beschaffenheit des Gewebes verwendet werden. Kleinere hinweisen. Die Form der Struktur wird Bin-Größen führen zu höherer durch die Auflösung der Voxel Auflösung, während größere Bins zu bestimmt. http://dx.doi.org/10.2967/jnumed.118.217612. einer vereinfachteren Darstellung führen. Radiomics ~ Feature Engineering Delineation Segmentation 1st 2nd 3rd Generation Generation Generation Thresholding Deformable Classifier Region Clustering Graph guided growing Edge based Watershed Atlas guided methods Markov Hybrid random field approaches techniques A B C A B C D E F doi: 10.1016/j.ejca.2011.11.036 DOI: http://dx.doi.org/10.1007/s00259-020-05140-y. Radiomics ~ Feature Engineering Zusammengefasst: Das Bild stellt den kompletten Prozess von der Datensammlung und Bildaufnahme über die Bildverarbeitung bis hin zur Merkmalsextraktion, Modellbildung und Leistungsevaluation dar. Ziel ist es, durch diese Schritte prädiktive Modelle zu erstellen, die klinische Entscheidungen unterstützen können. DOI:https://doi.org/10.1016/S2589-7500(22)00144-3 Features and IBSI https://www.frontiersin.org/articles/10.3389/fphy.2018.00051/full IBSI - Image Biomarker Standardisation Initiative https://www.educative.io/answers/what-is-feature-extraction https://ibsi.readthedocs.io/en/latest/03_Image_features.html Morphologische Merkmale beschreiben geometrische Aspekte einer Region von Morphological features Interesse (ROI), wie Fläche und Volumen. Morphologische Merkmale basieren auf den Voxel-Darstellungen des Volumens der ROI. Morphological features describe geometric aspects of a region of interest (ROI), such as area and volume. Morphological features are based on ROI voxel representations of the volume Volume (mesh) Volume density (axis-aligned bounding box) Volume (voxel counting) Area density (axis-aligned bounding box) Surface area (mesh) Volume density (oriented minimum bounding box) Surface to volume ratio Area density (oriented minimum bounding box) Compactness 1 Volume density (approximate enclosing ellipsoid) Compactness 2 Area density (approximate enclosing ellipsoid) Spherical disproportion Volume density (minimum volume enclosing Sphericity ellipsoid) Asphericity Area density (minimum volume enclosing ellipsoid) Centre of mass shift Volume density (convex hull) Maximum 3D diameter Area density (convex hull) Major axis length Integrated intensity Minor axis length Moran’s I index Least axis length Geary’s C measure Elongation Flatness Local intensity features Die Intensitäten der Voxel in einer definierten Umgebung um ein zentrales Voxel werden verwendet, um lokale Intensitätsmerkmale zu berechnen. Voxel intensities within a defined neighbourhood around a center voxel are used to compute local intensity features. Local intensity peak Global intensity peak Der Local Intensity Peak zeigt den hellsten Punkt in einer kleinen Nachbarschaft, während der Global Intensity Peak den hellsten Punkt im ganzen Bild zeigt. Intensity-based statistical features The intensity-based statistical features describe how intensities within the region of interest (ROI) are distributed. The features in this set do not require discretisation, and may be used to describe a continuous intensity distribution Die intensitätsbasierten statistischen Merkmale beschreiben, wie die Intensitäten innerhalb der Region von Interesse (ROI) verteilt sind. Die Merkmale in diesem Satz erfordern keine Diskretisierung und können zur Beschreibung einer kontinuierlichen Intensitätsverteilung verwendet werden. Mean intensity Intensity interquartile range Intensity variance Intensity range Intensity skewness Intensity-based mean absolute deviation (Excess) intensity kurtosis Intensity-based robust mean absolute deviation Median intensity Intensity-based median absolute deviation Minimum intensity Intensity-based coefficient of variation 10th intensity percentile Intensity-based quartile coefficient of dispersion 90th intensity percentile Intensity-based energy Maximum intensity Root mean square intensity Intensity histogram features An intensity histogram is generated by discretising the original intensity distribution Xgl into intensity bins. Ein Intensitätshistogramm wird erzeugt, indem die ursprüngliche Intensitätsverteilung Xgl in Intensitätsbins diskretisiert wird. Mean discretised intensity Intensity histogram mean absolute deviation Discretised intensity variance Intensity histogram robust mean absolute deviation Discretised intensity skewness Intensity histogram median absolute deviation (Excess) discretised intensity kurtosis Intensity histogram coefficient of variation Intensity histogram quartile coefficient of dispersion Median discretised intensity Discretised intensity entropy Minimum discretised intensity Discretised intensity uniformity 10th discretised intensity percentile Maximum histogram gradient 90th discretised intensity percentile Maximum histogram gradient intensity Maximum discretised intensity Minimum histogram gradient Intensity histogram mode Minimum histogram gradient intensity Discretised intensity interquartile range Discretised intensity range Intensity-volume histogram features The (cumulative) intensity-volume histogram (IVH) of the set Xgl of voxel intensities in the ROI intensity mask describes the relationship between discretised intensity ii and the fraction of the volume containing at least intensity i, ν Volume at intensity fraction Intensity at volume fraction Volume fraction difference between intensity fractions Intensity fraction difference between volume fractions Area under the IVH curve Grey level co-occurrence based features The grey level co-occurrence matrix (GLCM) is a matrix that expresses how combinations of discretised intensities (grey levels) of neighbouring pixels, or voxels in a 3D volume, are distributed along one of the image directions. Inverse difference Die Graustufen-Co-Occurrence-Matrix Joint maximum Normalised inverse difference (GLCM) ist eine Matrix, die ausdrückt, wie Joint average Kombinationen von diskreten Intensitäten Joint variance Inverse difference moment Normalised inverse difference moment (Graustufen) benachbarter Pixel oder Voxel in Joint entropy Inverse variance einem 3D-Volumen, entlang einer der Difference average Correlation Bildrichtungen verteilt sind. Difference variance Autocorrelation Difference entropy Cluster tendency Sum average Cluster shade Sum variance Cluster prominence Sum entropy Information correlation 1 Angular second moment Information correlation 2 Contrast Dissimilarity Grey level run length based features The grey level run length matrix (GLRLM) define various texture features. Like the grey level co-occurrence matrix, GLRLM also assesses the distribution of discretised grey levels in an image or in a stack of images. However, whereas GLCM assesses co-occurrence of grey levels within neighbouring pixels or voxels, GLRLM assesses run lengths. A run length is defined as the length of a consecutive sequence of pixels or voxels with the same grey level along direction mm, which was previously defined in Grey level co-occurrence based features. The GLRLM then contains the occurrences of runs with length jj for a discretised grey level ii. Short runs emphasis Grey level non-uniformity Long runs emphasis Normalised grey level non-uniformity Low grey level run emphasis Run length non-uniformity High grey level run emphasis Normalised run length non-uniformity Short run low grey level emphasis Run percentage Grey level variance Short run high grey level emphasis Run length variance Long run low grey level emphasis Run entropy Long run high grey level emphasis Die Graustufen-Lauflängenmatrix (GLRLM) definiert verschiedene Texturmerkmale. Wie die Graustufen-Ko-Occurrence-Matrix bewertet auch die GLRLM die Verteilung von diskreten Graustufen in einem Bild oder in einem Stapel von Bildern. Während die GLCM jedoch das gemeinsame Auftreten von Graustufen in benachbarten Pixeln oder Voxeln bewertet, bewertet GLRLM die Lauflängen. Eine Lauflänge ist definiert als die Länge einer aufeinanderfolgenden Sequenz von Pixeln oder Voxeln mit demselben Grauwert entlang der Richtung mm, die zuvor in den auf der Koinzidenz von Graustufen basierenden Merkmalen definiert wurde. Das GLRLM enthält dann die Vorkommen von Läufen mit der Länge jj für einen diskretisierten Grauwert Stufe ii. Grey level size zone based features The grey level distance zone matrix (GLDZM) counts the number of groups (or zones) of linked voxels which share a specific discretised grey level value and possess the same distance to ROI edge. Small zone emphasis Grey level non-uniformity Large zone emphasis Normalised grey level non-uniformity Low grey level zone emphasis Zone size non-uniformity High grey level zone emphasis Normalised zone size non-uniformity High grey level zone emphasis Zone percentage Grey level variance Small zone high grey level emphasis Zone size variance Large zone low grey level emphasis Zone size entropy Large zone high grey level emphasis Grey level distance zone based features The grey level distance zone matrix (GLDZM) counts the number of groups (or zones) of linked voxels which share a specific discretised grey level value and possess the same distance to ROI edge. Small distance emphasis Grey level non-uniformity Large distance emphasis Normalised grey level non-uniformity Low grey level zone emphasis Zone distance non-uniformity High grey level zone emphasis Normalised zone distance non-uniformity Small distance low grey level emphasis Zone percentage Grey level variance Small distance high grey level emphasis Zone distance variance Large distance low grey level emphasis Zone distance entropy Large distance high grey level emphasis Neighbourhood grey tone difference based features he neighbourhood grey tone difference matrix (NGTDM) contains the sum of grey level differences of pixels/voxels with discretised grey level i and the average discretised grey level of neighbouring pixels/voxels within a Chebyshev distance δ. Die Grautondifferenzmatrix der Nachbarschaft (NGTDM) enthält die Summe der Graustufendifferenzen der Pixel/Voxel mit der diskretisierten Graustufe i und der durchschnittlichen diskretisierten Graustufe der benachbarten Pixeln/Voxeln Coarseness innerhalb eines Tschebyscheff-Abstands. Contrast Busyness Complexity Strength Neighbouring grey level dependence based feature The neighbouring grey level dependence matrix (NGLDM) is defined as an alternative to the grey level co- occurrence matrix. The NGLDM aims to capture the coarseness of the overall texture and is rotationally invariant. Die benachbarte Graustufen-Abhängigkeitsmatrix (NGLDM) wird als Alternative zur Graustufen-Kooperationsmatrix definiert. Die NGLDM zielt darauf ab, die Grobkörnigkeit der Gesamttextur zu erfassen und ist rotationsinvariant. Low dependence emphasis Normalised grey level non-uniformity High dependence emphasis Dependence count non-uniformity Low grey level count emphasis Normalised dependence count non-uniformity High grey level count emphasis Dependence count percentage Low dependence low grey level emphasis Grey level variance Dependence count variance Low dependence high grey level emphasis Dependence count entropy High dependence low grey level emphasis Dependence count energy High dependence high grey level emphasis Grey level non-uniformity 3D kernel vs 2D kernel IBSI – website Is SUV (Standard uptake value) a feature? In the context of radiomics, SUV is treated as a feature because it provides critical numerical data that helps in building predictive models, monitoring disease progression, and enhancing diagnostic accuracy. Zusammengefasst zeigt das Bild, wie verschiedene Merkmale (Intensität, Histogramm, Textur, Form) aus einer Läsion extrahiert und in einem maschinellen Lernmodell zur Unterstützung der medizinischen Diagnose verwendet werden. How does it look like? Link to file! Now what? Data purification and pre- processing (Not) perfect dataset Missing values Fehlende Werte Outlier detection Ausreißererkennung Imbalanced data Unausgewogene Daten … Outlier detection https://medium.com/@athi.9307/what-makes-outlier-detection-tough-396df3442e39 Imbalanced data Das Bild zeigt das Konzept von ungleichgewichteten Daten (imbalanced data). In einem Datensatz mit imbalanced data gibt es eine ungleiche Verteilung der Klassen. In diesem Fall gibt es viele blaue Punkte (eine Klasse) und viel weniger rote Punkte (die andere Klasse). In maschinellen Lernmodellen führt dieses Ungleichgewicht dazu, dass das Modell möglicherweise die häufigere Klasse (blau) bevorzugt und die seltenere Klasse (rot) vernachlässigt. Das kann die Genauigkeit und Vorhersagekraft des Modells negativ beeinflussen, besonders für die unterrepräsentierte Klasse. Um dieses Problem zu lösen, werden oft Techniken wie Oversampling, Undersampling oder synthetische Datengenerierung eingesetzt. https://www.datasciencecentral.com/handling-imbalanced-data-sets-in-supervised-learning-using-family/ Das Bild zeigt zwei Konzepte, um das Problem von unausgeglichenen Datensätzen (imbalanced data) zu lösen: Under-sampling und Over-sampling: Under-sampling: Hier wird die Anzahl der Datenpunkte in der häufigeren Klasse (blau) reduziert, um das Verhältnis zur kleineren Klasse (rot) auszugleichen. Dadurch wird der Datensatz kleiner, aber ausgewogener. Over-sampling: Hier wird die Anzahl der Datenpunkte in der kleineren Klasse (rot) durch Duplizieren oder synthetisches Erstellen von neuen Datenpunkten erhöht, um das Verhältnis zur größeren Klasse (blau) zu verbessern. https://www.datasciencecentral.com/handling-imbalanced-data-sets-in-supervised-learning-using-family/ SMOTE (Synthetic Minority Over-sampling Technique) ist eine Methode, um das Problem von unausgeglichenen Datensätzen zu lösen, indem neue Datenpunkte für die kleinere Klasse (die weniger vorkommenden Daten) erzeugt werden. SMOT Anstatt einfach vorhandene Datenpunkte zu kopieren (was wenig hilfreich wäre), erstellt SMOTE neue, künstliche Datenpunkte. Das passiert, indem es Datenpunkte in der kleineren Klasse wählt und zwischen diesen Punkte neue, synthetische Werte berechnet. Dadurch wird die kleinere Klasse größer und das Modell lernt besser, Unterschiede zu erkennen, ohne dass die Datenpunkte nur kopiert werden. Einfach gesagt: SMOTE füllt die Lücken in der kleinen Klasse auf, indem es neue Punkte zwischen den vorhandenen Punkten erzeugt, damit das Modell ausgewogen trainiert werden kann. https://medium.com/@asheshdas.ds/oversampling-to-remove-class-imbalance-using-smote-94d5648e7d35 Das Bild zeigt, wie der Prozess der Merkmalauswahl (Feature Selection) Features selection and redundancy reduction und der Reduzierung von Redundanz funktioniert. All Features: Dies zeigt alle ursprünglichen Merkmale, die gesammelt wurden. Jedes farbige Feld steht für ein Merkmal (z. B. Größe, Form, Farbe, etc.). Es gibt viele Merkmale, aber nicht alle sind nützlich. Feature Selection: In diesem Schritt werden unwichtige oder doppelte Merkmale identifiziert und aussortiert (die durchgestrichenen Felder). Nur die wichtigsten Merkmale bleiben übrig. Final Features: Hier werden nur die wichtigsten und nicht redundanten Merkmale (farbige Felder) behalten. Diese helfen, das Modell effizienter zu machen und unnötige Informationen zu entfernen. Zusammengefasst: Der Prozess wählt die relevantesten Merkmale aus, um die Analyse zu verbessern und Überflüssiges zu entfernen. https://vitalflux.com/machine-learning-feature-selection-feature-extraction/ Die Korrelationsmatrix zeigt, wie stark verschiedene Merkmale oder Datenpunkte miteinander zusammenhängen. Jeder Punkt in der Matrix vergleicht zwei Merkmale. Wenn sie sich stark ähneln, haben Correlation Matrix sie eine hohe Korrelation, und wenn sie sich nicht ähneln, haben sie eine niedrige Korrelation. Auf der Diagonallinie werden die Merkmale mit sich selbst verglichen, was immer eine perfekte Übereinstimmung ergibt. Diese Matrix hilft dabei zu erkennen, welche Merkmale sich ähneln, damit man überflüssige Informationen entfernen kann. Radiomics ~ Feature Engineering AI (the black box) ML – Machine learning Machine learning (ML) is a type of artificial intelligence (AI) that allows software applications to become more accurate at predicting outcomes without being explicitly programmed to do so. Machine learning algorithms use historical data as input to predict new output values. Maschinelles Lernen (ML) ist eine Form der künstlichen Intelligenz (AI), die es Software Anwendungen eine genauere Vorhersage von Ergebnissen ermöglicht, ohne dass sie explizit programmiert zu werden. Algorithmen des maschinellen Lernens verwenden historische Daten als Eingabe, um neue Ausgabewerte vorherzusagen. (https://www.techtarget.com/searchenterpriseai/definition/machine-learning-ML) Machine Learning: Definition “Machine learning is way to give computers the ability to learn without being explicitly programmed” – Arthur Samuel (1959) Logical structure - Model to predict based on Data - Fitness to measure model error - Optimizer to identify the optimal model https://wordstream-files-prod.s3.amazonaws.com/s3fs-public/machine-learning.png Most used classifiers in ML for Medical imaging Bayesian Classifier B Multi Gaussian Weighted Classifier M Random Forest Classifier R Support Vector Machine Classifier S … Bayesian Classifier (BYS) Der Bayessche Klassifikator ist ein Machine-Learning-Ansatz, der bayessche Logik nutzt, um Vorhersagen anhand von Eingabedaten zu treffen. Bayesian Classifier is a machine learning approach which utilizes Bayesian logic to perform predictions from input samples. Multi Gaussian Weighted Classifier (MGWC) Der gewichtete Multi-Gauß-Klassifikator ist ein Ansatz des maschinellen Lernens, der einen gewichteten Durchschnitt von merkmalspezifischen Gaußschen Zugehörigkeitsfunktionen bildet. Multi Gaussian Weighted Classifier is a machine learning approach which performs a weighted average of feature-specific Gaussian membership functions https://blogs.sas.com/content/iml/2020/07/23/fit-multivariate-gaussian-mixture-em-algorithm.html Random Forest Classifier (RF) Random Forest ist ein Ansatz des maschinellen Lernens, der mehrere Entscheidungsbäume über zufällig ausgewählte Stichproben der gegebenen Trainingsdaten erstellt. Random Forest is a machine learning approach which builds multiple decision trees across randomly selected samples of the given training data. https://www.section.io/engineering-education/introduction-to-random-forest-in-machine-learning/ Support Vector Machine Classifier (SVM) Support Vector Machine Classifier ist ein maschineller Lernansatz, der versucht Hyperebenen im Merkmalsraum zu identifizieren, die am besten die Untergruppen der Untergruppen trennen. Support Vector Machine Classifier is a machine learning approach which attempts to identify hyperplanes in the feature space that best separate the label outcome subgroups. https://towardsdatascience.com/support-vector-machines-for-classification-fc7c1565e3 (Deep) Neural networks Neural Networks Neuronale Netze spiegeln das Verhalten des menschlichen Gehirns wider und ermöglichen es Computerprogrammen, Muster zu erkennen und allgemeine Probleme in den Bereichen KI, maschinelles Lernen und Deep Learning zu lösen. Neuronale Netze, auch bekannt als künstliche neuronale Netze (ANN) oder simulierte neuronale Netze (SNN), sind ein Teilbereich des maschinellen Lernens und bilden das Herzstück von Deep-Learning-Algorithmen. Ihr Name und ihre Struktur sind vom menschlichen Gehirn inspiriert und ahmen die Art und Weise nach, in der biologische Neuronen einander Signale übermitteln. Neural networks reflect the behavior of the human brain, allowing computer programs to recognize patterns and solve common problems in the fields of AI, machine learning, and deep learning. Neural networks, also known as artificial neural networks (ANNs) or simulated neural networks (SNNs), are a subset of machine learning and are at the heart of deep learning algorithms. Their name and structure are inspired by the human brain, mimicking the way that biological neurons signal to one another. NN https://www.ibm.com/cloud/learn/neural-networks How we (MUW – 3ATF) do it? Machine Learning Training and Validation Monte Carlo cross-validation scheme - 100-folds with 90% training and 10% validation sets in each fold (random selection). - Ensemble learning of 17 atomic ML methods trained in each fold → majority vote for final prediction. Das Bild zeigt den Prozess der 113 features Monte-Carlo-Cross-Validation im Fold 1 Train maschinellen Lernen. Dabei wird der 90% Datensatz (319 Läsionen und 113 Merkmale) in 100 zufällige Folds aufgeteilt. ML 1 319 lesions In jedem Fold werden 90 % der Daten zum Feature. Trainieren und 10 % zum Validieren verwendet. database Fold k.. Dann wird ein Ensemble von 17 verschiedenen maschinellen Lernmodellen 10% ML 17 trainiert, und das endgültige Ergebnis basiert auf der Mehrheitsentscheidung Fold 100 Validate dieser Modelle. Kurz gesagt: Es geht darum, die Genauigkeit des Modells zu testen, indem es mehrmals mit verschiedenen Daten Papp L. et al. J Nucl Med. 2017; DOI: 10.2967/jnumed.117.202267 aufgeteilt und überprüft wird. Performance Evaluation Confusion Matrix calculations - TP, TN, FP, FN across MC folds → Sensitivity, Specificty, Accuracy Majority vote 113 features (17 ML predictions) Fold 1 Train 90% TP, TN, FP, FN ValidationML set1 319 lesions 100 folds Feature evaluation. SENS database Fold k results. SPEC. ML 17 ACC 10% PPV Fold 100 Validate NPV Confusion Matrix Analytics 𝑇𝑃 Sensitivity Predicted 𝑇𝑃 + 𝐹𝑁 𝑇𝑁 Specificity 0 1 𝑇𝑁 + 𝐹𝑃 𝑇𝑃 Positive Predictive Value 0 TN FP 𝑇𝑃 + 𝐹𝑃 Truth 𝑇𝑁 Negative Predictive Value 1 FN TP 𝑇𝑁 + 𝐹𝑁 𝑇𝑃 + 𝑇𝑁 Accuracy 𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 Interesting examples Feature Extraction Optimization Feature optimization by resolution, bin size and volume change profiling 1 X 13 X 4 X 37 X 3 X 4 NEMA IQ PET/CT Hot Features Resolutions Bin sizes Phantom Systems Spheres Papp L, Rausch I, Grahovac M, Hacker M, Beyer T. Optimized feature extraction for radiomics analysis of 18 F-FDG-PET imaging. J Nucl Med. 2018:jnumed.118.217612. Feature Extraction Optimization

Artificial intelligence in Imaging-1 PDF

Document Details

Tags

Related

Summary

Full Transcript