Grundlagen des maschinellen Sehens PDF
Document Details
Uploaded by CourageousTopology
Duale Hochschule Baden-Württemberg Ravensburg
Tags
Summary
This document provides an introduction to machine vision, explaining how computers process images. The text details pixel arrays, image processing, and filters for image manipulation. It utilizes examples to illustrate complex concepts and highlights the principles and techniques underlying machine vision.
Full Transcript
Grundlagen des maschinellen Sehens Einführung Maschinelles Sehen ist einer der Kernbereiche der künstlichen Intelligenz (KI) und konzentriert sich auf die Entwicklung von Lösungen, mit denen KI-Anwendungen die Welt „sehen“ und verstehen können. Natürlich haben Computer keine biologischen Augen, d...
Grundlagen des maschinellen Sehens Einführung Maschinelles Sehen ist einer der Kernbereiche der künstlichen Intelligenz (KI) und konzentriert sich auf die Entwicklung von Lösungen, mit denen KI-Anwendungen die Welt „sehen“ und verstehen können. Natürlich haben Computer keine biologischen Augen, die so funktionieren wie unsere, aber sie sind in der Lage, Bilder zu verarbeiten: entweder von einem Live-Kamerafeed oder von digitale Fotos und Videos. Diese Fähigkeit, Bilder zu verarbeiten, ist der Schlüssel zur Erstellung von Software, die die visuelle Wahrnehmung des Menschen emulieren kann. In diesem Modul werden wir einige der grundlegenden Prinzipien und Techniken untersuchen, die dem maschinellen Sehen zugrunde liegen. Außerdem stellen wir Microsoft Azure KI Vision vor, einen Clouddienst, den Entwickler verwenden können, um eine Vielzahl von Lösungen für maschinelles Sehen zu erstellen. Bilder und Bildverarbeitung Abgeschlossen100 XP 8 Minuten Bevor wir die Bildverarbeitung und andere Computervisionsfunktionen untersuchen können, ist es hilfreich, zu berücksichtigen, was ein Bild im Kontext von Daten für ein Computerprogramm tatsächlich ist. Bilder als Pixelarrays Für einen Computer ist ein Bild ein Array numerischer Pixelwerte. Betrachten Sie beispielsweise das folgende Array: Kopieren 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 255 255 255 0 0 0 0 255 255 255 0 0 0 0 255 255 255 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Das Array besteht aus sieben Zeilen und sieben Spalten, die die Pixelwerte für ein Bild von 7 x 7 Pixeln darstellen (das als Auflösung des Bildes bezeichnet wird). Jedes Pixel hat einen Wert zwischen 0 (schwarz) und 255 (weiß); mit Werten zwischen diesen Grenzen, die Graustufen darstellen. Das durch dieses Array dargestellte Bild sieht ähnlich wie das folgende (vergrößerte) Bild aus: Das Array von Pixelwerten für dieses Bild ist zweidimensional (aus Zeilen und Spalten oder x- und y-Koordinaten ) und definiert ein einzelnes Rechteck mit Pixelwerten. Eine einzelne Ebene von Pixelwerten wie diese stellt ein Graustufenbild dar. In Wirklichkeit sind die meisten digitalen Bilder multidimensional und bestehen aus drei Ebenen (als Kanäle bezeichnet), die rote, grüne und blaue (RGB) Farbtöne darstellen. Beispielsweise könnten wir ein Farbbild darstellen, indem wir drei Kanäle mit Pixelwerten definieren, die dieselbe quadratische Form wie im vorherigen Graustufenbeispiel erstellen: Kopieren Red: 150 150 150 150 150 150 150 150 150 150 150 150 150 150 150 150 255 255 255 150 150 150 150 255 255 255 150 150 150 150 255 255 255 150 150 150 150 150 150 150 150 150 150 150 150 150 150 150 150 Green: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 255 255 255 0 0 0 0 255 255 255 0 0 0 0 255 255 255 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Blue: 255 255 255 255 255 255 255 255 255 255 255 255 255 255 255 255 0 0 0 255 255 255 255 0 0 0 255 255 255 255 0 0 0 255 255 255 255 255 255 255 255 255 255 255 255 255 255 255 255 Das Ergebnis ist das folgende Bild: Die violetten Quadrate werden durch die Kombination dargestellt: Kopieren Red: 150 Green: 0 Blue: 255 Die gelben Quadrate in der Mitte werden durch die Kombination dargestellt: Kopieren Red: 255 Green: 255 Blue: 0 Verwenden von Filtern zum Verarbeiten von Bildern Eine gängige Möglichkeit zum Ausführen von Bildverarbeitungsaufgaben besteht darin, Filteranzuwenden, die die Pixelwerte des Bildes ändern, um einen visuellen Effekt zu erzeugen. Ein Filter wird durch ein oder mehrere Arrays von Pixelwerten definiert, die als Filterkernel bezeichnet werden. Sie können z. B. einen Filter mit einem 3x3-Kernel definieren, wie in diesem Beispiel gezeigt: Kopieren -1 -1 -1 -1 8 -1 -1 -1 -1 Der Kernel wird dann über das Bild gefaltet, und es wird eine gewichtete Summe für jeden 3×3-Abschnitt berechnet und das Ergebnis einem neuen Bild zugeordnet. Es ist einfacher zu verstehen, wie die Filterung funktioniert, indem Sie ein Schritt-für-Schritt- Beispiel untersuchen. Beginnen wir mit dem Graustufenbild, das wir zuvor untersucht haben: Kopieren 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 255 255 255 0 0 0 0 255 255 255 0 0 0 0 255 255 255 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Zuerst wenden wir den Filterkernel auf den oberen linken Patch des Bildes an, multiplizieren jeden Pixelwert mit dem entsprechenden Gewichtungswert im Kernel und fügen die Ergebnisse hinzu: Kopieren (0 x -1) + (0 x -1) + (0 x -1) + (0 x -1) + (0 x 8) + (0 x -1) + (0 x -1) + (0 x -1) + (255 x -1) = -255 Das Ergebnis (-255) wird zum ersten Wert in einem neuen Array. Anschließend verschieben wir den Filterkernel um ein Pixel nach rechts und wiederholen den Vorgang: Kopieren (0 x -1) + (0 x -1) + (0 x -1) + (0 x -1) + (0 x 8) + (0 x -1) + (0 x -1) + (255 x -1) + (255 x -1) = -510 Auch hier wird das Ergebnis dem neuen Array hinzugefügt, das nun zwei Werte enthält: Kopieren -255 -510 Der Prozess wird wiederholt, bis der Filter über das gesamte Bild hinweg zusammengedreht wurde, wie in dieser Animation gezeigt: Der Filter wird über das Bild verteilt und berechnet ein neues Array von Werten. Einige der Werte befinden sich möglicherweise außerhalb des Wertebereichs von 0 bis 255 Pixeln, sodass die Werte so angepasst werden, dass sie in diesen Bereich passen. Aufgrund der Form des Filters wird der äußere Rand von Pixeln nicht berechnet, sodass ein Abstandswert (in der Regel 0) angewendet wird. Das resultierende Array stellt ein neues Bild dar, in dem der Filter das ursprüngliche Bild transformiert hat. In diesem Fall hat der Filter die Auswirkung, die Kanten von Formen im Bild hervorzuheben. Um den Effekt des Filters deutlicher zu sehen, sehen Sie hier ein Beispiel für denselben Filter, der auf ein reales Bild angewendet wird: Tabelle erweitern Originalbild Gefiltertes Bild Da sich der Filter über das Bild erstreckt, wird diese Art von Bildmanipulation häufig als konvolutionale Filterungbezeichnet. Der in diesem Beispiel verwendete Filter ist ein bestimmter Filtertyp (als Laplace-Filter bezeichnet ), der die Kanten auf Objekten in einem Bild hervorhebt. Es gibt viele andere Arten von Filtern, mit denen Sie verschwommene Effekte, Schärfen, Farbinversion und andere Effekte erstellen können. Maschinelles Lernen für maschinelles Sehen Abgeschlossen100 XP 10 Minuten Die Möglichkeit, Filter zum Anwenden von Effekten auf Bilder zu verwenden, ist nützlich bei Bildverarbeitungsaufgaben, wie Sie sie beispielsweise mit Bildbearbeitungssoftware durchführen können. Das Ziel des maschinellen Sehens ist es jedoch oft, Bedeutung, oder zumindest umsetzbare Erkenntnisse aus Bildern, zu extrahieren; dies erfordert die Erstellung von Machine Learning-Modellen, die darauf trainiert werden, Merkmale basierend auf großen Mengen vorhandener Bilder zu erkennen. Tipp In dieser Lektion wird davon ausgegangen, dass Sie mit den Grundlegenden Prinzipien des maschinellen Lernens vertraut sind und dass Sie über konzeptionelle Kenntnisse von Deep Learning mit neuronalen Netzen verfügen. Wenn Sie noch keine Erfahrung mit maschinellem Lernen haben, sollten Sie die das Modul Grundlagen des maschinelles Lernens in Microsoft Learn abschließen. Convolutional Neural Networks (CNNs) Eine der am häufigsten verwendeten Machine Learning-Modellarchitekturen für maschinelles Sehen ist ein Convolutional Neural Network (CNN), eine Art von Deep Learning-Architektur. CNNs verwenden Filter, um numerische Merkmalszuordnungen aus Bildern zu extrahieren und dann die Merkmalswerte in ein Deep Learning-Modell zu übertragen, um eine Bezeichnungsvorhersage zu generieren. In einem Bildklassifizierungsszenario stellt die Bezeichnung z. B. das Hauptthema des Bilds dar (anders gesagt, was zeigt das Bild?). Sie können ein CNN-Modell mit Bildern verschiedener Arten von Obst (z. B. Apfel, Banane und Orange) trainieren, damit die vorhergesagte Bezeichnung die Art von Obst in einem bestimmten Bild ist. Während des Trainingsprozesses für ein CNN werden Filterkerne zunächst mithilfe von zufällig generierten Gewichtungswerten definiert. Wenn der Trainingsprozess voranschreitet, werden die Modellvorhersagen anhand bekannter Bezeichnungswerte ausgewertet, und die Filtergewichte werden angepasst, um die Genauigkeit zu verbessern. Schließlich verwendet das trainierte Obst-Bildklassifizierungsmodell die Filtergewichte, die am besten Merkmale zur Identifizierung verschiedener Arten von Obst extrahieren. Das folgende Diagramm veranschaulicht, wie ein CNN für ein Bildklassifizierungsmodell funktioniert: 1. Bilder mit bekannten Bezeichnungen (z. B. 0: Apfel, 1: Banane oder 2: Orange) werden in das Netzwerk eingespeist, um das Modell zu trainieren. 2. Eine oder mehrere Ebenen von Filtern werden verwendet, um Merkmale aus jedem Bild zu extrahieren, während es in das Netzwerk eingespeist wird. Die Filterkerne beginnen mit zufällig zugewiesenen Gewichtungen und generieren Arrays numerischer Werte, die als Merkmalszuordnungen bezeichnet werden. 3. Die Merkmalszuordnungen werden in ein einzelnes dimensionales Array mit Merkmalswerten abgeflacht. 4. Die Merkmalswerte werden in ein vollständig verbundenes neuronales Netz eingespeist. 5. Die Ausgabeschicht des neuronalen Netzes verwendet eine Softmax- oder ähnliche Funktion, um ein Ergebnis zu erzeugen, das einen Wahrscheinlichkeitswert für jede mögliche Klasse enthält, z. B. [0,2, 0,5, 0,3]. Während des Trainings werden die Ausgabewahrscheinlichkeiten mit der tatsächlichen Klassenbezeichnung verglichen, z. B. sollte ein Bild einer Banane (Klasse 1) den Wert [0,0, 1,0, 0,0] aufweisen. Der Unterschied zwischen den vorhergesagten und tatsächlichen Klassenergebnissen wird verwendet, um den Verlust im Modell zu berechnen, und die Gewichte im vollständig verbundenen neuronalen Netz und die Filterkerne in den Merkmalsextraktionsschichten werden geändert, um den Verlust zu verringern. Der Trainingsprozess wiederholt sich über mehrere Epochen, bis eine optimale Reihe von Gewichten gelernt wurde. Anschließend werden die Gewichtungen gespeichert, und das Modell kann verwendet werden, um Bezeichnungen für neue Bilder vorherzusagen, für die die Bezeichnung unbekannt ist. Hinweis CNN-Architekturen enthalten in der Regel mehrere konvolutionale Filterebenen und zusätzliche Ebenen, um die Größe von Merkmalszuordnungen zu verringern, die extrahierten Werte einzuschränken und die Merkmalswerte anderweitig zu manipulieren. Diese Ebenen wurden in diesem vereinfachten Beispiel weggelassen, um sich auf das Schlüsselkonzept zu konzentrieren, d. h., dass Filter verwendet werden, um numerische Merkmale aus Bildern zu extrahieren, die dann in einem neuronalen Netz verwendet werden, um Bildbezeichnungen vorherzusagen. Transformer und multimodale Modelle CNNs stehen seit vielen Jahren im Mittelpunkt von Lösungen für maschinelles Sehen. Sie werden zwar häufig verwendet, um Bildklassifizierungsprobleme wie zuvor beschrieben zu lösen, sie sind aber auch die Grundlage für komplexere Modelle für maschinelles Sehen. Beispielsweise kombinieren Objekterkennungsmodelle CNN- Merkmalsextraktionsebenen mit der Identifizierung von relevanten Bereichen in Bildern, um mehrere Objektklassen im selben Bild zu finden. Transformatoren Die meisten Fortschritte beim maschinellen Sehen im Laufe der Jahrzehnte wurden durch Verbesserungen in CNN-basierten Modellen angetrieben. In einer anderen KI- Disziplin, linguistischer Datenverarbeitung (Natural Language Processing, NLP), hat jedoch eine andere Art von neuronaler Netzarchitektur, die als Transformer bezeichnet wird, die Entwicklung anspruchsvoller Modelle für Sprache ermöglicht. Transformer arbeiten durch die Verarbeitung gewaltiger Datenmengen und codieren Sprach-Token (die einzelne Wörter oder Ausdrücke darstellen) als vektorbasierte Einbettungen (Arrays numerischer Werte). Sie können sich eine Einbettung als Darstellung einer Reihe von Dimensionen vorstellen, die jeweils ein semantisches Attribut des Tokens darstellen. Die Einbettungen werden so erstellt, dass Token, die häufig im selben Kontext verwendet werden, dimensional näher beieinander sind als nicht verwandte Wörter. Als einfaches Beispiel zeigt das folgende Diagramm einige Wörter, die als dreidimensionale Vektoren kodiert und in einen 3D-Raum eingezeichnet sind: Token, die semantisch ähnlich sind, werden an ähnlichen Positionen codiert und erstellen so ein semantisches Sprachmodell, das es ermöglicht, anspruchsvolle NLP- Lösungen für Textanalyse, Übersetzung, Sprachgenerierung und andere Aufgaben zu erstellen. Hinweis Wir haben nur drei Dimensionen verwendet, da dies einfach zu visualisieren ist. In Wirklichkeit erstellen Encoder in Transformernetzwerken Vektoren mit vielen weiteren Dimensionen und definieren komplexe semantische Beziehungen zwischen Token basierend auf linearen algebraischen Berechnungen. Die beteiligte Mathematik ist komplex, ebenso wie die Architektur eines Transformermodells. Unser Ziel ist es hier, nur ein konzeptionelles Verständnis dafür zu bieten, wie die Codierung ein Modell erstellt, das Beziehungen zwischen Entitäten kapselt. Multimodale Modelle Der Erfolg von Transformern als Möglichkeit zum Erstellen von Sprachmodellen hat KI- Forscher dazu geführt, zu überlegen, ob derselbe Ansatz für Bilddaten effektiv wäre. Das Ergebnis ist die Entwicklung von multimodalen Modellen, bei denen das Modell mit einem großen Volumen von beschrifteten Bildern trainiert wird, ohne feste Bezeichnungen. Ein Bild-Encoder extrahiert basierend auf Pixelwerten Merkmale aus Bildern und kombiniert sie mit Texteinbettungen, die von einem Sprach-Encoder erstellt wurden. Das allgemeine Modell kapselt Beziehungen zwischen Token-Einbettungen in natürlicher Sprache und Bildmerkmalen, wie hier gezeigt: Das Microsoft Florence-Modell ist nur ein solches Modell. Trainiert mit gewaltigen Mengen von beschrifteten Bildern aus dem Internet, enthält es sowohl einen Sprach- Encoder als auch einen Bild-Encoder. Florence ist ein Beispiel für ein Foundation-Modell. Mit anderen Worten, ein vortrainiertes allgemeines Modell, auf dessen Grundlage Sie mehrere adaptive Modelle für spezialisierte Aufgaben erstellen können. Beispielsweise können Sie Florence als Foundation-Modell für adaptive Modelle verwenden, die folgendes ausführen: Bildklassifizierung: Identifizieren, zu welcher Kategorie ein Bild gehört. Objekterkennung: Lokalisieren einzelner Objekte innerhalb eines Bilds. Beschriftung: Generieren geeigneter Beschreibungen von Bildern. Tagging: Kompilieren einer Liste relevanter Texttags für ein Bild. Multimodale Modelle wie Florence sind im Allgemeinen auf dem neuesten Stand von maschinellem Sehen und KI im Allgemeinen, und es wird erwartet, dass sie Fortschritte in den Arten von Lösungen bringen werden, die KI möglich macht. Azure KI Vision Abgeschlossen100 XP 3 Minuten Sie können zwar eigene Machine Learning-Modelle für Computervision trainieren, aber die Architektur für Computer-Visions-Modelle kann komplex sein und Sie benötigen erhebliche Mengen an Schulungsbildern und Rechenleistung, um den Schulungsvorgang durchzuführen. Der Azure AI Vision-Dienst von Microsoft bietet vorgefertigte und anpassbare Computer-Vision-Modelle, die auf dem Florenz Foundation-Modell basieren und verschiedene leistungsstarke Funktionen bieten. Mit Azure AI Vision können Sie komplexe Computer-Vision-Lösungen schnell und einfach erstellen; unter Nutzung der „Off-the-shelf“-Funktionalität für viele gängige Computer-Vision-Szenarien und gleichzeitig der Möglichkeit, benutzerdefinierte Modelle mit eigenen Bildern zu erstellen. Azure-Ressourcen für den Azure KI Vision-Dienst Damit Sie Azure KI Vision verwenden können, müssen Sie dafür eine Ressource in Ihrem Azure-Abonnement erstellen. Sie können einen der folgenden Ressourcentypen auswählen: Azure KI Vision: Eine bestimmte Ressource für den Azure AI Vision-Dienst. Verwenden Sie diesen Ressourcentyp, wenn Sie keine anderen Azure KI Services verwenden oder die Nutzung und die Kosten Ihrer KI-Vision-Ressource separat nachverfolgen möchten. Azure KI Services: Eine allgemeine Ressource, die Azure KI Vision zusammen mit vielen anderen Azure KI-Diensten enthält, z. B. Azure KI Language, Azure KI Custom Vision, Azure KI Übersetzer und andere. Nutzen Sie diesen Ressourcentyp, wenn Sie mehrere KI-Dienste verwenden und die Verwaltung und Entwicklung vereinfachen möchten. Analysieren von Bildern mit dem Azure KI Vision-Dienst Nachdem Sie eine geeignete Ressource in Ihrem Abonnement erstellt haben, können Sie Bilder an den Azure KI Vision-Dienst übermitteln, um eine Vielzahl von Analyseaufgaben auszuführen. Azure AI Vision unterstützt mehrere Bildanalysefunktionen, einschließlich: Extrahieren von Text aus Bildern mittels Texterkennung (Optical Character Recognition, OCR). Generieren von Untertiteln und Beschreibungen von Bildern. Erkennung von Tausenden gängiger Objekte in Bildern. Markieren visueller Features in Bildern Diese Aufgaben und vieles mehr können in Azure KI Vision Studio ausgeführt werden. Optical Character Recognition (optische Zeichenerkennung) Der Azure KI Vision-Dienst kann Funktionen zur optischen Zeichenerkennung (Optical Character Recognition, OCR) verwenden, um Text in Bildern zu erkennen. Betrachten Sie beispielsweise das folgende Bild eines Ernährungsetiketts auf einem Produkt in einem Lebensmittelgeschäft: Der Azure KI Vision-Dienst kann dieses Bild analysieren und den folgenden Text extrahieren: Kopieren Nutrition Facts Amount Per Serving Serving size:1 bar (40g) Serving Per Package: 4 Total Fat 13g Saturated Fat 1.5g Amount Per Serving Trans Fat 0g calories 190 Cholesterol 0mg ories from Fat 110 Sodium 20mg ntDaily Values are based on Vitamin A 50 calorie diet Tipp Sie können die OCR-Funktionen von Azure KI Vision weiter in Text lesen mit dem Azure KI Vision-Modul auf Microsoft Learn erkunden. Beschreiben eines Bilds mit Untertiteln Azure KI Vision kann ein Bild analysieren, die erkannten Objekte auswerten und einen für Menschen verständlichen Ausdruck oder Satz generieren, der beschreibt, was im Bild erkannt wurde. Betrachten Sie beispielsweise das folgende Bild: Azure KI Vision gibt die folgenden Untertitel für dieses Bild zurück: Ein Mann springt auf ein Skateboard Erkennen allgemeiner Objekte in einem Bild Azure KI Vision kann Tausende gängiger Objekte in Bildern identifizieren. Wenn sie z. B. verwendet werden, um Objekte im zuvor besprochenen Skaterbild zu erkennen, gibt Azure KI Vision die folgenden Vorhersagen zurück: Skateboard (90,40 %) Person (95,5 %) Die Vorhersagen enthalten eine Konfidenzbewertung, die die Wahrscheinlichkeit angibt, die das Modell für die vorhergesagten Objekte berechnet hat. Zusätzlich zu den erkannten Objektbeschriftungen und deren Wahrscheinlichkeiten gibt Azure KI Vision Begrenzungsfeldkoordinaten zurück, die die Oberseite, linke Seite, Breite und Höhe des erkannten Objekts angeben. Sie können diese Koordinaten verwenden, um zu bestimmen, wo in dem Bild jedes Objekt erkannt wurde, wie folgt: Markieren von visuellen Features Azure KI Vision kann Tags für ein Bild basierend auf seinem Inhalt vorschlagen. Diese Tags können dem Bild als Metadaten zugeordnet werden, mit denen die Attribute des Bilds zusammengefasst werden. Sie können nützlich sein, wenn Sie ein Bild zusammen mit mehreren Schlüsselbegriffen indizieren möchten, die für die Suche nach Bildern mit bestimmten Attributen oder Inhalten verwendet werden. Die für das Skateerbild zurückgegebenen Tags (mit zugehörigen Konfidenzergebnissen) umfassen beispielsweise: Sport (99,60 %) Person (99,56 %) Schuhe (98,05 %) Skaten (96,27 %) Boardsport (95,58 %) Skateausrüstung (94,43 %) Kleidung (94,02 %) Wand (93,81%) Skateboarden (93,78 %) Skater (93,25 %) Einzelsport (92,80 %) Straßenstunts (90,81 %) Balancieren (90,81 %) Springen (89,87 %) Sportausrüstung (88,61 %) Extremsport (88,35 %) Kickflip (88,18 %) Stunt (87,27 %) Skateboard (86,87 %) Stunt-Performer (85,83 %) Knie (85,30 %) Sport (85,24 %) Longboard (84,61 %) Longboarding (84,45 %) Reiten (73,37 %) Skate (67,27 %) Luft (64,83 %) jung (63,29 %) im Freien (61,39 %) Schulung von benutzerdefinierten Modellen Wenn die von Azure KI Vision bereitgestellten integrierten Modelle nicht Ihren Anforderungen entsprechen, können Sie den Dienst verwenden, um ein benutzerdefiniertes Modell für die Bildklassifizierung oder Objekterkennung zu trainieren. Azure KI Vision erstellt benutzerdefinierte Modelle auf dem vortrainierten Foundation-Modell, d. h., Sie können anspruchsvolle Modelle mit relativ wenigen Schulungsbildern trainieren. Bildklassifizierung Ein Bildklassifizierungsmodell wird verwendet, um die Kategorie oder Klasse eines Bilds vorherzusagen. Beispielsweise können Sie ein Modell trainieren, um zu bestimmen, welche Art von Obst in einem Bild angezeigt wird, wie folgt: Tabelle erweitern Apple Banane Orange Objekterkennung Objekterkennungsmodelle erkennen und klassifizieren Objekte in einem Bild und geben umgebende Feldkoordinaten zurück, um jedes Objekt zu finden. Zusätzlich zu den integrierten Objekterkennungsfunktionen in Azure KI Vision können Sie ein benutzerdefiniertes Objekterkennungsmodell mit Ihren eigenen Bildern trainieren. Beispielsweise können Sie Fotos von Obst verwenden, um ein Modell zu trainieren, das mehrere Früchte in einem Bild erkennt, wie folgt: Hinweis Details zur Verwendung von Azure KI Vision zum Trainieren eines benutzerdefinierten Modells liegen außerhalb des Umfangs dieses Moduls. Informationen zu benutzerdefinierten Modellschulungen finden Sie in der Azure KI Vision- Dokumentation.