Vypracované Otázky Zao 2024 - PDF
Document Details
Uploaded by Deleted User
2024
Tags
Summary
Tento dokument obsahuje vypracované otázky z předmětu ZAO z roku 2024, které se zaměřují na zpracování obrazu a počítačové vidění. Otázky a odpovědi pokrývají témata jako analýza obrazu, počítačová grafika, interpretace obrazu a digitalizace dvojrozměrného obrazu.
Full Transcript
1. Jaké jsou rozdíly mezi analýzou obrazu (počítačovým viděním) na jedné straně a počítačovou grafikou na druhé straně? Uveďte dva příklady, které rozdíly demonstrují. Počítačové vidění se snaží napodobit lidské vidění snímáním obrazu elektronickými prostředky a porozuměním jejich obsahu počítačový...
1. Jaké jsou rozdíly mezi analýzou obrazu (počítačovým viděním) na jedné straně a počítačovou grafikou na druhé straně? Uveďte dva příklady, které rozdíly demonstrují. Počítačové vidění se snaží napodobit lidské vidění snímáním obrazu elektronickými prostředky a porozuměním jejich obsahu počítačovým zpracováním(interpretací).U počítačového vidění je snaha porozumět libovolné 3D scéně. Počítačové vidění je považováno za součást kybernetiky. Kromě vlastních vjemů hraje důležitou úlohu také zkušenost. Např: Počítačové čtení automobilových značek. Vstupem je obraz výstupem je text. Počítačová grafika se naopak snaží zobrazit člověku informaci z počítače, často s možností interakce.Snaží se zobrazit libovolnou 3D scénu. Počítačová grafika je samostatná kategorie grafiky. Např: počítačová hra – na základě interakce zobrazí určitou scénu(seskládanou jen z jednoduchých elementů) ----------------------------------------------------------------------------------------------------------------------- 2. Interpretace (porozumění) obrazu lze matematicky vyjádřit s využitím přístupu teorie formálních jazyků jako zobrazení: pozorovaná obrazová data → model teorie. Modelem teorie je konkrétní svět, v němž “teorie” platí. Jedné “teorii” může odpovídat více různých světů. Interpretaci lze chápat také jako zobrazení: syntax → sémantika. Při interpretaci je využívána sémantika, tj. znalost o konkrétním světě. V analýze obrazů počítačem obvykle chápeme, že obrazy představují určité objekty. Uveďte dva praktické příklady úloh zpracování obrazu, v nichž je interpretace využívána. Jak je interpretace v těchto úlohách konkrétně využita? 1. Rozpoznávání obličejů: Úloha: Identifikovat a lokalizovat obličeje v obrazech nebo videích. Interpretace: Model teorie odpovídá konkrétním vlastnostem obličejů v reálném světě. Syntax (obrazová data) se interpretuje pomocí sémantiky, což zahrnuje znalost o různých částech obličejů, jako jsou oči, nos, ústa. Interpretace v tomto případě zahrnuje porovnání detekovaných prvků s modelem obličeje a jejich identifikaci. 2. Segmentace objektů v lékařských obrazech: Úloha: Oddělit a identifikovat různé anatomické struktury nebo patologické oblasti na lékařských snímcích, například na MRI nebo CT obrazech. Interpretace: Model teorie zahrnuje znalost o anatomii lidského těla a různých patologických stavů. Syntax tvoří intenzity pixelů v obraze. Interpretace spočívá v rozpoznávání a přiřazení biologického významu jednotlivým oblastem na snímku na základě znalosti o strukturách a vzorcích spojených s konkrétními patologickými stavy. ------------------------------------------------------------------------------------------------------------------------ 3. Zpracování signálu a nižší úroveň digitálního zpracování obrazu typicky neinterpretuje zpracovávaná data. Vysvětlete (nejlépe v matematickém vyjádření), co to je interpretace. Co interpretace při zpracování obrazů na jednu stranu přináší a čím použití metod omezuje? Interpretace obrazových dat je jádrem porozumění obrazu v počítačovém vidění. Interpretace znamená zobrazení pozorovaná obrazová data → model. Toto zobrazení využívá sémantiky tj. Konkrétního světa, kde obrazy představují jisté objekty (např.řeky na družicovém snímku).Porozumění obrazu je potom založeno na znalosti,cílech, tvorbě plánů k jejich dosažení a využití zpětných vazeb mezi různými úrovněmi zpracování. Interpretace přináší již zpracovaná data z obrazů, například značky automobilu, které projeli daným místem. Obecné použití těchto metod je příliš složité, v praxi je požadováno radikální zjednodušení. ----------------------------------------------------------------------------------------------------------------------- 4. Proč je porozumění obecným (trojrozměrným) scénám v počítačovém vidění těžké? Uveďte několik důvodů se stručným komentářem. (V přednášce bylo uváděno šest důvodů) 3D → 2D přináší ztrátu informace díky vlastnostem perspektivní transformace (matematická abstrakce, dírková komora). Měřený jas je dán složitým fyzikálním postupem vytváření obrazu. Zář (angl. radiance) (≈ jas) závisí na typu světelných zdrojů, jejich poloze, intenzitě, poloze pozorovatele, lokální geometrii povrchu a odrazivosti povrchu. Obrácená úloha je špatně podmíněna. Nevyhnutelná přítomnost šumu v každém měření ve skutečném světě. Příliš mnoho dat Stránka A4, 300 dpi, 8 bit per pixel = 8.5 Mbytes. Neprokládané video 512 × 768, RGB (24 bit) = 225 Mbits/sekundu. Nutnost zahrnout interpretaci Lokální okno v kontrastu s potřebou globálního pohledu ----------------------------------------------------------------------------------------------------------------------- 5. Lokální a globální zpracování. Diskutujte stručně rozdíl mezi lokálním a globálním přístupem v analýze obrazu. Uveďte vý-hody a nevýhody obojího. Uveďte se stručným komentářem dva příklady lokálních operací. Uveďte se stručným komentářem dva příklady globálních operací. Lokální: Lokálně nejsme schopni vnímat kontext obrazové informace. ten je velmi důležitý. může dojit ke špatné interpretaci. Nutnost zahrnout interpretaci Výhody: Citlivost k lokálním detailům, schopnost zachytit texturu a detaily na mikroskopické úrovni. Nevýhody: Může být citlivý na šum nebo místní variace a může vyžadovat komplexnější zpracování. např. lokální průměrování, detekce hran Globální: Výhody: Jednoduchý výpočet, vhodný pro celkové zpracování obrazu, nemá problémy s lokálním šumem nebo variacemi. Nevýhody: Může ztratit detaily a informace na mikroskopické úrovni. např. úprava jasu, inverze obrazu ------------------------------------------------------------------------------------------------------------------------ 6. Vysvětlete pojem spojitá obrazová funkce f (x, y) nebo f (x, y, t). Vysvětlete, co jsou parametry x, y, t. Uveďte několik příkladů reálných obrazových funkcí sejmutých s pomocí různých fyzikálních principů. Hodnota funkce f tedy bude odpovídat různým fyzikálním veličinám. Obrazová funkce je výsledek perspektivního zobrazení. Hodnoty obrazové funkce odpovídají některé fyzikální veličině např jasu u obrazu z černobíle TV kamery, teplotě u termovizní kamery apod. Statický obraz popsán funkcí dvou souřadnic x,y, obrazová funkce tří proměnných se použije když se plošné obrazy mění v čase t tj, f(x,z,t) nebo v případě objemových obrazů f(x,y,z) – tomograf. ----------------------------------------------------------------------------------------------------------------------- 7. Co je to kvantování obrazu? Jak a v jakém zařízení se kvantování realizuje? Kolik kvantizačních úrovní zhruba rozliší u monochromatického obrazu člověk? Co je v obraze patrné, když je kvantizačních úrovní méně, než by mělo být? Kvantování je přiřazení určité diskrétní hodnoty jasu danému bodu. Realizuje se na A/D převodníku. Člověk rozliší zhruba 50 úrovní jasu. Když je v obraze méně kvantizačních úrovní než je potřeba zaniknu jemné detaily obrazu a vzniknou falešné obrysy. ------------------------------------------------------------------------------------------------------------------------ 8. Uvažujte digitalizaci dvojrozměrného obrazu. Zde se stejně jako při digitalizaci jednorozměrného signálu stanovuje vzdálenost ekvidistantních vzorků podle Shannonovy věty o vzorkování. Pro dvojrozměrné obrazy je potřebné navíc ke stanovení vzdálenosti mezi vzorky (což se řeší podobně jako u jednorozměrného signálu) vyřešit další záležitost. Jakou? Jak se záležitost typicky řeší a jaké výhody či nevýhody tato řešení mají? Poznamenávám, že se neptám na kvantování. Je potřeba rozhodnout do jaké vzorkovací mřížky budou vzorky uspořádány, existují 3 pravidelné mnohoúhelníky jejichž síť pokrývá rovinu rovnostranné trojúhelníky čtvercová mřížka o snadno realizovatelná o nevýhoda při měření vzdálenosti hexagonální mřížka o řeší většinu problémů čtvercové o nevýhodná pro některé operace (Fourierova transformace...) ----------------------------------------------------------------------------------------------------------------------- 9. Jaké výhody přináší použití hexagonální mřížky (podobné včelí plástvi) při vzorkování obrazu? Proč se taková mřížka nepoužívá ve většině digitalizačních karet? Výhody: Má stejné vzdálenosti pro všechny sousedy jednotlivého bodu v mřížce, větší obrazová stabilita Nevýhody: Většina technologií a obrazových standardů používá čtvercový rastr, vyžaduje složitější hardware, nekompatibilita pro běžné operace např. Fourierovu frekvenční filtraci. ------------------------------------------------------------------------------------------------------------------------ 10. Relace souvislosti mezi dvěma pixely binárního digitálního obrazu (tj. existuje mezi nimi cesta) definuje rozklad obrazu (tj. množiny) na třídy ekvivalence (tj. oblasti). Jaké tři vlastnosti musí relace splňovat, aby byla ekvivalencí. Ověřte platnost těchto tří vlastností pro relaci souvislosti. 1. Reflexivita: Každý pixel je sám se sebou v souvislosti (existuje cesta od pixelu do sebe sama). Reflexivita je obvykle automaticky splněna. 2. Symetrie: Pokud pixel A je ve vztahu souvislosti s pixelem B, pak i pixel B musí být ve vztahu souvislosti s pixelem A. 3. Tranzitivita: Pokud jsou pixely A a B ve vztahu souvislosti a pixely B a C jsou ve vztahu souvislosti, pak musí být také pixely A a C ve vztahu souvislosti. Tranzitivita je klíčová pro vytváření tříd ekvivalence, protože umožňuje spojování sousedících pixelů do stejné třídy na základě spojitosti. ------------------------------------------------------------------------------------------------------------------------ 11. (a) Definujte (i) oblast a (ii) konvexní oblast ve dvojrozměrném obraze. Nakreslete příklad konvexní a nekonvexní oblasti. (b) Definujte konvexní obal. (c) Pro nekonvexní oblast z bodu (a) zakreslete konvexní obal. (a) konvexní a nekonvexní oblast v konvexní oblasti lze každé dva body spojit úsečkou v nekonvexní nikoliv (b) Konvexní obal je nejmenší oblast spojující objekt taková, že každé dva body oblasti mohou být spojeny úsečkou, jejíchž všechny body patří do oblasti. (c) R a jeho konvexní obal, jezera a zálivy: ----------------------------------------------------------------------------------------------------------------------- 12. Vysvětlete v souvislosti s obrazy význam pojmů (a) prostorové rozlišení; (b) spektrální rozlišení; (c) radiometrické rozlišení a (d) časové rozlišení. Prostorové rozlišení: o týká se schopnosti senzoru nebo obrazového systému rozlišovat mezi různými objekty nebo detaily v prostoru (menší vzdálenosti mezi body). Vyšší prostorové rozlišení znamená, že senzor je schopen detekovat menší objekty nebo detaily. Spektrální rozlišení: o Spektrální rozlišení se týká schopnosti senzoru rozlišit mezi různými vlnovými délkami elektromagnetického záření. Vyšší spektrální rozlišení umožňuje lepší identifikaci a analýzu různých materiálů na základě jejich spektrálních charakteristik. Radiometrické rozlišení: o souvisí s počtem diskrétních úrovní jasu nebo intenzity, které senzor nebo obrazový systém může rozlišit. Vyšší radiometrické rozlišení znamená, že senzor může zachytit a rozlišit více odstínů jasu mezi nejtmavší a nejsvětlejší oblastí obrazu. Časové rozlišení: o týká se časové frekvence, s jakou senzor nebo obrazový systém dokáže opakovaně snímat stejné území. Vyšší časové rozlišení umožňuje zachytit změny v čase, což je důležité pro sledování dynamických jevů nebo změn v obrazech a scénách. ----------------------------------------------------------------------------------------------------------------------- 13. Napište definiční vzorec Shannonovy (též informační) entropie. Vysvětlete veličiny ve vzorci. K čemu se Shannonova entropie používá? Uvažujte šedotónový obraz. Uveďte alespoň dvě použití Shannonovy entropie v digitálním zpracování obrazu. Obraz má G jasových úrovní K=0....G-1. 𝐻𝑒 = − ∑𝑘 𝑃(𝐾) log 2 𝑃(𝐾) [bit] kde P(K) je pravděpodobnost k-tého jasu v obrazu, čím méně často se vyskytuje v obraze tím vyšší informaci nese. Používá se při kompresi obrazu: Entropie tvoří limit při bezeztrátové kompresi dat. Data nelze více zhustit než dovoluje jejich entropie, pokud nechceme ztratit informace v datech. Segmentace obrazu: V oblasti zpracování obrazu lze Shannonovu entropii použít pro segmentaci obrazu. Nízká entropie může signalizovat homogenní oblasti nebo struktury, což může být využito při identifikaci a oddělení různých objektů nebo regionů v obraze. Vyšší entropie může naznačovat složitější nebo nejistější oblasti v obraze. ------------------------------------------------------------------------------------------------------------------------ 14. I když nic nevíme o interpretaci obrazových dat, můžeme měřit informační obsah obrazu Shannonovou entropií. Uvažujte šedotónový obraz. Ukažte, jak spočítat entropii jasových úrovní obrazy s 2b stupni šedi obrazu o rozměru N × N z histogramu h(i), i = 0,... , 2b − 1. Pro jaký histogram bude entropie největší? Počty jednotlivých jasů v histogramu podělíme rozměrem NxN a z vypočtených odhadů pravděpodobností vypočteme odhad entropie. Entropie bude největší pro rovnoměrné rozložení jasů v histogramu. ----------------------------------------------------------------------------------------------------------------------- 15. Napište definiční vztah pro Shannovovu entropii. Uvažujte šedotónový obrázek. Spočítejte entropii na základě histogramu jasu hi , i = 0,... , 255. Ví se, že předzpracováním obrazu se entropie nezvětší. Co musíme udělat, když přesto potřebujeme obraz s větší entropií? 𝐻𝑒 = − ∑𝑘 𝑃(𝐾) log 2 𝑃(𝐾) [bit] Možnosti zvýšení entropie: o Zvýšení kontrastu: Převedení obrazu tak, aby rozdíly mezi jasovými úrovněmi byly větší, může zvýšit entropii. o Aplikace transformací: Použití transformací, jako jsou například histogramové transformace nebo úpravy jasu, může ovlivnit distribuci jasových úrovní a také změnit entropii. o Použití filtrů: Některé filtry mohou zvýraznit texturu nebo detaily v obraze, což může vést k vyšší entropii. ----------------------------------------------------------------------------------------------------------------------- 16. Při pořizování obrazu trojrozměrného (3D) světa kamerou se geometrie zobrazení reprezentuje modelem dírkové kamery (tj. perspektivní projekcí), ve kterém se 3D bod (x, y, z) promítne do obrazové roviny jako (x, y). Nakreslete odpovídající obrázek (stačí o dimenzi menší, tj. plošný). Předpokládejte, že znáte 3D souřadnice (x, y, z), ohniskovou vzdálenost f, tj. vzdálenost obrazové roviny odstředu promítání. Odvoďte vztah pro x. 𝑥𝑓 𝑦𝑓 Díky podobným trojúhelníkům pro perspektivní zobrazení platí: 𝑥 ′ = , 𝑦′ = 𝑧 𝑧 𝑥′ 𝑥 𝑥𝑓 odvození přes podobné trojúhelníky: = 𝑦 → 𝑥′ = 𝑓 𝑦 ----------------------------------------------------------------------------------------------------------------------- 17. K čemu slouží optická soustava (především objektiv) u fotoaparátu. Popište roli objektivu neformálně z fyzikálního hlediska. zaostřování zachycení světla o objektiv soustřeďuje světlo na snímač kontrola expozice o clona ovlivňuje množství světla, které prochází do kamery. Otevření nebo zavření clony reguluje expozici a hloubku ostrosti snímku. korekce optických vad ----------------------------------------------------------------------------------------------------------------------- 18. Fungování objektivu fotoaparátu se obvykle na praktické úrovni vysvětluje teorií geometrické optiky. Za jakých předpokladů se může být zjednodušený model geometrické optiky použit? Podotýkám, že složitější fyzikální model je model vlnové optiky.. Malé ohniskové vzdálenosti: o Předpokládá se, že ohnisková vzdálenost objektivu je malá ve srovnání s ostatními rozměry systému. Tento předpoklad platí v mnoha běžných fotografických situacích, zejména při fotografování objektů větších než objektiv samotný. Malé úhlové rozměry: o Předpokládá se, že úhlové rozměry objektu jsou malé, což znamená, že lze považovat světelné paprsky za přímé čáry. Tento předpoklad platí pro většinu předmětů, které jsou v dostatečné vzdálenosti od objektivu. Homogenita prostředí: o Předpokládá se, že prostředí, kterým světlo prochází nebo se odráží, je homogenní a nemá významné změny indexu lomu. Tato podmínka platí v běžných podmínkách fotografování ve vzduchu. Nízká difrakce: o Předpokládá se, že difrakční efekty jsou minimální. Tento předpoklad platí, pokud jsou rozměry otvoru (clony) malé ve srovnání s vlnovou délkou světla. Jde o hrubou aproximaci, ale geometrická optika je důležitá pro techniku a také je zajímavá z hlediska historického vývoje fyzikálního názoru. ----------------------------------------------------------------------------------------------------------------------- 19. Srovnejte na konceptuální úrovni z pohledu fotografování vlastnosti dírkové komory a objektivu složeného z čoček. Dírka sbírá jen málo fotonů, má potíže díky ohybu světla na dírce, navíc jsou u dírky některé protichůdné jevy: Větší dírka propustí více světla, ale rozmaže obrázek. Při malé dírce se začnou projevovat ohybové jevy a obrázek bude také rozmazán. Čočka Sbírají více fotonů (světla). Musí být zaostřené. ----------------------------------------------------------------------------------------------------------------------- 20. Vysvětlete, co je přirozená vinětace. Projevuje se přirozená vinětace více u normálních objektivů nebo u širokoúhlých objektivů? Zdůvodněte (v lepším případě odvoďte), proč k přirozené vinětaci dochází. Je jev kdy jsou zeslabovány paprsky lámající se pod větším úhlem. Je to optická vada, více se projevuje u širokoúhlých objektivů. Popisuje ji činitel cos4𝛼. Jelikož je přirozená vinětace systematickou chybou, lze ji pro radiometricky kalibrovanou kameru kompenzovat. ----------------------------------------------------------------------------------------------------------------------- 21. Vysvětlete, co je to radiální zkreslení objektivu. Jak se v sejmutém obraze projevuje a jak se opravuje? Převládající geometrické zkreslení. Projevuje se více u širokoúhlých objektivů. Objektivy s krátkou ohniskovou vzdáleností typicky větší zkreslení. Zkreslení se aproximuje polynomem sudého stupně, často jen stupně dva. Koriguje se tedy výpočtem pro všechny ohniskové vzdálenosti. ----------------------------------------------------------------------------------------------------------------------- 22. Vysvětlete pojem pojem Bayerova mřížka u barevných kamer a fotoaparátů? Liší se rozlišení v barvě (na čipu) od počtu pixelů? Pokud ano, jak? Bayerova mřížka je druh barevného filtru, který se používá v digitálních fotoaparátech k zachycení barevných informací. Tato mřížka je často umístěna na obrazovém snímači, který slouží k převodu světelných informací na elektrické signály. Mřížka má podobu vzoru, ve kterém jsou jednotlivé pixely pokryty různými filtry, které propouštějí pouze určité barevné složky světla. Tento vzor se skládá z čtyř základních typů pixelů: R, G, B, R/B. Rozlišení v barvě je nižší než počet pixelů. V Bayerově mřížce jsou totiž jednotlivé pixely schopny zachytit pouze jednu ze tří základních barev (R, G, B). Barevné informace pro každý pixel se musí interpolovat nebo rekonstruovat z okolních pixelů s jinými barevnými filtry. ----------------------------------------------------------------------------------------------------------------------- 23. Vysvětlete pojem hloubka zaostření u optického objektivu. Jaký (obvykle ovladatelný) parametr objektivu umožňuje měnit hloubku zaostření? Udává rozsah vzdáleností od středů promítání v předmětovém prostoru, v němž se objekty zobrazují dostatečně zaostřené. Vysvětluje, proč je možné mírně posunout obrazovou rovinu (v obrazovém prostoru) ve směru optické osy a mít stále dostatečně zaostřený obraz, a to díky konečné velikosti pixelu na senzoru nebo zrna fotocitlivého materiálu u zrna. Mění jí clonové číslo (čím větší, tím větší hloubka ostrosti). ----------------------------------------------------------------------------------------------------------------------- 24. Představte si, že snímáme 3D scénu, jejíž elementární ploška odráží jistou záři L do CCD kamery. To se na jejím světlocitlivém čipu odpovídá ozáření E, které je přímo úměrné hodnotě obrazové funkce f (x, y), tj. jasu (přesněji záři). Na jakých vlastnostech elementární plošky a zdrojů světelné energie hodnota f (x, y) pro pevně zvolená x, y závisí? lokální geometrie koeficient odrazivosti albedo úhel natočení směr pohledu vlnová délka dopadajícího světla ----------------------------------------------------------------------------------------------------------------------- 25. Vysvětlete pojem “dvojsměrová distribuční funkce obrazu” označovaná zkratkou BRDF. K čemu se BRDF používá? V obecném případě popisuje odrazivost těles. BRDF f r udává jas elementární plošky na povrchu pro určitý materiál, zdroj světla a směr pohledu. Modelování dvousměrné distribuční funkce odrazu f je důležité pro realistické stínování v počítačové grafice. ----------------------------------------------------------------------------------------------------------------------- 26. Jaké odrazivostní vlastnosti má lambertovský povrch? K čemu se zjednodušení odrazivostních vlastností daných lambertovským modelem používá? Uveďte alespoň dva příklady použití. je idealizovaný model povrchu, který má několik zjednodušujících předpokladů o odrazivosti. Odráží světelnou energii rovnoměrně do všech směrů. Proto je zář (a také jas) ze všech směrů konstantní. Jeho BRDF je také konstantní. Odrazivost je nezávislá na úhlu pohledu Lambertovský model je pro svou jednoduchost značně oblíbený. Používá se pro výpočty odrazivosti nebo v počítačové grafice. ----------------------------------------------------------------------------------------------------------------------- 27. Co řeší v radiometrii rovnice ozáření? Zkuste úlohu formulovat (asi Vám pomůže, když si nakreslíte obrázek a označíte v něm veličiny) a naznačit myšlenky odvození (vzorce nejsou nezbytně nutné). Rovnice ozáření říká jak se v obraze projeví zář scény. 𝜋 𝑑 2 𝐸 = 𝐿 ( ) cos 4 𝛼 4 𝑓 Kde E je ozáření, L je zář scény, cos4 α je optická vada vinětace. Ozáření E je dáno množstvím energie, kterou senzor snímající obraz získá na jednotku účinné plochy čidla světla. Účinná plocha světla respektuje vzájemné natočení elementární plošky, ze které je světelná energie vyzařována, a elementární plošky přijímacího čidla. Odvození je založeno na zjednodušené představě čidla jako např jednoho pixelu digitální kamery. Uvažujeme perspektivní zobrazení jako první vyjdeme s rovností prostorových úhlů, dále stanovíme jaké množství světla projde přes čočku o poloměru d. Světelná energie je čočkou soustředěna do obrazu. Zanedbáme ztráty v čočce a uvažujeme, že žádné další světlo, již nedopadá na senzor. K obrázku: optická osa je ve směru osy Z objektiv je v počátku a má ohniskovou vzdálenost f. Elementární ploška dO na povrchu objektu, jejíž zobrazení do plošky v obraze dI nás zajímá je ve vzdálenosti z, Spojnice mezi ploškami dO a dI a osa Z svírají úhel α. Spojnice mezi ploškami dO a dI svírá s normálou n k plošce dO úhel Θ ----------------------------------------------------------------------------------------------------------------------- 28. Charakterizujte předzpracování obrazu. Co je vstupem a výstupem předzpracování obrazu. K čemu předzpracování obrazu slouží? Uveďte tři příklady použití metod předzpracování. je klíčovým krokem v oblasti zpracování obrazu, který zahrnuje různé techniky a operace pro zlepšení kvality a vhodnosti obrazových dat pro následující analýzu nebo interpretaci. Předzpracování obrazu může obsahovat několik operací, včetně filtrace, normalizace, úpravy kontrastu a dalších. Vstupem jsou surová obrazová data a výstupem je zpracovaný obraz, který by měl být vhodně přizpůsoben pro daný účel, ať už jde o analýzu, segmentaci, rozpoznávání nebo jiné aplikace. Úprava jasu a kontrastu, odstranění šumu, zaostření ----------------------------------------------------------------------------------------------------------------------- 29. Charakterizujte dvojrozměrnou konvoluci. K čemu se dvojrozměrná konvoluce používá v digitálním zpracováním obrazu? Dvourozměrná konvoluce je matematická operace, která kombinuje dva obrazy tak, aby vznikl obraz třetí (násobení ve frekvenční oblasti). Používá se jako frekvenčně selektivní filtr přičemž lze definovat: dolní propust (odstranění šumu, rozmazání) horní propust (zvýraznění hran v obrázku) ----------------------------------------------------------------------------------------------------------------------- 30. Zapište vztah pro vyhlazování histogramu hi , i = 0,... , 255 pomocí klouzavého průměru pro okno o šířce 2K + 1 s reprezentativní hodnotou okna uprostřed. 𝐾 1 ℎ′ (𝑛) = 2𝐾+1 ∑ ℎ(𝑛𝑗 + 𝑖) 𝑖=−𝐾 Kde K udává velikost okolí ------------------------------------------------------------------------------------------------------------------------ 31. Jakými metodami předzpracování obrazu zvýšíte kontrast šedotónového obrazu pro pozorovatele, máte-li k dispozici právě tento jediný obraz. Uveďte alespoň dvě kvalitativně odlišné metody. Vysvětlete stručně princip těchto metod. Histogramová ekvalizace: o Tato metoda se snaží rovnoměrně rozdělit jasové úrovně v histogramu obrazu. Histogram je transformován tak, aby byl co nejvíce uniformní. Tím se zvýší kontrast mezi různými jasovými úrovněmi. Adaptivní kontrastová úprava: o Tato metoda bere v úvahu okolní regiony pixelů a upravuje kontrast lokálně na základě charakteristiky každého regionu. Místo jednotné transformace celého obrazu adaptivní kontrastová úprava analyzuje okolí každého pixelu a upravuje kontrast v souladu s okolními hodnotami. ----------------------------------------------------------------------------------------------------------------------- 32. Napište definiční vztah pro přímou a invezní jednorozměrnou Fourierovu transformaci. Vyjádřete neformálně princip a význam Fourierovy transformace. 1 Přímá: 𝑥(𝑗𝜔) = ∫ 𝑥(𝑡)𝑒 −𝑗𝜔𝑡 𝑑𝑡 inverzní: 𝑥(𝑡) = 2𝜋 ∫ 𝑥(𝑗𝜔)𝑒 𝑗𝜔𝑡 𝑑𝑡 Fourierova transformace je vyjádření časově závislého signálu pomocí harmonických signálů, tj. funkcí sin a cos, obecně tedy funkce komplexní exponenciály. Slouží pro převod signálů z časové oblasti do oblasti frekvenční. Signál musí být periodický a splňovat Dirichletovy podmínky. Signál může být buď ve spojitém či diskrétním čase. ----------------------------------------------------------------------------------------------------------------------- 33. Jaká je asymptotická výpočetní složitost jednorozměrné Fourierovy transformace. Použijte značení ‘velké O’ v závislosti na délce n vstupního diskrétního signálu (posloupnosti). O(n2) ----------------------------------------------------------------------------------------------------------------------- 34. Vysvětlete, co je dvojrozměrná Fourierova transformace, její rozdíl od jednorozměrné (můžete definičním vzorcem nebo neformálně). Jak se dvojrozměrná Fourierova transformace používá ve zpracování obrazu. je rozšířením jednorozměrné Fourierovy transformace na dvourozměrné oblasti, jako jsou například matice nebo obrazy. Zatímco jednorozměrná Fourierova transformace pracuje s jednorozměrnými signály, dvojrozměrná Fourierova transformace zpracovává dvourozměrné signály, což umožňuje analýzu prostorové struktury a frekvenčního obsahu dvourozměrných dat. Používá se zejména k filtraci a zpracování obrazu, kompresi dat nebo analýze obrazových textur. ----------------------------------------------------------------------------------------------------------------------- 35. Vztah mezi šířkou frekvenčního spektra ve Fourierově transformaci a dobou trvání jednorozměrného signálu je dán (Heisenbergovým) principem nejistoty. Formulujte neformálně princip a vysvětlete jeho význam pro frekvenční analýzu ve zpracování signálů (obrazů). Princip je instancí obecného principu nejistoty zavedeného Wernerem Heisenbergem v kvantové mechanice. Všechny dvojice (časový signál ↔ Fourierův obraz) jsou vázány principem nejistoty. Signál o krátké době trvání má široké frekvenční spektrum a obráceně. 1 trvání signálu ∗ šířka spektra ≥ 𝜋 ----------------------------------------------------------------------------------------------------------------------- 36. Fourierova transformace je definována pro periodické signály. Mnohé praktické signály, s nimiž běžně pracujeme, jsou neperiodické. Nazvěte a neformálně vysvětlete dva přístupy, které se zde obvykle používají. Windowing: zpracovat signál po malých částech (oknech) a předpokládat, že vně je signál periodický. Pouhé rozsekání signálu na obdélníková okna není dobré, protože na rozhraní oken jsou nespojitosti. Ty se ve spektru projeví nežádoucími vysokými frekvencemi. Proto se signál obvykle konvoluje s tlumící váhovou funkcí, obvykle Gaussián nebo Hammingova funkce, zajišťující nulovou hodnotu signálu na okraji a vně okna. Použití složitějších bázových funkcí, např. vlnek ve vlnkové (wavelets) transformaci. ------------------------------------------------------------------------------------------------------------------------ 37. Vyjádřete větu o konvoluci, tj. jak je konvoluce vyjádřena ve Fourierově transformaci. Pro jednoduchost uvažujte jednorozměrný případ. Konvoluce (ve funkcionální analýze) je operace na dvou funkcích f a h, která vytvoří třetí funkci (fh), která se používá jako modifikace jedné ze vstupních funkcí. Konvoluce je integrál∗ “míchající” hodnoty dvou funkcí, a to funkce h(t), která je posouvána a překrývá se s funkcí f (t) nebo obráceně. ----------------------------------------------------------------------------------------------------------------------- 38. Jaká je výpočetní složitost diskrétní Fourierovy transformace pro dvojrozměrný obraz o velikosti N ×N pokud byste v algoritmu použili přímo definiční vztah? Připomínám, že asymptotický odhad algoritmické složitosti se zapisuje formou O(.), kde se v argumentu v našem případě bude vyskytovat výraz obsahující N. Na multiplikativní a aditivní konstanty se nebude brát zřetel. O(N4) ------------------------------------------------------------------------------------------------------------------------ 39. K urychlení diskrétní Fourierovy transformace byl před více než padesáti lety navržen algoritmus rychlé Fourierovy transformace (FFT). Jaký je jeho princip? Jsou nějaká omezení na velikost vstupního 2D obrazu? Rychlá Fourierova transformace (FFT – fast Fourier transform) je efektivní algoritmus pro výpočet diskrétní Fourierovy transformace a její inverze. DFT posloupnosti délky N lze vyjádřit jako součet dvou DFT posloupností délky N/2, v jedné jsou liché a ve druhé sudé vzorky. Tyto dvě posloupnosti mohou být dále rozděleny takže dostaneme 4 (N/4)-bodové DFT. Opakováním tohoto postupu se dostaneme až k základní dvojici rovnic popisujících dvoubodovou DFT. Tyto rovnice se dají znázornit graficky jako „motýlkové schéma“. Celý výpočet FFT pak spočívá v kombinování motýlků který popisuje algoritmus DFT FFT. Rozměry vstupního obrazu musí být mocniny 2 (pro většímu používaných algoritmů). ----------------------------------------------------------------------------------------------------------------------- 40. Jaká je algoritmická složitost algoritmu FFT pro dvojrozměrný obraz o velikosti N × N? 𝑁 2 ⋅ 𝑙𝑜𝑔 𝑁 ----------------------------------------------------------------------------------------------------------------------- 41. Formulujte Shannonovu (též Nyquistovu, Kotelnikovu) větu o vzorkování pro jednodušší případ jednorozměrného signálu. Vysvětlete (stačí neformálně, obrázek pomůže), jak se věta o vzorkování dokazuje (nápověda: frekvenční spektra). Pokud signál x(t), spojitý v čase, obsahuje pouze frekvenční složky s frekvencemi menší než f max pak je veškerá informace o tomto signálu obsažena v hodnotách x(nT), jestliže vzorkovací 1 frekvence 𝑓𝑣𝑧 = 𝑇 je větší než 2 f max. Větu je možno dokázat na základě toho, že spektrum vzorkovaného signálu (diskrétního v čase) je tvořeno nekonečnou posloupností řady spekter původního signálu. Spektrum signálu se tedy periodicky opakuje s frekvenci ωvz ----------------------------------------------------------------------------------------------------------------------- 42. Proč analogové televizní normy jako evropská PAL nebo americká, japonská NTSC používají prokládané řádkování? Vznik řádkového prokladu se datuje do počátků televizního vysílání. Zatímco běžný film promítaný s frekvencí 25 snímků za sekundu lze vcelku bez problémů sledovat (vždy nějakou dobu svítí celý snímek, pak se film posune dál), na televizní obrazovce to nejde. Elektronový paprsek dopadá pouze na jediný bod a dosvit luminoforu je příliš krátký, než aby taková frekvence stačila. Obraz by příliš blikal. Proto vzniklo prokládané řádkování - snímkový kmitočet je dvojnásobný, přitom ale není potřeba zvětšovat šířku pásma. Obraz se kreslí po půlsnímcích, nejdřív liché řádky a pak sudé nebo naopak. ----------------------------------------------------------------------------------------------------------------------- 43. a) Televizní signál o 50 půlsnímcích za sekundu je vzorkován do matice 500 × 500 pixelů ve 256 jasových úrovních. Vypočtěte nejmenší vzorkovací frekvenci (v kHz), kterou musí být signál v digitalizační kartě (angl. frame grabber) vzorkován? b) Jak se jmenuje věta, podle které jste výpočet realizovali? Naznačte myšlenku jejího odvození(stačí úvaha, vzorce nejsou nezbytně nutné). minimálně 12500 kHz. Shannon-Kotělnikuv teorém Tento teorém lze dokázat za použití frekvenčních spekter, z Fourierovy transformace vyplývá, že obrazy jsou periodické a symetrické opakují se s vzorkovací frekvencí fvz aby se vzájemně nepřekrývali musí být jejich vzorkovací frekvence 2 krát vyšší než nejvyšší obsažená frekvence ve spektru. ------------------------------------------------------------------------------------------------------------------------ 44. Na obrázku je vlevo uveden vstupní intenzitní obraz a vpravo jeho Fourierovo frekvenční spektrum vyjádřeno jako intenzitní obraz - tmavé pixely odpovídají vysokým spektrálním hodnotám. Ve spektru jsou patrné dva tmavé kříže. První výraznější se kryje se svislým a vodorovným směrem. Druhý méně výrazný kříž je proti výraznému kříži mírně pootočen proti směru hodinových ručiček. Vysvětlete, jakým jevům v intenzitním obrázku kříže odpovídají. Hlavní kříž: DFT předpokládá, že obraz je jedna perioda 2D obrazové funkce. Předpokládá, že okraje budou stejné a budou na sebe navazovat. Tento předpoklad však není splněn, ve spektru jsou vysoké frekvence, aby bylo možno rekonstruovat nespojitosti na krajích obrazu. Je to analogie k případu obdélníkového průběhu na jehož rekonstrukci bychom potřebovali nekonečné množství harmonických složek. Slabší kříž: Pochází z převažujících směrů jasových rozhraní v obrázku (gradientu obrazové funkce. ----------------------------------------------------------------------------------------------------------------------- 45. Lineární ortogonální integrální transformace s výhodou používají pro reprezentaci signálů a obrazů (např. Fourierova, kosínová, metoda hlavních směrů) a pro jejich zpracování. Vysvětlete jaký je princip těchto metod. Zmiňte dva příklady použití. Lineární ortogonální integrální transformace jsou matematické metody, které převádějí původní signál nebo obraz do nové domény. Tyto transformace mají tu výhodu, že pracují s ortogonálními funkcemi, což umožňuje efektivní reprezentaci a analýzu signálů či obrazů. komprese obrazu, filtrace ----------------------------------------------------------------------------------------------------------------------- 46. Roztřiďte metody předzpracování obrazu do čtyř skupin podle velikosti zpracovávaného okolí právě zpracovávaného pixelu. U každé skupiny uveďte alespoň jeden příklad. ----------------------------------------------------------------------------------------------------------------------- 47. Vysvětlete princip jasových korekcí (obvykle se používají k odstranění systematických vad při snímání obrazu), když se uvažuje multiplikativní model poruchy. Vyjádřete matematicky. Nový jas f (i, j) závisí na poloze i, j vstupního obrazu g(i, j). Často multiplikativní model poruchy: f(i, j) = e(i, j) g(i, j). Dva postupy: Opravné koeficienty získány snímáním etalonové plochy známého jasu c, např. při kompenzaci nerovnoměrného osvětlení (vypnout AGC!). Po sejmutí získáme 𝑓𝐶 (𝑖, 𝑗) = 𝑓𝑐 (𝑖,𝑗) 𝑒(𝑖, 𝑗)𝑐 ⇒ 𝑒(𝑖, 𝑗) = 𝑐 Proložení pozadí analytickou plochou a její odečtení od původního obrazu. ----------------------------------------------------------------------------------------------------------------------- 48. Pro vyjádření afinních geometrických transformací obrazu se s výhodou využívají homogenní souřadnice. Vysvětlete, co jsou homogenní souřadnice. Jakou výhodu pro vyjádření afinních geometrických transformací přinášejí. (nápověda: vzpomeňte si na jazyk pro popis stránky PostScript). Homogenní souřadnice jsou obvyklé v teoretické mechanice, projektivní geometrii, počítačové grafice a robotice. Základní myšlenkou je reprezentovat bod ve vektorovém prostoru o jednu dimenzi větším. Homogenní souřadnice umožňují reprezentovat veškeré grafické operace jako násobení matic. Bod [x, y] se v homogenních souřadnicích vyjádří ve 3D vektorovém prostoru jako [λx, λy, λ] T, kde λ ≠0. Pro jednoduchost se obvykle používá jedno z nekonečně mnoha vyjádření [x, y, 1] T. Rozměry vstupního obrazu musí být mocniny 2 (pro většinu používaných algoritmů). ----------------------------------------------------------------------------------------------------------------------- 49. Popište myšlenku odvození, které poskytne trasformaci vedoucí k ekvalizovanému histogramu. Vstup: histogram H(p) vstupního obrazu s jasovou stupnicí p = ⟨p0, pk⟩. Cíl: najít monotónní transformaci jasové stupnice q = T (p), aby výsledný histogram G(q) byl rovnoměrný pro celý výstupní interval jasu q = ⟨q0, qk⟩. Ekvalizovaný histogram ≈ rovnoměrnému rozdělení f = N2 qk − q0 Pro každý pixel v obraze se provádí transformace na základě kumulativního histogramu. Nová hodnota pixelu je určena hodnotou kumulativního histogramu odpovídající jasové úrovni původního pixelu, vynásobenou maximální jasovou úrovní v obraze. ----------------------------------------------------------------------------------------------------------------------- 50. Vysvětlete myšlenku ekvalizace histogramu. K čemu se ekvalizace histogramu používá ve zpracování obrazu? Cílem je: zvýšit kontrast úplným využitím jasové stupnice (pro pozorovatele – člověka), jasové obraz normalizovat (např. pro automatické srovnávání).Metoda je užitečná pro obrazy, které jsou buď příliš tmavé, nebo příliš světlé. Ekvalizace histogramu může vést ke zřetelnějšímu znázornění struktur u rentgenových snímků kostí a ke zvýraznění detailů fotografií, které jsou podexponované nebo přeexponované. Hlavní výhoda této operace je, že je poměrně jednoduchá a současně invertibilní (jestliže známe funkci ekvalizace histogramu, pak můžeme obnovit původní obrázek). Výpočet není nikterak výpočetně náročný ----------------------------------------------------------------------------------------------------------------------- 51. Vysvětlete, proč ekvalizovaný histogram diskrétního obrazu není obvykle plochý? V ideálním případě bychom to očekávali. Omezená dynamika obrazu: o V případě, že obraz má omezenou dynamiku jasových úrovní (například šedotónový obraz s malým rozsahem jasových hodnot), může být obtížné dosáhnout úplné rovnoměrnosti. Ekvalizace histogramu může jen odrážet rozsah hodnot v původním obraze. Přítomnost šumu: o Pokud je obraz zatížen šumem, může to ovlivnit ekvalizaci histogramu. Šum může způsobit drobné fluktuace v transformovaném histogramu. Lokální variace v obrazu: o Pokud jsou v obraze lokální variace jasových úrovní, ekvalizace může tyto variace zachovat. Například, pokud jsou některé části obrazu tmavší a jiné světlejší, tyto variace mohou způsobit, že ekvalizovaný histogram bude mít vlnitý charakter. Nízký kontrast v původním obraze: o Pokud je původní obraz nízko kontrastní (málo rozdílů v jasových úrovních), ekvalizace nemusí dramaticky změnit rozložení hodnot. ----------------------------------------------------------------------------------------------------------------------- 52. Obecně formulovaná transformace jasové stupnice T nahradí vstupní jas p novým jasem q = T(p). Předpokládejme obvyklý 8 bitový šedotónový obraz. Bude počet jasových úrovní ve výstupním obraze vždy stejný, jako ve vstupním obraze? Vysvětlete a uveďte příklady. Nemusí být, záleží na konkrétní transformaci, například když transformace zahrnuje: Oříznutí: o Pokud transformace zahrnuje oříznutí hodnot mimo určitý rozsah, může to vést k omezení počtu jasových úrovní. Například, pokud transformace nastaví všechny hodnoty pod určitým prahem na nulu nebo maximální hodnotu, dojde k redukci počtu úrovní. Kvantizace: o Pokud transformace provádí kvantizaci (zaokrouhlování) hodnot jasových úrovní, může to také vést k redukci počtu úrovní. Například, pokud jsou výsledné hodnoty zaokrouhlovány na několik diskretních hodnot, zmenší se počet možných jasových úrovní. Nelineární transformace: o Některé nelineární transformace mohou vést na kompresi jasových úrovní nebo naopak. Například, kvadratická funkce může stlačit široký rozsah jasových úrovní na užší rozmezí. ----------------------------------------------------------------------------------------------------------------------- 53. Uvažujte šedotónový obrázek. Ekvalizace histogramu se využívá pro zvýšení kontrastu lepším využitím jasové stupnice. Zvyšuje ekvalizace histogramu množství informace v obrazu, pokud bychom množství informace měřili Shannonovou entropií? Vysvětlete a uveďte příklady. Podle teorie informace, obraz s vyrovnaným histogramem by měl nést více informací než jakýkoliv jiný dosud vytvořený obrázek, protože obsahuje největší variaci (rozptyl) pro daný počet tříd. Vyrovnaný histogram má největší entropii. ----------------------------------------------------------------------------------------------------------------------- 54. Nechť je geometrická transformace (zahrnující změnu měřítka, rotaci, posun a zkosení) v rovině popsána afinním vztahem (a) Kolik nejméně vlícovacích bodů potřebujete znát, chcete-li spočítat koeficienty afinní transformace (1). (b) V praxi se obvykle použije více vlícovacích bodů, což bude odpovídat přeurčené soustavě rovnic (1). Proč se používá nadbytečný počet vlícovacích bodů? (c) Jakou metodou se obvykle přeurčená soustava rovnic řeší? (𝑝+1)⋅(𝑝+2) a) 𝑛 = kde p=stupeň polynomu (zde 2) a n=minimální počet vlícovacích bodů 2 b) transformace pouze odhaduje na základě vlícovacích bodů => více bodů = větší přesnost c) aproximuje se jas ve vstupním obraze, který odpovídá jasu hledaného bodu ve výstupní mřížce ----------------------------------------------------------------------------------------------------------------------- 55. Při geometrických transformacích diskrétních obrazů je nutné aproximovat hodnotu obrazové funkce f(x, y). Proč? Uveďte alespoň dvě metody pro takovou aproximaci (nejlépe obrázkem, vzorcem...). Transformované souřadnice leží mimo pevně daný rastr. Metoda nejbližšího souseda: přiřadí bodu x,y hodnotu jasu nejbližšího bodu g v diskrétní mřížce. Lineární interpolace: využije okolí čtyř bodů sousedících se zpracovávaným bodem(x,y) a předpokládá, že obrazová funkce je lineární kombinací jasu těchto 4 bodů. Vliv každého ze čtyř bodů v lineární kombinaci je úměrný jeho blízkosti ke zpracovávanému bodu. ----------------------------------------------------------------------------------------------------------------------- 56. Vysvětlete princip interpolace jasu po geometrické transformaci metodou nejbližšího souseda a lineární interpolací. Když nakreslíte obrázek, bude to pro Vás i mě snazší. Metoda nejbližšího souseda: přiřadí bodu x,y hodnotu jasu nejbližšího bodu g v diskrétní mřížce. Lineární interpolace: využije okolí čtyř bodů sousedících se zpracovávaným bodem(x,y) a předpokládá, že obrazová funkce je lineární kombinací jasu těchto 4 bodů. Vliv každého ze čtyř bodů v lineární kombinaci je úměrný jeho blízkosti ke zpracovávanému bodu. ----------------------------------------------------------------------------------------------------------------------- 57. Vysvětlete princip bikubické interpolace jasu po geometrické transformaci. Kolik vzorků obrazové funkce budete potřebovat? Když nakreslíte obrázek, bude to pro Vás i mě snazší. V prvním kroku se interpoluje v jednom směru souřadnic čtyřmi 1D kubickými polynomy (čtyři modré křivky). Ve druhém kroku se najdou čtyři body (zelené body) odpovídající poloze (x, y). Tyto body se proloží jedním 1D kubickým polynomem a najde se hledaná hodnota (červený bod). Požívám 16 (4x4) sousedních vzorků. ------------------------------------------------------------------------------------------------------------------------ 58. Uvažujte filtraci náhodného aditivního šumu v obraze. Odhad správné hodnoty se může počítat jako aritmetický průměr n zašuměných hodnot. Kolikrát se po filtraci zmenší hodnota šumu vyjádřená směrodatnou odchylkou σ? Vysvětlete, jaký je statistický princip poklesu šumu (nápověda: centrální limitní věta). Po filtraci průměrováním z n zašumělých hodnot se směrodatná odchylka zmenší √𝑛 krát 𝜎 ( ). √𝑛 Centrální limitní věta: Jsou-li k dispozici dostatečně velké náhodné výběry, potom je rozdělení výběrových průměrů blízké k normálnímu rozdělení, i když populace normální rozdělení nemá. Rozdělení výběrových průměrů má menší rozptyl než původní populace. ----------------------------------------------------------------------------------------------------------------------- 59. Lze filtrovat šum v obraze obyčejným průměrováním z např. 21 vzorků, aniž by byl obraz po filtraci rozmazaný? Pokud ano, jak? Předpoklady: n obrazů téže neměnné scény, u nichž lze předpokládat náhodné poruchy nezávislé na signálu. Správné hodnota jasu: f (i, j) se odhaduje pro každý pixel obrazu z náhodné populace tvořené pixely v téže pozici ve všech vstupních obrazech gk (i, j) např. obyčejným průměrováním, např.: Potlačení tepelného šumu kamery u přesných měření. Typicky se správná hodnota odhaduje asi z 50 obrazů. ----------------------------------------------------------------------------------------------------------------------- 60. Na obrázku je výřez obrazové funkce. Tučně je ohraničeno okolí, ve kterém se má vypočítat filtrovaná hodnota, tj. filtrační maska. Vypočtěte filtrované hodnoty (a) při vyhlazování obyčejným průměrováním a (b) mediánovou filtrací pro právě zpracovávaný pixel ležící ve středu filtrační masky. (a) vypočítám prostě průměr se všech pixelů a nahradím jím prostřední pixel (vyjde 4) (b) vypočítám medián z okolí: 0 0 0 0 0 0 1 1 1 4 15 15 15 ----------------------------------------------------------------------------------------------------------------------- 61. Uvažujte filtraci šumu v obraze realizovanou konvolucí s maskou rozměru 11 x 11, která aproximuje gaussovský filtr. Jedná se o lineární operaci? Zkuste své rozhodnutí matematicky zdůvodnit. Ano, je to lineární operace. Je homogenní i aditivní. ----------------------------------------------------------------------------------------------------------------------- 62. Použití rekurzivních filtrů (IIR, nekonečná impulsní odezva) přináší pro 2D obrazy problémy, které se u 1D signálů nevyskytují. Proto se rekurzivní filtry pro obrazy téměř nepoužívají. Vysvětlete, co je příčinou problémů? (nápověda: kauzalita). Pro obrazy neexistuje přirozený směr, jakým byl čas pro 1D signály. Není principiální důvod proč by měl být některý směr preferován. Ve zpracování obrazů se dává přednost nekauzálním filtrům s nulovým fázovým posunem, a to proto, aby se v obraze neposouvaly hrany anebo jiné body významné pro další analýzu. Pro 1D filtry je vypracovaná teorie jasná pro vícerozměrné filtry tomu tak není, protože zobecnění Z-transformace do více dimenzí není snadné. Působí to základní problémy při návrhu rekurzivních filtrů a studiu jejich stability. ----------------------------------------------------------------------------------------------------------------------- 63. Z jakého důvodu se používají separabilní filtry při lokální lineární filtraci obrazu? Ukažte základní myšlenku separabilních filtrů. Jaké podmínky musí splňovat filtr, aby mohl být realizován jako separabilní? Jde o zvláštní případ konvolučních filtrů, které uspoří výpočty. Jde o případ kdy lze konvoluční masku rozložit na součin jednorozměrných masek. Lze rozložit vícerozměrný systém bázových ortogonálních funkcí lineární integrální transformace na součin jednorozměrných ortogonálních funkcí. Je tedy možné využit faktu, že každá konvoluční maska s hodností jedna je separabilní. ----------------------------------------------------------------------------------------------------------------------- 64. Vysvětlete vztah pojmů hrana (v obraze), hranový bod (edgel) a hranice oblasti. Hrana: o Hrana v obraze představuje oblast, kde dochází k rapidní změně intenzity jasu mezi sousedícími pixely. Hranový bod: o Hranový bod je konkrétní bod na hraně v obraze. Hranice oblasti: o Na rozdíl od hrany, která se zaměřuje na změny intenzity, hranice oblasti jsou vymezeny jako rozhraní mezi dvěma odlišnými částmi obrazu, které mohou mít různé vlastnosti, například barevné nebo texturové charakteristiky. ----------------------------------------------------------------------------------------------------------------------- 65. Co je a jak se matematicky popisuje hrana v obrazové funkci f (x, y)? Definiční vzorce pro hranu uveďte pro spojitý i digitalizovaný obraz. Výsledky neurofyziologického a psychologického výzkumu ukazují, že pro zrakové vnímání vyšších organismu jsou důležitá místa v obraze, kde se náhle mění hodnota jasu (hrany). Hrany vznikají díky nespojitostem v normále k povrchu, hloubce, odrazivosti povrchu (barvě) nebo osvětlení. popisuje rychlost změny a směr největšího růstu obrazové funkce f (x, y). Je dána vlastnostmi obrazového elementu a jeho okolí. Je vhodnou diskrétní aproximací gradientu f (x, y), je tedy vektorem o dvou složkách. ----------------------------------------------------------------------------------------------------------------------- 66. Co je to hranový element (angl. edgel)? K čemu se v analýze obrazů hranový element používá? Hranový bod je bod s velkým modulem gradientu. Některé body v obraze jsou tedy hranové a jiné ne. Používá se k přiřazení směru a síly hrany. ----------------------------------------------------------------------------------------------------------------------- 67. Pro hledání hran v obrazové funkci f (x, y) se někdy používá Laplaceův operátor ∇2 f (x, y). Napište vzorec, kterým je definován pro spojitou obrazovou funkci f (x, y). Jsou vlastnosti Laplaceova operátoru směrově závislé? 𝜕 2 𝑓(𝑥, 𝑦) 𝜕 2 𝑓(𝑥, 𝑦) 𝛻 2 𝑓(𝑥, 𝑦) = + 𝜕𝑥 2 𝜕𝑦 2 Laplacián je skalár přicházíme tedy oproti gradientu o směr hrany. ----------------------------------------------------------------------------------------------------------------------- 68. Jakou výhodu přináší určování polohy hrany jako průchodu druhé derivace obrazové funkce nulovou hladinou? Napište, v jakých hranových detektorech se této výhody využívá a jak. Tato metoda využívá skutečnosti, že průchod nulovou hladinou druhé derivace signálu (intenzitní funkce v obraze) indikuje změnu konvexity nebo konkavity, což může být spojeno s výskytem hrany. Výhodou je zejména větší přesnost než 1. derivace a potlačení šumu, detekce hran je tak velmi spolehlivá. Marr-Hildrethův (LoG - Laplacian of Gaussian) detektor hrany: Tento detektor kombinuje detekci hran pomocí druhé derivace (Laplaciánu) s předchozím vyhlazením obrazu gaussovským filtrem. Gaussovský filtr slouží k potlačení šumu a vyhlazení obrazu, což pomáhá redukovat falešné detekce hran. Nulová hladina druhé derivace potom indikuje přítomnost hrany. ----------------------------------------------------------------------------------------------------------------------- 69. Marrův přístup k detekci hran využívá hledání průchodu druhé derivace obrazové funkce nulou. Při výpočtu derivace se s výhodou pro potlačení vlivu šumu používá konvoluce (rozmazání) gaussovským filtrem g. Druhá derivace takové operace nechť je označena ∇2d = ∇2 (f ∗ g) = ∇2f ∗ g =.... Metoda využívá vtipný trik (obejde derivaci obrazové funkce f). Prosím, abyste ho použili a pokračovali v předchozím odvození. Díky jakým vlastnostem použitých operací lze trik použít? Začněme s výrazem pro druhou derivaci obrazové funkce f po dvou proměnných (x a y): Marrův trik spočívá v tom, že používá vlastnosti konvoluce a derivace, které umožňují přesunutí operace druhé derivace pod konvoluci. Konvoluce s gaussovským filtrem g je označena jako f∗g. Zde jsme využili vlastnost, že druhá derivace konvoluce je rovna konvoluci s druhou derivací. Tento trik funguje díky komutativitě a asociativitě konvoluce. Použijeme-li tuto vlastnost v odvození pro hrany, můžeme nyní napsat: Tento trik umožňuje využít výhod konvoluce s gaussovským filtrem k potlačení šumu a získat hrany v obraze. Trik funguje díky vlastnostem linearity, komutativity a asociativity konvoluce a derivace. ----------------------------------------------------------------------------------------------------------------------- 70. Představte si, že máte k dispozici již sejmutý digitální obraz. Vysvětlete princip ostření obrazu (neptám se globální úpravu jasové stupnice podle histogramu). Co je cílem ostření? V jakých situacích se ostření používá? Princip ostření založený na detekovaných hranách v obraze spočívá v tom, že na nalezených hranách vstupního obrazu zvětšujeme ve výstupním obraze rozdíly jasu mezi obrazovými body určenými velikostí konvoluční masky (ostření lze také interpretovat jako zdůraznění vysokých frekvencí). Cílem ostření obrazu je upravit obraz tak, aby v něm byly strmější hrany. Používá se když se má dosáhnout kontrastnějšího obrazu a to buď na displeji nebo při tisku. Je velice praktické v případech, kdy fotoaparát ostří na něco jiného, než chcete. V praxi například když fotografujete zvěř mezi stromy (máte jistotu, že fotoaparát nebude ostřit na stromy), květ mezi listím, atd. ----------------------------------------------------------------------------------------------------------------------- 71. Vysvětlete pojem paletový barevný obrázek. K čemu a proč se barevné paletové obrázky používají? Např GIF. Barevná paleta nebo také indexovaná barevná paleta je používána pro zobrazení a archivaci obrázků počítačové rastrové grafiky. Každé barevné položce v paletě je přiděleno číslo a každý pixel obrazu uchovává číslo, která odkazuje na odpovídající položku palety. Hlavní výhodou použití palety pro generování rastrového obrázku o malém počtu různých barev je relativně malá paměťová náročnost. Nevýhodou je většinou nízké barevné rozlišení obrázku. Barva položky palety se obvykle volí z větší množiny barev než je počet položek palety ----------------------------------------------------------------------------------------------------------------------- 72. Charakterizujte, co je barva. Souhrou jakých tří jevů vzniká u člověka barevný vjem. Barva charakterizuje vjem pozorovatele na základě (viditelného) záření původně přicházejícího ze světelného zdroje (směs záření o různých vlnových délkách) a změněného díky vlastnostem pozorovaných objektů. Barva souvisí s vlastnostmi pozorovaného objektu. Barva souvisí s vlastnostmi světla (osvětlení scény). Barva souvisí s mechanismy vnímání člověkem. ----------------------------------------------------------------------------------------------------------------------- 73. Proč vidíme některé objekty barevně? Uvažujte např. jednu čerstvě ustřiženou červenou růži. Vysvětlete, proč vidíme stonek zeleně a květ červeně. Subjektivní vnímání barvy: Vnímání barvy člověkem přidává subjektivní vrstvu nad objektivní fyzikální pozorování, tj. vlnovou délku elektromagnetického záření. Barva tedy představuje psychofyzikální jev. Barvu vnímáme díky tomu, že některé materiály více a některé měně odrážejí/pohlcují dopadající světlo. Podle toho které vlnové délky více pohlcují/odrážejí takovou mají pro nás barvu. ----------------------------------------------------------------------------------------------------------------------- 74. Když charakterizujeme barvu z fyzikálního hlediska, představujeme si viditelnou část barevného spektra vlnových délek elektromagnetického záření získaného např. rozkladem bílého světla pomocí hranolu (pokus I. Newtona). Napište rozsah vlnových délek (od do) v nanometrech [nm], které lidské oko vidí. Uveďte čtyři barvy viditelného spektra uspořádané vzestupně podle jejich vlnových délek. (Nápověda: vzpomeňte si na barvy v duze). Od 380-750nm fialová, modrá, zelená, žlutá, červená ------------------------------------------------------------------------------------------------------------------------ 75. Jaké senzory jsou v lidském oku pro barevné vidění? Nakreslete zhruba citlivost jednotlivých senzorů grafem, kde na vodorovné ose bude vlnová délka kvantifikovaná v nanometrech [nm] a na svislé ose relativní citlivost v rozsahu od 0 do 1. Pro barevné vidění slouží R, G, B čípky. Tyčinky, pro monochromatické vidění s vyšší citlivostí. ----------------------------------------------------------------------------------------------------------------------- 76. Vysvětlete, co je barevný metamerismus. Jaký je jeho význam pro vnímání barev člověkem. Metamerismus je obecně definován jako dva různé jevy, které jsou vnímány stejně. Smícháním červené a zelené vznikne žlutá (metamerismus). Žlutou lze také získat pomocí spektrální barvy, což je záření jediné vlnové délky mezi zelenou a červenou. Lidské vnímání barev je tedy “klamáno”, že směs červené a zelené je totéž jako fyzikálně vytvořená žlutá. Tato vlastnost vývoje druhů je ale geniální, protože dovoluje jednoduchým mechanismem tří receptorů vidět velké množství nespektrálních barev. ----------------------------------------------------------------------------------------------------------------------- 77. Co je barevný prostor? Jak je definován? Uvažujte pro jednoduchost barevný prostor barevných senzorů v lidském oku. Tři typy čípků na sítnici vybízejí definovat barvu jako veličinu ve trojrozměrném (3D) vektorovém prostoru. Myšlenka experimentálního postupu: Posvítit světlem jedné vlnové délky λ na promítací plátno. Člověk nastavuje tři “potenciometry” ovlivňující intenzitu tří základních světel (tzv. funkce vyvažující barvy) R=645,2 nm; G=525,3 nm; B=444,4 nm, až se mu podaří dosáhnout stejného vjemu. Víme již, že je to možné právě díky barevnému metamerismu. ------------------------------------------------------------------------------------------------------------------------ 78. Jak a proč vznikl barevný prostor CIE XYZ? Vysvětlete, co je barevný trojúhelník a nakreslete ho. Jaký je význam souřadných os barevného trojúhelníka x, y? Co jsou spektrální barvy a kde jsou umístěny v barevném trojúhelníku? CIE vytvořila barevný model jako matematickou abstrakci. XYZ souřadnice odpovídají (imaginárním) barvám, jejichž složením podle funkcí vyrovnávajících barvy by vznikl vjem odpovídající spektrální barvě. Absolutní standard, protože je vztažen k vnímání standardního pozorovatele. Všechny viditelné spektrální barvy jsou na okraji “podkovy”, též nepřesně barevného trojúhelníku. Všechny viditelné barvy, které lze namíchat, leží uvnitř “podkovy”.Odvozené parametry x a y specifikují vlastní barvu. ----------------------------------------------------------------------------------------------------------------------- 79. Co znamená barevný rozsah určitého snímacího nebo zobrazovacího zařízení? Jak barevný rozsah souvisí s barevným trojúhelníkem? Srovnejte barevný rozsah kvalitního barevného filmu a rozsah levné barevné počítačové tiskárny. Barevný rozsah (angl. gamut) všech člověkem vnímatelných barev je 3D podprostorem všech možných barev v X, Y, Z souřadnicích. Posléze zobrazen jako 2D trojúhelník - normalizace. Čím větší plocha barevného trojúhelníku tím kvalitnější. Tiskárna má cca 2x menší plochu (zobrazeni poctu barev) oproti filmu. ----------------------------------------------------------------------------------------------------------------------- 80. Komprese dat (včetně obrazů) se může opírat o snížení redundance dat a případně o snížení irelevance dat. Vysvětlete oba pojmy. Uveďte příklad na snížení redundance a snížení irelevance v kompresi obrazů. Redundance dat: duplicity v datech. možnost zpětného dopočítání, bezeztrátové. Umožňují zpětnou rekonstrukci Redundance v kódování Základní princip: častěji se opakující symbol se kóduje kratším kódovým slovem. Optimální kódování: Huffmanovo a aritmetické kódování. irelevance dat: z hlediska vnímaní člověka, oči mají své meze ve vnímání hladin, jasu, barvy. ztrátové metody, odstraňují informaci s malým významem. Nezobrazí např. všechny jasové úrovně nebo vysoké frekvence. ----------------------------------------------------------------------------------------------------------------------- 81. Vysvětlete, co je ztrátová a co bezeztrátová komprese obrazu s využitím pojmů redundance a irelevance dat. ztrátová – po aplikovaní komprese se již nemůžeme dobrat ke zpětné rekonstruovanému obrazu ve stejné kvalitě. Informace je ztracena. takto se vypouštějí irelevantní data, která jsou pro oko nepodstatná a zabírají zbytečně moc místa. bezeztrátová – Odstraňují pouze statistickou nadbytečnost (redundanci). Umožňují úplnou rekonstrukci výchozího signálu. ------------------------------------------------------------------------------------------------------------------------ 82. Pro stanovení redundance při kompresi obrazových dat se používá Shannonova (též informační) entropie. Uvažujte monochromatický obraz s histogramem h(i), i = 1... 255. Vypočtěte odhad entropie. Jak spočtěte redundanci, když je každý pixel obrazu reprezentován n bity? Redundanci R lze spočítat jako rozdíl mezi maximální entropií a aktuální entropií. V praxi lze postupovat následovně: 1. Vypočtěte pravděpodobnosti P(i) pomocí histogramu a celkového počtu pixelů. 2. Vypočtěte Shannonovu entropii H pomocí vzorce. 3. Spočtěte maximální entropii Hmax pro n-bitový pixelový obraz. 4. Vypočtěte redundanci R jako rozdíl Hmax−H. ----------------------------------------------------------------------------------------------------------------------- 83. Pro odstranění redundance při kódování v kompresi dat se používá Huffmanovo kódování. Uveďte jeho myšlenku. Je Huffmanovo kódování optimální? Za jakých podmínek? K čemu se používá? Huffmanovo kódování je algoritmus využívaný pro bezeztrátovou kompresi dat. Konvertuje znaky vstupního souboru do bitových řetězců různé délky. Znaky, které se ve vstupním souboru vyskytují nejčastěji, jsou konvertovány do bitových řetězců s nejkratší délkou (nejfrekventovanější znak tak může být konvertován do jediného bitu), znaky, které se vyskytují velmi zřídka, jsou konvertovány do delších řetězců (mohou být i delší než 8 bitů). Postup: podle pravděpodobností výskytu symbolů se zdola nahoru se vytváří binární (Huffmanův) strom. Tento strom potom slouží ke generování zakódované zprávy. Prefixový kód, tj. žádné kódové slovo nemůže být prefixem žádného jiného kódového slova, umožňuje dekódování, aniž by se znala délka jednotlivých slov. Pevný počet bitů na symbol. Huffmanovo kódování je optimální pokud známe pravděpodobnost rozložení znaků a tyto pravděpodobnosti jsou mocniny čísla 2. Použití Huffmanova kódu je časté v kombinaci s jinými kompresními algoritmy, například při kompresi obrazu a videa ve standardech JPEG a MPEG. Samostatně se s ním můžeme setkat v programu compress pod OS Unix. ----------------------------------------------------------------------------------------------------------------------- 84. Při kompresi dat se pro odstranění redundance v kódování používá Huffmanovo kódování, které je za určitých podmínek optimální. Za jakých podmínek? Metodu kódování lze ještě vylepšit, když se místo Huffmanova kódování použije aritmetické kódování. Jak se musí podmínky změnit? Čím se aritmetické kódování liší od Huffmanova kódování? Huffmanovo kódování je optimální pokud známe pravděpodobnost rozložení znaků a tato pravděpodobnost je mocninou čísla 2. Podmínky se nemusí měnit, není zde však nutné, aby pravděpodobnosti výskytu znaků byly 2n. Aritmetické kódování je téměř optimální pro všechny pravděpodobnosti. Na rozdíl od Huffmanova kódování, které kóduje jednotlivě každé písmeno ve slově aritmetické kódování kóduje celou zprávu do jednoho čísla v intervalu. ----------------------------------------------------------------------------------------------------------------------- 85. (a) Vysvětlete princip dnes hojně používané ztrátové metody komprese obrazu podle standardu JPEG? (b) Při velkých kompresních poměrech jsou ve výsledku patrné čtverečky rozměru 8x8. Čím je tento tzv. blokovací efekt způsoben? Proč se k takovému řešení přistoupilo? Používá se na šedotónové i barevné obrázky. Barevné se nejdříve převedou z barevného prostoru RGB do prostoru YUV, kde lze UV matice reprezentovat v polovičním rozlišení než matici Y (≈ intenzita). První generace (.jpg) z 1992 používá DCT (diskrétní kosínovou transformaci) pro odstranění redundance a irelevance. Pro optimální kódování se použije převod koeficientu DCT do 1D vektoru, kódování úseky řádku a symboly kóduje Huffmanovým kódováním. Druhá generace JPEG2000 (.jp2) z roku 2000 odstraňuje redundanci a irelevanci pomocí vlnkové transformace. Potom kóduje v jednotlivých bitových rovinách a symboly kóduje aritmetickým kódováním. Aby se ušetřil výpočetní čas, je obraz rozdělen na bloky 8 × 8, které jsou komprimovány nezávisle na sobě. Proto jsou pak patrné ty čtverečky Každý blok obrazu 8 × 8 lze vyjádřit jako lineární kombinaci bázových funkcí. Výpočet DCT slouží k nalezení vah lineární kombinace. Váhy jsou prahovány. Velikost prahu ovlivňuje míru komprese, tj. volí se irelevance. ----------------------------------------------------------------------------------------------------------------------- 86. Jaký je rozdíl mezi ztrátovými a bezeztrátovými metodami komprese obrazu? Uveďte princip ztrátových i bezeztrátových metod. Uveďte jeden příklad bezeztrátové a ztrátové komprese. ztrátová – po aplikovaní komprese se již nemůžeme dobrat ke zpětně rekonstruovanému obrazu ve stejné kvalitě, informace je ztracena, takto se vypouštějí irelevantní data, která jsou pro oko nepodstatná a zabírají zbytečně moc místa. Používá se např v: digitální televizní vysílání, filmová DVD, přenášení dat přes internet a další datové sítě, ukládání do multimediálních přehrávačů Obecný přístup ztrátové komprese je jednoduchý. Po úvodním předzpracování se přeskupí nebo transformují data tak, aby bylo možno lehce oddělit důležité informace od nedůležitých. Nedůležité informace se pak potlačí mnohem více než důležité a nakonec se výsledek zkomprimuje některým z bezeztrátových kompresních algoritmů. Algoritmus ztrátové komprese má tedy dvě podstatné části — transformace původních dat a potlačení různě důležitých dat. Například JPEG bezeztrátová – Odstraňují pouze statistickou nadbytečnost. Umožňují úplnou rekonstrukci výchozího signálu. Například ZIP, RAR. ------------------------------------------------------------------------------------------------------------------------ 87. Metody komprese se používají i pro jednorozměrné signály. I obraz je možné reprezentovat jako jednorozměrný signál, což například uděláme, když obraz ‘zazipujeme’ (použije se algoritmus LZW pracující se slovníkem). U kompresních metod specializovaných na obrazy můžeme dosáhnout vyšší komprese. Proč? Pro vysvětlení použijte pojem redundance dat. (Odpověď dává také odpověď na přirozenou otázku: Čím se liší komprese obrázků od komprese signálů). Rozdíl mezi kompresemi 1D a 2D dat je ten, že u 2D dat bereme ohled na okolní body ve 2D matici. Obrazová data jsou specifická a můžeme u nich využívat některé poznatky o nich. Proto jsou efektivnější algoritmy speciálně pro jejich kompresi. Čím více o datech víme, tím více je dokážeme komprimovat. Redundance – odstranění nadbytečných dat, které jsme pote schopni rekonstruovat. Zvláštními postupy – kódováním, které je dané zvoleným kompresním algoritmem – se ze souboru odstraňují redundantní (nadbytečné) informace, zvyšuje se entropie dat. ----------------------------------------------------------------------------------------------------------------------- 88. Definujte kompresní poměr dvěma způsoby, a to na základě redundance a na základě úspory paměti. 𝑏 Na základě redundance (měřené entropií): 𝐾 = 𝐻̂ 𝑒 b... nejmenší počet bitu, kterým lze reprezentovat počet kvantizačních úrovní ̂𝑒... odhad entropie 𝐻 𝑛 𝑑é𝑙𝑘𝑎 𝑧𝑝𝑟á𝑣𝑦 𝑝ř𝑒𝑑 𝑘𝑜𝑚𝑝𝑟𝑒𝑠í Na základě úspory paměti: 𝐾 = 𝑛1 = 2 𝑑é𝑙𝑘𝑎 𝑧𝑝𝑟á𝑣𝑦 𝑝𝑜 𝑘𝑜𝑚𝑝𝑟𝑒𝑠𝑖 ----------------------------------------------------------------------------------------------------------------------- 89. Vysvětlete princip ztrátové komprese obrázků pomocí lineárních integrálních transformací. Vyjmenujte dvě takové metody a naznačte jejich princip. Proč se pro obrazy používají jiné metody komprese než pro posloupnosti? Odstraňují se redundance a irelavance mezi obrazy. Rozdíl mezi kompresemi 1D a 2D dat je ten, že u 2D dat bereme ohled na okolní body ve 2D matici. Obrazová data jsou specifická a můžeme u nich využívat některé poznatky o nich. Obecný přístup ztrátové komprese je jednoduchý. Po úvodním předzpracování se přeskupí nebo transformují data tak, aby bylo možno lehce oddělit důležité informace od nedůležitých. Nedůležité informace se pak potlačí mnohem více než důležité a nakonec se výsledek zkomprimuje některým z bezeztrátových kompresních algoritmů. Algoritmus ztrátové komprese má tedy dvě podstatné části — transformace původních dat a potlačení různě důležitých dat. K transformaci původních nebo předzpracovaných dat se obvykle používá některá z ortonormálních nebo téměř ortonormálních transformací. Příklady takových transformací jsou například DCT (diskrétní kosinová transformace), FFT rychlá Fourierova transformace). Tyto transformace převedou původní data do jiných domén, například z časové do frekvenční. Většina z důležitých informací je poté uchována v mnohem menším objemu než původně. Pokud zbytek dat nahradíme nějakými předem známými nebo vypočitatelnými daty (někdy se pro tento účel hodí samé nuly), data se po zpětné transformaci budou velmi dobře podobat datům původním. Protože lidské smysly jsou na frekvence, ať už ve zvuku nebo v obraze, velmi citlivé, takové transformace jsou vhodné i pro další krok. V této části kompresního algoritmu je rozhodující kvalitní psychovizuální nebo psychoakustický model, který určuje, jaká data mohou být potlačena nebo dokonce úplně odstraněna. Při kompresi obrazu se posuzuje, které frekvence v obrazu jsou důležité, aby člověk na obrázku viděl to, co na něm vidět má. Podobně při kompresi zvuku se hledají frekvence, které člověk stejně nemůže vnímat. Problém při kompresi zvuku je o to složitější, že lidský sluch je velmi citlivý i na časové umístění zvuku. I s tím musí dobrý psychoakustický model počítat. ----------------------------------------------------------------------------------------------------------------------- 90. Komprese JPEG se využívá kosinovou transformaci. Nechť má obraz n řádků a n sloupců. Jaká je časová výpočetní složitost kosinové transformace z definice a v rychlé algoritmické úpravě pro tento obraz (její princip se shoduje s FFT)? (Pro zápis složitosti použijte formalismus O(.)). 𝑂(𝑁 2 ) a 𝑂(𝑁 2 log 𝑁) pro rychlou ----------------------------------------------------------------------------------------------------------------------- 91. Je eroze binárního obrázku komutativní operací? Proč (vyjděte z jedné z definic eroze)? Eroze není komutativní operací. Pokud eroduji obrázek A obrázkem B, mohu dostat jiný výsledek než při erozi B obrázkem A. ----------------------------------------------------------------------------------------------------------------------- 92. Napište vztah pro erozi binárních obrazů. Na co se eroze používá? Skládá dvě množiny pomocí Minkovského rozdílu. Jde o duální morfologickou transformaci k dilataci. X ⊖Y = {p∈ℕ2: p=x + b ∈ X pro každé b ∈ B} Pro každý bod obrazu p se ověřuje, zda pro všechna možná p + b leží výsledek v X. Pokud ano, je výsledek 1, jinak 0. Eroze se používá ke zjednodušení struktury objektů – objekty o tloušťce 1 se ztratí, a tak se objekt rozdělí na několik jednodušších. Lze například z erodovat binární obrázek a odečtením erodovaného obrázku od původního získat obrys. ----------------------------------------------------------------------------------------------------------------------- 93. Příklad na binární matematickou morfologii. Na levém obrázku je bodová množina A a na pravém strukturní element B, jehož reprezentativní bod je označen křížkem. Nakreslete výsledek dilatace A⊕B. Pokud alespoň jeden pod maskou je 1, vyplní se všechny 1. ----------------------------------------------------------------------------------------------------------------------- 94. Příklad na binární matematickou morfologii. Na levém obrázku je bodová množina A a na pravém strukturní element B, jehož reprezentativní bod je označen křížkem. Nakreslete výsledek eroze A B. Pokud nejsou všechny body pod maskou 1, vyplní se všechny 0. ----------------------------------------------------------------------------------------------------------------------- 95. Vysvětlete, co znamená, když se o operaci říká, že je idempotentní. K čemu se idempotentnosti využívá v matematické morfologii? U binární operace je idempotence vlastností určitého prvku množiny který lze vynásobit sebou samým, aniž by se změnil (výsledkem je tedy opět původní prvek). Binární operace je idempotentní pokud platí , pro všechna a z nosiče dané binární operace, neboli všechny prvky jsou idempotentními. V matematické morfologii: po jednom otevření, resp. uzavření, je množina již otevřena, resp. uzavřena. Další použití těchto transformací již nic nezmění. X B = (X B) B ----------------------------------------------------------------------------------------------------------------------- 96. Co je to idempotentnost? Je uzavření (operace matematické morfologie) idempotentní? Idempotence – důležitá vlastnost v matematice. Zde: po jednom otevření, resp. uzavření, je množina již otevřena, resp. uzavřena. Další použití těchto transformací již nic nezmění. ----------------------------------------------------------------------------------------------------------------------- 97. Uvažujte spojitou obrazovou funkci (spojitý definiční obor). Nakreslete kostru oblasti odpovídající vnitřku rovnostranného trojúhelníka. O kostře (skeletu) jsme se učili v matematické morfologii. Maximální kruh B vepsaný do množiny X se dotýká hranice ∂X ve dvou a více bodech. Kostra je sjednocením středů maximálních kruhů. ----------------------------------------------------------------------------------------------------------------------- 98. Uvažujte spojitou obrazovou funkci (spojitý definiční obor). Nakreslete kostru vnitřku dvou kruhů stejného průměru, které se právě dotýkají. O kostře (skeletu) jsme se učili v matematické morfologii. ------------------------------------------------------------------------------------------------------------------------ 99. Uveďte základní myšlenky matematického základu metod matematické morfologie opírající se o algebraickou strukturu úplný svaz. Úplný svaz (complete lattice) je matematická struktura, která se používá v teorii uspořádání a algebrách. Úplný svaz poskytuje rámec pro studium uspořádání a vztahů mezi prvky v množině. Základní definice úplného svazu zahrnuje dvě důležité vlastnosti: existenci suprem (nejmenší horní závory) a infim (největší dolní závory) pro libovolnou podmnožinu množiny. Binární obrazy a úplné svazy: o Metoda morfologie se často používá pro zpracování binárních obrazů, kde každý pixel může nabývat hodnoty 0 nebo 1 (černá nebo bílá). Úplný svaz poskytuje matematický rámec pro definici operací morfologie, jako jsou eroze, dilatace, otevírání a uzavírání. Množiny a operace v úplném svazu: o Úplný svaz obsahuje množiny prvků s definovaným uspořádáním (často reprezentované relací inkluzi). V tomto kontextu reprezentují množiny obrazové elementy nebo struktury, které jsou vstupem do morfologických operací. o Binární operace jako průnik a sjednocení množin v úplném svazu jsou klíčové pro definici morfologických operací. Morfologie využívá průnik pro erozi a sjednocení pro dilataci. Eroze a dilatace: o Eroze a dilatace jsou základní morfologické operace. Eroze odstraňuje malé prvky z obrazu a zužuje objekty, zatímco dilatace rozšiřuje objekty a zaplňuje mezery mezi nimi. o Pro erozi se v úplném svazu využívá infimum (nejmenší společný prvek), zatímco pro dilataci se využívá supremum (největší společný prvek). Otevírání a uzavírání: o Otevírání a uzavírání jsou kombinované operace eroze a dilatace. Otevírání odstraňuje malé objekty a vyhlazuje hrany, zatímco uzavírání spojuje malé mezery mezi objekty. o Otevírání v úplném svazu lze vyjádřit jako erozi následovanou dilatací, zatímco uzavírání lze vyjádřit jako dilataci následovanou erozí. ----------------------------------------------------------------------------------------------------------------------- 100. Jak lze ve formulaci morfologických filtrů formalismem úplných svazů zavést binární obraz? Čemu bude odpovídat relace uspořádání v tomto zvláštním případě? Ve formulaci morfologických filtrů pomocí formalismu úplných svazů se binární obraz zavádí jako množina elementů, kde každý prvek představuje jednotlivý pixel obrazu. Relace uspořádání v tomto zvláštním případě odpovídá inkluzi množin. ------------------------------------------------------------------------------------------------------------------------ 101. Formulujte úlohu segmentace dvojrozměrného obrazu. Co je vstupem a co je výstupem? Uveďte dva příklady segmentačních úloh a metod pro ně vhodných. Úloha segmentace dvojrozměrného obrazu spočívá v rozdělení obrazu do homogenních (podobných) regionů, kde každý region obsahuje pixely s podobnými vlastnostmi nebo charakteristikami. Cílem je identifikovat a oddělit různé objekty nebo struktury v obraze. Vstupem je obraz a výstupem sada segmentů nebo regionů v obraze, kde každý segment obsahuje pixely s podobnými vlastnostmi. Např. počítání mincí v obraze, převedení na binární obrázek ------------------------------------------------------------------------------------------------------------------------ 102. Vysvětlete v kontextu úloh segmentace dvojrozměrného obrazu pojem oblast a pojem objekt. Naznačte konkrétní segmentační úlohu a napište, jaký je v ní vztah mezi těmito dvěma pojmy. Oblast: o V kontextu segmentace dvojrozměrného obrazu se pojmem "oblast" obvykle rozumí část obrazu, která je charakterizována určitými vlastnostmi nebo charakteristikami. Tato oblast může zahrnovat skupinu pixelů, které jsou podobné v nějakém smyslu, například v barvě, intenzitě, textuře nebo jiných vizuálních vlastnostech. Objekt: o "Objekt" v tomto kontextu může být chápán jako vizuální entita nebo struktura v obraze, která má nějaký význam nebo reprezentuje konkrétní objekt ve scéně. Objekt může být složen z jedné nebo více oblastí. ------------------------------------------------------------------------------------------------------------------------ 103. Segmentace se opírá o sémantiku konkrétní úlohy, tedy o apriorní schopnost využít interpretace obrazu. Ukažte na příkladě, jak konkrétně se tím zpracování obrazu zjednoduší. Příklad: segmentace dopravních značek v obraze Bez využití sémantiky: o Pokud bychom se snažili segmentovat obraz na základě barev, textur nebo jiných vizuálních vlastností bez vědomí sémantiky úlohy, mohlo by to být obtížné. Různé objekty na obraze mohou mít podobné barvy nebo textury, což ztěžuje spolehlivou segmentaci. S využitím sémantiky: o S využitím sémantiky úlohy víme, že se zaměřujeme na dopravní značky. Ty mají specifické tvary, barvy a symboly. Sémantická znalost nám umožňuje předem definovat charakteristické rysy, které by mohly identifikovat dopravní značky. o Například, víme, že značka má červený okraj s bílým nápisem "STOP". Tuto sémantickou znalost můžeme využít k definici pravidel pro identifikaci červených oblastí v obraze s určitým tvarem a bílým textem. ------------------------------------------------------------------------------------------------------------------------ 104. Vysvětlete pojmy úplná a částečná segmentace. Použijte k tomu matematický formalismus. Uveďte jeden příklad na úplnou a jeden příklad na částečnou segmentaci. Úplná Segmentace: Definice: Úplná segmentace znamená, že celý obraz je rozdělen na disjunktní oblasti tak, že každý pixel patří k právě jedné oblasti. Výsledkem je úplný a exkluzivní rozklad obrazu do segmentů. Příklad: černobílý obraz, který rozdělíme na dvě oblasti: jedna obsahuje bílé pixely a druhá černé pixely. Částečná Segmentace: Definice: Částečná segmentace znamená, že pouze některé části obrazu jsou segmentovány, zatímco ostatní části mohou zůstat nerozpoznány nebo jsou považovány za součást jiného segmentu. Příklad: barevný obraz domu, kde vybereme segment reprezentující pouze okna. ------------------------------------------------------------------------------------------------------------------------ 105. Pro usnadnění segmentace se často používá zadní osvětlení, a to zejména v průmyslových aplikacích, např. v digitálních profilprojektorech. Zde je možné měřit rozměry nebo odchylky od tvaru přesněji, než vyplývá z Shannonovy věty o vzorkování. Lze dosáhnout podpixlové přesnosti. Vysvětlete jak a ilustrujte myšlenku na příkladě Při zadním osvětlení je světlo umístěno za objektem a osvětluje ho směrem k pozorovateli nebo kamery. Tím se vytváří kontrast mezi objektem a pozadím, což zvýrazňuje hranice a detaily na povrchu objektu. To je klíčové pro přesnější segmentaci a měření, protože kontrastnější obrysy usnadňují algoritmům segmentace identifikaci tvarů a hranic. Zadní osvětlení může poskytnout detailní informace o povrchu objektu, což umožňuje dosáhnout podpixlové přesnosti při měření odchylek od tvaru nebo určování rozmělňování. ------------------------------------------------------------------------------------------------------------------------ 106. Rozdělte metody segmentace do základních kategorií (např. čtyř). Každou z nich pojmenujte a velmi stručně charakterizujte. Prahování (Thresholding): o Stanovuje se prahová hodnota, a pixely s hodnotou nad touto hranicí jsou přiřazeny k jedné třídě, zatímco pixely s hodnotou nižší jsou přiřazeny k druhé třídě. Růst Regionů (Region Growing): o Tyto metody začínají s malými iniciálními oblastmi (semena) a postupně přidávají sousední pixely na základě podobnosti. Region roste, dokud jsou splněny kritéria homogenity. Oddělování (Splitting) a Slučování (Merging): o Tyto metody začínají s celým obrazem jako jedním regionem a následně ho oddělují (splitting) nebo slučují (merging) na základě různých kritérií. Detekce Hran (Edge-based Methods): o Metody zaměřené na detekci hran identifikují hranice mezi objekty na základě změn jasových hodnot v obraze, což vytváří hranice objektů. ------------------------------------------------------------------------------------------------------------------------ 107. Při segmentaci prahováním bychom rádi určovali velikost prahu automaticky. Je to obvykle možné, když se hledané objekty ve scéně intenzitou výrazně liší od pozadí. Jak se v tomto případě obvykle hledá nejlepší práh? Kdy metoda selhává? Práh se hledá pomocí histogramu Selhává když: Intenzity objektů a pozadí nejsou dostatečně oddělené. Existuje velký šum v obraze, což může vést k nesprávné identifikaci optimálního prahu. Objekty mají různé odstíny nebo textury, což komplikuje jednoduchou volbu prahu. ------------------------------------------------------------------------------------------------------------------------ 108. Při segmentaci prahováním (obecně více než jedním prahem) se někdy se daří aproximovat pravděpodobnost výskytu určitých jasových úrovní gaussovskými pravděpodobnostními rozděleními a úlohu segmentace převést na úlohu separace takové pravděpodobnostní směsi. Postupy takové separace se běžně používají ve statistickém rozpoznávání. Napište, jak se pořídí příslušná pravděpodobnostní rozdělení, jakou metodou se separují. Pro ilustraci můžete použít příklad použitý na přednášce. Modelování Pravděpodobnostního Rozdělení: o Pro každou třídu (nebo komponentu směsi) ve směsi (GMM) se modeluje gaussovské pravděpodobnostní rozdělení. Každá třída má svůj vlastní střed (průměr) a kovarianční matici, která popisuje tvar a orientaci rozdělení. Inicializace GMM: o Počáteční středy, kovarianční matice a váhy pro každou třídu jsou inicializovány. Tyto parametry mohou být nastaveny náhodně nebo pomocí jiných metod. Expectation-Maximization (EM) Algoritmus: o EM algoritmus se používá k optimalizaci parametrů GMM na základě pozorovaných dat. Algoritmus zahrnuje dvě hlavní fáze: ▪ Expectation (E): V této fázi se vypočítávají očekávané hodnoty (expectations) skrytých proměnných, což jsou třídy nebo komponenty, ke kterým každý pixel patří. ▪ Maximization (M): V této fázi se aktualizují parametry GMM tak, aby byla maximalizována očekávaná log-věrohodnost dat. Separace Tříd: o Po konvergenci EM algoritmu jsou třídy v GMM odděleny na základě vypočtených pravděpodobností. Každý pixel je přiřazen k třídě s nejvyšší pravděpodobností. Prahování nebo Dynamická Segmentace: o Po separaci tříd může být provedeno prahování pravděpodobností, aby se získaly konečné segmentované oblasti. Dynamická segmentace může být také provedena na základě adaptivního prahu. ------------------------------------------------------------------------------------------------------------------------ 109. Pro segmentaci (nalezení hranic oblastí) lze využít výstup detektoru hran. Popište myšlenku takového postupu. Jaké má tento přístup problémy a jakými postupy se jim čelí? Obraz rozdělím na segmenty podle nalezených hran. Problém je se šumem, nedokonalou detekcí a nedostatečnými informacemi o kontextu. Problémům se zabraňuje např. kombinací s jinými metodami segmentace. ------------------------------------------------------------------------------------------------------------------------ 110. Vysvětlete princip segmentace obrazu metodou trasování průměrů (anglicky mean-shift). Pro každý pixel v obraze se inicializuje tzv. "okno" nebo oblast, která kolem něj zahrnuje určitý počet sousedních pixelů a vypočítá se průměr hodnot pixelů v tomto okně. Průměr je vážený průměr, kde váhy jsou určeny podle podobnosti hodnot pixelů. Okno se pak posune směrem ke středu hmotnosti nebo průměrné hodnotě vypočtené v předchozím kroku. Tyto kroky se opakují, dokud není dosaženo konvergence.