Summary

Diese Datei ist eine Zusammenfassung zur Audio-Codierung, die PCM, FLAC, Verlustbehaftete Codierung, und Sub-Band Coding behandelt. Sie dient vermutlich als Vorlesungsnotizen oder Schulungsmaterialien.

Full Transcript

Audio Codierung Information und Codierung InCO Team: G. Groppo, P. Egli, M. Rosenthal, T. Welti, D. Cachin, R. Büchi Inhalt ◼ Abtasttheorem ◼ Quantisierung ◼ Pulse Code Modulation (PCM) und Anwendungen Linear, Differential, Adaptive-Differential PCM ◼ Wave File Format ◼ Verlust...

Audio Codierung Information und Codierung InCO Team: G. Groppo, P. Egli, M. Rosenthal, T. Welti, D. Cachin, R. Büchi Inhalt ◼ Abtasttheorem ◼ Quantisierung ◼ Pulse Code Modulation (PCM) und Anwendungen Linear, Differential, Adaptive-Differential PCM ◼ Wave File Format ◼ Verlustfreie Audio-Codierung FLAC ◼ Verlustbehaftete Audio-Codierung Menschliche Hörschwelle Maskierung Sub-Band Coding MPEG Audio Codierung 2 ZHAW, Information und Codierung 05.09.2024 Digital Audio Abtastung & Quantisierung 3 ZHAW, Information und Codierung 05.09.2024 Puls Code Modulation u ◼ Abtastung und Quantisierung Um ein analoges Audio-Signal in ein t digitales Signal zu wandeln, wird der Pegel periodisch mit einer Filterung u Tastfrequenz gemessen (abgetastet) und einem Wert zugewiesen t (quantisiert). Abtastung u Abtasttheorem von Shannon PAM Fabtast > 2 * fmax t Quantisierung u 111 110 101 100 000 t 001 010 011 Kodierung 110 110 110 111 110 100 100 001 011 011 000 110 111 4 ZHAW, Information und Codierung 05.09.2024 Abtasttheorem Signal 1000Hz Abtastfrequenz = 8000Hz http://cnx.org/content/m11448/latest/ ZHAW, Information und Codierung 05.09.2024 5 Abtasttheorem Signal 3000Hz Abtastfrequenz = 8000Hz Signal 3900Hz Abtastfrequenz = 8000Hz 6 ZHAW, Information und Codierung 05.09.2024 Abtasttheorem Signal 7000Hz Abtastfrequenz = 8000Hz Signal 7000Hz Abtastfrequenz = 8000Hz Gleiches Ergebnis wie Signal 1000Hz (Spiegelung) 7 ZHAW, Information und Codierung 05.09.2024 Abtasttheorem Abtastfrequenz = 8000Hz Animation mit verschiedenen Eingangs Frequenzen 8 ZHAW, Information und Codierung 05.09.2024 Quantisierung ◼ Anzahl Bit für Quantisierung Quantisierungsrauschen: Differenz Quantisierung → Signal Wird kleiner bei grösserer Anzahl verwendeter Bits 11 111 110 10 101 100 011 01 010 001 00 000 2 Bit Auflösung 3 Bit Auflösung 9 ZHAW, Information und Codierung 05.09.2024 Quantisierung Quantisierungsrauschen ist die Differenz zwischen Original und dem Analogsignal und der Abgetastetes Signal digitalen Darstellung und entsteht durch den Fehler bei der Quantisierung des Analogsignals. 10 ZHAW, Information und Codierung 05.09.2024 Quantisierung 3 Bit 5 Bit 16 Bit Bits Levels 4 Bit 8 Bit 3 8 4 16 5 32 8 256 Mit jeder Erhöhung der Anzahl Bits nimmt das 16 65536 Quantisierungsrauschen um 6dB ab. Hörproben jeweils: Original, mit Q-Rauschen, nur Q-Rauschen 11 ZHAW, Information und Codierung 05.09.2024 Puls Code Modulation (unkomprimiert) ◼ Sprachcodierung (für Telephonie) ITU-T G.711 (A-Law, µ-Law): - Der Frequenzbereich von 300... 3400Hz wird mit 8 kHz abgetastet, also alle 125 µs ein Wert gemessen Die Werte werden auf den nächsten Wert gerundet → Quantisierung Es werden 8-Bit Werte gebildet Dadurch entsteht ein Signal mit 64 KBit/s (8000 * 8 Bit) ◼ Musikcodierung: Audio-CD Abtastfrequenz 44.1 kHz (23 µs) 16-Bit-Muster (65536 Werte) lineare Quantisierung 44’100 * 2 Byte * 2 Kanäle = 176’400 Byte/s = 1.411 MBit/s 12 ZHAW, Information und Codierung 05.09.2024 PCM (linear quantisiert) 20 18 18 16 17 17 16 16 14 12 10 14 8 6 Original 4 Out-PCM 7 2 0 0 4 8 12 16 20 24 28 32 13 ZHAW, Information und Codierung 05.09.2024 Differential-PCM (DPCM) 20 18 -1 +1 -1 0 16 +3 14 12 +7 10 8 Original 6 Out-DPCM 4 +7 2 0 0 4 8 12 16 20 24 28 32 14 ZHAW, Information und Codierung 05.09.2024 Adaptive Differential-PCM (ADPCM) S:+7 20 S:+3 S:+1 K:-4 K:-2 K:-2 18 16 K:0 S:+7 S:-1 K:+1 14 S:-1 K:0 12 10 8 Original 6 Out-ADPCM 4 +7 2 0 0 1 2 3 4 5 6 7 8 15 ZHAW, Information und Codierung 05.09.2024 Beispiel: Vergleich der übertragenen Werte 20 15 10 5 0 -5 0 4 8 12 16 20 24 28 32 -10 PCM -15 DPCM -20 ADPCM -25 16 ZHAW, Information und Codierung 05.09.2024 Anwendungen (kByte/s) 300 22,050 17 ZHAW, Information und Codierung 05.09.2024 Linear Prediction Coder (LPC) ◼ Modellierung des Sprachorganes (Vocoder) LPC-Vocoder bilden ein vereinfachtes Modell des menschlichen Stimmtrakts nach, mit dem die Sprache synthetisiert werden kann. Sprache wird mittels Rauschen und Pulsen generiert. Übertragen werden nur Koeffizienten. Gain Voiced Speech Stimmbandmodell Switch Pulse Period Gain Unvoiced Koeffizienten Rauschen Speech 18 ZHAW, Information und Codierung 05.09.2024 Speech Samples in Various Environments ◼ Vergleich Sprach-Coder G.711, Linear PCM, 8 kHz, 8Bit → 64 kbit/s ADPCM, Adaptive Differential-PCM, 8 kHz, 8Bit → 32 kbit/s Linear Prediction Coder (LPC), 8 kHz, 8Bit → 2.4 kbit/s G. 711 ADPCM LPC 64 kbps 32 kbps 2.4 kbps Space Shuttle Shuttle Crew Music 19 ZHAW, Information und Codierung 05.09.2024 Wave File Format ◼ Audio unkomprimiert: Wave-File Format Containerformat zur digitalen Speicherung von Audiodaten. Basierend auf Microsoft Resource Interchange File Format (RIFF). Wave Dateien enthalten normalerweise keine komprimierten Audiodaten sondern lediglich PCM-Rohdaten Eine WAVE-Datei enthält vor den Audiodaten einen Header mit Informationen über deren Format. 20 ZHAW, Information und Codierung 05.09.2024 Wave File Format ◼ Audio unkomprimiert: Wave-File Format PCM Format “RIFF” − 8 “WAVE” “fmt ” Länge des restlichen fmt-Headers (16 Bytes) Datenformat der Abtastwerte (1 = PCM) File Header Anzahl der Kanäle: 1 = mono, 2 = stereo Samples pro Sekunde je Kanal (z. B. 44100) SampleRate*BitsPerSample*Channels/8) BitsPerSample*Channels/8 BitsPerSample “data” Länge des Datenblocks ( − 44) Audio Samples 21 ZHAW, Information und Codierung 05.09.2024 Wave File Format ◼ Wave File Beispiel Basierend auf Quelle http://soundfile.sapp.org/doc/WaveFormat/ Little-Endian: 5622 Hex = 22050 22 ZHAW, Information und Codierung 05.09.2024 Wave File Format ◼ Tonerzeugung eines reinen Sinustones Die einzelnen Samples 𝑆𝑖 für eine gewünschte Frequenz 𝑓 kann in Abhängigkeit der Abtastrate 𝑅, und dem Skalierungsfaktor 𝐾 berechnet werden: 𝑖 ∗ 2𝜋 ∗ 𝑓 𝑆𝑖 = 𝐾 ∗ 𝑠𝑖𝑛 𝑅 Beispiel: f = 1kHz, R = 32kHz, K = 215-1 (bei 16Bit pro Sample) 1ms Amplitude K = 215 − 1 2𝜋∗𝑓 2𝜋∗1000 2𝜋 Intervall = = = 𝑅 32000 32 23 ZHAW, Information und Codierung 05.09.2024 Lossless Audio Coding ◼ Free Lossless Audio Codec (FLAC) FLAC ist ein Audioformat mit verlustfreier Kompression. Es ist der beliebteste verlustfreie Audio-Codec. FLAC erreicht bei den meisten Musikstücken Kompressionsraten von 30-50%, bei Sprachaufnahmen deutlich mehr. Prinzip ähnlich einem LZ Verfahren: FLAC wandelt die Audiosamples mit linearer Vorhersage in eine Reihe kleiner, unkorrelierter Zahlen (Residuen) um, die effizient mit Hilfe der Golomb-Rice-Kodierung gespeichert werden (Quoten/Restpaare mit einem Divisor, der eine Zweierpotenz hat: 2,4,8....). https://de.wikipedia.org/wiki/Golomb-Code 24 ZHAW, Information und Codierung 05.09.2024 Lossy Audio Codierung ◼ Verlustbehaftete Codierung (MPEG) Beruht auf 2 Ideen: 1. Ausnutzung der menschlichen Hörschwelle 2. Ausnutzung des Maskierungs-Effekts 25 ZHAW, Information und Codierung 05.09.2024 Schalldruckpegel ◼ Der Schalldruckpegel (Sound Pressure Level, SPL) ist eine logarithmische Grösse in Dezibel (dB) zur Beschreibung der Stärke eines Schallereignisses. 𝑝 ◼ Schallpegel L = 20 ∗ log10 𝑝0 p : Effektiver Schalldruck [Pa] p0 : Bezugsschalldruck (Hörschwelle p0 = 0.00002 Pa) ◼ Eine Verdoppelung des SPL entspricht ca. +6 dB: 20 ∗ 𝑙𝑜𝑔10 2 = 6.02𝑑𝐵 und 6 dB ca. einem Faktor 2: 6 𝑑𝐵 https://de.wikipedia.org/wiki/Schalldruckpegel 10 20 = 1.995 26 ZHAW, Information und Codierung 05.09.2024 1) Menschliche Hörschwelle Hörbarer Bereich Hörbarer Ton Unhörbarer Bereich unhörbare Töne 27 ZHAW, Information und Codierung 05.09.2024 1) Menschliche Hörschwelle ◼ Altersabhängige Hörsensitivität Die Hörschwelle ist sehr individuell und altersabhängig Geschlecht / Alter 28 ZHAW, Information und Codierung 05.09.2024 2) Maskierung ◼ Spektrale Maskierung Ein lauter Ton maskiert andere Töne mit leicht unterschiedlicher Frequenz Beispiel 1kHz Signal Hörbarer Ton Unörbarer Ton Maskierung Hörschwelle Hörbarer Ton unhörbare Töne 29 ZHAW, Information und Codierung 05.09.2024 2) Maskierung ◼ Zeitliche Maskierung Leise Töne vor, während und nach einem Ereignis sind nicht hörbar Lautes Ereignis unhörbare Töne ms Ton auch eine gewisse Zeit vor dem Ereignis unhörbar! 30 ZHAW, Information und Codierung 05.09.2024 2) Maskierung ◼ Eigenschaften Ein lauter Ton kann einen leiseren Ton effektiv maskieren (unhörbar machen). Je lauter der Ton, desto größer ist der Frequenzbereich unter- und oberhalb, den er maskieren kann. Vor-, während und nach einem Ton oder Schallereignis sind leisere Töne nicht hörbar. → Maskierungsteppich 31 ZHAW, Information und Codierung 05.09.2024 Quantisierungsrauschen 11 Signal Noise 13 Signal Noise Vergleich der Quantisierung eines Sinus mit 11 Bit und 13 Bit. Das durch die 11-Bit- Quantisierung erzeugte Rauschen ist 12 dB größer als das durch die 13-Bit- Quantisierung erzeugte Rauschen. Mehr Bit für die Abtastung → Tieferes Quantisierungs-Rauschen (6dB pro Bit) 32 ZHAW, Information und Codierung 05.09.2024 Lossy Audio Codierung ◼ Irrelevanz Reduktion bei Audio Informationen, die das Gehör aufgrund seines begrenzten zeitlichen und spektralen Auflösungsvermögens nicht aufnehmen kann. 33 ZHAW, Information und Codierung 05.09.2024 Lossy Audio Codierung ◼ Idee der verlustbehafteten Audio Codierung Man unterteilt das Frequenz-Spektrum in Sub-Bänder und verwendet nur so viele Bits zum Quantisieren wie nötig, damit das Quantisierungs-Rauschen gerade noch unter die Maskierungsschwelle kommt und damit immer noch unhörbar bleibt. Durch Verwendung von weniger Bits wird das Quantisierungs- rauschen erhöht, aber die Kompression verbessert. Verfahren wie z.B. MPEG/Audio-Codierung entfernen lediglich Töne und Schallereignisse, die ohnehin maskiert sind. → Irrelevanzreduktion 34 ZHAW, Information und Codierung 05.09.2024 Sub-Band Coding ◼ Pro Sub-Band: Mehr Bit für die Abtastung → tieferes Quantisierungs Rauschen Weniger Bit für die Abtastung → höheres Quantisierungs Rauschen Signal m-1 Bit m Bit 6 dB Quantisierungs- 12 dB m+2 Bit Rauschen +1 Bit = +6 dB 35 ZHAW, Information und Codierung 05.09.2024 Sub-Band Coding ◼ Hörschwelle und Maskierung berechnen B1 B2 B3 B4 B5 B6 B7 B8 B9 B10 B11 B12 B13 B14 B15 B16 B17 B18 B19 B20 B21 B22 Maskierungsschwelle Hörschwelle 36 ZHAW, Information und Codierung 05.09.2024 Sub-Band Coding ◼ Quantisierung mit minimaler Anzahl Bit B1 B2 B3 B4 B5 B6 B7 B8 B9 B10 B11 B12 B13 B14 B15 B16 B17 B18 B19 B20 B21 B22 Unhörbares Quantisierungs-Rauschen bei unterschiedlicher Quantisierung pro Sub-Band Maskierungsschwelle Hörschwelle 37 ZHAW, Information und Codierung 05.09.2024 Sub-Band Coding ◼ Quantisierung mit minimaler Anzahl Bit B1 B2 B3 B4 B5 B6 B7 B8 B9 B10 B11 B12 B13 B14 B15 B16 B17 B18 B19 B20 B21 B22 Signal-Spitze bis Quantisierung-Rauschen: 8 Bit Wie viele dB? ➔ 1 Bit pro 6 dB Beispiel einer Quantisierung mit unterschiedlicher Anzahl Bits: 8 Bit für 1. Band 6 Bit für 2. Band 3 Bit für 3. Band 6 Bit Maskierungsschwelle 3 Bit Hörschwelle 38 ZHAW, Information und Codierung 05.09.2024 MPEG Audio ◼ Die verwendete Anzahl Sub-Bänder ist unterschiedlich für die verschiedenen Codierungsverfahren: MPEG Audio Layer II verwendet 32 Frequenz-Bänder MP3 (MPEG Audio Layer III) verwendet 512 Frequenz-Bänder Advanced Audio Coding (AAC) verwendet 2048 Frequenz-Bänder ◼ Je mehr Sub- Bänder verwendet werden, desto genauer können die jeweils zu verwendenden Bits zwischen Maskierungs- und Hörschwelle abgestuft werden. ◼ Jedoch erfordern mehr Sub- Bänder auch eine grössere Rechenleistung. 39 ZHAW, Information und Codierung 05.09.2024 MPEG Audio ◼ Audio coding in MPEG Videostandards: MPEG-1 und MPEG-2 Audio Layers: I, II, III werden in beiden Videostandards verwendet Layer III == MP3 Advanced Audio Coding (AAC): Auf DVD verwendet Bit Reduktion Bit Allokation, PCM Frequenz- Bitstream MPEG Quantisierung Audio Transformation Generierung Bitstream und Codierung Psycho- Akustisches Modell Signal to mask ratio Geheim-Rezept der jeweiligen Hersteller 40 ZHAW, Information und Codierung 05.09.2024 Zusammenfassung ◼ Abtastung und Quantisierung Sie verstehen Abtastung und Quantisierung und können Zusammenhänge mit der Anzahl Quantisierungs-Bits und Quantisierungsrauschen erklären. Sie verstehen das Abtasttheorem Fabtast > 2 * fmax ◼ PCM Sie kennen die verschiedenen PCM Codierungsverfahren Sie kennen das Wave-File Format ◼ Verlustbehaftete Audio Codierung (MPEG) Sie können das Grundprinzip der Maskierung und Sub-Band Coding in der MPEG Audio Codierung erklären. 41 ZHAW, Information und Codierung 05.09.2024

Use Quizgecko on...
Browser
Browser