Formaty kompresji

VQF (Twin VQ), AAC (Advanced Audio Coding), mp4. Format Twin VQ jest w chwili obecnej najbardziej zaawansowanym (obok AAC)

sposobem kompresji plików dźwiękowych. Opracowany w laboratoriach NTT i po raz pierwszy zaprezentowany w połowie 98 roku - zapewnia on - w porównaniu z plikiem MP3 o podobnej jakości - kompresję lepszą o 30-40%. Jakość CD - czyli dźwięk stereo, przy paśmie przenoszenia do 22 KHz, można tutaj otrzymać już przy kompresji na 80 kbps (stosunek 1:17,5).

 

Do odtwarzania plików VQF potrzebny jest procesor lepszy od P100, kodowanie zabiera sporo czasu - średnio jeden utwór na P225MMX kompresuje się ponad 30min. Co do jakości dźwięku zdania są podzielone - faktem jest, że jego barwa po kompresji jest nieco inna - szczególnie w zakresie wysokich tonów. Jest on mniej 'ostry' - dlatego ostra muzyka (np. Metal), nie brzmi zbyt dobrze. Format doskonale nadje się do lżejszych gatunków muzyki - i często jakość uzyskiwanego dźwięku przy kompresji na 80 kbps, jest lepsza od MP3 na 128 kbps - nie występuje 'metaliczne' brzmienie, które czasami można tam usłyszeć. Poza tym jest to w tej chwili format zapewniający najlepszą jakość przy bardzo dużej kompresji ( od 16 do 32 kbps).


AAC (Advanced Audio Coding)

Jest to standard kompresji dźwięku, który ma być podstawą formatu mp4. Obecnie prace nad mp4 nie są całkowicie ukończone, jednak dostępne są już darmowe programy dla ACC. Jako pierwsza wykorzystała ten format firma AT&T, uruchamiając serwis nazywany a2b. Jest to płatny serwis, który umożliwia za pośrednictwem internetu, ściąganie utworów muzycznych o 'jakości CD'. Są one w specjalny sposób zakodowane, aby uniemożliwić ich łatwe rozpowszechnianie, ponadto wraz z każdym utworem klient otrzymuje słowa piosenki oraz okładkę albumu. Serwis ten - mimo że prowadzony od ponad roku - nie cieszy się zbytnią popularnością, głównie ze względu na niewielką liczbę utworów oferowanych przez mało znanych wykonawców. Podstawą algorytmu kompresji jest tutaj AAC - niestety, nie jest osiągalny program kodujący. W związku z tym, że jakiś czas temu udostępnione zostały kody źródłowe ISO MPEG4 - można było oczekiwać pojawienia się w szybkim czasie darmowych enkoderów i odtwarzaczy AAC. Tak też się stało - pierwszy odtwarzacz - a właściwie 'dekoder' oraz kompresor z firmy Homeboy pojawił się w Lipcu 98. Dekoder umożliwiał przekształcenie pliku AAC do wav-a, więc miał niewiele wspólnego z odtwarzaczem. W chwili obecnej jest już dostępny odtwarzacz BitAAC.

Największą wadą tych programów jest kiepska jakość dźwięku. Format AAC jako taki stwarza ogromne możliwości - profesjonalne testy odsłuchowe wykazały znaczną przewagę jakości AAC nad MP3, przy większym współczynniku kompresji (tj. AAC na 96 kbps - współczynnik 1:14,5 charakteryzuje się lepszą jakością niż MP3 na 128 kbps - współczynnik 1:11). Enkoder z Homeboy z powodu - jak piszą autorzy - dokonania wielu uproszczeń, nie wykorzystuje jednak tych zalet. Jakość dźwięku jest porównywalna z MP3, a czas kompresji jednego utworu liczy się w godzinach. Dlatego brak było powodów, aby przerzucić się np. z MP3 na AAC. Drugi z dostępnych obecnie programów - AAC Encoder - powstał w firmie Astrid/Quartex - oficjalnie udostępniono go w dniu 18.10.98. Na razie to pierwsza wersja - umożliwia kompresję na 64 (1:22), 96(1:14,5) i 128(1:11) kbps. W tym przypadku autor pokazał, że zna się na rzeczy - przeprowadzone testy wykazały, że utwór zakodowany na 96 kbps jest jakościowo przynajmniej tak samo dobry jak MP3 na 128 kbps. A zdziwić się można po wybraniu opcji 64 kbps - jest to chyba jedyny standard, który przy takiej kompresji (1:22) oferuje dźwięk stereo przy paśmie przenoszenia do 22 KHz. Jakość w tym przypadku podobna jest do mp3 zakodowanego na 96-112 kbps. Odtwarzaczem plików AAC z Astrid/Quartex jest Kjofol. Najdziwniejszy jest fakt, że pliki kompresowane enkoderami Homeboy i Astrid/Quartex nie są ze sobą kompatybilne - kompresowane programem z Homeboy można odtwarzać jedynie programem BitAAC, a enkoderem Astrid/Quartex-a - odtwarzaczem Kjofol. Zrobił się, więc niezły bałagan - tym większy, że Homeboy wypuścił ostatnio moduł do Winampa odtwarzający tylko utwory w standardzie AAC z Homeboy - więc o wiele gorsze jakościowo.

MP4

Format MPEG4 Audio jest to najprościej zbiór norm określających kodowanie naturalnego oraz syntetycznego dźwięku. Części dotyczące kodowania syntetycznego to SA (Structured Audio) oraz TTSI (Text-to-Speech Interface), zwierają narzędzia umożliwiające symboliczną definicje muzyki oraz mowy, jak np. MIDI oraz system "Text-to-Speech". Co więcej, zawarte są tam również narzędzia do lokalizacji dźwięku 3D, pozwalające na tworzenie naturalnej oraz sztucznej przestrzeni dźwiękowej. MPEG4 Audio określa także kodowanie dźwięku naturalnego, dla pasma przesyłania począwszy od 2 kbps. Stosowane są 3 rodzaje kodeków: PARA (Parametric Codec) dla najniższych przepustowości, CELP (Code Excited Linear Predictive) dla średnich, oraz TF (Time-Frequency), zawierający MPEG-2 AAC, który pozwala na uzyskanie najwyższej jakości dźwięku. MPEG4 oferuje także nowe możliwości, jak kontrola szybkości przesyłania i położenia widma sygnału, wyciszanie błędów oraz skalowalność, w której skład wchodzi:

1. Skalowalność prędkości przesyłania (bit rate scalability), pozwala na przekształcenie określonego strumienia bitów w strumień o niższej szybkości przesyłania, umożliwiając bezbłędną transmisję w zmiennych warunkach.
2. Skalowalność pasma przenoszenia, (bandwidth scalability), gdzie określone części strumienia bitów przesyłają odpowiednie fragmenty widma sygnału. W gorszych warunkach możliwe jest zawężenie przesyłanego widma, bez szkody dla zrozumiałości materiału.
3. Skalowalność złożoności enkodera (encoder complexity scalability), pozwala enkoderom o różnym stopniu złożoności na generowanie poprawnego oraz zgodnego z normą sygnału
4. Skalowalność złożoności dekodera (decoder complexity scalability), pozwala na poprawne dekodowanie sygnału przez dekodery o różnym stopniu złożoności Najogólniej, jakość dźwięku zależy od stopnia złożoności enkodera i dekodera.
5. System korekcji błędów (error robustness) umożliwia dekoderowi korekcję lub ukrycie słyszalnych zniekształceń spowodowanych błędami w trakcie transmisji.

W MPEG4 jednym ze skalowanych formatów jest standard BASC (Bit Sliced Arithmetic Coding), sposób kodowania zbliżony jest do AAC, enkoder różni się jedynie ulepszonym modułem odpowiedzialnym za dynamikę. Dzięki temu, przy zawężeniu pasma transmisji poniżej 40 kbps, pogorszenie jakości jest prawie niezauważalne. W praktyce, podczas transmisji enkoder jest w stanie zmieniać pasmo od 16 do 64 kbps, z krokiem 1 kbps.
MPEG4 Audio
Natural Coding Synthetic Coding
PARA (Parametric Coding) Code Excited Linear Predictive (CELP) TF (Time-Frequency) SA (Structured Audio) TTSI (Text-to-Speech Interface)
Foramty:
HILN
HVXC Format:
NB-CELP Foramty:
TwinVQ
AAC
BSAC SAOL (Structured Audio Orchestra Language) SASL (Structured Audio Score Language) Symboliczny język opisy mowy.SAOL (Structured Audio Orchestra Language) definiuje "orkiestrę" za pomocą poszczególnych "instrumentów". "Instrument" jest to niewielka sieć danych dla procesora sygnałowego, pozwalająca na emulację naturalnego brzmienia instrumentu muzycznego.

SASL (Structured Audio Score Language) jest używany do tworzenia nowych efektów oraz zawiera informacje służące modyfikowaniu istniejącego dźwięku Pozwala na lepszą kontrolę syntezy oraz bardziej naturalny efekt końcowy. W przypadku, gdy nie jest wymagana szczegółowa kontrola, do przesyłania danych o instrumentach może być wykorzystany protokół MIDI.

W formacie MPEG4 po raz pierwszy pojawia się także pojęcie "obiektu audio". Najprościej można go zdefiniować jako słyszalną część docierającego do odbiorcy materiału dźwiękowego, zakodowaną za pomocą pojedynczego strumienia bitów. Może to być np. głos jednego lub kilku mówców, dźwięk jednego lub kilku instrumentów lub tło akustyczne. Obiekty audio mogą być grupowane oraz miksowane, przy czym rozdzielenie pojedynczego obiektu na mniejsze składowe jest już dosyć trudne. Możliwości wykorzystania tego sposobu transmisji są bardzo rozległe:

- do odbiorcy, poprzez 5 kanałów przesyłany jest dźwięk z pięciu różnych instrumentów wchodzących w skład orkiestry. Odbiorca może np. wyłączyć jeden z instrumentów i grać razem z pozostałymi członkami zespołu.
- transmisja wydarzeń sportowych w kilku językach
- interaktywne filmy oraz aplikacje video, korzystające z obiektowego opisu sceny, np. w typowej sekwencji z filmu, rozgrywającej się na dworcu kolejowym, można wyróżnić kilka obiektów audio:
- rozmowa pomiędzy aktorami, najważniejszy element sceny
- tło akustyczne, np. gwar dworcowy oraz odgłosy nadjeżdżających pociągów
- zapowiedzi speaker’a o przyjazdach i odjazdach pociągów
- tło muzyczne (ścieżka dźwiękowa)

Każdy z obiektów dźwiękowych może być dowolnie modyfikowany, zależnie od potrzeb. W trudniejszych warunkach transmisji, możliwe jest ograniczenie pasma lub całkowite usunięcie obiektów nie mających wpływu na treść przekazu. Format MPEG4 oferuje znacznie więcej niż jego poprzednicy: MPEG1 oraz MPEG2. Oprócz narzędzi umożliwiających kompresję i przesyłanie dźwięku naturalnego, wzbogacony został o możliwości syntezy dźwięku po stronie odbiorcy oraz skalowania przesyłanego strumienia bitów. Trwają także prace nad formatem MPEG7, który ma połączyć większość aplikacji multimedialnych w jedną całość. Pozwoli to na łatwe zarządzanie multimedialnymi zasobami Internetu: wyszukiwanie, sprzedaż lub udostępnianie utworów oraz filmów. Nad własnym formatem kompresji dźwięku pracuje również Microsoft. W połowie kwietnia firma zamierza oficjalnie zaprezentować "MS Audio 4.0", jak mówią przedstawiciele firmy, format będzie całkowicie "bezpieczny", ponadto przy kompresji na 64 kbps jakość dżwięku ma być lepsza od plików MP3 oraz AAC skompresowanych na 128 kbps.