Kompresi audio/video adalah
salah satu bentuk kompresi data yang bertujuan untuk mengecilkan ukuran file
audio/video dengan metode :
- Lossy à
format : Vorbis, MP3, MPEG-1;
- Loseless
à format : FLAC yang digunakan pada audio engineer
Kompresi dilakukan pada saat pembuatan file audio/video dan pada saat distribusifile
audio/video tersebut
Kendala pada kompresi audio:
- Perkembangan
sound recording yang cepat dan beranekaragam
- Kebutuhan
sample audio berubah dengan cepat
Loseless audio codec tidak memperhatikan
masalah dalam kualitas suara, penggunaannya dapat difokuskan pada:
- Kecepatan
kompresi dan dekompresi
- Faktor
kompresi
- Dukungan
hardware dan software
Lossy audio codec penggunaannya difokuskan pada:
- Kualitas
audio yang dihasilkan
- Faktor
kompresi
- Kecepatan
kompresi dan dekompresi
- Inherent
latency of algorithm (penting bagi real-time streaming)
- Dukungan
hardware dan software
Proses Kompresi Audio/Video
Kompresi
pada audio/video dapat dilakukan pada :
1.
Pembuatan file audio/video : teknik kompresi ini
dilakukan pada saat audio/video sedang dibuat atau pada saat diubah ke format
yang berbeda.
2.
Distribusi File audio/video : Teknik kompresi
ini digunakan pada saat dilakukan proses pendistribusian file audio/video
terutama pada saat ditransmisikan didalam jaringan dengan tujuan memperkecil
bandwidth yang dibutuhkan.
Adapun kendala atau kompleksitas yang
muncul pada proses kompresi audio :
·
Perkembangan sound recording yang cepat dan
beranekaragam
·
Nilai dari audio sample berubah dengan cepat
Losless audio codec tidak mempunyai
masalah dalam kualitas suara karena penggunaannya dapat difokuskan pada:
·
Kecepatan kompresi dan dekompresi
·
Derajat kompresi
·
Dukungan hardware dan software
Sementara untuk kompresi yang bersifat
Lossy audio codec penggunaannya difokuskan pada:
·
Kualitas audio
·
Faktor kompresi
·
Kecepatan kompresi dan dekompresi
·
Inherent latency of algorithm (penting bagi
real-time streaming)
·
Dukungan hardware dan software
Metode Kompresi Audio
Terdapat dua metode yang dapat digunakan
untuk melalukan kompresi data audio, yaitu :
Ø
Metode Transformasi
·
Menggunakan algoritma seperti MDCT (Modified
Discreate Cosine Transform) untuk mengkonversikan gelombang bunyi kedalam
sinyal digital agar tetap dapat didengar oleh manusia (20 Hz s/d 20kHz) , yaitu
menjadi frekuensi 2 s/d 4kHz dan 96 dB.
·
Modified discrete cosine transform (MDCT)
digunakan untuk mengkonversi domain waktu gelombang sampel menjadi transformasi
domain. Setelah berubah, biasanya menjadi domain frekuensi, frekuensi komponen
dapat dialokasikan bit menurut bagaimana didengar mereka. Kemampuan didengar
komponen spektral ditentukan dengan terlebih dahulu menghitung ambang masking,
di bawah ini yang diperkirakan suara akan berada di luar batas persepsi
manusia.
·
Ambang masking dihitung dengan menggunakan
ambang mutlak pendengaran dan prinsip-prinsip masking simultan, fenomena dimana
sinyal tertutup oleh sinyal lain yang dipisahkan oleh frekuensi dan dalam
beberapa kasus, temporal masking dimana sebuah sinyal tertutup oleh sinyal lain
dipisahkan oleh waktu. Sama-kontur kenyaringan juga dapat digunakan untuk bobot
pentingnya persepsi dari komponen yang berbeda. Model kombinasi telinga-otak
manusia memasukkan efek seperti ini sering disebut model psychoacoustic .
Ø
Metode Waktu
·
Menggunakan LPC (Linier Predictive Coding) yaitu
digunakan untuk speech (pidato), dimana LPC akan menyesuaikan sinyal data pada
suara manusia, kemudian mengirimkannya ke pendengar. Jadi seperti layaknya
komputer yang berbicara dengan bahasa manusia dengan kecepatan 2,4 kbps
MPEG(Moving
Picture Expert Group)
MPEG-1 menggunakan bandwidth 1,5 Mbits/sec untuk audio dan video, dimana
1,2 Mbits/sec digunakan untuk video sedangkan 0,3 Mbits/sec digunakan untuk
audio.
Nilai 0,3 Mbits/sec ini lebih kecil dibandingkan dengan bandwidth yang
dibutuhkan oleh CD Audio yang tidak terkompres sebesar 44100 samples/sec x 16
bits/sample * 2 channel > 1,4 Mbits/sec yang hanya terdiri dari suara saja.
Untuk ratio kompresi 6:1 untuk 16 bit stereo dengan frekuensi 48kHz dan
bitrate 256 kbps CBR akan menghasilkan ukuran file terkompresi kira-kira 12.763
KB, sedangkan ukuran file tidak terkompresinya adalah 75.576 KB
MPEG-1 audio mendukung frekuensi dari 8kHz, 11kHz, 12kHz, 16kHz, 22kHz, 24
kHz, 32 kHz, 44kHz, dan 48 kHz. Juga mampu bekerja pada mode mono (single
audio channel), dual audio channel, stereo, dan joint-stereo
Algoritma MPEG Audio
Menggunakan filter untuk membagi sinyal audio:
misalnya pada 48 kHz, suara dibagi menjadi 32 subband frekuensi.
Memberikan pembatas pada masing-masing
frekuensi yang telah dibagi-bagi, jika tidak akan terjadi intermodulasi
(tabrakan frekuensi)
Jika sinyal suara terlalu rendah, maka tidak
dilakukan encode pada sinyal suara tersebut
Diberikan bit parity yang digunakan untuk
mengecek apakah data tersebut rusak atau tidak (yang mungkin disebabkan oleh
gangguan / noise), apabila rusak, maka bit tersebut akan digantikan bit yang
jenisnya sama dengan bit terdekatnya.
Teknik Kompresi MP3
1. Auditory
masking
Manusia tidak mampu mendengarkan suara pada
frekuensi tertentu dengan amplitudo tertentu jika pada frekuensi di dekatnya
terdapat suara dengan amplitudo yang jauh lebih tinggi.
2. Critical
band
Critical band merupakan daerah frekuensi
tertentu dimana pendengaran manusia lebih peka pada frekuensi-frekuensi rendah,
sehingga alokasi bit dan alokasi sub-band pada filter critical band lebih
banyak dibandingkan frekuensi lebih tinggi.
3. Joint
stereo
Terkadang dual channel stereo mengirimkan
informasi yang sama. Dengan menggunakan joint stereo, informasi yang sama ini
cukup ditempatkan dalam salah satu channel saja dan ditambah dengan informasi
tertentu. Dengan teknik ini bitrate dapat diperkecil.
Algoritma MPEG Audio
·
Menggunakan filter untuk membagi sinyal audio:
misalnya pada 48 kHz, suara dibagi menjadi 32 subband frekuensi.
·
Memberikan pembatas pada masing-masing frekuensi
yang telah dibagi-bagi, jika tidak akan terjadi intermodulasi (tabrakan
frekuensi)
·
Jika sinyal suara terlalu rendah, maka tidak
dilakukan encode pada sinyal suara tersebut
·
Diberikan bit parity yang digunakan untuk
mengecek apakah data tersebut rusak atau tidak (yang mungkin disebabkan oleh
gangguan / noise), apabila rusak, maka bit tersebut akan digantikan bit yang
jenisnya sama dengan bit terdekatnya.
Format Header MP3
File MP3 terdiri atas 2 bagian data:
·
Header : berfungsi sebagai tanda pengenal bagi
file MP3 agar dapat dibaca oleh MP3 player yang berukuran 4 byte. Beberapa
karakteristik yang dibaca komputer adalah bit ID, bit layer, bit sampling
frequency dan bit mode.
·
Data audio : berisi data file mp3.
Teknik Pengkodean Video
Terdapat beberapa teknik pengkodean video yang baiasa
digunakan didalam teknik kompresi video. Masing-masing memiliki kelebihan dan
kelemahan serta penggunaan yang berbeda. Teknik-teknik tersebut meliputi :
·
H.261 dan
H.263
1) Merupakan
standar video coding yang dibuat oleh CCITT (Consultative Commitee for
International Telephone and Telegraph) pada tahun 1988-1990
2) Dirancang
untuk video conferencing, aplikasi video telepon menggunakan jaringan telepon
ISDN
3) Kecepatan
bitrate antara p x 64 Kbps. Dimana p adalah frame rate (antara 1 sampai 30)
4) Susunan
frame H.261 berurutan dimana tiap-tiap 3 buah frame (I) dibatasi dengan 1 buah
inter-frame (P)
5) Tipe
frame gambar yang didukung adalah CCIR 601 CIF (352 x 288) dan QCIF (176 x 144)
dengan chroma sub sampling 4:2:0
6) Mempunyai
2 tipe frame yaitu: Intra-frame (I-frame) dan Interfame (P-frame)
§
I-frame digunakan untuk mengakses banyak pixel
§
P-frame digunakan sebagai “pseudo-differences“
dari frame yang sebelumnya ke frame sesudahnya, dimana antar frame terhubung
satu sama lain.
·
Intraframe coding
Makroblok yang digunakan pada gambar asli
adalah 16 x 16 pixel perblok, dimana Y menggunakan 4 blok, U (Cr) menggunakan 1
blok, dan V (Cb) menggunakan 1 blok.
·
Interframe coding
Gambar sebelumnya dijadikan gambar acuan yang akan dibuat
gambar hasilnya, dengan menggunakan RMSE untuk mencari tingkat error yang
paling kecil.
MPEG-2
- Merupakan
standar pada TV Digital yang dikhususkan untuk HDTV dan DVD
·
Perbedaan dengan MPEG-1:
a.
Dapat melakukan prediksi isi data dan
prediksi frame
b.
Ukuran frame bisa lebih dari 16383 x 16383
·
Bagian:
a.
Part 1 - Systems specifies the system coding
layer of the MPEG-2
b.
Part 2 - Video specifies the coded
representation of video data and the decoding precess required to reconstruct
pictures
c.
Part 3 - Audio specifies the coded
representation of audio data
d.
Part 4 - Conformance test
·
Video Stream Data Hierarchy:
·
Bagian :
§ Video
Sequence → diawali dengan sequence header, berisi satu group gambar atau lebih,
diakhiri dengan kode end-ofsequence
§ GOP
(Group of Pictures) → sebuah header dan rangkaian satu gambar atau lebih
§ Picture
→ primary coding unit dari video sequence.
§ Merepresentasikan
nilai luminance (Y) dan 2 chrominance (Cb dan Cr)
§ Slice
→ satu atau lebih macroblock. Urutannya dari kirikanan, atasbawah. Penting
untuk error handling. Bila terjadi error maka akan di-skip ke slice berikutnya.
§ Macroblock
→ basic coding unit pada algoritma MPEG. 16x16 pixel segment dalam sebuah
frame. Macroblock terdiri dari 4 luminance, 1 Cr, dan 1 Cb.
·
Block → coding unit terkecil pada algoritma
MPEG. 8x8 pixel, dapat berupa salah satu dari luminance rec chrominance, atau
blue chrominance.
MPEG-4
·
Audio dan video adalah basis dasar dari MPEG-4,
di samping itu MPEG-4 dapat mendukung objek 3D, sprites, text dan tipe media
lainnya
·
Untuk komunikasi bitrate yang sangat rendah (4,8
sampai 64 Kb/sec): video dengan bit rate 5 Kb/s s/d 10 Mb/s dan audio dengan
bit rate 2 Kb/s s/d 64 Kb/s
·
Sangat baik untuk audio/video dalam jaringan
(streaming)
·
Mendukung digital rights management
·
Player : QuickTime (free QuickTime → play back,
QuickTime Pro → author MPEG-4 content, QuickTime Streaming Server → strean .mp4
files, Darwin Streaming Server → stream mp4 files,QuickTime Broadcaster →
produce live events, making QuickTime workflow)
·
Internet Streaming Media Alliance (ISMA) :
Apple, Cisco, IBM, Kasenna, Philips, Sun Microsystems, AOL Time Warner, Dolby
Laboratories, Hitachi, HP, Fujitsu, dan 20 perusahaan lainnya → dukungan untuk
MPEG-4
·
Kategori :
a.
MPEG-4 Part 2 (simple profile)
b.
MPEG-4 Part 10 / H.264 (kualitas tinggi,
data rate yang rendah, ukuran file kecil, kemampuan video conference dengan 3G,
kualitas setara MPEG-2, data rate 1/3 sampai ½ MPEG-2, resolusi sampai 4 kali
MPEG-4 part 2)
Teknik Video Coding
- AAC
(Advanced Audio Coding)
- Dasar
dari MPEG-4, 3GPP, dan 3GPP2
- Pilihan
untuk audio codec internet, wireless, dan digital broadcast
- Mendukung
audio encoding dengan kompresi lebih efisien dibandingkan MP3, dan
mempunyai kualitas hampir setara CD Audio
- Dikembangkan
oleh Dolby, Fraunhofer, AT&T, Sony dan Nokia
- Audio
codec : QuickTime, iTunes, iPod
Kelebihan Teknik Video Coding :
- Peningkatan
kompresi dengan kualitas lebih baik dan ukuran file lebih kecil
- Mendukung
multichannel audio, mendukung sampai 48 full frequency channel
- High
resolution audio, sampling rate sampai 96 kHz
- Peningkatan
efisiensi proses decoding, pengurangan processing power untuk decoding
Referensi :
https://repository.unikom.ac.id/45255/1/Bab%208%20-%20Kompresi%20Audio%20Video.pdf