با وجود کیفیت بسیار خوب صدای حاصل از دیسک های فشرده ، حجم داده ( که بصورت Linear PCM در دیسک ذخیره شده و در حدود 0.7 M bit/S بازای هر کانال میباشد ) و پهنای باند مورد نیاز برای انتقال آنها، برای برخی از کاربرد ها بیش از حد زیاد است در نتیجه ، فشرده سازی داده ها نیازی مبرم برای کاربرد های چند رسانه ای و مخابراتی تلفنی و رادیو و تلویزیونی و اینترنتی و حتی فیلم های VCD و DVD به نظر میرسد.
کاهش داده ها با استفاده از کم کردن فرکانس نمونه برداری یا عمق بیت با افت قابل توجه کیفیت همراه است که در برخی از موارد قابل پذیرش نیست بنابراین ابدا و استفاده از روش هایی که حداقل افت کیفیت را به دنبال داشته باشد مطلوب خواهد بود.
روش های فشرده سازی به دو دسته اصلی ، بی تلف ( Lossless ) و تلفاتی ( Lossy ) تقسیم میشوند. در روش بی تلف، پیام پس از رمز گشایی در گیرنده بهطور کامل و بیت به بیت بازیافت میشود ولی نسبت فشرده سازی آن کم و در حدود یک به دو است ( حجم داده ها نصف میشود). در مقابل در روش تلفاتی نسبت فشرده سازی میتواند به یک به ده یا حتی بیشتر نیز برسد که به بهای حذف مقداری از داده ها منجر و در نتیجه افت کیفیت بدست می آید...
این افت کیفیت ممکن است در فشرده سازی با نسبت کم ، نا چیز و قابل اغماض بوده و یا در فشرده سازی با نسبت زیاد در مواردی مانند ارتباط تلفنی و اینترنتی که کیفیت صوتی کمتری مورد نیاز است مقدار قابل ملاحظه ای باشد.
در روش تلفاتی برای حصول نتیجه بهتر از تاثیرات آکوستیک – روانی استفاده میشود بدین معنی که داده هایی حذف میشوند که در حالت عادی کمتر شنیده شده و تاثیر خفیف تری در کیفیت صدای مورد نظر دارند.درحقیقت نوعی رفتار صوتی پوششی ( Masking ) در شنوایی انسان وجود دارد که باعث میشود تا برخی اصوات غالب ، برخی دیگر از اصوات کم اهمیت تر را پوشانیده و مانع شنیده شدن آنها گردند. بنابراین حذف دقیق و پیشبینی شده اصوات اضافه توسط سیستم فشرده ساز سبب کاهش حجم داده ها شده و در عین حال افت کیفیت ناشی از این حذف به حداقل میرسد مهمترین تاثیرات آکوستیک – روانی که در فشرده سازی بکار میروند عبارتند از :
پهنای باند بحرانی گوش :
شنوایی انسان دارای رفتاری است که به آن پهنای باند بحرانی میگویند. ( Critical – Band ) .
در داخل حلزونی گوش ، غشایی به نام Basilar وجود دارد مانند یک تحلیل گر طیفی عمل میکند و فرکانس های مختلف در صدا را تفکیک مینماید فرکانس های مختلف باعث ارتعاش نقاط متفاوت این غشا بدین معنی که فرکانس های بسیار بم در یک انتها و فرکانس های بسیار زیر در انتهای مقابل و فرکانس های دیگر نیز به تناسب در طول غشا درک میشوند. حال اگر فرکانس خاصی با دامنه زیاد سبب ارتعاش ناحیه متناظر خود در غشا شود و سیگنال دیگری با فرکانس نزدیک ولی دامنه کمتر در همان زمان وارد گوش شود نمیتواند آن ناحیه از غشا را که هم اکنون در حال ارتعاش است بخوبی تحریک کند و بنابراین توسط سیگنال قبلی پوشانیده شده و شنیده نمیشود مگر آنکه فرکانس این سیگنال ضعیف بقدر کافی ( یعنی به اندازه پهنای باند بحرانی در آن فرکانس مرکزی از فرکانس قویتر فاصله بگیرد برای مثال پهنای باند بحرانی گوش در فرکانس مرکزی ١٠٠٠ هرتز در حدود ١٦٠ هرتز میباشد بنابراین در حضور فرکانس ١٠٠٠ هرتز قوی ، فرکانس ١٠٥٠ هرتز با دامنه ضعیف شنیده نخواهد شد. زیرا در محدوده پهنای باند بحرانی گوش در فرکانس مرکزی ١٠٠٠ هرتز قرار دارد. در حالیکه فرکانس ١٢٠٠ هرتز با دامنه ضعیف تشخسص داده میشود چون در خارج از محدوه پهنای باند بحرانی گوش در فرکانس مرکزی ١٠٠٠ هرتز قرار دارد.
همپوشانی فرکانسی :
این اثر در واقع ملاحظاتی عددی در باره پهنای باند بحرانی است که توسط منحنی های هم پوشانی تن یا نویز بیان میشود.
همپوشانی زمانی :
اثر همپوشانی به صورت زمانی هم عمل میکند بدین شکل که هرگاه دو سیگنال تقریبآ همزمان ( ولی نه کاملآ همزمان ) اتفاق بیافتند سیگنال ضعیف تر ( مستقل از رفتار فرکانسی ) تحت پوشش سیگنال قوی قرار گرفته و شنیده نمیشود.اگر سیگنال قوی قبل از سیگنال ضعیف اتفاق افتاده و پوشیده شود آن را پیش پوشش ( Pre-masking ) و اگر بعد از سیگنال قوی اتفاق بیافتد و پوشیده شود آن را پس پوشش ( Post-Masking ) مینامند اثر همپوشانی در حالت پس پوشش شدیدتر و موثرتر از حالت پیش- پوشش است.
اصول فشرده سازی :
تقریبآ در تمامی روش های فشرده سازی اصول کار مشابهند در حالیکه جزییات و نتایج نهایی با هم تفاوت دارند.
فرمت های فشرده سازی :
مهمترین فرمت، خانواده MPEG میباشد که شامل MPEG-1 ( در سه لایه پیچیدگی III, III,I ( و MPEG-2 ( در دو حالت :الف – سازگار با قبل Backward Comatible ب- پیشرفته و ناسازگار با قبل ( Advanced Audio Coding “ AAC ) و MPEG-4 و MPEG-7 است.دو فرمت مهم دیگر عبارتند از AC-3 که به عنوان دالبی دیجیتال شناخته میشود و فرمت ATRAC که توسط سونی در سیستم های Mini Disk به کار گرفته شده است.
MPEG-1 : این فرمت که در سال ١٩٩٢ برای سیگنال های مونو و استریو عرضه شده نرخ های نمونه برداری ورودی 32 KHz و 44/1 KHz و 48 KHz را قبول کرده و نرخ بیت خروجی بین ٣٢ تا ٣٨٤ کیلوبیت بر ثانیه را ارایه میدهد و دارای سه لایه مستقل از هم میباشد که بتدریج پیچیده تر شده و بازده آنها افزایش میابد.
لایه I ( حالت اول ) ساده ترین سازوکار را دارد. سیگنال ورودی به بسته های ثابت ٣٨٤ نمونه ای ( معادل ٨ میلی ثانیه در فرکانس ٤٨ کیلو هرتز ) تقسیم شده و توسط فیلتر ٣٢ باندی تفکیک میگردد. پهنای باند این فیلتر ها ثابت بوده ( بدیل سهولت ) و بنابراین در فرکانس های بم بیش از حد بم از حد پهن و در فرکانس های زیر بیش از حد لزوم باریک هستند واحد تحلیل گر و مدل کننده اثارت هم پوشانی از تبدبل سریع فوریه FFT با دقت ٥١٢ نقطه استفاده میکند. که دقت متوسطی به شمار میرود. در هر باند ١٢ نمونه ( 384 / 32 ) وجود دارد که همه با هم پردازش میشوند و توسط مقیاس کننده ٦ بیتی کوانتیزه میگردند.
لایه II ( حالت دوم ) کمی پیچیده تر است. برش زمانی به ١١٥٢ نمونه معادل ٢٤ میلی ثانیه در فرکانس ٤٨ کیلو هرتز و دقت مبدل FFT به ١٠٢٤ نقطه افزایش میابد ولی فیلتر ٣٢ باندی تغییر نمیکند. واحد تخصیص دهنده بیت نیز بهبود یافته و عمل کوانتیزه را برای فرکانس های بم و متوسط و زیر به تفکیک انجام میدهد.
لایه III که به MP3 معروف است رفتار بازهم پیچیده تری دارد. برش زمانی برای سیگنال های عادی ١١٥٢ نمونه است ولی برای سیگنال های گذرا و ضربه ای به ٣٨٤ نمونه کاهش میابد. واحد تخصیص دهنده بیت بسیار دقیق تر عمل میکند.