این مقاله جزئیات فنی پیاه سازی شیوه های متداول فشرده سازی داده در آزمایشگاه دلفی را تشریح می کند . در نتیجه فشرده سازی انواع مختلف داده ارائه شده است .
1- معرفی :
در این مقاله ما یک کاربرد از شیوه های متداول فشرده سازی بر داده های فیزیکی را با هدف کاهش اندازه حجم داده برررسی می کنیم . از آن جهت لازم است که اصطلاحات کاهش داده ها و فشرده سازی داده ها را مجزا کنیم . در هر دو مورد حجم داده ها کاهش می یابد اما شیوه های پیدا شده و اهداف متفاوتند .
در مورد کاهش داده ها، فشرده سازی داده ها در نتیجه برنامه های مجدد سازی خاصی است که سیگنالهای قسمتهای چک کننده حساس را به ارزشهای فیزیکی تبدیل می کند ، مانند momenta انطباق ها و شناسگرهای خاص و غیره .... هدف کاهش داده ها تنها فشرده کردن داده ها نیست بلکه برای ساده تر کردن تحلیل فیزیکی داده ها است . در مورد فشرده سازی داده ها فشرده کردن داده ها در نتیجه بهینه سازی بیشتر رمز گزاری داده ها است و الگوریتمهای پیاده شده وابسته به طبیعت داده ها نیست تنها هدف کاهش سلیز فایل داده ها برای صرفه جویی در فضای دیسک است .
2- زنجیره فرایند داده های دلفی :
در آزمایشگاه دلفی انواع فایلهای داده ی زیر استفاده می شود .
داده خام :(RAW ) : فایلهایی با اطلاعاتی از سیستم کسب داده ها.
FDST یا DST تمام شده : فایلهای تولید نشده به وسیله برنامه های مجدد سازی استفاده شده در دلفی .
LDST : مانند FDST با این تفاوت که همچنین شامل نتایج شناسگرهای خاص است . فقط برای رویداد .
SDST : مانند FDST اما بعضی اطلاعات چک کننده خاص حذف شده و نتایج شناسه های خاص اضافه شده .
MDST : شبیه SDST اما شامل اطلاعات ضروری بیشتری است که به شیوه فشرده تری نوشته شده .
واضح است که مهمترین تحلیل های فیزیکی داده LDST ، FDST و MDST باید به راحتی قابل دسترس باشد . برای کاربر . نسخه های آن باید روی میز قرار داده شوند در حال حاضر 250 فضای دیسک نیاز است .
چنین حجم اطلاعات می تواند مشکلات تعریفی ایجاد کند حتی برای مراکز بزرگ کامپیوتری مانند مرکز تحلیل خارج خط دلفی در .
برای همکاری کردن کارگاهها نگهداری اطلاعات روی دیسک ها می تواند یک مشکل واقعی باشد . سه راه حل برای این مشکل وجود دارد :
* نصب دیسکهای اضافی ساده ترین راه حل ، اما نیازمند منابع مالی است .
* بسته بندی ذهنی : تلاش برای محاسبه ترتیب و دقت ارزشها به منظور بسته بندی کردن آنها درتعداد کمی از کلمات – این دستیابی می تواند بهترین نتیجه را بدهد اما نگهداری آن مشکل است ، زیرا فرمت داده ها شامل تغییرات فرکانس است .
برنامه تکنیکهای فشرده سازی داده های عمومی ، مانند یک دستیابی ارزان و موثر است .
3- اتتخاب الگوریتم فشرده سازی داده ها :
در حال حاضر رویدادهای فشرده سازی و باز کردن داده ها یک عمل متداول برای کاربران تمام انواع کامپپیوتر ها شده است . ابزار متفائتی برای این کار وجود دارد . اما تردیدی نیست که متداول ترین و معروفترین شیوه ( ابزار ) حجیم کردن / کم حجم کردن است که به وسیله برنامه GZIP بکار می رود .
انتخاب الگوریتم فشرده سازی داده ها به وسیله دو مشخصه اصلی الگوریتم مشخص می شود .
نرخ فشرده سازی و زمان عدم فشرده سازی . در برنامه GZIP هر دو مشخصه تمام عیار هستند .
این در زمینه عمومی است و نسبتا برای مدت زیادی استفاده شده ودر سطوح مختلفی پیاده سازی شده – بنابراین انتخاب الگوریتم سخت نیست .
ما همچنین چندین الگوریتم دیگر را اندیشیدیم ، اما آنها عیناً به خوبیGZIP نیستند . اجاز دهید دو مورد از آنها را توضیح دهیم .
شیوه اول الگوریتم LZW است.این شیوه بسیار سریع و نسبتا موثر است . برای نمونه این شیوه برای فشرده سازی و عدم فشرده سازی داده ها در UNIX استفاده می شود . مزیت های این روش ، کوتاه بودن توضیحات ، کد برنامه ها فشرده و خواناو پیاده سازی آنها مستلزم حجم حافظه کمی است . با این وجود ، نرخ فشرده سازی الگوریتم LZW برتر از GZIP است .
بعلاوه اینکه این روش ثبت اختراع شده و سیاستهای منحصر بفرد شرکت UNISYS ،سخت گیر و پرخاشگر شده است .
شیوه دوم رمز نگاری ریاضی با نظم بالاست . در سال 1995 منبع فشرده سازHA که این شیوه را پیاده کرد باز شد و در اختیار عموم قرار داده شد . معمولا این روش نرخ فشرده سازی خوبی ارائه می کرد نسبت به روش حجیم کردن / کم حجم کردن ، اما در عمل فشرده سازی و عدم فشرده سازی خیلی کند تر عمل می کند .
4 – پیاده سازی فشرده کردن داده ها در بست بندی ورودی و خروجیPHDST برای ورودی / خروجی در آزمایشگاه دلفی ، بسته بندی PHDST توسعه یافته است . این شیوه دسترسی کاربر پسند به داده بدون وابستگی به ماشین و با اختصاص یک رسانه خارجی فراهم می کند .بسته بندیPHDST از سیستم مدیریت حافظه ZEBRA-MZ برای دستکاری ساختار داده های داخلی و از سیستم بسته بندی ZEBRA-FZ برای ورودی / خروجی غیر وابسته به کامپیوتر استفاده می کند . ساختار داده مبنا در یک ارایه از بانک ها با اطلاعاتی که می تواند توسط اشاره گر مربوطه قابل دستیابی باشد . چنین بانک هایی می توانند متصل شوند به ساختار های پیجیده داده ها مانند ساختمان ، لیست ، درخت و شبکه .
در PHDST جنین ساختار هایی برای ایجاد رویداد ها ی فیزیکی ایجاد می شوند .
هر ساختار داده پیچیده با یک ارایه کوچک از اطلاعات همراه می شود . که رکورد راهنما نامیده می شود . این رکورد راهنما حاوی مقداری اطلاعات عمومی در مورد رویداد می باشد و به کاربران این اجازه را می دهد که بخواند خواه برای تحلیل یا برای گذشتن از رویداد .
معمولا 10 برنامه با فایل های شبیه سازی شده کار می کنند . بعنوان یک نتیجه ، تعدادی فایل باید در همان زمان در وضعیت غیر فشرده قرار گیرند . و این مفاداً تاثیر فشرده سازی فایل را کاهش می دهد .
اغلب برنامه های تحلیل فقط تعدادی رویداد از فایل را استفاده می کنند ، نه همه آنها را و عدم فشرده سازی کل فایل به طور اساسی کارایی برنامه را کاهش خواهد دا د.
طرح های مختلف فشرده سازی داده ها در دلفی پیاده سازی شدند . فشرده سازی داده ها بطور جداگانه بر هر رویداد عملی می شود .ا مکانی در FZ استفاده شده مه تنها بر روی رسانه خارجی نمی نویسد بلکه در حافظه داخلی برنامه نیز می نویسید . این اجازه داده شده که طرح های زیر پیاده سازی شدند .
1- بجز نوشتن یک رویداد در فایل خارجی ، رویداد در یک آرایه خاص ذخیره می شود .
2- اطلاعات این ارایه ها بوسیله بعضی رویدادها فشرده سازی روز گشایی شده ، برای مثال کاهش حجم کردن شیوه GZIP :
3- نتیجه در بانک ZEBRA قرار داده شده
4- این بانک در یک فایل خارجی قرار داده می شود.
رویه خواندن تبدیل به رویه نوشتن می شود . اجازه دهید هر مرحله را با جزئیات بیشتر بررسی کنیم .
جریان خروجی باید مقدار دهی اولیه شود با :
CALL FZFILE ( LUM , LREC , ‘MXUO ‘ )
که MXO - مد حافظه و تغییرات فرمت برای خروجی را مشخص می کند .
و ‘ U’ - مانع تبدیل بایت – این فقط یک حس گر برای ماشین با بایت ها ی شماره گزاری شده از راست به چپ .