روش‌های جمع‌آوری داده‌ها ممکن است به تاریخچه طولانی توسعه منجر شود که مدت‌ها قبل از ظهور اولین رایانه آغاز شد. در این مقاله سعی شده است مروری کوتاه بر نظریه‌های اصلی، مفاهیم ایده‌ها و اجرای آن‌ها ارائه شود که البته ادعای کاملی ندارد. گزارش های بیشتری را می توان یافت، به عنوان مثال، در کریچفسکی R.E. ، ریابکو بی.یا. ویتن I.H. ، ریسانن جی.، هافمن دی.آ.، گالاگر آر.جی. ، Knuth D.E. ، ویتر جی.اس. تا در

اطلاعات فشرده مشکلی است که می توان آن را به یک تاریخ طولانی ردیابی کرد، بسیار قدیمی تر از تاریخچه توسعه فناوری محاسبات، که (تاریخ) به موازات تاریخ توسعه مشکل رمزگذاری و حمام رمزگذاری اطلاعات بود. همه الگوریتم‌ها برای کار بر روی جریان اطلاعات ورودی محدود شده‌اند، حداقل واحد یک بیت و حداکثر واحد چند بیت، یک بایت یا چند بایت است. روش فشرده سازی، به عنوان یک قاعده، جداسازی یک جریان خروجی فشرده تر از واحدهای اطلاعاتی از یک جریان ورودی تا حدودی غیر فشرده از طریق تبدیل اضافی آنها است. مشخصات فنی اصلی فرآیندهای فشرده سازی و نتایج کار آنها عبارتند از:

سطح فشرده سازی (رتبه فشرده سازی) یا نسبت (نسبت) تعهدات خروجی و جریان های حاصل.

سرعت فشرده سازی ساعتی است که برای فشرده سازی اطلاعات جریان ورودی صرف می شود تا زمانی که از یک جریان خروجی معادل جدید حذف شود.

شدت فشرده سازی مقداری است که نشان می دهد جریان خروجی تا چه حد فشرده است، علاوه بر تراکم قبل از فشرده سازی بیشتر با استفاده از یک یا آن الگوریتم.

چندین رویکرد مختلف برای مشکل فشرده سازی اطلاعات وجود دارد. برخی ممکن است مبتنی بر یک پایه ریاضی نظری پیچیده باشند، برخی دیگر بر اساس قدرت جریان اطلاعات هستند و از نظر الگوریتمی بر اساس سادگی هستند. هر روش و الگوریتمی که فشرده سازی یا فشرده سازی داده ها را اجرا می کند، برای کاهش بار جریان خروجی اطلاعات در بیت ها برای تبدیل معکوس یا برگشت ناپذیر اضافی استفاده می شود. اول از همه، بر اساس معیار مربوط به ماهیت یا قالب داده ها، کلیه روش های فشرده سازی را می توان به دو دسته فشرده سازی قابل مذاکره و غیر قابل مذاکره تقسیم کرد.

با توجه به محدودیت‌های غیرقابل برگشت، سازماندهی مجدد جریان داده ورودی، که در آن جریان خروجی بر اساس همان قالب اطلاعات است، از یک منظر برای دستیابی به ویژگی‌های مشابه جریان ورودی است. بله، اما هیجان‌انگیز است زیرا از تعهد جدید سطح شباهت جریان های ورودی و خروجی با سطح شباهت مقامات مختلف شی (هر دو نوع و اطلاعات غیر فشرده، بسته به فرمت خاص داده ها) تعیین می شود، نحوه نمایش داده ها به عنوان یک جریان اطلاعات. . چنین رویکردها و الگوریتم‌هایی برای فشرده‌سازی، به عنوان مثال، داده‌های فایل‌های گرافیکی شطرنجی با سطح پایینی از تکرار بایت در جریان توسعه می‌یابند. با این رویکرد، بر قدرت ساختار فرمت فایل گرافیکی تاکید می شود و توانایی ارائه یک تصویر گرافیکی تقریباً شبیه به تجسم (برای چشم انسان) از یک عکس برگردان (یا به طور دقیق تر n) است. بنابراین، در چنین الگوریتم‌هایی علاوه بر درجه یا بزرگی فشرده‌سازی، مفهوم درخشندگی نیز مطرح می‌شود، از آنجایی که تصویر خروجی در طول فرآیند فشرده‌سازی تغییر می‌کند، پس می‌توان مرحله خروجی و نتیجه را درک کرد که تصویر چیست. بسته به فرمت اطلاعات به صورت ذهنی ارزیابی می شود. برای فایل های گرافیکی، این نوع ظاهر به صورت بصری و با استفاده از الگوریتم ها و برنامه های هوشمند اضافی تعیین می شود. محدودیت‌های غیرقابل مذاکره را نمی‌توان در مناطقی که نیاز به حفظ نوع دقیق ساختار اطلاعات جریان‌های ورودی و خروجی راکد کرد. داده‌های مربوط به رویکرد پیاده‌سازی در فرمت‌های رایج برای تشخیص اطلاعات ویدیویی و عکس، معروف به الگوریتم‌های JPEG و JFIF و فرمت‌های فایل JPG و JIF.

فشار معکوس همیشه منجر به کاهش جریان خروجی اطلاعات بدون تغییر محتوای اطلاعاتی آن یعنی بدون از دست دادن ساختار اطلاعات می شود. علاوه بر این، از جریان خروجی، با استفاده از یک الگوریتم اضافی یا غیرفشرده، می توانید ورودی را حذف کنید و فرآیند به روز رسانی را فشرده سازی یا باز کردن بسته بندی می نامند و تنها پس از فرآیند باز کردن بسته بندی داده ها اضافه می شود و برای پردازش با فرمت داخلی آن مطابقت دارد. .

در الگوریتم‌های معکوس، کدگذاری به‌عنوان یک فرآیند را می‌توان از دیدگاه آماری، حتی واضح‌تر، نه تنها برای القای الگوریتم‌های محدودیت، بلکه برای ارزیابی اثربخشی آنها مشاهده کرد. برای همه الگوریتم های قابل مذاکره، مفهوم کارایی کدگذاری اساسی است. پس از تکمیل کد، مقدار متوسط ​​کلمه کد بر حسب بیت تعیین می شود. برتری رمزگذاری تفاوت قابل توجهی بین تنوع و آنتروپی رمزگذاری است و یک الگوریتم فشرده سازی خوب همیشه مسئول به حداقل رساندن برتری است (ما حدس می زنیم که تحت آنتروپی اطلاعات و درک جهان و بی نظمی.). قضیه اساسی شانون در مورد رمزگذاری اطلاعات می گوید که "احتمال رمزگذاری هرگز کمتر از آنتروپی آنتروپی نیست، اگرچه ما همیشه می توانیم به آن نزدیک باشیم." بنابراین، برای هر الگوریتم، همیشه سطح قابل توجهی از فشرده سازی بین مراحل وجود دارد که با آنتروپی جریان ورودی نشان داده می شود.

اجازه دهید اکنون به سراغ ویژگی های الگوریتمی الگوریتم های معکوس برویم و به مهم ترین رویکردهای نظری برای فشرده سازی داده ها مربوط به پیاده سازی سیستم های کدگذاری و روش های فشرده سازی اطلاعات نگاهی بیندازیم.

با استفاده از سری روش کدگذاری برجسته شده است

محبوب ترین روش و الگوریتم ساده برای فشرده سازی اطلاعات با یک مسیر معکوس، رمزگذاری یک سری دنباله (Run Length Encoding - RLE) است. ماهیت روش ها در این رویکرد در جایگزینی لنس ها یا یک سری بایت های تکراری یا توالی آنها با یک بایت رمزگذاری و تعداد تکرار آنها نهفته است. مشکل همه روش‌های مشابه فقط در روش خاص نهفته است، در این صورت الگوریتم باز کردن بسته‌بندی می‌تواند دنباله بایت‌های حاصل را به یک سری کدگذاری شده از دیگر توالی‌های بایت رمزگذاری نشده تقسیم کند. راه حل مشکل را می توان با گذاشتن علامت روی گوش تسمه های کدگذاری شده به دست آورد. چنین نمادهایی می توانند به عنوان مثال مقادیر مشخصه بیت ها در اولین بایت سری کدگذاری شده، معنای اولین بایت سری کدگذاری شده و غیره را نشان دهند. این روش ها معمولا برای فشرده سازی تصاویر شطرنجی موثرتر هستند تصاویر گرافیکی(BMP، PCX، TIF، GIF)، به طوری که بقیه ممکن است به یک سری طولانی از توالی بایت های تکراری ختم شوند. روش RLE دارای مزیت سطح پایین فشرده سازی یا کارایی کدگذاری برای فایل هایی با تعداد سری کم و حتی بدتر از آن، با تعداد کمی بایت های تکراری در یک سری است.

مهر زنی بدون سفت شدن به روش RLE

فرآیند فشرده سازی داده ها بدون رکود با استفاده از روش RLE را می توان به دو مرحله مدل سازی و رمزگذاری تقسیم کرد. این فرآیندها و اجرای الگوریتم های آنها مستقل و متنوع هستند.

فرآیند و روش کدنویسی

هنگام کدنویسی، پردازش جریانی از نمادها (در دسته بندی ما، بایت یا بایت تایپ) در یک الفبای معین را در نظر بگیرید، و فرکانس نمادهای ظاهر شده در جریان متفاوت است. روش رمزگذاری، تبدیل این جریان به جریان بیتی با حداقل قدرت است تا تغییراتی در آنتروپی جریان ورودی در جهت فرکانس های نماد حاصل شود. سهم کدی که کاراکترهای الفبا را به جریان ارائه می کند، متناسب با اطلاعات مورد نیاز جریان ورودی است و عرضه نمادها به جریان در بیت ممکن است مضرب 8 نباشد و ممکن است متغیر باشد. از آنجایی که توزیع فرکانس نمادهای ظاهر شده در الفبای جریان ورودی قابل مشاهده است، می توان یک مدل کدگذاری بهینه ایجاد کرد. با این حال، با نگاهی به ایجاد تعداد زیادی از فرمت‌های مختلف فایل داده، واضح است که توزیع فرکانس نمادهای داده قبلاً ناشناخته بود. در این شرایط، در یک نگاه آشکار، دو رویکرد وجود دارد.

اولی شامل بررسی جریان ورودی و کدگذاری هر فرآیند آمارهای جمع‌آوری‌شده (که به دو گذر از پرونده نیاز دارد - یکی برای بررسی و جمع‌آوری اطلاعات آماری، دیگری برای کدگذاری، که دامنه رکود را بیشتر مشخص می‌کند. بنابراین، الگوریتم‌ها، به این ترتیب، امکان رمزگذاری یک‌گذر «در حال پرواز» را که در سیستم‌های مخابراتی راکد است، جایی که داده‌ها گاهی اوقات دریافت نمی‌شوند، راکد است و ارسال مجدد یا تجزیه آن می‌تواند یک ساعت غیرمنطقی طول بکشد. در این حالت، طرح آماری کدگذاری ویکورسیستی در جریان خروجی نوشته می‌شود. این روش به عنوان کد هافمن استاتیک استفاده می شود.

توسعه الگوریتم های فشرده سازی اطلاعات مربوط به یکی از شاخه های ریاضیات کاربردی است. آنها بر اساس اصل تصعید ابر جهانی بودن طبیعی هستند.

روش های فشرده سازی اطلاعات را می توان به دو کلاس غیر متقاطع تقسیم کرد: استرس ناشی از از دست دادن اطلاعاتі فشرده سازی بدون از دست دادن اطلاعات.

محدودیت های ناشی از از دست دادن اطلاعاتاین به این معنی است که پس از باز کردن آرشیو آسیب دیده، داده‌هایی بیرون می‌آید که تکه‌های کوچکی از آن‌هایی که روی خود لپه بود جدا می‌شوند. بدیهی است که هر چه میزان تراکم بیشتر باشد میزان هزینه و تلفات نیز بیشتر می شود.

ظاهراً چنین الگوریتم هایی کار می کنند اسناد متنی، جدول و برنامه پایگاه داده. هنوز هم می توان بر مشکلات بی اهمیت در یک متن ساده ساده غلبه کرد، اما اگر می خواهید یک بیت را در برنامه کامل کنید، کاملا غیر ضروری است.

در عین حال، شواهدی وجود دارد که نشان می‌دهد می‌توانید صدها قطعه اطلاعات را قربانی کنید تا ده‌ها بار محدودیت‌ها را از بین ببرید، مثلاً عکس‌ها، ویدیوها و مواد صوتی. از دست دادن اطلاعات در حین فشرده سازی و باز کردن بیشتر چنین داده هایی به عنوان ظاهر "نویز" اضافی تلقی می شود.

الگوریتم هایی که با از دست دادن اطلاعات محدود می شوند شامل الگوریتم های زیر می شوند: JPEG(زمانی که عکس فشرده می شود پیروز شوید) i MPEG(زمانی که ویدیو و صدا فشرده می شوند، پیروز شوید). الگوریتم‌های محدود کردن از دست دادن اطلاعات فقط به کسانی محدود می‌شوند که در این کار زندگی می‌کنند.

مقدار ضایعات مجاز هنگام فشرده شدن فشار را می توان کنترل کرد و به شما امکان می دهد به نسبت "اندازه/روشنایی" بهینه دست یابید. در تصاویر عکاسی که برای نمایش روی صفحه در نظر گرفته شده اند، صرف 5 درصد اطلاعات مهم نیست، اما در برخی موارد هزینه 20 تا 25 درصد قابل تحمل است.

مواد و روش ها فشرده سازی بدون از دست دادن اطلاعاتآنها هنگام کار با اسناد و برنامه های متنی گیر می کنند و نمی توانند اجازه از دست دادن اطلاعات را بدهند. بوی تعفن فقط بر اساس ماوراء طبیعی گرایی فروکش شده است.

باسن 1. زبان اوکراینی دارای 32 حرف، ده عدد و حدود ده ها علامت نگارشی و سایر کاراکترهای خاص است. برای متنی که فقط با حروف بزرگ نوشته می شود (مانند تلگرام)، در مجموع شصت مقدار متفاوت وجود دارد. Prote، هر نماد با یک بایت رمزگذاری شده است که حاوی 8 بیت است و می تواند 256 کد مختلف را شناسایی کند. این اولین پایگاه برای فرادنیایی است. برای متن "تلگرافیک" در مجموع شش بیت در هر کاراکتر وجود دارد.

کم اهمیت 1. کد مورس

باسن 2. رمزگذاری بین المللی کاراکتر ASCII به همان تعداد بیت (8) برای رمزگذاری هر کاراکتری نیاز دارد. در عین حال، بدیهی است که اغلب نمادهای متراکم را می توان با تعداد کمتری از علائم حس کرد. بنابراین، برای مثال، در کد مورسحروف "E" و "T" که اغلب متراکم هستند، با یک علامت (بدیهی است یک نقطه و یک خط تیره) کدگذاری می شوند. و حروف کمیاب مانند "Y" (-) و "C" (- -) با علائم مشابه کدگذاری می شوند. کدگذاری ناکارآمد جایگزین دیگری برای فرادنیایی است.

برنامه هایی که اطلاعات فشرده شده را ذخیره می کنند، می توانند سیستم کدگذاری خود را معرفی کنند (برای فایل های مختلف متفاوت است) و قبل از فشرده شدن فایل، یک جدول (فرهنگ لغت) را به فایل نسبت دهند، به طوری که برنامه می تواند مانند زیر باز شود. این فایلاین و سایر شخصیت ها یا گروه های آنها رمزگذاری شده اند. الگوریتم های مبتنی بر اطلاعات رمزگذاری مجدد نامیده می شوند الگوریتم های هافمن.

وجود تکه های مکرر سومین پایه برای ابرمردی است. در متون نادر است، اما در جداول و نمودارها تکرار کدها یک اتفاق طبیعی است. بنابراین، به عنوان مثال، اگر عدد 0 هر روز بیست بار تکرار شود، پس گذاشتن بیست صفر بایت معنی ندارد. آنها را با یک صفر و ضریب 20 جایگزین کنید. چنین الگوریتم هایی بر اساس تکرارهای مشخص شده، روش نامیده می شوند. سری دوژین کد شده(RLE،رمزگذاری طول را اجرا کنید). توالی های تکرار شونده بزرگ بایت های جدید به ویژه در تصاویر گرافیکی قابل توجه است. روشی که برای تصاویر گرافیکی در قالب بایت در پیکسل موثر است (به عنوان مثال، PCXیا چیز دیگر BMP).

وقتی باز شد نسخه های پشتیباندر هارد دیسک ها فرصت دیگری برای به دست آوردن فضای کاری بیشتر هنگام فشرده سازی فایل ها وجود دارد که به حجم اطلاعات مربوط نمی شود، بلکه به نحوه سازماندهی سیستم فایل کامپیوتر مربوط می شود. نکته این است که هر فایل، بزرگ یا کوچک، می تواند تنها به همان تعداد خوشه روی دیسک اشغال کند. که در سیستم فایل FAT16 روی هارد دیسک نمی تواند بیش از 65536 کلاستر داشته باشد (2 16). این به این معنی است که برای دیسک های با حجم 1 تا 2 گیگابایت، اندازه کلاستر 32 کیلوبایت است.

هنگامی که یک گروه بزرگ از فایل ها را در یک فایل گسترش می دهید، صرفه جویی باید روی حداقل 16 کیلوبایت در هر فایل تنظیم شود تا هزینه ها به دلیل سازماندهی غیر منطقی سیستم فایل کاهش یابد.

برای FAT32، اندازه کوچکتر است، و در این مورد، حداقل اندازه کلاستر هنوز 4 کیلوبایت است، بنابراین اگر می توانید تعداد زیادی فایل کوچک را مدیریت کنید، می توانید در اینجا نیز در هزینه خود صرفه جویی کنید.

صرف نظر از این که روش های مختلفی برای فشرده سازی وجود داشت، اقداماتی وجود دارد اصول و قواعد، که برای همه روش های فشرده سازی غیرقانونی است. شما باید این را بدانید و در مورد آن صحیح باشید.

1. هر محدودیتی یک مرز دارد،بنابراین، باریک کردن فایلی که قبلاً باریک شده است در کوتاه مدت منجر به برد نمی شود، اما در بدترین حالت می تواند منجر به از دست دادن حجم فایل حاصل شود.

متای درس: ایجاد احترام، پشتکار و ایجاد علاقه به موضوع.
تجهیزات: کامپیوتر، دیسک آزمایشگاهی و غیره نرم افزار امنیتی، کارتی در حال آزمایش این گیاه است.

پیشرفت درس

1. بخش سازمانی.
2. به روز رسانی دانش پایه.
3. معرفی مطالب جدید
4. پیوست کردن مواد جدید.
5. بهبود منزل.
6. ارائه کیف به درس.

توسعه مواد جدید

1. آرشیو چیست؟ من در مورد فشرده سازی داده ها می دانم.
2. انواع اصلی برنامه های آرشیو.
3. برنامه بایگانی کننده WIN-RAR.
4. نحوه افزودن یک فایل به آرشیو و همچنین حذف آن از بایگانی.

با گل رز فناوری اطلاعاتیک پست در مورد راه های صرفه جویی در پول بود. با شروع دهه 40 قرن بیستم، روش های ارائه داده ها با استفاده از فضای اقتصادی تر در رسانه ها برای اطلاعات بیشتر توسعه یافت. نتیجه این امر فناوری فشرده سازی و آرشیو داده ها (پشتیبان گیری) بود.

آرشیو داده ها به معنای ترکیب چندین فایل یا دایرکتوری در یک فایل آرشیو واحد است.

فشرده سازی داده ها کوتاه کردن فایل های خروجی به منظور حذف اطلاعات اضافی است.

برای این نوع داده ها، از برنامه های بایگانی استفاده می کنیم که تضمین می کند فشرده سازی داده ها: بزرگنمایی، بایگانی فایل ها. بایگانی‌کننده‌ها با کمک الگوریتم‌های خاص، تمام اطلاعات اضافی را از فایل‌ها حذف می‌کنند و در حین عملیات باز کردن بسته‌بندی، اطلاعات را به شکل اصلی بازیابی می‌کنند. حجم فایل فشرده دو تا ده برابر کوچکتر از فایل اصلی است. در این حالت فشرده سازی و اطلاعات به روز شده بدون هیچ هزینه ای به دست می آید. فشرده سازی بدون ضایعات هنگام کار با متن و فایلهای برنامه، در مسائل رمزنگاری. روش هایی نیز برای مقابله با هزینه ها وجود دارد.

سطح محدودیت به نوع فایل ها و نوع برنامه بایگانی بستگی دارد. فایل های متنی بیشترین فشرده سازی را دارند، فایل های صوتی و تصویری کمترین فشرده سازی را دارند.

آرشیو فایل ها zavdannya

قبل از این مرحله، ما در مورد یک هدف از بایگانی داده ها صحبت کردیم - اقتصادی vikoristannyaحامل های اطلاعات با این حال، برای بایگانی اضافی، می توانید مجموعه کاملی از دستورات را استخراج کنید:
1. تغییر فایل ها (نه تنها مربوط به صرفه جویی در فضا در دستگاه ها، بلکه برای انتقال سوئدیفایل ها در امتداد مرز).
2. نسخه پشتیبانروی بینی خارجی برای ذخیره اطلاعات مهم

3. آرشیو داده های رمزگذاری شده با استفاده از روش تغییر امنیت سیستم رمزنگاری شیطانی.

فرآیند ثبت اطلاعات در یک فایل آرشیو آرشیو نامیده می شود.
بازیابی فایل ها از آرشیو - از حالت فشرده خارج می شود.

اولین برنامه های آرشیو در اواسط دهه 80 ظاهر شد. آنها به سمت کار در MS-DOC گرایش داشتند و از فرمت های آرشیوی محبوب پشتیبانی می کردند: ARC، ICE، ARJ، ZIP و RAR و غیره. همچنین گروهی از بایگانی‌کنندگان بودند که داده‌ها را در بایگانی‌ها بسته‌بندی کردند - فایل‌هایی با پسوند. هه، com برای فشرده سازی کل دیسک، توسط یک بایگانی کننده مقیم ایجاد شد. آنها با ایجاد فایل های آرشیو بزرگ - دیسک های "فشرده کردن"، کارایی ذخیره سازی فضای دیسک را افزایش دادند.

کار با آرشیو به طور قابل توجهی دستی تر شده است ویندوز ظاهر شودو نسخه های ویندوز آرشیو. از تعداد زیادی فرمت آرشیوی ویندوز koristuvachivدر واقع، ARJ و ZIP روت شده اند - برنامه هایی برای باز کردن فایل ها. فایل های بایگانی بزرگ را می توان بر روی بسیاری از فلاپی دیسک ها (حجم) قرار داد. به چنین آرشیوهایی با حجم غنی می گویند.

تام - تسه قسمت انبارآرشیو حجم غنی

ده ها برنامه بایگانی در حال آزمایش هستند که از نظر عملکرد و پارامترهای عملیاتی متفاوت هستند و اکثر آنها ویژگی های مشابهی دارند. می دانیم که بسته بندی و باز کردن فایل ها شامل یک برنامه است، اما در برخی موارد کار نمی کند برنامه های مختلفبه عنوان مثال، برنامه RKZIP فایل ها را بسته بندی می کند و RKUNZIP فایل ها را باز می کند.
برنامه های بایگانی به شما امکان می دهد چنین بایگانی هایی ایجاد کنید که برای استخراج آنها به هیچ برنامه ای نیاز ندارید ، زیرا فایل های بایگانی شده در خود برنامه از حالت فشرده خارج می شوند. به چنین آرشیوهایی بایگانی SFX می گویند.

قرار دادن فایل ها در آرشیو: برنامه WINRAR را راه اندازی کنید یا میانبر را روی دسکتاپ ببینید.

بایگانی کننده جهانی WINRAR

بایگانی کننده WINRAR برای بایگانی فایل ها نیز استفاده می شود. دارای پوسته گرافیکی دست ساز است و از فناوری Drag and Drop پشتیبانی می کند. برنامه WINRAR به شما امکان می دهد نه تنها بایگانی شده را پردازش کنید فایل های rar، Ale و سایر فرمت های آرشیو: zip، cab، arj، lzh. WINRAR بدون توجه به هر چیزی راه اندازی می شود. راه های ممکن، انتقال آنها به ویندوز. راه اندازی برنامه ها از منوی اصلی دکمه استارت برنامه ها WINRAR WINRAR یا از میانبر اضافی روی دسکتاپ.

تست اصول اولیه ربات ها با دیسک.
مشق شب.
خود تحلیلی درس.

برای این منظور، برنامه های بایگانی وجود دارد که هم آرشیو و هم فشرده سازی داده ها را فراهم می کند.بایگانی‌کننده‌ها با کمک الگوریتم‌های خاص، تمام اطلاعات اضافی را از فایل‌ها حذف می‌کنند و در حین عملیات باز کردن بسته‌بندی، اطلاعات را به شکل اصلی بازیابی می‌کنند. حجم فایل فشرده دو تا ده برابر کوچکتر از فایل اصلی است.

همه الگوریتم‌ها برای کار بر روی جریان ورودی اطلاعات با جدا کردن یک جریان خروجی فشرده‌تر از طریق تبدیل اضافی محدود هستند. مشخصات فنی اصلی فرآیندهای فشرده سازی و نتایج کار آنها عبارتند از:

· مرحله فشرده سازی - رابطه بین خروجی و جریان های حاصل.

· سرعت فشرده سازی - ساعت صرف شده برای فشرده سازی اطلاعات جریان ورودی، قبل از حذف آن از یک جریان خروجی معادل جدید.

· شدت فشرده سازی مقداری است که نشان می دهد جریان خروجی در هنگام یخ زدگی تا فشرده سازی بیشتر با استفاده از الگوریتم مشابه یا متفاوت چقدر قوی است.

الگوریتم هایی که حجم عظیمی از ثبت داده ها را به تصویر می کشند، الگوریتم های فشرده سازی داده یا الگوریتم های آرشیو نامیده می شوند. در حال حاضر، یک برنامه عالی و ساده برای فشرده سازی داده ها بر اساس چندین روش اساسی وجود دارد.

همه الگوریتم های فشرده سازی داده ها به دو دسته تقسیم می شوند:

) الگوریتم های فشرده سازی بدون اتلاف، هنگامی که هر داده ای انتخاب می شود، بدون هیچ تغییری به روز می شود.

) الگوریتم های محدودیت با هزینه ها که از جریان اطلاعات مشاهده می شود، به طور ناچیز به اصل داده ها سرازیر می شود، اما مورد قبول انسان ها نیست.

دو روش اصلی برای بایگانی بدون هزینه وجود دارد:

الگوریتم هافمن (eng. Huffman)، جهت فشرده سازی دنباله هایی از بایت ها که به یکدیگر مرتبط نیستند،

الگوریتم Lempel-Ziv (به انگلیسی: Lempel, Ziv) بر فشرده سازی هر نوع متن تمرکز می کند و بنابراین واقعیت تکرار مکرر "کلمات" - دنباله ای از بایت ها را تشخیص می دهد.

تقریباً همه برنامه های بایگانی بدون هزینه محبوب (ARJ، RAR، ZIP و غیره) از ترکیبی از این دو روش استفاده می کنند - الگوریتم LZH.

الگوریتم هافمن

الگوریتم بر این واقعیت استوار است که برخی از کاراکترهای مجموعه استاندارد 256 کاراکتری در یک متن طولانی را می‌توان بیشتر از میانگین دوره تکرار تکرار کرد و برخی دیگر، بدیهی است، کمتر. همچنین، از آنجایی که $ + o برای ضبط کاراکترهای گسترده برای ایجاد یک دنباله کوتاه از بیت ها، کمتر از 8، و برای نوشتن کاراکترهای کمیاب - بیشتر استفاده می شود، پس کل وظیفه فایل تغییر می کند.

الگوریتم Lempel-Ziv. الگوریتم کلاسیک Lempel-Ziv - LZ77 که پس از انتشار آن نامگذاری شده است، مرزی ساده است. به صورت زیر فرموله شده است: مانند گذشته، مجموعه مشابهی از داده های الکترونیکی قبلاً در جریان خروجی قبلی متراکم شده بود و رکورد مربوط به تاریخ ها و جابجایی آن از موقعیت جریان کوتاه تر از خود آخرین است، اگر نه، پس فایل خروجی پیام (جابجایی، کار مجدد) را ضبط می کند و نه خود توالی.

4. شاخص های سطح فشرده سازی فایل

اطلاعات فشرده در فایل های بایگانی شده از کاهش ابربعدی به طرق مختلف ناشی می شود، به عنوان مثال، از ساده سازی کدها، حذف بیت های ثابت از آنها، یا ارسال نمادهای تکراری یا یک توالی تکراری و نمادها. شبیه ضریب تکراری و نمادهای مشابه است. الگوریتم‌هایی برای چنین فشرده‌سازی اطلاعات در برنامه‌های آرشیو ویژه (که معمولاً با نام‌های arj / arjfolder، pkzip / pkunzip / winzip، rar / winrar شناخته می‌شوند) و تعدادی فایل که به روشی ساده در فایل دسته‌بندی آرشیو قرار می‌گیرند، پیاده‌سازی می‌شوند. یا آرشیو

روش بسته‌بندی فایل‌ها، قرار دادن فشرده‌تر اطلاعات روی دیسک را تضمین می‌کند، زمان را تسریع می‌کند و انتقال آسان اطلاعات را از طریق کانال‌های ارتباطی در شبکه‌های کامپیوتری تضمین می‌کند. بنابراین، شاخص اصلی اثربخشی همان برنامه های بایگانی کننده، سطح فشرده سازی فایل است.

سطح فشرده سازی فایل با ضریب Kc مشخص می شود که به عنوان رابطه بین فایل فشرده Vc و فایل خروجی Vo تعریف می شود که در صدها بیان می شود (در برخی موارد رابطه معکوس نشان داده می شود):

Kc = (Vc / Vo) * 100٪

مرحله فشرده سازی به برنامه انتخابی، روش فشرده سازی و نوع فایل خروجی بستگی دارد.

بهترین فشرده سازی برای فایل های تصاویر گرافیکی، فایل های متنی و فایل های داده ای است که نسبت فشرده سازی آنها می تواند به 5 تا 40 درصد برسد، کمترین فشرده سازی برای فایل های برنامه های کامپایل شده و ماژول های قابل دانلود Kc = 60 - 90 درصد است. فایل های آرشیو ممکن است فشرده نشوند. توضیح دادن مهم نیست، همانطور که می دانید، اکثر برنامه های بایگانی از نسخه باریک تری از الگوریتم LZ77 (Lempel-Ziv) استفاده می کنند، که ماهیت آن در رمزگذاری ویژه ای از تکرار توالی بایت ها (خواندن - نمادها) نهفته است. فراوانی چنین تکرارهایی در متون و گرافیک نقطه‌ای بالاترین است و در آرشیو عملاً به صفر می‌رسد.

علاوه بر این، برنامه‌های بایگانی هنوز در اجرای الگوریتم‌های فشرده‌سازی متفاوت هستند، که بدیهی است که به مرحله فشرده‌سازی می‌رود.

در برنامه بایگانی، هزینه های اضافی درج می شود که مستقیماً با تغییر ضریب تراکم Ks مرتبط است. بنابراین، در برنامه WinRAR، مکانیسم بایگانی پیوسته (جامد) پیاده سازی می شود، به استثنای آن می توان به سطح فشرده سازی 10 تا 50 درصد بالاتر دست یافت، روش های اولیه مورد نیاز است، به ویژه زمانی که تعداد زیادی از مقادیر کم وجود دارد. فایل های بسته بندی شده از همان نوع

ویژگی های بایگانی - مقادیر برگشتی. بنابراین، هر چه سیالیت تراکم بیشتر باشد، درجه فشرده سازی کمتر می شود و غیره.

آرشیوهای زیادی در بازار رایانه وجود دارد - هر کدام مجموعه ای از فرمت های پشتیبانی شده، مزایا و معایب خاص خود، مجموعه مشکلات خاص خود را دارد، که به طور گسترده در کسانی که بوی بایگانی vikorist امروزی را متعفن می کنند، باور دارند. schi. ما کسی یا چیزی را تبدیل نخواهیم کرد - ما به سادگی سعی خواهیم کرد فوراً محبوب ترین آرشیوها را از نظر عملکرد و کارایی ارزیابی کنیم. اینها شامل WinZip، WinRAR، WinAce، 7-Zip هستند - آنها در تعداد دانلودها در سرورهای نرم افزار پیشرو هستند. بعید است که بتوان به طور کامل به بایگانی‌های دیگر نگاه کرد؛ تعداد صدها آرشیو آنها (با قضاوت بر اساس تعداد کسب‌ها) کم است.

آرشیو - فشرده سازی فایل: چگونه گزارش می شود؟ - مجله "کامپیوتر"

من پرواز می کنم! لطفاً توضیح دهید که چگونه فایل ها توسط انواع آرشیو فشرده می شوند؟ من آن را در برنج zagalnye می خواهم. در غیر این صورت، من خودم را مجبور می کنم تا بفهمم چگونه ممکن است بسوزند.

ویتالی

کاملاً درست است، ویتالی، تشخیص خودتان چندان آسان نیست، به خصوص اگر الگوریتم را نمی دانید. خوب، خوانندگان مجله "کامپیوتر" در امان ماندند؛)، در چند سال گذشته من به شدت با الگوریتم های فشرده سازی داده ها وسواس داشتم و به عنوان یک برنامه نویس، سعی کردم یک بایگانی کننده قدرتمند بنویسم.

فشرده سازی داده ها یک تبدیل الگوریتمی داده ها است که با تغییر تعهدات آنها ایجاد می شود. برای استفاده کارآمدتر از دستگاه های ذخیره سازی و انتقال داده طراحی شده است. فرآیند فشرده سازی بسته بندی داده یا فشرده سازی نیز نامیده می شود. روش بازگشت به روز رسانی داده ها (باز کردن بسته بندی، فشرده سازی) نامیده می شود.

این محدودیت مبتنی بر فرامادییتی است که در داده‌های خروجی قرار دارد. ساده ترین مثال ماوراء طبیعت، تکرار قطعات در متن (مثلاً زبان طبیعی یا ماشین) است.

هی، بیایید این موضوع را روشن کنیم باسن ساده. فرض کنید یک فایل متنی داریم که حاوی یک ردیف متن است:

AAAGGDEEEEZHJUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUU اووووووووووووووووووووووووووووووووووووو

متن شگفت انگیز است، یک دقیقه صبر کنید، اما به زودی ما فشرده می شویم و فضای کمتری را اشغال خواهیم کرد. اصل اساسی محدودیت ساده است و به تهاجمی کاهش می یابد: ترکیب پوست پس از نمادهای مکرر با یکی از این نمادها و تعداد تکرارها جایگزین می شود. سپس متن خروجی ما به صورت کوتاه به شکل زیر خواهد بود:

A3G2D1E4ZH2U3K4I3

به این ترتیب به جای 22 کاراکتر، 16 کاراکتر را کم کردیم. البته، متن هایی مانند روز مرخصی ما به ندرت به دست ما می رسد، بدون اینکه به نظر در مورد بدبختی ای باشد که در متن جدید قرار داده شده است. اما فایل‌هایی که در معرض فشرده‌سازی قرار می‌گیرند، نه تنها شامل متون، بلکه انواع تصاویر، موسیقی، فیلم‌ها، برنامه‌ها نیز می‌شوند.

این مثال نسبتاً بخشنده است و کارایی را نشان نمی دهد که می خواهید در زمانی که بایگانی فشرده است نشان دهید. بنابراین ما با فشرده سازی 22/16 = 1.375 بار به پایان رسیدیم، اگرچه آرشیوها، به طور معمول، فایل ها را 2-10000 بار فشرده می کنند. همه چیز در تکرار ارزش بایت های فایل نهفته است.

مانند آرشیوداران وجود دارد

به عنوان مثال، در طول ساعات فراموش نشدنی MS-DOS، آرشیوهای ARJ، PKZIP، HA، RAR، ARC، ACE و بسته‌کننده‌های برنامه‌های LZEXE و PKLITE وجود داشتند. برای اتاق عمل بهتره سیستم های ویندوزایجاد شده توسط WinAce، WinZIP، WinRAR، 7Zip و بسته UPX خودم.

فشار با هزینه یا بدون هزینه همراه است. فشرده سازی بدون تلفات به شما امکان می دهد داده های خروجی را با دقت بیت به روز کنید. چنین فشاری برای بسته بندی متن، برنامه ها و سایر داده ها در یک محفظه ایجاد می شود و این کار توسط بایگانی کننده هایی که بیش از حد محافظت شده اند انجام می شود.

فشرده سازی با ضایعات را می توان فشرده سازی تطبیقی ​​نامید و برای بسته بندی تصاویر، فیلم ها و صداها استفاده می شود، زیرا چنین فشرده سازی داده ها بدون ضایعات را می توان کمی (تا حدود 2 بار) تکمیل کرد.

به دلیل فشار هزینه ها امکان تغییر داده ها به دفعات زیاد وجود دارد و در زمان بازکردن اطلاعات عملاً تفاوتی بین اصلی وجود ندارد.

چند فایل مختلف فشرده شده است

متن ها

درست است، برای مثال، پر کردن فایل‌های متنی زمان زیادی می‌برد. به عنوان مثال، کتاب آرکادی و بوریس استروگاتسکی "اهمیت خدا بودن" 354329 بایت است. بایگانی کننده WinRARبه 140146 بایت یا 2.5 بار فشرده شده است.

برنامه ها

فایل های برنامه نیز ممکن است در معرض فشرده سازی قرار گیرند. در این حالت، فشرده سازی وجود دارد، هم برای ذخیره سازی بیشتر روی دیسک، و هم فشرده سازی، که در آن برنامه از برنامه محروم می شود و هنگام راه اندازی، روی خود چاپ می شود.

چرا به برنامه های بسته مانند UPX و دیگران نیاز دارید؟ مثلا من ویرایشگر متن Superpad.exe با حجم 524288 بایت توسط بسته UPX به 179200 بایت (2.9 بار) فشرده می شود و همچنان می تواند به طور مستقل به عنوان یک برنامه راه اندازی شود.

تصویر

شرح روش‌های فشرده‌سازی این داده‌ها را می‌توان به کل مقاله یا حتی بیش از یک مقاله اختصاص داد. در سمت راست این است که خود تصویر حتی بدتر فشرده شده است، گویی بایت به بایت فشرده شده است. و این کمترین چیز نیست، همین است. به خصوص که تصویر دارای پس‌زمینه تک رنگ غنی است.

یکی از اولین الگوریتم هایی که سعی کردم به تصویر بکشم الگوریتم RLE است که در بالا توضیح دادم. در فرمت ذخیره تصویر PCX ذخیره شده است. RLE یک الگوریتم فشرده سازی بدون ضایعات است. با این حال، در چنین شرایطی، ممکن است نه به تغییر در تعهد این داده ها، بلکه به افزایش منجر شود.

بنابراین، برای فشرده سازی نمایش حروف پروپوناسیون، تا کنون از الگوریتم فشرده سازی بیتی LZW استفاده شده است. خود الگوریتم در حال حاضر بسیار کارآمدتر از RLE است و همچنین هزینه ها را منتقل نمی کند. اگر قطعات برای تصویری با پالت رنگ گیر کرده باشند، با تطبیق و بهینه سازی (تقویت) پالت می توانید به افزایش واقعی در راندمان فشرده سازی دست یابید.

کم اهمیت 1. وزغ گارنیوس با فرمت BMP

برای یکسان سازی، وزغ آتش (شکل 1) 799x599 پیکسل (نقطه) مجاز را در نظر می گیریم و تصویر را در فرمت های مختلف ذخیره می کنیم. فایل هایی که باید استخراج شوند:

frog.bmp - اندازه 1,437,654 بایت و در اینجا، در اصل، هیچ فشرده‌سازی و افت ظرفیت وجود ندارد، زیرا تصویر همان بایت‌ها را در فرمت عرض x ارتفاع x 3 بایت در هر پیکسل + هدر در فرمت فایل BMP در پایین صفحه اشغال می‌کند. رنگ های واقعی ظرف (24 بیت / پیکسل). سپس نقطه پوست با سه جزء RGB (قرمز-قرمز، سبز-سبز و آبی-آبی) نشان داده می شود که هر کدام یک بایت را اشغال می کنند.

frog24.png - 617,059 بایت، 2.33 بار فشرده شده و بدون ضایعات - قدرت اصلی فرمت PNG-24. داده های BMP و PNG عملاً یکسان هستند.

کم اهمیت 2. فایل frog_256colors.gif

frog_256colors.gif - 261956 بایت (شکل 2)، فشرده سازی 5.48 بار با هزینه، پالت پایه 256 رنگ (8 بیت/پیکسل). درک تفاوت بین این فایل و فایل اصلی در BMP دشوار است، زیرا در این بازی "ده مقدار را بیابید".

کم اهمیت 3. فایل frog_64colors.gif

frog_64colors.gif - 187,473 بایت (شکل 3)، 7.67 بار با هزینه فشرده شده است، پالت پایه به 64 رنگ (6 بیت / پیکسل) گسترش می یابد. و اکسل اینجا قبلاً از نظر رنگ محو شده است، اما کاملاً شبیه تصویر اصلی است. به خصوص شگفت زده شدن از چشم وزغ قابل توجه است.

JPEG

جایگاه ویژه ای را تصویر فشرده و ذخیره شده اشغال می کند فرمت JPEG. من می خواهم برای او احترام خاصی قائل باشم. الگوریتم JPEG برای فشرده سازی عکس ها و نقاشی ها برای ایجاد صحنه های واقعی با انتقال صاف روشنایی و رنگ مناسب ترین است. وسیع ترین طیف JPEG را می توان در عکاسی دیجیتال ثبت کرد و تصاویر را می توان از طریق اینترنت ذخیره و انتقال داد.

از سوی دیگر، JPEG برای فشرده سازی، متن و گرافیک نمادین نامناسب است و کنتراست شدید بین پیکسل ها منجر به نمایان شدن مصنوعات قابل توجه می شود. چنین تصاویری را می توان در فرمت های بدون هزینه مانند TIFF، GIF، PNG یا RAW ذخیره کرد.

JPEG (مانند سایر روش‌های فشرده‌سازی) برای فشرده‌سازی تصویر با پردازش فرکانس بالا مناسب نیست، زیرا فشرده‌سازی هر بار به تصاویر وارد می‌شود و در عین حال نتایج پردازش میانی را ذخیره می‌کند.

اگر حداقل هزینه غیرقابل قبول باشد، برای مثال، زمانی که تصاویر نجومی یا پزشکی تحت فشار هستند، JPEG برای چنین مشکلاتی مقصر نیست. در چنین شرایطی، ممکن است توصیه شود که استاندارد JPEG را به حالت فشرده سازی JPEG بدون اتلاف (که متأسفانه توسط اکثر کدک های محبوب پشتیبانی نمی شود) یا استاندارد فشرده سازی JPEG-LS منتقل کنید.

توصیف الگوریتم فشرده سازی JPEG آسان نیست، هر کسی که بخواهد می تواند به صورت دستی با آن آشنا شود http://el-izdanie.narod.ru/gl4/4-3.htm. خوب، به خاطر تعادل، بیایید تصویر خروجی خود را با سطوح مختلف محتوا متراکم کنیم:

frog100% .jpg - 216,168 بایت، 6.65 بار فشرده شده، 0% خرج کنید تا تصویر 100% روشن باشد، در غیر این صورت نمی توانم آن را بیمه کنم. باور کنید، اما اهمیت آن کاملا آزاردهنده است.

frog60% .jpg - 85910 بایت، 16.7 بار فشرده شده است، بنابراین روشنایی تصویر 60٪ است، اما تصویر دوباره جدید به نظر می رسد، می خواهد از نقشه ها با پس زمینه یکنواخت یا جزئیات دیگر شگفت زده شود، سپس آثار قابل توجه قابل مشاهده و تاری یا تاری یا قطعات مربع تک رنگ

frog20% .jpg - 36426 بایت، 39.5 بار فشرده شده، روشنایی تصویر 20 درصد از تصویر اصلی است، اما مانند تصویر قبلی، فریب دادن چشمان اشتباه همچنان آسان است، اما در پس‌زمینه تک رنگ، عیوب تک رنگ به وضوح مشخص می‌شوند. بخش‌های قابل مشاهده نیست، اما قسمت‌های دیگر باقی مانده است، تسبیح شما را به وضوح مشخص کنید.

MPEG

این یکی از بزرگترین و گسترده ترین فرمت ها برای ذخیره ویدئو است. چندین بار مدرن شده است. به زبان ساده، می‌توان گفت که الگوریتم از قبل فشرده‌سازی را در JPEG حدس می‌زند، با این تفاوت که اولین فریم ویدیو همیشه اصلی و اصلی است و فریم‌های بعدی تفاوت بین فریم‌های جلو و عقب را ذخیره می‌کنند. بنابراین قاب حمله پوستی از نقطه نظر بازکردن بسته بندی منتقل می شود (شکل 4 و 5).

کم اهمیت 4. خروجی فریم های ویدئویی

کم اهمیت 5. تنوع بین فریم بدون رکود الگوریتم های جبران رخ

یکی از پیشرفته ترین فناوری هایی است که به شما امکان می دهد مرحله فشرده سازی را بدون جبران حرکت حرکت دهید. در هر سیستم فشرده سازی ویدیویی فعلی، فریم های جلو تمایل دارند از شباهت مناطق در فریم های جلو برای افزایش درجه فشرده سازی استفاده کنند.

با این حال، به دلیل وجود هر گونه شی در قاب (یا خود دوربین)، ظاهر شباهت به فریم های واقعی غیرممکن بود. فن آوری جبران رخ این امکان را به شما می دهد تا قطعات مشابه را شناسایی کنید و نشان می دهد که آنها قبل از قاب جلو از بین رفته اند.

Motion Compensation یکی از اصلی ترین الگوریتم های مورد استفاده در پردازش و فشرده سازی داده های ویدئویی است. این الگوریتم شباهت فریم های مجاور را در یک دنباله ویدیویی جستجو می کند و بردارهای قسمت های مجاور تصویر (بر اساس بلوک های 16x16 و 8x8) را پیدا می کند.

این جبران سازی اجازه می دهد تا در صورت فشرده سازی، سطح فشرده سازی برای سطح ابعاد اضافی در ظاهر قسمت های مجاور قاب ها افزایش یابد. Vikorist نه تنها هنگام فشرده سازی، بلکه هنگام فیلتر کردن ویدیو، تغییر نرخ فریم و غیره نیز استفاده می شود.

تقریباً در هر ویدیویی، فریم های اطراف مشابه هستند، اشیاء پنهان ظاهر می شوند که به طور معمول یکی پس از دیگری حرکت می کنند. و کاملاً ضروری است که ویدیو را رمزگذاری کنید تا اجسام بیش از حد رمزگذاری نشوند، بلکه اقدامات جابجایی آنها به سادگی شرح داده شود.

در این مورد، تصویر به اصطلاح به فریم های کلیدی تقسیم می شود - گروهی از فریم ها که چند ثانیه طول می کشند. منحصر به فرد بودن چنین قاب های کلیدی را می توان به طور موثر تحت فشار مدیریت کرد.

به عنوان مثال، اگر طرح فیلم پویا نباشد، مدت زمان فریم های کلیدی می تواند چند ثانیه طول بکشد. اگر فیلم حاوی صحنه‌های پویا باشد، در چنین لحظاتی می‌توان توالی فریم‌های کلیدی را کوتاه‌تر ساخت و فشرده‌سازی تصاویر به‌طور مؤثرتری تغییر می‌کند.

فریم‌های کلیدی نیز در پخش‌کننده‌های رسانه ساده‌تر و سریع‌تر به عقب برمی‌گردند، بنابراین سرصفحه هر فریم کلیدی روی سر فریم کلید بعدی قرار می‌گیرد.

صدا و موسیقی

صدا و موسیقی را می توان بدون هیچ هزینه ای ذخیره کرد یا در فرمت WAV ذخیره کرد. به عنوان مثال، فرمت WAV (Windows PCM) فشرده سازی را منتقل نمی کند و ذخیره می کند بوقدر اصل اگر بتوان آن را به این شکل نوشت.

فرمت WAV (ACM Waveform) در اصل یک ظرف است و می تواند صدای فشرده شده را با استفاده از الگوریتم لایه MPEG 3 ذخیره کند یا موسیقی را با فرمت MP3 یا بسیاری از فرمت های OGG، FLAC و غیره ذخیره کند.

من دیگر نمی‌دانم چگونه اطلاعات مربوط به این الگوریتم‌های فشرده‌سازی صدا را به اشتراک بگذارم، قبل از اینکه مقاله فوق‌العاده‌ای در مورد این موضوع در مجله ما وجود داشته باشد.