Proces kompresie informácií.

Hľadať

Inštalácia operačného systému dequelcox

Metódy zostavovania údajov môžu viesť k dlhej histórii vývoja, ktorý sa začal dlho pred objavením sa prvého počítača.

Tento článok sa pokúsi poskytnúť krátky prehľad hlavných teórií, konceptov myšlienok a ich implementácie, ktorý si však nenárokuje, že je úplný.

Viac správ nájdete napríklad v Krichevsky R.E.

, Ryabko B.Ya.

Pri neodvolateľných obmedzeniach je taká transformácia vstupného dátového toku, pri ktorej je výstupný tok, založený na rovnakom formáte informácií, z jedného pohľadu podobný vo vonkajších charakteristikách vstupnému toku Áno, ale je to otravné kvôli novej povinnosti.

Úroveň podobnosti vstupných a výstupných tokov je určená úrovňou typu činnosti oprávnení objektu (typy aj nekomprimované informácie, v závislosti od konkrétneho formátu údajov), I Ako reprezentovať údaje ako tok informácií.

V reverzných algoritmoch možno kódovanie ako proces vnímať zo štatistického hľadiska, ešte jasnejšie, a to nielen na vyvolanie obmedzujúcich algoritmov, ale aj na hodnotenie ich účinnosti.

Pre všetky obchodovateľné algoritmy je základom koncept efektívnosti kódovania.

Po dokončení kódu sa určí priemerná hodnota kódového slova v bitoch.

Arogancia kódovania súvisí s rozdielom medzi všestrannosťou a entropiou kódovania a dobrý kompresný algoritmus je vždy zodpovedný za minimalizáciu arogancie (hádame, že pod entropiou informácií ї rozumieme svetu її porucha.). Shannonova základná veta o kódovaní informácie hovorí, že „pravdepodobnosť kódovania nie je nikdy menšia ako entropia entropie, hoci k nej môžeme byť vždy blízko“. Preto pre každý algoritmus vždy existuje významná úroveň kompresie medzi stupňami, čo je indikované entropiou vstupného toku.

Prejdime teraz k algoritmickým vlastnostiam reverzných algoritmov a pozrime sa na najdôležitejšie teoretické prístupy ku kompresii dát súvisiace s implementáciou kódovacích systémov a metód kompresie informácií.

Vyrazené pomocou série metód kódovania

Proces a metóda kódovania

Pri kódovaní zvážte spracovanie prúdu znakov (v našej kategórii bajtov alebo bajtov typu) v danej abecede a frekvencie symbolov vyskytujúcich sa v prúde sa líšia.

Spôsob kódovania je transformácia tohto toku na tok bitov minimálnej sily, aby sa dosiahli zmeny entropie vstupného toku v smere frekvencií symbolov.

Príspevok do kódu, ktorý predstavuje znaky z abecedy do prúdu, je úmerný informáciám požadovaným vstupným prúdom a dodávanie symbolov do prúdu v bitoch nemusí byť násobkom 8 a môže byť premenlivé.

Pretože je viditeľná distribúcia frekvencií symbolov vyskytujúcich sa v abecede vstupného toku, je možné vyvinúť optimálny model kódovania. Pri pohľade na vytváranie veľkého množstva rôznych formátov dátových súborov je však jasné, že frekvenčné rozloženie dátových symbolov je doteraz neznáme.і V tejto situácii, v očividnom pohľade, existujú dva prístupy..

Prvý spočíva v kontrole vstupného toku a kódovaní zozbieraných štatistík podľa jednotlivých procesov (čo si vyžaduje dva prechody cez súbor – jeden na kontrolu a zber štatistických informácií, druhý na kódovanie, čo ďalej obmedzuje rozsah takýchto údajov). algoritmy teda týmto spôsobom vypínajú možnosť jednopriechodového kódovania „za behu“, ktorá stagnuje v telekomunikačných systémoch, kde sa niekedy dáta neprijímajú a ich opakovaný prenos alebo analýza môže trvať neprimerane dlhú hodinu). V tomto prípade sa štatistická schéma vikoristického kódovania zapíše do výstupného toku.

Táto metóda sa používa ako statický Huffmanov kód. Vývoj algoritmov kompresie informácií súvisí s jedným z odvetví aplikovanej matematiky. Sú založené na princípe sublimácie prirodzenej nadpozemskosti.

Zároveň existujú dôkazy o tom, že môžete obetovať stovky informácií, aby ste desiatky krát odstránili obmedzenia, napríklad fotografie, video a audio materiály.

Strata informácií počas kompresie a ďalšieho rozbaľovania takýchto údajov je vnímaná ako vzhľad nejakého dodatočného „šumu“. Algoritmy, ktoré sú obmedzené stratou informácií, zahŕňajú nasledujúce algoritmy: JPEG (Victorize, keď je fotografia komprimovaná) i MPEG

(Victorize, keď sú video a audio komprimované).

Algoritmy na obmedzenie straty informácií sa obmedzujú len na tých, ktorí v danej úlohe žijú. V tejto situácii, v očividnom pohľade, existujú dva prístupy. Množstvo povoleného odpadu pri stlačení tlaku je možné regulovať, čo vám umožní dosiahnuť optimálny pomer „veľkosť/jas“.

Vo fotografických ilustráciách určených na zobrazenie na obrazovke nie je míňanie 5 % informácií kritických, ale v niektorých prípadoch možno tolerovať míňanie 20 – 25 %. metódy

Zasekávajú sa pri práci s textovými dokumentmi a programami a nemôžu dovoliť stratu informácií.

Ten smrad vychádza len z utlmeného nadprirodzena. zadok 1. Ukrajinský jazyk má 32 písmen, desať číslic a asi tucet interpunkčných znamienok a iných špeciálnych znakov. Pre text, ktorý je napísaný iba veľkými písmenami (ako v telegramoch), by bolo celkovo šesťdesiat rôznych hodnôt.

Prote, každý symbol je zakódovaný bajtom, ktorý obsahuje 8 bitov a dokáže rozpoznať 256 rôznych kódov. Toto je prvý základ pre nadsvetovosť. Pre „telegrafický“ text by bolo celkovo šesť bitov na znak. Malý.

Prítomnosť opakovaných fragmentov je tretím základom nadpozemskosti. V textoch je to zriedkavé, ale v tabuľkách a grafoch je opakovanie kódov prirodzeným javom.Takže napríklad, ak sa číslo 0 opakuje dvadsaťkrát každý deň, potom nemá zmysel vkladať dvadsať nulových bajtov.Nahraďte ich jednou nulou a koeficientom 20. Takéto algoritmy, založené na identifikovaných opakovaniach, sa nazývajú metódy kódovaná séria dovzhin (RLE, Kódovanie dĺžky chodu ).).

Veľké opakujúce sa sekvencie nových bajtov sú obzvlášť nápadné v grafických ilustráciách. Metóda, ktorá je účinná pre grafické obrázky vo formáte byte-per-pixel (napr. PCX alebo inak BMP

Pri otvorení

záložné kópie

Na pevných diskoch je ďalšia príležitosť získať viac pracovného priestoru pri komprimácii súborov, čo nesúvisí s objemom informácií, ale so spôsobom, akým je organizovaný súborový systém počítača. Ide o to, že akýkoľvek súbor, veľký alebo malý, môže zaberať len rovnaký počet klastrov na disku. IN

súborový systém FAT16 na pevnom disku nemôže obsahovať viac ako 65536 klastrov (2 16).

To znamená, že pre disky s veľkosťou od 1 do 2 GB je veľkosť klastra 32 KB.
Pri rozširovaní veľkej skupiny súborov do jedného súboru by mala byť úspora nastavená na minimálne 16 KB na súbor práve kvôli zníženiu nákladov v dôsledku iracionálnej organizácie súborového systému. Pre FAT32 je veľkosť súboru menšia a v tomto prípade je minimálna veľkosť klastra stále 4 KB, takže ak zvládnete veľké množstvo malých súborov, aj tu môžete ušetriť. Bez ohľadu na to, že existovali rôzne spôsoby kompresie, existujú akcie

zásady a pravidlá

, Čo je nezákonné pre všetky metódy kompresie.
Musíte to vedieť a mať v tom pravdu.
1. Každé obmedzenie má hranicu,
Zúženie predtým zúženého súboru teda krátkodobo neprinesie výhru, no v najhoršom prípade môže viesť aj k strate veľkosti výsledného súboru.
5. Meta na lekciu: rozvíjajte rešpekt, vytrvalosť a rozvíjajte záujem o predmet..
Vybavenie: počítače, laboratórne disky atď.

bezpečnostný softvér

Karti testuje závod.
Pokrok v lekcii
1. Organizačná časť.
2. Aktualizácia základných vedomostí.

S ružou informačných technológií Bol tam príspevok o spôsoboch, ako ušetriť peniaze.

Od 40-tych rokov 20. storočia sa ďalej rozvíjali metódy prezentácie údajov, čím sa viac priestoru na médiách pre informácie využívalo hospodárnejšie.

Výsledkom bola technológia kompresie dát a ich archivácia (zálohovanie).

Archivácia dát znamená spojenie viacerých súborov alebo adresárov do jedného archívneho súboru. Kompresia údajov je skrátenie výstupných súborov s cieľom odstrániť nadbytočné informácie. Pre tieto typy údajov používame archivačné programy, ktoré zabezpečia kompresia dát: zoom, archivácia súborov.

Archivátory pomocou špeciálnych algoritmov odstránia zo súborov všetky nadbytočné informácie a pri návratových rozbaľovacích operáciách obnovia informácie v pôvodnej podobe.

Veľkosť komprimovaného súboru je dvakrát až desaťkrát menšia ako veľkosť pôvodného súboru.

V tomto prípade sa kompresia a aktualizované informácie získajú bezplatne. Kompresia bez odpadu je relevantná pri práci s textom a programové súbory
, V problémoch kryptografie. Existujú aj spôsoby, ako sa vysporiadať s výdavkami.Úroveň obmedzenia závisí od typu súborov a typu archivačného programu.
2. Textové súbory sú komprimované najviac, audio a video súbory sú najmenej komprimované. Archivácia súborov.

zavdannya

Pred týmto bodom sme hovorili o jednom účele archivácie údajov –
ekonomická vikoristannya

nosiče informácií.

Pre ďalšiu archiváciu však môžete extrahovať celý komplex príkazov: 1. Zmena súborov (relevantná nielen pre úsporu miesta na zariadeniach, ale aj preŠvédsky prestup súbory pozdĺž hranice). V skutočnosti sa zakorenili ARJ a ZIP - programy na rozbaľovanie súborov.

Veľké archívne súbory môžu byť umiestnené na mnohých disketách (zväzkoch). Takéto archívy sa nazývajú veľkoobjemové. Tom - tse

skladová časť bohatý zväzkový archív. Testujú sa desiatky archivačných programov, ktoré sa líšia funkciami a prevádzkovými parametrami a väčšina z nich má podobné vlastnosti.
Vieme, že balenie a rozbaľovanie súborov zahŕňa rovnaký program, ale v niektorých prípadoch to nefunguje

rôzne programy

Napríklad program RKZIP balí súbory a RKUNZIP rozbaľuje súbory.

Archivačné programy umožňujú vytvárať také archívy, na ktorých extrakciu nepotrebujete žiadne programy, keďže archivované súbory sa rozbalia v programe samé. Takéto archívy sa nazývajú archívy SFX. Umiestnenie súborov do archívov: Spustite program WINRAR alebo si pozrite odkaz na pracovnej ploche. Univerzálny archivátor WINRAR Archivátor WINRAR sa používa aj na archiváciu súborov.

Má ručne vyrobený grafický obal a podporuje technológiu Drag and Drop.
Program WINRAR umožňuje spracovávať nielen archivované
rar súbory

, Ale a ďalšie archívne formáty: zip, cab, arj, lzh. WINRAR sa spustí, nech je to čokoľvek

možné spôsoby

, Prenos do systému Windows.

Spúšťanie programov z hlavnej ponuky tlačidla Štart Programy WINRAR WINRAR alebo z ďalšej skratky na pracovnej ploche.

Testovanie základov robotov s diskami.

Algoritmy, ktoré zachytávajú nesmiernosť zaznamenávania údajov, sa nazývajú algoritmy kompresie údajov alebo archivačné algoritmy.

V súčasnosti existuje skvelý, jednoduchý program na kompresiu dát, založený na niekoľkých základných metódach.

Všetky algoritmy kompresie údajov sú rozdelené na:

) Algoritmy kompresie bez odpadu, keď sú vybraté akékoľvek údaje, aktualizujú sa bez akýchkoľvek zmien;

) Algoritmy obmedzenia s výdavkami, ktoré sú viditeľné z toku informácií, nevýznamne vchádzajú do podstaty údajov, ale ľudia ich neakceptujú.

Existujú dva hlavné spôsoby archivácie bez výdavkov:

Hoffmanov algoritmus (eng. Huffman), orientovaný na kompresiu bajtových sekvencií, ktoré spolu nesúvisia,

Algoritmus Lempel-Ziv (anglicky: Lempel, Ziv) sa sústreďuje na kompresiu ľubovoľných typov textov, a teda rozpoznáva fakt opakovaného opakovania „slov“ – sekvencií bajtov.

Takmer všetky populárne bezplatné archivačné programy (ARJ, RAR, ZIP atď.) používajú kombináciu týchto dvoch metód - algoritmus LZH.

Huffmanov algoritmus.

Algoritmus je založený na skutočnosti, že niektoré znaky zo štandardnej 256-znakovej sady v dlhom texte sa môžu opakovať častejšie, ako je priemerná doba opakovania, a iné, samozrejme, menej často.

Taktiež, keďže $ + o na zaznamenávanie širokých znakov sa používa na vytváranie krátkych sekvencií bitov, menej ako 8, a na písanie zriedkavých znakov - viac, potom sa celková povinnosť voči súboru zmení.

Algoritmus Lempel-Ziv.

Spôsob balenia súborov zabezpečuje kompaktnejšie umiestnenie informácií na disku, urýchľuje čas a zabezpečuje jednoduchý prenos informácií komunikačnými kanálmi v počítačových sieťach.

Preto je hlavným ukazovateľom účinnosti rovnako ako ostatné archivačné programy úroveň kompresie súborov.

Úroveň kompresie súboru je charakterizovaná koeficientom Kc, ktorý je definovaný ako vzťah medzi komprimovaným súborom Vc a výstupným súborom Vo vyjadrený v stovkách (v niektorých prípadoch je znázornený opačný vzťah):

Kc = (Vc / Vo) * 100 %

Stupeň kompresie závisí od zvoleného programu, spôsobu kompresie a typu výstupného súboru.

Najlepšia kompresia je pre súbory grafických obrázkov, textové súbory a dátové súbory, pri ktorých môže kompresný pomer dosiahnuť 5 - 40%, najmenej komprimované súbory pre kompilované programy a sťahovateľné moduly sú Kc = 60 - 90%.

Archívne súbory nie je možné stlačiť.

Nie je dôležité vysvetľovať, ako viete, že väčšina archivačných programov používa užšiu verziu algoritmu LZ77 (Lempel-Ziv), ktorého podstata spočíva v špeciálnom kódovaní opakujúcich sa sekvencií bajtov (čítanie - symboly).

Na trhu s počítačmi je veľa archivátorov - každý má svoju vlastnú sadu podporovaných formátov, svoje klady a zápory, vlastnú sadu trikov, ktorým vo všeobecnosti veríme v tých, ktorí páchnu tým najlepším archivátorom.

Nebudeme konvertovať nikoho a nič - jednoducho sa pokúsime okamžite vyhodnotiť najobľúbenejšie archivátory z hľadiska funkčnosti a efektívnosti.

Patria sem WinZip, WinRAR, WinAce, 7-Zip - vedú v počte stiahnutí na softvérových serveroch.

Je nepravdepodobné, že je možné sa úplne pozrieť na iných archivárov, počet stoviek ich archivárov (súdiac podľa počtu akvizícií) je malý.

Archívy - Kompresia súborov: Ako sa to hlási?

- časopis "Počítač"

už letím!

Mohli by ste prosím vysvetliť, ako sú súbory komprimované všetkými druhmi archivátorov? Chcel by som to v zagalnye ryži. Inak sa nútim uvedomiť si, ako mohli zhorieť.

Vitaliy

Absolútna pravda, Vitaly, nie je také ľahké spoznať sa, najmä ak nepoznáš algoritmus.

Čitatelia časopisu „Počítač“ boli ušetrení ;), posledných pár rokov som bol bohato posadnutý algoritmami kompresie dát a ako programátor som sa snažil napísať výkonný archivátor.

Kompresia údajov je algoritmická transformácia údajov, ktorá vzniká zmenou ich povinností.

Tento príklad je skôr zhovievavý a nepreukazuje efektivitu, ktorú by ste chceli preukázať, keď je archivátor stiesnený.

Takže sme skončili s kompresiou 22/16 = 1 375-krát, hoci archivátori spravidla komprimujú súbory 2 až 10 000-krát.

Všetko spočíva v opakovaní hodnoty bajtov v súbore. Tak ako sú tam archivári Napríklad počas nezabudnuteľných hodín MS-DOS boli archivári ARJ, PKZIP, HA, RAR, ARC, ACE a baliči programov LZEXE a PKLITE.

Lepšie na operačnú sálu

systémy Windows

Vytvoril WinAce, WinZIP, WinRAR, 7Zip a môj vlastný balík UPX.

Squeeze prichádza s výdavkami alebo bez nich.

Bezstratová kompresia vám umožňuje aktualizovať výstupné dáta s bitovou presnosťou.

Takýto tlak sa vytvára na zabalenie textu, programov a iných údajov do priehradky a vykonávajú ho príliš chránené archivátory. Kompresiu s odpadom možno nazvať adaptívnou kompresiou a používa sa na balenie obrázkov, videí a zvukov, pretože takúto kompresiu údajov bez odpadu je možné dokončiť mierne (až asi 2-krát). Vzhľadom na tlak na výdavky je možné údaje mnohokrát meniť a po rozbalení nie je medzi pôvodnými prakticky žiadny rozdiel.

Koľko rôznych súborov je komprimovaných

texty

Je pravda, že napríklad vyplnenie textových súborov môže trvať veľa času. Takže napríklad kniha Arkadyho a Borisa Strugackých „Dôležitosť byť Bohom“ má veľkosť 354 329 bajtov. archivátor WinRAR

komprimované na 140 146 bajtov alebo 2,5-krát.

programy

Programové súbory môžu tiež podliehať kompresii.

Preto sa na kompresiu reprezentácie proponačných písmen doteraz používa algoritmus bitovej kompresie LZW.

Samotný algoritmus je už oveľa efektívnejší ako RLE a tiež neprenáša náklady.

Ak sú fragmenty prilepené na obrázku s paletou farieb, potom prispôsobením a optimalizáciou (posilnením) palety môžete dosiahnuť skutočné zvýšenie účinnosti kompresie.

Malý

1. Ropucha Garnius vo formáte BMP

Pre ekvalizáciu zoberieme ohnivú ropuchu (obr. 1), aby sme dosiahli 799x599 pixelov (bodov) a uložili obrázok v rôznych formátoch.

Súbory, ktoré sa majú extrahovať: frog.bmp - veľkosť 1 437 654 bajtov a tu v podstate nedochádza ku kompresii a strate kapacity, keďže obrázok zaberá rovnaké bajty vo formáte šírka x výška x 3 bajty na pixel + hlavička vo formáte BMP ale niektoré farby True (24 bit / pixel). Potom je skin point reprezentovaný tromi RGB komponentmi (Červená-červená, Zeleno-zelená a Modro-modrá), z ktorých každá zaberá jeden bajt.

frog24.png - 617 059 bajtov, komprimované 2,33-krát a bez odpadu - hlavná sila formátu PNG-24.

Údaje BMP a PNG sú prakticky totožné.

Algoritmy, ktoré sú obmedzené stratou informácií, zahŕňajú nasledujúce algoritmy:

Malý 2. Súbor frog_256colors.gif frog_256colors.gif - 261 956 bajtov (obr. 2), komprimované 5,48-krát s nákladmi,

základná paleta

JPEG (podobne ako iné metódy kompresie) nie je vhodný na kompresiu obrázkov s vysokofrekvenčným spracovaním, pretože kompresia sa do obrázkov zavedie zakaždým, kým sa uložia medzivýsledky spracovania.

JPEG nie je zodpovedný za takéto problémy, ak sú minimálne náklady neprijateľné, napríklad keď sú astronomické alebo lekárske snímky pod tlakom.

V takýchto situáciách možno odporučiť preniesť štandard JPEG do režimu bezstratovej kompresie JPEG (ktorý bohužiaľ väčšina populárnych kodekov nepodporuje) alebo do štandardu kompresie JPEG-LS.

Nie je ľahké opísať algoritmus kompresie JPEG, každý, kto chce, sa s ním môže zoznámiť ručne http://el-izdanie.narod.ru/gl4/4-3.htm.

V záujme rovnováhy zhustime náš výstupný obraz s rôznymi úrovňami obsahu:

frog100% .jpg - 216 168 bajtov, komprimované 6,65-krát, minie 0%, takže 100% obrazu je čistých, ale nevedel by som to celé poistiť.

(Victorize, keď je fotografia komprimovaná) i

Verte mi, dôležitosť je však úplne otravná.

frog60% .jpg - 85 910 bajtov, komprimované 16,7-krát, takže jas obrazu je 60 %, ale obraz vyzerá opäť ako nový, ak chcete žasnúť nad pozemkami s jednotným pozadím alebo inými detailmi, v obraze sú viditeľné artefakty neostrosť vzhľadu alebo štvorcové jednofarebné segmenty.

zamrznuté a časti a ostatné časti, ktoré zostali, jasne načrtli váš ruženec.

Toto je jeden z najväčších a najrozsiahlejších formátov na ukladanie videa.

Avšak vzhľadom na prítomnosť akýchkoľvek objektov v rámčeku (alebo samotnej kamere) nebolo možné zdanie podobnosti so skutočnými snímkami.

Kompenzačná technológia Rukh umožňuje identifikovať podobné pozemky, čo naznačuje, že boli zničené pred predným rámom.

Kompenzácia pohybu je jedným z hlavných algoritmov používaných pri spracovaní a komprimovaní video údajov.

Algoritmus detekuje podobnosť susedných snímok vo video sekvencii a nájde vektory susedných častí obrazu (na základe blokov 16x16 a 8x8).

Táto kompenzácia umožňuje v prípade kompresie zvýšiť úroveň kompresie pre úroveň extra rozmernosti vzhľadu priľahlých častí rámov.

Vikorist sa používa nielen pri kompresii, ale aj pri filtrovaní videa, zmene snímkovej frekvencie atď.

Takmer v každom videu sú okolité snímky podobné, objavujú sa skryté objekty, ktoré sa spravidla pohybujú jeden po druhom.

A je bezpodmienečne nutné zakódovať video tak, aby objekty neboli zakódované príliš, ale boli jednoducho opísané akcie ich posunutia.

V tomto prípade je obraz rozdelený na takzvané kľúčové snímky – skupinu snímok, ktoré trvajú niekoľko sekúnd. Jedinečnosť takýchto kľúčových rámcov sa dá efektívne riadiť pod tlakom. Napríklad, ak dej filmu nie je dynamický, trvanie kľúčových snímok môže trvať niekoľko sekúnd.

Ak film obsahuje dynamické scény, v takýchto momentoch môže byť sekvencia kľúčových snímok kratšia a kompresia snímok sa bude meniť efektívnejšie.

V prehrávačoch médií sú tiež zjednodušené a rýchlejšie prevíjané kľúčové snímky, takže hlavička každej kľúčovej snímky je umiestnená na hlavičku ďalšej kľúčovej snímky.