Файлын энтропи гэж юу вэ

Файлын энтропи гэж юу вэ
Файлын энтропи гэж юу вэ

Видео: Файлын энтропи гэж юу вэ

Видео: Файлын энтропи гэж юу вэ
Видео: Нүүрс ус гэж юу вэ? 2024, Дөрөвдүгээр сар
Anonim

Аливаа компьютерийн файл нь байтаас бүрддэг. Байт нь 0-ээс 255 хүртэлх утгыг авч болно. Мэдээллийн энтропи нь файл дахь тодорхой байт үүсэх магадлалыг харуулсан статистик параметр юм.

Файлын энтропи гэж юу вэ
Файлын энтропи гэж юу вэ

Та энтропийн түвшинг гистограм ашиглан үнэлж болно - файл доторх ижил байтыг давтах магадлалын тархалт. Файлын энтропоос бид зөвхөн түүний гистограмыг харж ямар төрлийн файл бидний урд байгааг тааж болно.

Үзүүлэхийн тулд янз бүрийн хэлбэрийн гурван файлыг авч, тэдгээрийн гистограммын харьцуулалтыг хийцгээе. Эхнийх нь текст файл (*. TXT) байг. Түүний гистограмыг зураг дээр харуулав.

гистограмма=
гистограмма=

Текст файл нь зөвхөн текст агуулдаг. Текстийн тэмдэгт бүрийг кодчиллын хүснэгтийн дагуу тодорхой байтаар кодлодог. Олон тооны кодчилолын төрлүүд байдаг боловч үсэг, тоон тэмдэгтүүдийн тоо хязгаарлагдмал байдаг нь ихэвчлэн 255-аас бага байдаг нь ойлгомжтой тул эхний гистограмм дээр зөвхөн зарим хэсгийг эзэлдэг бөгөөд зарим байт нь огт байдаггүй.

Дараахь файл PDF форматтай байна.

гистограмма=
гистограмма=

PDF файлыг текст файлуудаас өөрөөр кодчилдог тул энэ файл нь бүх боломжит байтуудыг агуулдаг. Энэ нь үйлчилгээний олон мэдээллийг хадгалдаг: формат, фонт, зураг гэх мэт. Гэхдээ түүний гистограмаас харахад зарим байт нь ойролцоогоор ижил магадлалтайгаар гардаг бол бусад нь бусадтай харьцуулахад хамаагүй илүү байдаг. Тиймээс гистограммын олон тооны хурц тэсрэлтүүд ерөнхийдөө бүх өргөнийг эзэлдэг боловч нэлээд "ноорхой" төрхтэй байдаг.

Сүүлийн файлыг 7Z форматаар зиплэв:

гистограмма=
гистограмма=

Энэхүү гистограм нь үндсэн хоёр онцлог шинж чанартай: нэгдүгээрт, бүх байтууд нь их бага хэмжээгээр ижил магадлалтай (хавтгай дээд ирмэг) бүхий зип файлд байдаг бөгөөд хоёрдугаарт, гистограммын дээрх чөлөөт зай бараг байдаггүй нь бараг бүрэн байхгүй байгааг илтгэнэ. ийм файлын илүүдэл. Эндээс бид архивын алгоритм нь файлын байтыг хамгийн дээд жигд хуваарилалтыг бий болгохын тулд ямар нэг байдлаар "хольж" өгдөг гэж дүгнэж болно.

Тиймээс, физикийн нэгэн адил компьютерийн шинжлэх ухаанд энтропи нь систем дэх эмгэгийн хэмжүүр бөгөөд энэ тохиолдолд файл доторх байтуудын тархалтын эмгэг юм. Entropy нь файлын шахалтын зэрэг болон шууд бус байдлаар түүний төрлийг үнэлэх боломжийг танд олгоно.

Зөвлөмж болгож буй: