هر پرونده رایانه ای از بایت تشکیل شده است. یک بایت می تواند مقادیر 0 تا 255 را بدست آورد. آنتروپی اطلاعات یک پارامتر آماری است که احتمال وقوع بایت های خاصی را در یک پرونده نشان می دهد.
با استفاده از هیستوگرام می توانید درجه آنتروپی را بصری ارزیابی کنید - توزیع احتمال تکرار همان بایت ها در پرونده. از آنتروپی پرونده می توان حدس زد که چه نوع پرونده ای در مقابل ما قرار دارد و فقط هیستوگرام آن را می بینیم.
برای نمایش ، بیایید سه پرونده از انواع مختلف را بگیریم و هیستوگرام آنها را مقایسه کنیم. بگذارید اولین پرونده متنی باشد (*. TXT). هیستوگرام آن در شکل نشان داده شده است:
فایل متنی فقط شامل متن است. هر کاراکتر متن با بایت خاصی مطابق با جدول رمزگذاری کدگذاری می شود. اگرچه تعداد زیادی از انواع رمزگذاری وجود دارد ، اما بدیهی است که تعداد نویسه های عددی عددی محدود است که معمولاً کمتر از 255 است. بنابراین ، فقط برخی از مناطق در هیستوگرام اول اشغال می شوند و برخی از بایت ها به هیچ وجه موجود نیستند.
فایل زیر به صورت PDF خواهد بود:
این فایل شامل همه بایت های ممکن است ، زیرا PDF متفاوت از پرونده های متنی رمزگذاری شده است. این اطلاعات بسیاری از خدمات را در خود ذخیره می کند: قالب بندی ، قلم ها ، تصاویر و غیره اما هیستوگرام آن نشان می دهد که برخی از بایت ها با احتمال تقریباً برابر اتفاق می افتند ، در حالی که بقیه - خیلی بیشتر از بقیه. از این رو چندین انفجار واضح بر روی هیستوگرام رخ می دهد و به طور کلی ظاهری کاملاً "پاره" دارد ، اگرچه کل عرض موجود را اشغال می کند.
و آخرین پرونده با فرمت 7Z زیپ می شود:
این هیستوگرام دارای دو ویژگی اصلی است: اولاً ، همه بایت ها در پرونده زیپ شده با احتمال کم و بیش مساوی (یک لبه بالایی نسبتاً مسطح) یافت می شوند ، و ثانیاً ، عملاً هیچ فضای خالی در بالای هیستوگرام وجود ندارد ، که نشان دهنده عدم وجود تقریباً کامل است. از کار بودن چنین پرونده ای. از این رو ، می توان نتیجه گرفت که الگوریتم بایگانی به نوعی بایت فایل را "مخلوط" می کند تا حداکثر توزیع یکنواخت آنها حاصل شود.
بنابراین ، آنتروپی در علوم کامپیوتر ، همانند فیزیک ، اندازه گیری اختلال در سیستم است ، در این مورد ، اختلال در توزیع بایت در پرونده است. انتروپی به شما امکان می دهد میزان فشرده سازی پرونده و - به طور غیرمستقیم - در مورد نوع آن را قضاوت کنید.