UTF-8 verzus UTF-16
UTF je skratka pre Unicode Transformation Format. Je to skupina štandardov na kódovanie znakovej sady Unicode na jej ekvivalentnú binárnu hodnotu. UTF bol vyvinutý tak, aby používatelia mali štandardizované prostriedky na kódovanie znakov s minimálnym množstvom priestoru. UFF-8 a UTF 16 sú iba dvoma zavedenými štandardmi pre kódovanie. Líšia sa iba tým, koľko bajtov používa na kódovanie každého znaku. Pretože obe sú kódovanie s premenlivou šírkou, môžu na kódovanie údajov použiť až štyri bajty, ale pokiaľ ide o minimum, UTF-8 používa iba 1 bajt (8 bitov) a UTF-16 používa 2 bajty (16 bitov). To má obrovský vplyv na výslednú veľkosť kódovaných súborov. Pri použití iba znakov ASCII by bol súbor kódovaný UTF-16 zhruba dvakrát väčší ako rovnaký súbor kódovaný pomocou UTF-8..
Hlavnou výhodou UTF-8 je, že je spätne kompatibilný s ASCII. Znaková sada ASCII má pevnú šírku a používa iba jeden bajt. Pri kódovaní súboru, ktorý používa iba znaky ASCII s UTF-8, by výsledný súbor bol totožný so súborom kódovaným pomocou ASCII. Toto nie je možné pri použití UTF-16, pretože každý znak by mal byť dva bajty. Starší softvér, ktorý si nie je vedomý Unicode, by nedokázal otvoriť súbor UTF-16, aj keby mal iba znaky ASCII..
UTF-8 je byte orientovaný formát, a preto nemá problémy s byte orientovanými sieťami alebo súbormi. UTF-16, na druhej strane, nie je orientovaný na bajty a je potrebné vytvoriť bajtové poradie, aby bolo možné pracovať s byte orientovanými sieťami. UTF-8 je tiež lepšie v zotavovaní sa z chýb, ktoré poškodili časti súboru alebo toku, pretože stále dokáže dekódovať nasledujúci neprerušený bajt. UTF-16 robí to isté, ak sú niektoré bajty poškodené, ale problém spočíva, keď dôjde k strate niektorých bajtov. Stratený bajt môže zmiešať nasledujúce kombinácie bajtov a výsledný výsledok by bol skomolený.
Zhrnutie:
1. UTF-8 a UTF-16 sa používajú na kódovanie znakov
2. UTF-8 používa pri kódovaní znakov najmenej bajt, zatiaľ čo UTF-16 používa dva
3. Súbor kódovaný UTF-8 má tendenciu byť menší ako súbor kódovaný UTF-16
4. UTF-8 je kompatibilný s ASCII, zatiaľ čo UTF-16 je nekompatibilný s ASCII
5. UTF-8 je orientovaný na bajty, zatiaľ čo UTF-16 nie
6. UTF-8 sa lepšie zotavuje z chýb v porovnaní s UTF-16