Redaktor:Dantae~skwiki/WIP

Unicode
	Kódovania
	UTF-7 · UTF-8 · CESU-8 · UTF-16/UCS-2 · UTF-32/UCS-4 · UTF-EBCDIC · SCSU · Punycode · GB18030
	UCS
	Obojsmerný text
	BOM
	Han zjednotenie
	Unicode a HTML
	Unicode a e-mail
	z • d • u

UTF-8 (UCS/Unicode Transformation Format) je kódovanie reťazcov znakov z UCS/Unicode do postupnosti bajtov. Kódovanie UTF-8 odstraňuje niektoré nedostatky predchádzajúcich kódovaní UCS-2 a UCS-4. Je definované v ISO 10646-1:2000 Annex D, popísané v RFC 3629 a tiež v sekcii 3.9 štandardu Unicode 4.0.

Používa 1 až 6 bajtov na zapísanie znaku podľa toho, o ktorý Unicode symbol sa jedná. Napríklad, len jeden UTF-8 bajt je potrebný na zakódovanie všetkých 128 US-ASCII znakov z Unicode rozsahu U+0000 až U+007F.

Aj keď sa môže zdať neefektívne reprezentovať Unicode znaky až štyrmi prípadne až šiestimi bajtmi, UTF-8 umožňuje starým systémom prenášať túto ASCII nadmnožinu. Dodatočne, dátova kompresia môže byť stále vykonaná nezávisle od použitia UTF-8.

Zatiaľ čo pri UNICODE bol každý znak zakódovaný 16-mi bitmi, pri UTF-8 je prvých 128 znakov (tieto sú pre všetky krajiny rovnaké) zakódovaných 8-mimi bitmi a zvyšné sú zakódované 16-timi až 48-mimi bitmi. Tento spôsob je výhodný pre krajiny, kde väčšina znakov textu tvorí prvých 128 znakov, pretože uložený text tak zaberá menej miesta ako pri UNICODE.

IETF požaduje od všetkých internetových protokolov, aby UTF-8 bolo aspoň jediné podporované kódovanie.

Unicode hodnota	UTF-8 sekvencia
U-00000000 - U-0000007F	0xxxxxxx
U-00000080 - U-000007FF	110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF	1110xxxx 10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF	111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF	1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

Tento článok týkajúci sa počítačov je zatiaľ „výhonok“. Pomôž Wikipédii tým, že ho doplníš a rozšíriš.