Hva er en UTF-8-format?

June 21

UTF-8-format er en variant av Unicode kodesystem, utviklet av Ken Thompson av Bell Laboratories i 1992. Opprinnelig Unicode var en enkel, fast bredde 16-bit koding format, men UTF-8 ble utviklet for systemer som fant det vanskelig å håndtere 16-bits dataenhetene. UTF står for Unicode Transformation Format.

Hva er Unicode?

Unicode ble opprinnelig utviklet av en non-profit organisasjon, kjent som Unicode Consortium, i slutten av 1980, i et forsøk på å skape et enkelt, enhetlig tegnsett. Unicode er utformet for å støtte utveksling, bearbeiding og visning av tekster i en rekke ulike språk, inkludert klassiske og historiske versjoner av disse språkene. Ken Thompson ønsket et kodingsformat for et nytt operativsystem, noe som ville arbeide med syv-bits tegn, men kan bli utvidet til et større tegnsett, og resultatet var UTF-8.

Hensikt

Dataprogrammer, avhenger typisk av hvert tegn er representert ved en sekvens av tilstøtende binære sifre eller bits - vanligvis åtte - kjent som en byte. Mange programmer er avhengige av American Standard kode for Information Interchange, eller ASCII, verdien av hver karakter å være konstant og visse kombinasjoner av bytes å bli assosiert med kontrollfunksjoner. UTF-8 er definert i form av åtte-bits kode miljøer, og representerer alle Unicode-tegn uten å forstyrre noen ASCII eller kontrollkodeverdier. Hver byte i ASCII-området representerer seg selv i UTF-8 og ASCII kontrollkoder vises bare som seg selv og aldri som en del av en sekvens som representerer en annen karakter. Med andre ord, UTF-8 er fullstendig bakoverkompatibel med ASCII.

variabel bredde

UTF-8 er det som er kjent som en variabel bredde kodingsformat. Den bruker åtte-bits kodeenhetene og de høy-ordens biter i hver enhet indikere til hvilken del av kodeenheten sekvensen hver byte tilhører. En rekke kodeenhetsverdier er reservert for den første eller ledende, element i en sekvens av kodeenhetene og et helt annet område av verdier er reservert for etterfølgende, eller etterfølgende, elementer. Dersom den høyereordens biten er en null, blir de gjenværende syv biter i kodeenheten behandles som en vanlig ASCII-karakter. Hvis en fil inneholder bare ASCII-tegn, er det allerede i UTF-8-format.

Bruker

UTF-8 er vanligvis kodingen formatet for Hypertext Markup Language - standard sett med regler, eller protokollen, for formatering og vise dokumenter på Internett - og andre lignende protokoller. UTF-8 er allerede byte-orientert, eller byte-serialisert, så UTF-8 fungerer godt med C og andre programmeringsspråk. Tilsvarende Application Programming Interface som arbeider med asiatiske tegnsett, for eksempel kinesisk og japansk, der tegn kan være representert med ett, to eller tre byte, kan tilpasses til å arbeide med UTF-8 med et minimum av oppstyr.