UTF 7 vs. UTF-8

UTF 7 vs. UTF-8


UTF-7 og UTF-8 er begge typer Unicode Transformation Format, standarden som brukes til å kode 16-biters Unicode-tegn som internasjonale bokstaver og spesialtegn i et format som kan overføres gjennom 7-bits eller 8-bits systemer. UTF-8 er den mest brukte kodeformat, populært i websider og mange e-postprogrammer. UTF-7 gir koding for noen e-protokoller som ikke vil fungere med UTF-8.

Unicode

Unicode er en internasjonal standard for å representere tegn som heltall. Den bruker 16 bits per tegn versus de syv biter som brukes av ASCII, American Standard kode for Information Interchange. ASCII kan reprodusere bare 128 tegn versus 65.000 unike figurer som er tilgjengelige i Unicode. Denne bredere spekter av karakterer gjør Unicode mer passende for østasiatiske språk og andre med store tegnsett, men Unicode-tegn må kodes hvis de skal overføres via 7-bits eller 8-bits bit-kanaler.

UTF-8

UTF-8 er den vanligste Universal Transformation Format brukes til å konvertere Unicode-tegn i 8-bits segmenter for overføring over Internett via e-post eller gjennom andre 8-bits-kanaler. Dette kodeformatet endres hver Unicode karakter i ett til fire oktetter, avhengig av heltall verdien av Unicode karakter, og det er veldig effektivt for dokumenter som primært bruker bokstaver også finnes i ASCII tegnsettet. UTF-8 har en tendens til å ta opp mer plass enn Énbytestegn for ikke-vestlige alfabeter.

UTF-7

UTF-7 er en spesiell variant av Universal Transformation Format først foreslått på midten av 1990-tallet. Det er designet for å representere Unicode tekst med en streng av ASCII-tegn, som produserer en mer effektiv koding metode for e-post enn UTF-8 pluss quoted-print koding for å sende over en 7-bits data banen. UTF-7-koding reduserer størrelsen av de kodede tegn betydelig.

betraktninger

Selv om UTF-7 er mer effektiv enn 7-bits kanaler enn UTF-8 pluss quoted-print, de fleste myndigheter, inkludert Internet Mail Consortium og Microsoft Developer Network anbefaler å bruke UTF-8 i løpet av UTF-7 når det er mulig. Dette er fordi UTF-7 skaper sikkerhet og robusthet problemer som ikke finnes i sin 8-bit slektning. IMC anbefaler også at alle e-post visning av programmer som er opprettet etter 1. januar, skal 1999 være i stand til å vise e-post i UTF-8.