Hva er en UTF-8-fil?

January 27

UTF-8 er et tegnsett tabellen. En UTF-8-filen inneholder ren tekst. Det er, ikke filen har noen formateringskoder som er opprettet av tekstbehandlere. Dette er den type fil som kan åpnes og redigeres i et enkelt tekstredigeringsprogram som Notisblokk. UTF-8 filen har UTF8 filtypen, men kan også ha en TXT filtypen.

Definisjon

UTF står for UCS Transformation Format og UCS står for Universal tegnsett. UCS inkluderer en rekke forskjellige undergrupper, men UTF-8 er trolig den mest brukte. UCS gruppe definisjoner er et samarbeidsprosjekt mellom International Standards Organization og et bransjeorgan kalt Unicode. UTF-8 inneholder en rekke tegn som trengs for ulike språk.

Metode

Hvert tegn er tilordnet en rekke av bytes. En byte er en streng av åtte biter, og en bit er et binært tall, noe som betyr at det må være enten null eller en. De UTF-8 system stratifiserer tegn fra enkle til mer komplekse karakterer og antall byte brukes til å representere hver gruppe øker fra en, for de enklere tegn opp til seks for mer kompliserte, eller mindre brukte tegn. Imidlertid UTF-8 bruker et minimum på to bytes, og så enklere figurene har en null-byte settes inn foran. Hver karakter er tildelt et heksadesimalt tall. Heksadesimal er en base 16 tellesystem. Mennesker bruke en base 10-systemet, som kalles desimal, som bruker tallene 0 - 9 Heksadesimal bruker 0-9 pluss A - F til å representere et tall. UTF-8-kode er en åttesifret tall, som innledes med "U". En UTF-8-kodet fil setter hvert tegn i filen som byte representasjon, ikke UTF-8 kodenummer.

Bakgrunn

Den tidligste system for koding, og fortsatt den mest kjente, er ASCII-kodetabellen produsert av American National Standards Institute. Denne koden sette pre-datoer bruk av datamaskiner og ble opprinnelig opprettet for teksttelefoner. Koden tabellen utviklet seg mellom 1958 og 1967 og tildelt et nummer til hver karakter at amerikanske typists var mest sannsynlig å bruke. Denne tegnsett er kjent som ANSI. På 1980-tallet programvareutviklingsselskaper innsett at ASCII trengs for å bli utvidet til å gjøre rede for tegn som brukes i andre språk. De dannet Unicode prosjekt for å definere en ny kodetabell. Samtidig ble ISO arbeider med sin standard ISO 10646, som har samme mål. De to organisasjonene sammen sin innsats. Dette er grunnen til UTF-8, ISO navn, kalles også Unicode.

tekst Redaktører

Noen tekstredigeringsprogrammer er i stand til å kode UTF-8, men har problemer med å lese koden opprettet i andre redaktører. Dette er fordi noen redaktører bruke en omvendt byte orden, kalt "lille-endian," den vanlige orden kalles "big-endian." Dette er tillatt i standardene, men filen bør begynne med en kode som forklarer i hvilken rekkefølge byte er lagret. Lille-endian filer bør starte med "FF FE" og big-endian filer starte med "FE FF". dette kalles byte Order Mark, eller BOM. imidlertid er ikke alle tekstredigeringsprogrammer programmert til å gjenkjenne denne koden , og det skaper en feil i koden tolkning.