Was ist eine UTF-8-Datei?

November 11

Was ist eine UTF-8-Datei?

UTF-8 ist eine Zeichensatztabelle. UTF-8-Datei enthält nur Text. Die Datei muss d. h. keine Formatierungscodes von Textverarbeitungen erstellt. Dies ist der Typ der Datei, die geöffnet und in einem einfachen Texteditor wie Notepad bearbeitet werden kann. Die UTF-8-Datei kann hat die UTF8-Datei-Erweiterung, jedoch auch eine TXT-Datei-Erweiterung.

Definition

UTF steht für UCS Transformation Format und UCS steht für Universal Character Set. UCS umfasst eine Reihe von verschiedenen Teilmengen, aber UTF-8 ist wahrscheinlich das am meisten benutzteste. Die UCS-Gruppe von Definitionen ist ein Gemeinschaftsprojekt zwischen der International Standards Organization und eine Industrie-Körper genannt Unicode. UTF-8 enthält eine Reihe von Zeichen, die für verschiedene Sprachen benötigt.

Methode

Jedes Zeichen wird eine Zeile von Bytes zugewiesen. Ein Byte ist eine Zeichenfolge aus acht Bits und ein bisschen ist eine Binärzahl, was bedeutet, dass es muss entweder 0 oder 1 sein. Das UTF-8-System schichtet von einfachen zu komplexeren Zeichen Zeichen und die Anzahl der Bytes, die zum Darstellen von jeder Gruppe, die von einem, für die einfacheren Zeichen bis zu sechs für kompliziertere oder weniger verwendete Zeichen erhöht. Jedoch UTF-8 verwendet ein Minimum von zwei Bytes und die einfacheren Zeichen haben also ein NULL-Byte vorne eingefügt. Jedes Zeichen wird eine hexadezimale Zahl zugewiesen. Hexadezimal ist eine Grundzahl 16 System zählen. Menschen verwenden eine 10 Basissystem, genannt Dezimal, die die Ziffern 0 bis 9 verwendet. Hexadezimal Gebrauch 0-9 sowie A – F Darstellung eine Zahl. Der UTF-8-Code ist eine achtstellige Nummer die "U-" vorangestellt ist. Eine UTF-8 kodierten Datei stellt jedes Zeichen in der Datei als Byte-Darstellung, nicht die UTF-8-Code-Nummer.

Hintergrund

Das früheste System zur Codierung und immer noch am meisten weithin bekannt, ist der ASCII-Code-Tabelle, produziert von der American National Standards Institute. Dieses Code-Set Pre stammt die Verwendung von Computern und wurde ursprünglich für die Fernschreiber Maschinen. Die Code-Tabelle zwischen 1958 und 1967 entwickelt und jedes Zeichen, das US-Schreibkräfte am ehesten verwenden wurden eine Zahl zugewiesen. Dieser Zeichensatz wird manchmal als ANSI bezeichnet. In den 1980er Jahren erkannte die Software-Entwicklung Unternehmen, dass ASCII entfallen in anderen Sprachen verwendeten Zeichen erweitert werden musste. Sie bildeten das Unicode-Projekt, um eine neue Code-Tabelle definieren. Zur gleichen Zeit arbeitete ISO auf die Norm ISO 10646, die das gleiche Ziel hat. Die beiden Organisationen kombiniert ihre Bemühungen. Daher ist UTF-8, ISO-Name, auch Unicode aufgerufen wird.

Text-Editoren

Einige Texteditoren können UTF-8 kodieren, aber haben Probleme beim Lesen von Codes in anderen Editoren erstellt. Dies ist, da einige Editoren verwenden eine umgekehrte Byte-Reihenfolge, genannt "little-Endian," der regelmäßigen Reihenfolge aufgerufen wird, "big-Endian." Dies ist in den Normen zulässig, aber die Datei sollte beginnen mit einem Code, der erklärt, in welcher Reihenfolge die Bytes gespeichert sind. Little-Endian-Dateien beginnen mit "FF FE" und big-Endian-Dateien beginnen mit "FE FF". Dies ist die Byte Order Mark, BOM genannt. Jedoch nicht alle Text-Editoren sind so programmiert, dass dieser Code zu erkennen, und einen Fehler in der Interpretation von Code erstellt.