4/5 - (4 votes)

Du interessierst Dich für UTF-8? Dann bist Du hier genau richtig… UTF-8 ist ein Zeichencodierungsstandard, der entwickelt wurde, um das Problem der Darstellung von Text in mehreren Sprachen zu lösen. Er hat sich weitgehend durchgesetzt und ist heute das im Internet am häufigsten verwendete Zeichencodierungsschema.

 

Was ist UTF-8?

UTF-8 ist ein Standard für die Zeichenkodierung. UTF-8 (Unicode Transformation-8-bit) ist eine von der Internationalen Organisation für Normung (ISO) in ISO 10646 definierte Kodierung. UTF-8 wurde 1992 erfunden und legt fest, wie Zeichen bei der elektronischen Speicherung oder Übertragung dargestellt werden. UTF-8 ist heute das am häufigsten verwendete Kodierungsschema, das von allen modernen Browsern und Betriebssystemen unterstützt wird.

UTF-8 kann bis zu 2.097.152 Codepunkte (2^21) darstellen, um die derzeitigen 1.112.064 Unicode-Codepunkte abzudecken.

Was sind Codepunkte?

Anstelle von Zeichen ist es korrekter, von Codepunkten zu sprechen, wenn es um Kodierungssysteme geht. Codepunkte ermöglichen die Abstraktion vom Begriff Zeichen und sind die atomare Einheit der Informationsspeicherung in einer Kodierung. Die meisten Codepunkte repräsentieren ein einzelnes Zeichen, aber einige repräsentieren auch Informationen wie die Formatierung.

 

Aufbau und Struktur von UTF-8

UTF-8 ist eine Zeichenkodierung mit variabler Breite, die jedes Zeichen des Unicode-Zeichensatzes darstellen kann. Die Kodierung wurde entwickelt, um Abwärtskompatibilität mit ASCII zu ermöglichen, und verwendet 8-Bit-Codeeinheiten. Jede Codeeinheit kann maximal 256 verschiedene Zeichen darstellen.

Die UTF-8 Struktur ist wie folgt:

Ein Unicode-Codepunkt wird durch ein oder mehrere Bytes dargestellt. Die Anzahl der Bytes variiert, ist aber immer ein Vielfaches von 2. Zum Beispiel wird das Zeichen U+0041 „A“ durch zwei Bytes dargestellt: 01 00 41.

Das erste Byte einer Multibyte-Sequenz beginnt immer mit 0x00, das zweite Byte mit 0x80, das dritte Byte mit 0xC0, und so weiter. So lässt sich die Anzahl der Bytes in einer Multibyte-Sequenz leicht ermitteln.

Die Zeichenfolge „ß“ (U+00DF) würde zum Beispiel wie folgt kodiert werden:

Das erste Byte (0x00) würde lauten gefolgt von dem zweiten Byte (0x80), was bedeutet, dass es sich um eine Zwei-Byte-Sequenz handelt.

Das zweite Byte wäre 0xDF, und das dritte Byte wäre 0x80.

Das vierte Byte wäre 0x41 (A).

Dies bedeutet, dass eine Zeichenkette in UTF-8 ohne Null-Bytes kodiert werden kann. Enthält eine Zeichenkette jedoch nur ASCII-Zeichen, so wird sie als eine Folge von Bytes dargestellt, die alle kleiner als 0x80 sind.

Geschichte und Herkunft von UTF-8

Das ursprüngliche UNIX-Betriebssystem wurde 1970 von Ken Thompson veröffentlicht. Die erste Version dieses Programms ermöglichte es den Benutzern, Befehle direkt auf der Tastatur einzugeben, anstatt einen Eingabebildschirm zu verwenden, wie es bei anderen Programmen zu dieser Zeit erforderlich war. Das machte es schneller und bequemer für Leute, die es gewohnt waren, dass Dinge automatisch erledigt wurden, ohne dass sie viel darüber nachdenken mussten, während sie ihren gewohnten Tätigkeiten nachgingen – einfach Dinge erledigen!

Das Internet wurde zunächst in ASCII entwickelt, einem Zeichencodierungsstandard für die digitale Kommunikation. Im Laufe der Zeit entfernte man sich jedoch von den Grundlagen des Englischen und vieler anderer Sprachen, da es Milliarden von Nutzern gibt, die kaum lateinische Schriftzeichen auf ihren Computerbildschirmen oder Telefonen verwenden können, um auf relevante Inhalte zuzugreifen. Jetzt gibt es neue Standards wie UTF-8 mit wichtigen Merkmalen, die es alten Programmen ermöglichen, genauso gut zu interagieren, während sie weniger Speicherplatz als zuvor benötigen!

Weitere Quellen zu UTF-8

Zu Olaf Kopp

Olaf Kopp ist Online-Marketing-Experte mit mehr als 15 Jahren Erfahrung in Google Ads, SEO und Content Marketing. Olaf Kopp ist Co-Founder, Chief Business Development Officer (CBDO) und Head of SEO bei der Online Marketing Agentur Aufgesang GmbH. Er ist international anerkannter Branchenexperte für semantische SEO, E-E-A-T, Suchmaschinen-Technologie, Content-Marketing und Customer Journey Management. Als Autor schreibt er für nationale und internationale Fachmagazine wie Searchengineland, t3n, Website Boosting, Hubspot Blog, Sistrix Blog, Oncrawl Blog ... . 2022 war er Top Contributor bei Search Engine Land. Als Speaker stand er auf Bühnen der SMX, SEA/SEO World, CMCx, OMT, Digital Bash oder Campixx. Er ist ist Host der Podcasts OM Cafe und Digital Authorities. Er ist ist Autor des Buches "Content-Marketing entlang der Customer Journey", Co-Autor des Standardwerks "Der Online Marketing Manager" und Mitorganisator des SEAcamp.
herausgegeben von:
Datum: 9. September 2022

Blog-Artikel zu diesem Thema