SEO-Agentur-Banner

5/5 - (1 vote)

Du interessierst Dich für UTF-8? Dann bist Du hier genau richtig… UTF-8 ist ein Zeichencodierungsstandard, der entwickelt wurde, um das Problem der Darstellung von Text in mehreren Sprachen zu lösen. Er hat sich weitgehend durchgesetzt und ist heute das im Internet am häufigsten verwendete Zeichencodierungsschema.

 

Was ist UTF-8?

UTF-8 ist ein Standard für die Zeichenkodierung. UTF-8 (Unicode Transformation-8-bit) ist eine von der Internationalen Organisation für Normung (ISO) in ISO 10646 definierte Kodierung. UTF-8 wurde 1992 erfunden und legt fest, wie Zeichen bei der elektronischen Speicherung oder Übertragung dargestellt werden. UTF-8 ist heute das am häufigsten verwendete Kodierungsschema, das von allen modernen Browsern und Betriebssystemen unterstützt wird.

UTF-8 kann bis zu 2.097.152 Codepunkte (2^21) darstellen, um die derzeitigen 1.112.064 Unicode-Codepunkte abzudecken.

Was sind Codepunkte?

Anstelle von Zeichen ist es korrekter, von Codepunkten zu sprechen, wenn es um Kodierungssysteme geht. Codepunkte ermöglichen die Abstraktion vom Begriff Zeichen und sind die atomare Einheit der Informationsspeicherung in einer Kodierung. Die meisten Codepunkte repräsentieren ein einzelnes Zeichen, aber einige repräsentieren auch Informationen wie die Formatierung.

 

Aufbau und Struktur von UTF-8

UTF-8 ist eine Zeichenkodierung mit variabler Breite, die jedes Zeichen des Unicode-Zeichensatzes darstellen kann. Die Kodierung wurde entwickelt, um Abwärtskompatibilität mit ASCII zu ermöglichen, und verwendet 8-Bit-Codeeinheiten. Jede Codeeinheit kann maximal 256 verschiedene Zeichen darstellen.

Die UTF-8 Struktur ist wie folgt:

Ein Unicode-Codepunkt wird durch ein oder mehrere Bytes dargestellt. Die Anzahl der Bytes variiert, ist aber immer ein Vielfaches von 2. Zum Beispiel wird das Zeichen U+0041 „A“ durch zwei Bytes dargestellt: 01 00 41.

Das erste Byte einer Multibyte-Sequenz beginnt immer mit 0x00, das zweite Byte mit 0x80, das dritte Byte mit 0xC0, und so weiter. So lässt sich die Anzahl der Bytes in einer Multibyte-Sequenz leicht ermitteln.

Die Zeichenfolge „ß“ (U+00DF) würde zum Beispiel wie folgt kodiert werden:

Das erste Byte (0x00) würde lauten gefolgt von dem zweiten Byte (0x80), was bedeutet, dass es sich um eine Zwei-Byte-Sequenz handelt.

Das zweite Byte wäre 0xDF, und das dritte Byte wäre 0x80.

Das vierte Byte wäre 0x41 (A).

Dies bedeutet, dass eine Zeichenkette in UTF-8 ohne Null-Bytes kodiert werden kann. Enthält eine Zeichenkette jedoch nur ASCII-Zeichen, so wird sie als eine Folge von Bytes dargestellt, die alle kleiner als 0x80 sind.

Geschichte und Herkunft von UTF-8

Das ursprüngliche UNIX-Betriebssystem wurde 1970 von Ken Thompson veröffentlicht. Die erste Version dieses Programms ermöglichte es den Benutzern, Befehle direkt auf der Tastatur einzugeben, anstatt einen Eingabebildschirm zu verwenden, wie es bei anderen Programmen zu dieser Zeit erforderlich war. Das machte es schneller und bequemer für Leute, die es gewohnt waren, dass Dinge automatisch erledigt wurden, ohne dass sie viel darüber nachdenken mussten, während sie ihren gewohnten Tätigkeiten nachgingen – einfach Dinge erledigen!

Das Internet wurde zunächst in ASCII entwickelt, einem Zeichencodierungsstandard für die digitale Kommunikation. Im Laufe der Zeit entfernte man sich jedoch von den Grundlagen des Englischen und vieler anderer Sprachen, da es Milliarden von Nutzern gibt, die kaum lateinische Schriftzeichen auf ihren Computerbildschirmen oder Telefonen verwenden können, um auf relevante Inhalte zuzugreifen. Jetzt gibt es neue Standards wie UTF-8 mit wichtigen Merkmalen, die es alten Programmen ermöglichen, genauso gut zu interagieren, während sie weniger Speicherplatz als zuvor benötigen!

Weitere Quellen zu UTF-8

Zu Olaf Kopp

Olaf Kopp ist international anerkannter Online-Marketing-Experte mit mehr als 15 Jahren Erfahrung im Online-Marketing, Google Ads, SEO und Content Marketing. Olaf Kopp ist Co-Founder, Chief Business Development Officer (CBDO) und Head of SEO bei der Aufgesang GmbH. Er ist Autor, Podcaster und anerkannter Branchenexperte für semantische SEO, E-E-A-T, Content-Marketing-Strategien entlang der Customer Journey und digitaler Markenbildung. Olaf Kopp ist Mitgründer und Moderator des Content-Marketing-Podcasts Content-Kompass. Kopp ist Autor des Buches “Content-Marketing entlang der Customer Journey” und Mitorganisator des SEAcamp. Als begeisterter Suchmaschinen- und Content-Marketer schreibt er für diverse Fachmagazine, u.a. Search Engine Land, t3n, Website Boosting, suchradar, Hubspot ... und war als Gastautor in diverse Buch-Veröffentlichungen involviert. Sein Blog zählt laut diversen Fachmedien und Branchenstimmen zu den besten Online-Marketing-Blogs in Deutschland. Zudem engagiert sich Olaf Kopp als Speaker für SEO und Content Marketing in Bildungseinrichtungen sowie Konferenzen wie z.B. der Hochschule Hannover, SMX, CMCx, OMT, OMX, Campixx… Olaf Kopp ist Suchmaschinen-Marketer, Content-Marketer und Customer-Journey-Enthusiast, bewegt sich als Schnittstelle zwischen verschiedenen Marketing-Welten und baut Brücken immer eine nutzerzentrierte Strategie im Auge.
herausgegeben von:
Datum: 9. September 2022

Blog-Artikel zu diesem Thema