Unterschied Character Set vs. Character Encoding

Häufig kommt es zu Unklarheit bei den Begriffen Character Set und Encoding. Hier wird versucht eine kurze und klare Abgrenzung zwischen Character Set und Character Encoding aufzuzeigen. Des Weitern gibt es einen kurzen Erklärungsglossar am Ende des Artikels.

Bei einem Character Set handelt es sich um eine fest definierte abstrakte Sammlung von Zeichen (Character) mit zugehörigen eindeutigen Code Points (Positionen) der Zeichen im Character Set. Ein Character Set enthält meist Zeichen mehrerer Sprachen. Im Gegensatz dazu ist das Character Encoding eine bestimmte Menge von Character aus einem Character Set mit den Code Points des Character Set und wie diese zum speichern und verarbeiten in Bytes abgebildet werden.

Beispiel: Unicode ist ein Character Set und ein Character Encoding von Unicode ist z.B. UTF-8 bzw. weiter Encodings von Unicode sind UTF-16 und UTF-32.

Kurzbeschreibung

Character = Zeichen wie z.B. der Buchstaben „A“.
Character Set= abstrakte fest definierte Menge von Zeichen (Character) mit Code Points z.B. Unicode.
Code Point = Werte die die Position eines Character eindeutig in einem Coded Character Set definieren.
Coded Character Set = Character Set in dem Character einer eindeutige Nummer zugeordnet sind. z.B. in Uncode ist das Zeichen „A“ dem dezimalen Wert 41 bzw. hex Wert 0x41 zugeordnet.
Character Encoding = gibt an wie eine ein Coded Character Set in Bytes dargestellt bzw. verarbeitet wird. Encodings sind ISO-8859-1, ISO-8859-2, ISO-8859-…, UTF-8, UTF-16 usw.
Code Page = ein festgelegtes Repertoire von Characters in welchen auch festgelegt ist wie Characters zum Speichern kodiert werden. Quasi Character Set und Encoding in einem.
Code Unit = einzelne Zeichen in einem String z.B. den Buchstaben „A“.
Code Unit Size = Bit Größe welche für die Darstellung eines Zeichens in einem Encoding verwendet wird. Z.B. ISO-8859-1 nutzt 8-Bit pro Zeichen.

(Visited 106 times, 1 visits today)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.