XML / XML Encoding

XML Encoding

XML Encoding

➪ Speziell im internationalen Datenaustausch werden unterschiedliche Codierungen verwendet. Sofern die in XML verwendeten Zeichen nicht aus dem UTF-8-Encoding stammen, ist im XML-Prolog das verwendete Encoding anzugeben.

Wer konsequent mit UTF-8 arbeitet, erspart sich den Umgang mit Sonderzeichen. Das ist aber nicht immer möglich: Auch in ISO-8859-1 gibt es eine längere Reihe von Sonderzeichen, die in XML nicht durch HTML-Entitätsreferenzen abgedeckt sind, etwa für das EURO-Zeichen.

Ein Aufruf der HTML-Referenz € führt in XML zu einem Fehler, hier muss mit € bzw. deren Hexwert € gearbeitet werden. In

finden Sie sehr brauchbare Übersichten.

Das Encoding definiert die Zeichencodierung, die im Dokument verwendet werden soll. UTF-8 ist dabei die Standard-Codierung. Bitte beachten Sie, dass nicht alle Parser auch sämtliche Encodings unterstützen. Einige Tools ignorieren das angegebene Encoding und arbeiten grundsätzlich mit UTF-8.

UTF-8 Standard-Encoding in XML-Dokumenten. UTF-8 ist so designt, dass alle ASCII Dokumente legale UTF-8-Dokumente darstellen, was bei UTF-16 und Latin1 nicht der Fall ist.
UTF-16 Ein Zwei-Byte-Encoding von Unicode, das alle Zeichen von Unicode 3.0 und früher umfasst.
ISO-10646-UCS-2 Die Basis-Multilingual-Version von Unicode; der Zeichensatz ist weitgehend identisch mit UTF-16. Der Unterschied betrifft lediglich Unicode 3.1 und höher.
ISO-10646-UCS-4 Ein Vier-Byte-Encoding von Unicode.
ISO-8859-1 Latin-1, ASCII plus jene Zeichen, die für die meisten westeuropäischen Sprachen verwendet werden, inkl. Dänisch, Deutsch, Holländisch, Englisch, Finnisch, Flämisch, Irisch, Isländisch, Italienisch, Norwegisch, Portugiesisch, Spanisch und Schwedisch.
ISO-8859-2 Latin-2, ASCII plus jene Zeichen, die für die meisten zentraleuropäischen Sprachen verwendet werden, inkl. Kroatisch, Tschechisch, Ungarisch, Polnisch, Slowakisch, Slowenisch.
ISO-8859-3 Latin-3, ASCII plus jene Zeichen für Esperanto, Galizisch, Maltesisch, Türkisch.
ISO-8859-4 Latin-4, ASCII plus jene Zeichen für Lappländisch, Lettisch, Litauisch, Grönländisch. Wurde weitgehend ersetzt durch ISO-8859-10, Latin-6.
ISO-8859-5 ASCII plus die kyrillischen Zeichen für Belorussisch, Bulgarisch, Mazedonisch, Russisch, Serbisch, Ukrainisch.
ISO-8859-6 ASCII plus Arabisch.
ISO-8859-7 ASCII plus Griechisch.
ISO-8859-8 ASCII plus Hebräisch.
ISO-8859-9 Latin-5, weitgehend identisch mit Latin-1 (ASCII plus westeuropäisch), aber ohne bestimmte türkische und isländische Zeichen.
ISO-8859-10 Latin-6: Zeichen für nordeuropäische Sprachen wie Grönländisch, Isländisch, Lappländisch, Litauisch. Ähnlich wie Latin-4, ergänzt in ISO-8859-13.
ISO-8859-11 ASCII plus Thai. Die Unterstützung von XML-Prozessoren ist nicht optimal.
ISO-8859-12 Nicht benötigt.
ISO-8859-13 Alternativer Zeichensatz für baltische Sprachen. Vgl. Latin 6.
ISO-8859-14 Latin-8; eine Variante für Latin-1 mit Zusatzzeichen für Gälisch und Welsch.
ISO-8859-15 Latin-9; Revision von Latin-1. Weitestgehend identisch mit ISO-8859-1.
ISO-8859-16 Latin-10; für Rumänisch.
ISO-2022-JP Sieben-Bit-Encoding mit japanischem Zeichensatz JIS X-0208-1997, in E-Mails und im Web verwendet, siehe RFC 1468.
Shift_JIS Japanischer Zeichensatz JIS X-0208-1997, in Microsoft Windows verwendet.
EUC-JP Japanischer Zeichensatz JIS X-0208-1997, in den meisten UNIX-Varianten verwendet.

wg / 4. April 2018



Fragen? Anmerkungen? Tips?

Bitte nehmen Sie Kontakt zu mir auf.




XML

XML-Version



Vielen Dank für Ihr Interesse an meiner Arbeit.


V.i.S.d.P.: Wilfried Grupe * Klus 6 * 37643 Negenborn

☎ 0151. 750 360 61 * eMail: info10@wilfried-grupe.de

www.wilfried-grupe.de/Encoding.html