Home
Über mich
Blog
Veröffentlichungen
IT-Trainings
Impressum


XML Encoding

Zusammenfassung:

Speziell im internationalen Datenaustausch werden unterschiedliche Zeichensätze verwendet. Sofern die in XML verwendeten Zeichen nicht aus dem UTF-8-Encoding stammen, ist im XML-Prolog das verwendete Encoding anzugeben.

XML Encoding

Wer konsequent mit UTF-8 arbeitet, erspart sich den Umgang mit Sonderzeichen. Das ist aber nicht immer möglich: auch in ISO-8859-1 gibt es eine längere Reihe von Sonderzeichen, die in XML nicht durch HTML-Entitätsreferenzen abgedeckt sind, etwa für das EURO-Zeichen.

Ein Aufruf der HTML-Referenz € führt in XML zu einem Fehler, hier muß mit € bzw. deren Hexwert € gearbeitet werden. In http://www.w3schools.com/charsets/ref_html_8859.asp bzw. https://wiki.selfhtml.org/wiki/Referenz:HTML/Zeichenreferenz finden Sie sehr brauchbare Übersichten.

Das Encoding definiert die Zeichenkodierung, die im Dokument verwendet werden soll. UTF-8 ist dabei die Standard-Kodierung. Auf der Webseite http://docstore.mik.ua/orelly/xml/xmlnut/ch26_01.htm finden Sie eine Liste der Charactersets, die in der XML 1.0 specification definiert sind. Bitte beachten Sie, daß nicht alle Parser auch sämtliche Encodings unterstützen. Einige Tools ignorieren das angegebene Encoding und arbeiten grundsätzlich mit UTF-8.

UTF-8 Standard Encoding in XML Dokumenten. UTF-8 ist so designt, daß alle ASCII Dokumente legale UTF-8-Dokumente darstellen, was bei UTF-16 und Latin1 nicht der Fall ist.
UTF-16 Eine Zwei-Byte-Encoding von Unicode, das alle Zeichen von Unicode 3.0 und früher umfaßt.
ISO-10646-UCS-2 Die Basis-Multilingual-Version von Unicode; der Zeichensatz ist weitgehend identisch mit UTF-16. Der Unterschied betrifft lediglich Unicode 3.1 und höher.
ISO-10646-UCS-4 Eine Vier-Byte-Encoding von Unicode.
ISO-8859-1 Latin-1, ASCII plus jene Zeichen, die für die meisten westeuropäischen Sprachen verwendet werden, incl. Dänisch, Holländisch, Englisch, Faroese, Finnisch, Flämisch, Deutsch, Isländisch, Irisch, Italienisch, Norwegisch, Portugiesisch, Spanisch, und Schwedisch.
ISO-8859-2 Latin-2, ASCII plus jene Zeichen, die für die meisten zentraleuropäischen Sprachen verwendet werden, incl. Kroatisch, Tschechisch, Ungarisch, Polnisch, Slowakisch, Slowenisch.
ISO-8859-3 Latin-3, ASCII plus jene Zeichen, die für Esperanto, Maltesisch, Türkisch, Galician.
ISO-8859-4 Latin-4, ASCII plus jene Zeichen, die für die baltischen Sprachen Latvian, Lithuanian, Greenlandic, und Lappish. Wurde weitgehend ersetzt durch ISO-8859-10, Latin-6.
ISO-8859-5 ASCII plus die kyrillischen Zeichen für Belorussisch, Bulgarisch, Mazedonisch, Russisch, Serbisch, Ukrainisch.
ISO-8859-6 ASCII plus Arabisch.
ISO-8859-7 ASCII plus Griechisch.
ISO-8859-8 ASCII plus Hebräisch.
ISO-8859-9 Latin-5, im wesentlichen identisch mit Latin-1 (ASCII plus westeuropäisch), aber ohne bestimmte türkische und Isländische Zeichen.
ISO-8859-10 Latin-6: Zeichen für nordeuropäische Sprachen Estonian, Lithuanian, Greenlandic, Icelandic, Inuit, and Lappish. Ähnlich wie Latin-4, ergänzt in ISO-8859-13.
ISO-8859-11 ASCII plus Thai. Die Unterstützung von XML-Prozessoren ist nicht optimal.
ISO-8859-12 Nicht benötigt.
ISO-8859-13 Alternativer Zeichensatz für Baltische Sprachen. Vgl. Latin 6.
ISO-8859-14 Latin-8; eine Variante für Latin-1 mit Zusatzzeichen für Gälisch und Welsch.
ISO-8859-15 Latin-9; Revision von Latin-1. Weitestgehend identisch mit ISO-8859-1.
ISO-8859-16 Latin-10; für Rumänisch.
ISO-2022-JP Sieben-Bit-Encoding mit japanischem Zeichensatz JIS X-0208-1997, in EMails und im Web verwendet, siehe RFC 1468.
Shift_JIS Japanischer Zeichensatz JIS X-0208-1997, in Microsoft Windows verwendet.
EUC-JP Japanischer Zeichensatz JIS X-0208-1997, in den meisten UNIX-Varianten verwendet.

qrpic/Encoding.jpg

wg / 30. September 2017




Fragen? Anmerkungen? Tips?

Bitte nehmen Sie Kontakt zu mir auf (info10@wilfried-grupe.de).



Vielen Dank für Ihr Interesse an meiner Arbeit.


V.i.S.d.P.: Wilfried Grupe * Klus 6 * 37643 Negenborn

Mobil: 0151. 750 360 61 * eMail: info10@wilfried-grupe.de