Kennen Sie das? Jemand schickt Ihnen Textvorlagen in Form einer TXT-Datei. Sie öffnen diese und stellen fest, dass Umlaute, Eszett und andere Zeichen kryptisch dargestellt werden. Wo »Müllerstraße« stehen soll, steht plötzlich »Müllerstraße«.
Zum Verständnis ist es zunächst wichtig zu wissen, dass Textdateien überhaupt keine Schriftzeichen im eigentlichen Sinne enthalten. Eine Textdatei ist nichts anderes als lange Anordnung von Kodes. Erst wenn die Textdateien geöffnet und angezeigt werden sollen, werden die Kodes in Schriftzeichen umgewandelt. Dazu benutzt das Betriebssystem bzw. Anwendungsprogramm eine so genannte Zeichenkodierung. Vereinfacht gesagt sind dies Tabellen, in denen jedem Kode ein bestimmtes Zeichen zugeordnet ist. Das Programm arbeitet einen Kode nach dem anderen ab und wandelt diese in eine darstellbare Zeichenfolge.
(Eine ausführliche Erklärung der Zeichenkodierungen findet sich in unserer Artikelserie »Die Geschichte der Zeichenkodierung«.)
Die Anwendungsprogramme können in der Regel mit einer Vielzahl solcher Zeichenkodierungen umgehen. Das heißt, sie wandeln beim Öffnen des Textdokumentes automatisch die Kodierung des Quelldokumentes in die benutzte Standardkodierung des Zielprogrammes. Damit diese Konvertierung gelingt, muss jedoch das Programm die benutzte Zeichenkodierung des Dokuments kennen! Und genau hier liegt in der Regel das Problem. Denn Dateiformaten wie TXT fehlt schlicht die Information, welche Zeichenkodierung ursprünglich zum Einsatz kam. TXT ist daher als Austauschformat schlicht ungeeignet und sollte weder angefordert noch versandt werden. Im englischen Sprachraum ist es als Austauschformat verbreitet und macht hier viel weniger Probleme, da nahezu allen westlichen Standardkodierungen auf den ASCII-Zeichensatz aufbauen und somit dessen englische Zeichen immer korrekt dargestellt werden. Doch sobald irgendein Zeichen außerhalb des ASCII-Zeichensatzes benutzt werden soll, fangen die Probleme an. RTF statt TXT: Benutzen Sie statt TXT wann immer möglich ein Austauschformat wie RTF (Rich Text Format), das alle gängigen Textprogramme verstehen. Fordern Sie Dateien zukünftig in diesem Format an.
Mit anderen Programm öffnen: Wenn Ihr Standardprogramm (Notepad, Textedit etc.) den zu öffnenden Text falsch darstellt, probieren Sie ein anderes Programm. Viele professionelle Texteditoren verfügen über eine Automatikfunktion, die den Kode analysiert und die benutzte Zeichenkodierung so gegebenenfalls erraten kann.
|