Codecandies

Das Weblog von Nico Brünjes.

Encoding — irgendetwas geht immer schief

Character Encoding ist so eins der Dinge, die bei einem Webprojekt leicht schief gehen können, vor allem wenn man in einer heterogenen Umgebung arbeiten muss, also beispielsweise eine große Website aus etlichen verschiedenen Quellen, von unterschiedlichen Servern, aus verschiedenen Codejahrhunderten zusammen zu stricken hat. Natürlich könnte, müsste, sollte immer alles UTF-8 codiert sein: aber die Realität sieht leider anders aus. Denn selbst wenn man es schafft, alle Codequellen und Server abzustimmen, irgendwann kommt immer ein Benutzer mit der nordkoeranischen Version des Acrobat Readers 1.0 und hat mal eben daraus Text in ein Webformular gepastet…

Tommy Olsson bringt nun auf Sitepoint: The Definitive Guide to Web Character Encoding, ein hehres Ziel, will ich meinen. Und tatsächlich, der Artikel birgt wunderschöne Erklärungen: was ist das eigentlich »Character Encoding«, was passiert da, wie und wo stellt man es richtig ein und was passiert dann. Auf die Unwägbarkeiten des geplagten Integrationsentwicklers kann man da nur schwer eingehen, das sehe ich ein, also, wer von »Character Encoding« noch keinen Schimmer hat, unbedingt lesen.

Für die anderen ein paar Hinweise (teilweise auch siehe im genannten Artikel) gebündelt: Stellen an denen es mit dem Character Encoding gerne schief läuft:

3 Kommentare

  1. recht praktisch ist auch direkt nach einem mysql_connect();
    noch ein mysql_query(“SET NAMES ‘utf8′”); folgen zulassen, damit MySQL die Daten auch richtig encodiert liefert.

  2. Nico Brünjes
    26.01.2007, 17:12 Uhr

    Stimmt wohl. Guter Punkt.

    Geht übrigens auch in PostgreSQL, als “SET CLIENT_ENCODING TO ‘utf-8′”.

  3. *seufz*

    Nico du legst hier aber ganz schön Tempo vor. Schön, dass es jetzt mit der Artikelfrequenz bergauf geht. Ich hab’ mir im übrigen ein paar Sachen ausgedacht und freu mich schon auf morgen.

Ein Ping

  1. [...] über Encoding und ein darin verlinkter [...]