UTF-8 pour le chinois : il parait que ça marche

Publié dans Java | Marqué avec , ,
Share

UTF-8
Alors alors, peut-on écrire du chinois avec de l’UTF-8 ? La réponse est : OUI !

Par contre, c’est un chinois simplifié qui ne contient donc pas tous les caractères chinois. Si on ne souhaite pas fricoter avec l’unicode, on peut aussi utiliser son homologue chinois (c’est-à-dire l’équivalent de l’UTF-8 (standard international) version chinoise. Bizarre non ?) : GB18030. Mais la encore, c’est du chinois simplifié. Pour avoir du chinois traditionnel, il faut faire face à Big5 (je trouve que le nom en jette !).

Tout ceci explique pourquoi la classe Locale de Java (qui permet de gérer la langue à utiliser) définit le raccourci : Locale.TRADITIONAL_CHINESE et Locale.SIMPLIFIED_CHINESE.

Pour info, Google.ch utilise l’UTF-8 et après quelques minutes de surf sur des sites chinois (avec une collègue chinoise qui m’a montré tout ça), il y a des sites en UTF-8 et des sites en GB18030.

J’aurai peut-être l’occasion de tester ça d’ici 3 semaines, si c’est le cas je confirmerai ou infirmerai ce billet.

Pour aller plus loin

2 réponses à UTF-8 pour le chinois : il parait que ça marche

  1. jb

    A Quand la-bnbox en chinois ?? 😀

  2. Raigyo

    Salut,
    Petite précision par rapport à une erreur fréquente…
    Le chinois simplifié ne compte pas moins de caractères que le chinois traditionnel.
    Les sinogrammes (caractères chinois) comportent juste moins de traits. D’où le nom, chinois simplifié!
    A noter qu’un chinois de la république populaire ne saura pas lire/comprendre le chinois traditionnel et un taiwanais ne saura pas lire le chinois simplifié…
    Il faut proposer les deux… ^^

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*