Le 17 juin 2018 à 16:19:35 MOKALINA a écrit :
Merci pour votre réponse _kilian_
Si cela ne te dérange pas j'aimerais en apprendre plus, une conversation privée ne te dérangerais pas ?
Pour faire court sur ce que je sais, l'unicode permet d'écrire tous les caractères de tous les alphabets du monde. C'est du moins son objectif j'imagine.
Si tu prends les langues occidentales, tout va bien, 26 lettres, QUELQUES nuances (é, è, à), et zou ça tient en 256 à 1000 possibilités.
Si tu commences à prendre les langues asiatiques, ça c'est le fiasco total. Le thai, le vietnamien ou l'hindi par exemple, ou même des transcriptions écrites accentuées de langues étrangères, t'arrives à un constat c'est qu'il y a énormément d'accent possibles pour énormément de lettres, et que tout enregistrer sous UN id, ça prend beaucoup trop de place inutilement.
Du coup, unicode prévoit dans son protocole qu'on puisse mettre des accents indépendamment des caractères. Genre d'abord "e" puis l'accent aigu pour donner "é" (là j'ai mis la lettre en une fois parce que flemme d'aller chercher l'unicode de l'accent, mais c'est possible en théorie).
Du coup, les génies (1er degré) qui sont chargés d'implémenter ce protocole empilent ces accents qui peuvent se retrouver sur ou sous le mot en fonction des langues, comme la cédille ç.
In fine, cette modularité permet des abus (qui sont facilement contournable si on interdit aux gens d'écrire avec ces caractères)
Et du coup, petite astuce si un jour vous êtes amené à traiter des langues hésotériques, parfois vous pouvez avoir l'impression de sélectionner le bon caractère (genre sentences[50] ), mais en fait vous ne sélectionnerez qu'un accent, ou que la lettre non-accentuée, et le nombre de "lettre" dans des phrases de ces langues peut être bien plus élevé que ce qu'on peut croire.
(Genre on voit 10 lettres, mais il y en a 17 au total parce qu'il y a 7 déclinaisons accentuées)