Le 10 février 2011 à Paris, l’AFNIC – Association française pour le nommage Internet en coopération, organisait un atelier d’étude sur les noms de domaines internationalisés. Ce fut l’occasion de faire le point sur les projets de l’AFNIC dans ce domaine et les différents enjeux que cela ne manquera pas de soulever pour l’ensemble des acteurs.
L’atelier a duré près de 4 heures et s’est déroulé en trois parties: d’abord une introduction sur le sujet par Stéphane Bortzmeyer, suivie de deux tables rondes. La première table ronde a permis d’évaluer les attentes de la communauté des utilisateurs, tandis que la seconde portait sur les aspects opérationnels du lancement de cette nouvelle capacité des noms de domaine en .fr.
Les noms de domaine internationalisés
Stéphane Bortzmeyer (@bortzmeyer, blog) a publié le diaporama de son introduction. Ce qu’il faut retenir selon moi est qu’on est en train de déployer progressivement (depuis la première moitié des années 2000), dans les infrastructures de gestion des noms de domaines, la possibilité d’utiliser des caractères autres que les lettres de l’alphabet latin de a à z et les chiffres de 0 à 9. Ainsi, on voit apparaître des sinogrammes, des caractères cyrilliques ou du sanscrit dans les URL:
- http://президент.рф/ (site du président russe, on notera au passage le domaine de tête internationalisé aussi « рф » pour « fédération de russie » et en complément du « .ru » classique)
- http://müller.de/ (93 caractères supplémentaires ont été rajoutés pour le domaine de tête .de de l’Allemagne, y compris le « ß »)
- ou bien en arabe http://وزارة-الأتصالات.مصر/ ou encore en coréen http://휴대폰.com/
Le domaine de tête européen « .eu » a ouvert la création de noms de domaines internationalisés dans les langues des 27 pays membres de l’Union Européenne en décembre 2009. Ainsi http://www.crimenumérique.eu/ redirige-t-il vers le présent blog 🙂
Sur le plan technique, et normalement de façon transparente pour l’utilisateur, les différentes chaînes de caractères ne sont pas directement implémentées dans le protocole DNS mais sont transformées à nouveau en chaînes de caractères ASCII. Ainsi, le RFC 3490 prévoit un encodage « compatible ASCII » ou ACE des chaînes de caractères Unicode (voir l’article de Wikipédia sur le punycode et le RFC 3492). Un préfixe a été choisi en 2003 pour identifier ces noms de domaines internationalisés, il s’agit de « xn--« . Ainsi www.crimenumérique.eu est-il représenté par www.xn--crimenumrique-ihb.eu.
Résumé de l’atelier
Voici quelques points clés que j’ai retenus de cet atelier:
- L’AFNIC envisage de lancer les noms de domaines internationalisés pour le domaine de tête « .fr » d’ici la fin de l’année 2011;
- La décision n’est pas encore prise sur les chaînes de caractères qui seront autorisées. Le débat a permis d’entendre plusieurs arguments pour ou contre la prise en charge – en plus des caractères diacritiques essentiels de la langue françaises, ceux des langues régionales, des langues parlées dans les pays européens voisins ou ceux des langues parlées en France de façon plus générale (comme l’arabe dialectal ou le chinois par exemple). Mon analyse personnelle est qu’il est vraisemblable que dans un premier temps l’ouverture se fera d’abord sur les caractères accentués classiques du français.
- Il semble se dégager un consensus – en tous cas au cours de cet atelier – pour un lancement le plus simple possible, donc éventuellement sans période de « lever de soleil » et en tous cas de prendre au moins en compte les titulaires préalables des domaines « non accentués » pour l’attribution des nouveaux « avec accents ». Mais la question n’est pas aussi simple qu’il y paraît, les accents apportant des nuances de sens parfois importantes (voir les exemples dans la présentation de Stéphane Bortzmeyer).
- Les préoccupations des détenteurs de marques sont importantes, et si évidemment cette ouverture crée de nouvelles opportunités en termes de communication, il leur paraîtrait judicieux de ne pas faire débuter toutes les réformes en même temps (l’AFNIC confirmait aussi l’ouverture à venir, au profit des entreprises européennes et des personnes demeurant en Europe, du domaine de tête « .fr »).
- Deux notes techniques au passage: il restera des subtilités de la langue française qui ne pourront pas être prises en compte telles que certains caractères spéciaux comme les apostrophes ou les majuscules qui donnent parfois un sens différents aux mots en français (différence entre État et état), et si les noms de domaines prennent en compte les polices de caractères avancées, il n’existe pas encore de standard stabilisé pour la gestion de ces caractères dans la partie locale (avant l' »@ ») des adresses de courrier électronique.
- Enfin, Cédric Manara (@cedricmanara, blog) met à disposition des internautes la présentation qu’il a faite et qui comporte une étude des litiges traités par l’UDRP sur des noms de domaines internationalisés.
Enjeux pour les enquêteurs
Les enjeux pour les enquêteurs (mais aussi évidemment, les experts judiciaires, les magistrats ou toutes les personnes qui réalisent des investigations numériques) sont multiples:
- Bien entendu, il s’agit d’abord de se tenir informé de ces évolutions qui seront de plus en plus rencontrées (on peut aussi citer l’arrivée des adresses IP v6).
- Ensuite, comme tout un chacun, ils seront confrontés à la non-adaptation des outils du quotidien (navigateurs Internet, logiciels de messagerie) ou des outils spécialisés (de nombreuses interfaces Web de whois ne sont pas encore correctement paramétrées).
- Enfin, et surtout, cette évolution multiplie les possibilités d’erreurs, notamment lors de la retranscription des adresses. Ainsi, les témoignages des victimes, les copies d’écran, les fax etc. ne permettront pas toujours de distinguer plusieurs adresses semblables. En effet, même si les adeptes du phishing n’exploitent pas réellement les attaques par homographie (mots qui se ressemblent), le risque de confusions est réel. Même si cela est possible aujourd’hui lorsqu’on retranscrit la lettre « l » minuscule plutôt que le chiffre « 1 », les variations explosent. Et bien évidemment ce sera plus complexe pour un enquêteur français de recopier des idéogrammes chinois que pour un enquêteur chinois. La recommandation principale sera de favoriser soit les échanges électroniques (que ce soit avec les victimes ou avec les opérateurs auxquels on adresse questions ou réquisitions) et l’utilisation de la conversion en caractères ASCII (les chaînes commençant par « xn--« ).
En conclusion, je tiens à remercier l’AFNIC et les participants aux tables rondes pour cet atelier particulièrement instructif, qui m’a permis, même si je connaissais ce problème, d’avoir l’occasion d’y consacrer plusieurs heures de réflexion et d’échanges. Enfin, je ne peux que conseiller à mes lecteurs de continuer de se tenir informés de ces différentes évolutions qu’ils soient de simples utilisateurs et titulaires de noms de domaines ou des personnes chargées de missions d’investigation numérique. L’AFNIC devrait continuer la démarche de dialogue et d’information entreprise dans les mois à venir, avant le lancement effectif de cette nouvelle offre, mais n’oublions pas que c’est déjà aujourd’hui une réalité dans de nombreux domaines de tête et en particulier en Europe…
Effectivement, une problématique naissante pour les forces de l’ordre, notamment en matière de phishing.
Heureusement, depuis Microsoft internet explorer 8, l’usage simultané de caractères issus de codages différents dans la barre d’url n’est plus possible.
Ce procédé a été par le passé utilisé par des phishers pour commettre leurs méfaits.
Sûr qu’il y aura des petits malins pour penser à réserver société-générale.com pour un usage détourné. Même si l’affichage punycode dans la barre d’adresse peut être un signal d’alerte, il faudra être vigilant.
Au passage, un employé de Symantec a déjà pondu un papier sur son blog hier sur l’usage des IDNs par les spammeurs : http://bit.ly/g858xQ .