Mesurer l’état de santé des communautés linguistiques
Aug 13, 2023Il y a quelques jours, je vous parlais de la création de sites pour mettre en valeur nos traducteurs.
Voici un premier site réalisé il y a quelques années maintenant : https://languages.fedoraproject.org
Que contient languages.fedoraproject.org ?
Ce site rudimentaire a pour valeur de fournir des statistiques de traduction sur la totalité des paquets Fedora disponibles dans les dépôts. La dernière version de Fedora sur laquelle nous avons exécuté ce site est Fedora 36.
Quand on regarde la page de statistiques de traduction de Fedora 36, on découvre quelques métriques intéressantes :
- 23 028 paquets,
- dont 2 203 paquets contenants des statistiques de traductions
- ces traductions sont contenues dans 206 891 fichiers distincts (principalement des fichiers po).
De ces fichiers, on est capable d’extraire les statistiques suivantes :
- 2 820 6617 mots sont à traduire dans les paquets de Fedora 36,
- 342 langues sont détectées.
Il s’agit de langues au sens technique. Cela inclut des variantes régionales (PT est le portugais tel que parlé dans la majorité du monde, donc comme au Brésil, PT_PT est le portugais tel que parlé au Portugal) et variantes d’écriture (le serbo-croate prononcé en Iékavien écrit en cyrillique et le le serbo-croate prononcé en Iékavien écrit en translitération latine).
Que faire de toutes ces statistiques ?
Je souhaite représenter une mesure de santé des communautés linguistique par langue écrite dans le domaine du logiciel libre.
Accès aux données :
- Utilisation des données présentes dans les paquets Fedora, majoritairement des outils de bureautique et de développement
- Le site https://languages.fedoraproject.org qui expose les données générées à partir des dépôts de Fedora.
- Les données sont structurées par territoires, ici https://languages.fedoraproject.org/territories/fr/
- Sur la partie droite, on voit les données pour f36 fr-French (Français), f35 fr-French (Français) etc, une page par version de Fedora
- Les dates de chaque version de Fedora sont disponibles dans https://en.wikipedia.org/wiki/Fedora_Linux_release_history
Hypothèses :
- L’unité d’effort en traduction est le mot. Une chaîne à traduire contient 1 à N mots.
- Le nombre total de mots dans Fedora change en fonction des logiciels inclus.
** Dans le temps, un logiciel peut être ajouté à la logithèque, un logiciel peut contenir de nouvelle version, un logiciel peut être supprimé ** Dans le temps, un logiciel peut être renommé ou découper (cas à priori rare dans les données récentes, mais sur 20 ans de données, ça pourrait être classique)
- Le progrès d’une langue se mesure à travers le nombre de mots
- Pour un logiciel, une langue peut avoir 1 à N fichiers de traductions, selon les découpages souhaités par l’équipe de développement, et le progrès dans l’internationalisation du logiciel (on traduit d’abords l’interface graphique, puis on ajoute la documentation, etc.)
Ébauche du plan pour parvenir à mesurer la santé linguistique
Pour une langue donnée :
- Démarrer par fournir un indicateur brut, avec une vision temporelle (% d’avancement sur les paquets traduits, % d’avancement sur l’ensemble de ce qui est traduisible, # de mots traduits
- Créer les mêmes indicateurs sur les paquets en communs entre l’ensemble des versions de Fedora considérés
- Créer les mêmes indicateurs sur un sous-ensemble de paquets, les paquets prioritaires
- La notion de priorité est subjective et polémique, je pense donc les identifier via une identification des logiciels ayant le plus de traduction (je m’attends à y retrouver les outils comme Firefox, LibreOffice, Gnome)
- Pour toutes les langues, faire des courbes de tendances, à comparer à la croissance du nombre de mot à traduire dans Fedora
- si la tendance est positive et supérieure à la croissance du nombre de mots à traduire dans Fedora, alors la santé de la communauté est probablement bonne
- si la tendance est positive mais inférieure à la croissance du nombre de mots à traduire dans Fedora, alors la santé de la communauté est probablement en risque
- si la croissance est négative, alors la santé de la communauté est probablement en vigilance
Tout ceci va faire beaucoup de données à manipuler, mais ça me semble faisable.
Ce projet est hébergé sur Pagure, la forge créée par le projet Fedora https://pagure.io/fedora-l10n/fedora-localization-statistics