Que contient languages.fedoraproject.org ?

Ce site rudimentaire a pour valeur de fournir des statistiques de traduction sur la totalité des paquets Fedora disponibles dans les dépôts. La dernière version de Fedora sur laquelle nous avons exécuté ce site est Fedora 36.

Quand on regarde la page de statistiques de traduction de Fedora 36, on découvre quelques métriques intéressantes :

23 028 paquets,
dont 2 203 paquets contenants des statistiques de traductions
ces traductions sont contenues dans 206 891 fichiers distincts (principalement des fichiers po).

De ces fichiers, on est capable d’extraire les statistiques suivantes :

2 820 6617 mots sont à traduire dans les paquets de Fedora 36,
342 langues sont détectées.

Il s’agit de langues au sens technique. Cela inclut des variantes régionales (PT est le portugais tel que parlé dans la majorité du monde, donc comme au Brésil, PT_PT est le portugais tel que parlé au Portugal) et variantes d’écriture (le serbo-croate prononcé en Iékavien écrit en cyrillique et le le serbo-croate prononcé en Iékavien écrit en translitération latine).

Que faire de toutes ces statistiques ?

Je souhaite représenter une mesure de santé des communautés linguistique par langue écrite dans le domaine du logiciel libre.

Accès aux données :

Utilisation des données présentes dans les paquets Fedora, majoritairement des outils de bureautique et de développement
Le site https://languages.fedoraproject.org qui expose les données générées à partir des dépôts de Fedora.
Les données sont structurées par territoires, ici https://languages.fedoraproject.org/territories/fr/
- Sur la partie droite, on voit les données pour f36 fr-French (Français), f35 fr-French (Français) etc, une page par version de Fedora
Les dates de chaque version de Fedora sont disponibles dans https://en.wikipedia.org/wiki/Fedora_Linux_release_history

Hypothèses :

L’unité d’effort en traduction est le mot. Une chaîne à traduire contient 1 à N mots.
Le nombre total de mots dans Fedora change en fonction des logiciels inclus.

** Dans le temps, un logiciel peut être ajouté à la logithèque, un logiciel peut contenir de nouvelle version, un logiciel peut être supprimé ** Dans le temps, un logiciel peut être renommé ou découper (cas à priori rare dans les données récentes, mais sur 20 ans de données, ça pourrait être classique)

Le progrès d’une langue se mesure à travers le nombre de mots
Pour un logiciel, une langue peut avoir 1 à N fichiers de traductions, selon les découpages souhaités par l’équipe de développement, et le progrès dans l’internationalisation du logiciel (on traduit d’abords l’interface graphique, puis on ajoute la documentation, etc.)

Ébauche du plan pour parvenir à mesurer la santé linguistique

Pour une langue donnée :

Démarrer par fournir un indicateur brut, avec une vision temporelle (% d’avancement sur les paquets traduits, % d’avancement sur l’ensemble de ce qui est traduisible, # de mots traduits
Créer les mêmes indicateurs sur les paquets en communs entre l’ensemble des versions de Fedora considérés
Créer les mêmes indicateurs sur un sous-ensemble de paquets, les paquets prioritaires
- La notion de priorité est subjective et polémique, je pense donc les identifier via une identification des logiciels ayant le plus de traduction (je m’attends à y retrouver les outils comme Firefox, LibreOffice, Gnome)
- Pour toutes les langues, faire des courbes de tendances, à comparer à la croissance du nombre de mot à traduire dans Fedora
si la tendance est positive et supérieure à la croissance du nombre de mots à traduire dans Fedora, alors la santé de la communauté est probablement bonne
si la tendance est positive mais inférieure à la croissance du nombre de mots à traduire dans Fedora, alors la santé de la communauté est probablement en risque
si la croissance est négative, alors la santé de la communauté est probablement en vigilance

Tout ceci va faire beaucoup de données à manipuler, mais ça me semble faisable.

Ce projet est hébergé sur Pagure, la forge créée par le projet Fedora https://pagure.io/fedora-l10n/fedora-localization-statistics

Le journal de Jibec

Mesurer l’état de santé des communautés linguistiques

Que contient languages.fedoraproject.org ?

Que faire de toutes ces statistiques ?

Ébauche du plan pour parvenir à mesurer la santé linguistique