Abstract Wikipedia: un projet de traductions de l’encyclopédie depuis sa base de données

 

Les langues les plus représentées, en nombre d’articles, dans Wikipédia (les chiffres ne sont pas à jour, voir là pour les nombres actuels)

Wikipédia est l’encyclopédie libre que tout le monde connaît, créée en 2001, mais dans son sillage il y a aussi des projets moins connus du grand public comme Wikimedia Commons (sa formidable médiathèque d’images, sons etc. – actuellement 62 millions de fichiers),la bibliothèque Wikisource, le Wiktionnaire, etc. Tous sont hébergés et soutenus par la fondation Wikimedia, organisme américain à but non lucratif. Sa directrice générale Katherine Maher vient d’annoncer un nouveau projet, le premier lancé depuis sept ans, Abstract Wikipedia – maladroitement traduit en français «Wikipédia Abstraite», là où cet «abstract» semblerait plutôt rendu par «résumé».

publicité

Trop peu de passerelles entre langues

Parmi les 300 langues de l’encyclopédie, totalisant 54 millions d’articles, il y a d’énormes disparités – la version en anglais compte 6,111 millions d’articles et 18 langues ont plus d’un million d’articles. Surtout, on constate souvent que certains articles n’existent que dans une ou quelques langues (typiquement, celle du pays concerné s’il s’agit d’une collectivité ou d’un concept lié à ce pays), et restent donc ignorés des lecteurs des autres versions.

Denny Vrandecic, concepteur d’Abstract Wikipedia, soulignait en avril qu’un tiers seulement de tous les sujets contenus dans Wikipédia ont un article en anglais. La moitié seulement des articles en allemand ont un équivalent en anglais. «Il y a d’énormes quantités de connaissances là inaccessibles pour les lecteurs ne lisant qu’une ou deux langues.»

Pour tenter d’améliorer cette situation, Abstract Wikipedia «propose une nouvelle manière de générer du contenu encyclopédique à enrichir de manière indépendante de la langue, ce qui permettra à davantage de contributeurs et de lecteurs de partager davantage de connaissances dans plus de langues. C’est une approche qui vise à créer une coopération entre les communautés quelle que soit leur langue.»

Proposé par Denny Vrandecic en mai 2020 «après des années de préparation et de recherche, débouchant sur un plan détaillé et des discussions animées dans les communautés Wikimedia», le projet s’appuie sur Wikidata, la base de données commune des projets Wikimedia.

En employant les briques de base de ces données (sur un personnage célèbre, la base inclut par exemple en principe ses dates et lieux de naissance et de mort, son métier ou sa fonction, sa nationalité etc.), Abstract Wikipedia ambitionne de permettre de créer des articles, ou au moins leur version résumée (d’où son nom), à partir du squelette d’informations que présente Wikidata. «Si cela réussit, explique Katherine Maher, cela pourrait permettre à tout le monde de lire des articles sur n’importe quel sujet de Wikidata dans sa propre langue.»

Permettre des mises à jour rapides

Denny Vrandecic – Croatien ayant étudié l’informatique en Allemagne et jusqu’à présent salarié de Google – rejoint ce mois-ci la Wikimedia Foundation pour diriger l’initiative. Il a auparavant été entre autres salarié de Wikimedia Allemagne (un des chapitres nationaux qui soutiennent l’encyclopédie collaborative et les projets associés) et administrateur de la Wikimedia Foundation.

En avril, son projet – alors sous le nom provisoire de Wikilambda – était présenté dans le journal The Signpost sur les activités wikipédiennes (avec un lien vers sa version plus complète, de 22 pages). Denny Vrandecic y rappelait qu’outre leur nombre insuffisant, les traductions ne sont souvent pas de même longueur – un article très long dans une langue n’existe parfois que comme ébauche dans une autre -, et leur mise à jour peut être très lente. Il citait le cas du nouveau maire de San Francisco, mentionné 9 mois après seulement dans 24 langues tandis que 64 autres langues n’étaient pas à jour (un Français pensera aussi aux nombreux changements survenus ces derniers temps chez nous en matière de maires 🙂 – allons voir les articles sur Marseille dans les jours et semaines à venir, par exemple).

Un article incluant ce type d’information à partir de Wikidata pourra être bien plus rapidement à jour que ceux uniquement actualisés «à la main» par les contributeurs bénévoles de l’encyclopédie. Abstract Wikipedia nécessitera pour cela d’écrire en fonctions (évidemment converties en langage courant) des descriptions standard. Un gros chantier de code en perspective, à la hauteur de ce projet babélien.

Lire aussi

L’audience de Wikipédia augmente, les infox circulent: et si on apprenait à contribuer? – 2 avril 2020

Incendie de Notre-Dame: Wikipédia a sonné le tocsin – 21 avril 2019

Wikipédia en français atteint 2 millions d’articles – 9 juillet 2018

La médiathèque de Wikipédia dépasse 30 millions de fichiers libres – 13 janvier 2016

Leave a Reply

Your email address will not be published. Required fields are marked *