Internet Archive passe au logiciel libre pour numériser livres et journaux du XIXe siècle

Un journal de 1865, exemple de document que l’OCR traitait mal jusqu’à présent

Sur le blog d’Internet Archive, son cofondateur, l’informaticien Brewster Kahle, annonce qu’il n’a «jamais été aussi encouragé et reconnaissant envers les communautés libres et open source». Pourquoi cette déclaration enflammée? «Il y a trois mois, j’ai posté une demande d’aide pour le traitement en OCR [reconnaissance optique de caractères] des journaux du 19e siècle, et nous avons reçu plein d’offres d’aide. Merci, cela a été réconfortant et très concrètement utile – déjà sur la base de ces suggestions, nous sommes en train de changer complètement nos logiciels OCR et PDF en logiciels libres, en apportant de grandes améliorations et en établissant des partenariats avec les développeurs de logiciels libres, individuels et dans les entreprises, les universités, qui permettront à Internet Archive d’obtenir des textes bien mieux numérisés.»

publicité

Un logiciel libre au niveau du propriétaire

Cette migration permettra au site mémoire du Net «d’exploiter de nombreuses bibliothèques en PDF pour créer des fichiers PDF comprimés, accessibles et archivables».

Brewster Kahke explique que parmi la cinquantaine de réponses sur son blog (plus d’autres sur les réseaux sociaux) qu’il avait eu fin août, plusieurs suggéraient de recourir à OCR-D, initié par le gouvernement allemand: cet outil permet de passer en OCR des documents complexes et anciens tels que des journaux dans l’ancienne police allemande Fraktur: «Internet Archive n’en avait jamais été capable, et maintenant nous le faisons à grande échelle.» L’organisme parvient maintenant aussi à traiter plus de langues indiennes.

Appelé Tesseract (ça rappellera quelque chose aux spectateurs des «Avengers»…), ce logiciel libre avait déjà été examiné par Internet Archive il y a quelques années, mais à l’époque, il n’était pas aussi efficace que l’OCR propriétaire. Mais depuis, ses progrès l’ont mis au niveau, note l’informaticien.

«Derrière le nouveau Tesseract se trouve un moteur LSTM [“Long short-term memory”, ou réseau de neurones récurrents à mémoire court-terme et long terme] similaire à celui développé pour Ocropus2 / ocropy, qui était un projet mené par Tom Breuel (financé par Google, par son ancienne université allemande, et probablement d’autres – merci!). Il a continué à travailler sur ce projet même s’il a quitté le monde universitaire. Un programme basé sur l’apprentissage automatique nous présente le traitement basé sur un processeur graphique, ce qui est une victoire supplémentaire. Il peut également être entraîné sur des textes corrigés afin de s’améliorer.»

Jusqu’à dix fois plus rapide

Sur son billet de blog, Kahle montre un exemple d’OCR propriétaire et avec Tesseract, appliqué à un journal anti-esclavagiste de 1847 – le résultat est bien meilleur avec le logiciel libre -, et précise que «le temps qu’il faut à notre cluster pour calculer est à peu près le même, mais en ajoutant des processeurs graphiques, nous devrions être en mesure d’accélérer l’OCR et la création de PDF, peut-être dix fois. Ce serait très utile, car nous traitons des millions de pages par jour.»

L’informaticien présente les différents outils employés pour parvenir au nouveau processus, en notant qu’Internet Archive participera à l’amélioration de ces différents projets. Et il détaille «les prochaines étapes pour réaliser le rêve du Memex de Vanevar Bush, du Xanadu de Ted Nelson, du projet Gutenberg de Michael Hart, du World Wide Web de Tim Berners-Lee, de l’appel de Raj Ready pour un accès universel à toutes les connaissances (et maintenant la feuille de mission d’Internet Archive)», telles que «trouver des articles dans des périodiques et obtenir les titres / auteurs / notes de bas de page», ou encore «lier les citations de notes de bas de page à d’autres documents».

Lire aussi

Au Pôle Nord, GitHub va stocker des logiciels open source pour mille ans (minimum) – 17 novembre 2019

Vinton Cerf : l’Internet perd la mémoire (et il faut faire quelque chose) – 29 juin 2018

Don : Internet Archive reçoit un million de dollars en bitcoins – 31 décembre 2017

Leave a Reply

Your email address will not be published. Required fields are marked *