14 millions d’images du domaine public mises en ligne par Internet Archive ! Prêt à remixer ?

, par aKa

« La numérisation se focalise sur le texte et néglige souvent les images. »

Nous nous en faisons régulièrement l’écho pour nous en féliciter : de plus en plus de livres du domaine public sont numérisés et, à ce titre, Internet Archive constitue sans conteste l’un des plus gros dépôts au monde.

Cette numérisation gagne chaque année en intelligence, avec notamment le renseignement des métadonnées et les possibilités de la recherche plein texte qui facilitent leur consultation.
Mais il n’en va pas toujours de même pour les nombreuses illustrations (croquis, dessins, cartes, photographies...) qui accompagnent ces ouvrages. Elles sont en effet trop souvent liées aux livres qui les contiennent, peuvent ne pas avoir de légende et échappent aux finesses de l’OCR.

D’où l’idée brillante de l’universitaire Kalev Leetaru de développer une application pour aller chercher les images des quelque 600 millions de pages des livres de la bibliothèque numérique d’Internet Archive pour les extraire et les indexer séparément dans un espace dédié, en l’occurrence la plateforme Flickr.
Le projet prévoit d’en télécharger 14 millions et nous en sommes déjà à 2,6 millions !

Un soin tout particulier a été apporté aux éléments connexes à l’image permettant de l’identifier et de la trouver plus facilement. Sur cet exemple, révélant par ailleurs que les chatons ont existé avant Internet, on peut ainsi constater la présence de nombreuses informations en bas du document.

Titre, auteur, date, éditeur, catégories, tags, texte du livre parent apparaissant juste avant et juste après l’image... sont autant de données utiles à son référencement. Sans oublier bien sûr des liens permettant de consulter intégralement, sur Internet Archive, le livre numérique d’où est extraite l’illustration.

Du coup si vous voulez d’autres illustrations du même livre c’est ici ou, plus généralement, de livres édités en 1907, c’est . Quant aux chats de tout Internet Archive, il suffit de suivre ce lien ;)

Une véritable mine d’or ! Vous êtes enseignant, étudiant, chercheur, passionné d’histoire des arts et des sciences et vous cherchez à illustrer votre travail sur Léonard de Vinci ? Vous souhaitez intégrer les œuvres du génie florentin dans vos propres remix et mashup ? Pensez désormais à Flickr et son moteur de recherche restreint au contenu iconographique d’Internet Archive !

Elles sont à disposition de tous sous la mention « Aucune restriction de droits d’auteur connue », ce qui signifie qu’elles appartiennent toutes au domaine public [1].

Demain on développe un tel outil pour Gallica ?

Voir en ligne : Internet Archive Book Images

Notes

[1Sauf ayants droit qui viendraient tout d’un coup poser réclamation, ce qui ne peut être le cas que pour des ouvrages relativement récents.

@RomaineLubrique

« Domaine Public »

Mots-clés