Le projet Numerica Sinologica vise à développer des modèles OCR et HTR spécifiques aux sources historiques chinoises, en nous appuyant sur le logiciel open source kraken adossé à la plateforme eScriptorium, qui constitue un environnement ayant déjà fait ses preuves pour les écritures manuscrites latines ou encore hébraïques.
[…]
L’écriture chinoise possède des caractéristiques propres qui ont nécessité d’adapter les outils existants. La disposition verticale des lignes d’écritures pose ainsi des problèmes spécifiques de reconnaissance des lignes de texte (image du milieu, photo 1). Le chinois classique est par ailleurs composé de plus de 30 000 sinogrammes, dont certains n’apparaissent qu’à travers quelques occurrences, comparé à une centaine pour les langues alphabétiques.
Nous avons entraîné un premier modèle kraken à partir des données de la Collection Impériale des Quatre dépôts (photo 2), vaste corpus d’ouvrages compilé sur l’ordre de l’empereur Qianlong au 18ème siècle, pour lequel nous disposons à la fois de transcriptions et d’images. La collection contient en tout 3461 ouvrages, pour un total de plus de 2 millions de pages et 800 millions de caractères.
Notre premier modèle kraken, entraîné sur environ deux millions de lignes, permet de couvrir la quasi-totalité des sinogrammes existants, soit l’ensemble des caractères communément utilisés.
L’étape suivante de notre travail consiste à entraîner de nouveaux modèles sur une très grande diversité d’écritures afin de les rendre aptes non seulement à reconnaître une large palette de caractères, mais aussi un grand nombre de styles d’écritures, condition indispensable à la reconnaissance des écritures manuscrites.
[…]
Le projet Numerica Sinologica bénéficie du soutien des trois principales unités de recherche sur la Chine impériale en France, le CCJ (UMR 8173 Chine, Corée, Japon), le CRCAO (Centre de recherche sur les civilisations de l’Asie orientale, UMR 8155) et l’IAO (Institut d’Asie orientale, UMR 5062).
Les modèles sont entraînés par Colin Brisson (EPHE, CRCAO UMR 8155), Marc Bui (Paris 8, EPHE, AOrOc UMR 8546) et Frédéric Constant (Université Côte d’Azur, Ermes UPR 1198 et IAO UMR 5062).
En savoir plus sur le projet Numerica Sinologica
Partager