ORyX est un outil (O) de recherche (R) d’entités dans des fichiers TXT et XML (X). Le y représente une variable, un type d’entité. À ce jour, ORyX permet la détection des entités nommées.
L’idée d’ORyX est née du constat qu’il existait, pour certaines équipes de recherches (comme la PGHN de l’EHESS, ou l’ObTIC) et des projets (d’équipes comme Savoirs ou personnels) un besoin en matière de détection automatique des entités nommées dans des corpus structurés au format XML. Si la programmation (en python notamment) permet à ceux qui la maîtrisent de réaliser ce type de traitement, il nous a semblé opportun d’offrir à la communauté une interface pour le rendre accessible au plus grand nombre.
En décembre 2021, les premières réunions ont eu lieu à l’occasion d’une semaine de travail à l’université de Caen Normandie avec Carmen Brando, Edith Cannet (IR Métopes), Axel Le Roy, Damien Risterucci, Dominique Roux et les équipes du Pôle Document Numérique de la MRSH.
En 2022, après une phase de définition du besoin au premier semestre, le développement s’est poursuivi en 2023 pour permettre d’atteindre une première version du service en 2024, ouverte au public et augmentée de plusieurs fonctionnalités en 2025.
ORyX propose également une version interrogeable via une API, dans une logique orientée service. Il est donc possible d’intégrer ORyX dans une application tiers ou une chaine de traitement. L’équipe travaille actuellement au développement d’une interface dans l’éditeur XmlMind, afin que les utilisateurs puissent utiliser ce service directement depuis leur logiciel d’édition XML.
ORyX a bénéficié du stage d’Alex Soarez (alors étudiant en Master 2 TNAH de l’École nationale des chartes) dirigé par Carmen Brando en 2021. Réalisé en lien avec l’équipe éditoriale du projet Savoirs et au sein de la PGHN de l’EHESS, ce stage portait sur « La reconnaissance des entités nommées dans une bibliothèque numérique sur l’Histoire et l’Anthropologie des sciences et des savoirs ».
Toute la documentation du projet est disponible dans le WIKI du dépôt GitLab d’ORyX.
••••••••••••••••••••••••••••••••••••••••••••••••••••••
ORyX is a tool for searching for entities in TXT and XML files. To date, ORyX allows the detection of named entities.
The idea for ORyX arose from the realization that certain research teams (such as PGHN at EHESS, or ObTIC at Sorbonne Université) and projects (such as Savoirs or PhDs) had a need for automatic detection of named entities in structured corpora in XML format. While programming (in Python in particular) enables those who have mastered it to carry out this type of processing, it seemed appropriate to offer the community an interface to make it accessible to as many people as possible.
**In December 2021, the first meetings took place at the University of Caen Normandie with Carmen Brando, Edith Cannet (IR Métopes), Axel Le Roy, Damien Risterucci, Dominique Roux and the Pôle Document Numérique teams (MRSH).
In 2022, after a needs definition phase in the first half of the year, development continued in 2023, leading to a first version of the service in 2024, open to the public and enhanced with several functionalities in 2025.
ORyX also offers a queryable version via an API, in a service-oriented logic. This makes it possible to integrate ORyX into a third-party application or processing chain. The team is currently developing an interface in the XmlMind editor, so that users can use this service directly from their XML editing software.
ORyX benefited from Alex Soarez’s internship (a student in Master 2 TNAH at the École nationale des chartes at this time) directed by Carmen Brando in 2021. Carried out in conjunction with the editorial team of the Savoirs project and within the PGHN of EHESS, this internship focused on “The recognition of named entities in a digital library on the History and Anthropology of Science and Knowledge”.
All project documentation is available in the WIKI of the ORyX GitLab repository.