Accueil Profils disponibles Modèles disponibles Suivre une tâche À propos
Drapeau français
Drapeau français Français Drapeau anglais Anglais
Administration

[English below]

Historique du projet

ORyX est un outil (O) de recherche (R) d’entités dans des fichiers TXT et XML (X). Le y représente une variable, un type d’entité. À ce jour, ORyX permet la détection des entités nommées.

L’idée d’ORyX est née du constat qu’il existait, pour certaines équipes de recherches (comme la PGHN de l’EHESS, ou l’ObTIC) et des projets (d’équipes comme Savoirs ou personnels) un besoin en matière de détection automatique des entités nommées dans des corpus structurés au format XML. Si la programmation (en python notamment) permet à ceux qui la maîtrisent de réaliser ce type de traitement, il nous a semblé opportun d’offrir à la communauté une interface pour le rendre accessible au plus grand nombre.

En décembre 2021, les premières réunions ont eu lieu à l’occasion d’une semaine de travail à l’université de Caen Normandie avec Carmen Brando, Edith Cannet (IR Métopes), Axel Le Roy, Damien Risterucci, Dominique Roux et les équipes du Pôle Document Numérique de la MRSH.

En 2022, après une phase de définition du besoin au premier semestre, le développement s’est poursuivi en 2023 pour permettre d’atteindre une première version du service en 2024, ouverte au public et augmentée de plusieurs fonctionnalités en 2025.

ORyX propose également une version interrogeable via une API, dans une logique orientée service. Il est donc possible d’intégrer ORyX dans une application tiers ou une chaine de traitement. L’équipe travaille actuellement au développement d’une interface dans l’éditeur XmlMind, afin que les utilisateurs puissent utiliser ce service directement depuis leur logiciel d’édition XML.

ORyX a bénéficié du stage d’Alex Soarez (alors étudiant en Master 2 TNAH de l’École nationale des chartes) dirigé par Carmen Brando en 2021. Réalisé en lien avec l’équipe éditoriale du projet Savoirs et au sein de la PGHN de l’EHESS, ce stage portait sur « La reconnaissance des entités nommées dans une bibliothèque numérique sur l’Histoire et l’Anthropologie des sciences et des savoirs ».

Documentation

Toute la documentation du projet est disponible dans le WIKI du dépôt GitLab d’ORyX.

Crédits et contacts

Coordination :

  • Carmen Brando (EHESS/CRH/PGHN) : carmen.brando@ehess.fr
  • Edith Cannet (Université de Caen/Métopes-PDN) : edith.cannet@unicaen.fr
  • Axel Le Roy (Sorbonne Université/ObTIC) : axel.le_roy@sorbonne-universite.fr

Développement :

  • Damien Risterucci
  • Imagile

Financement :

  • Infrastructure de Recherche Métopes
  • LabEX Hastec, EPHE-PSL
  • DSI de l’EHESS

Hébergement :

  • Le projet est hébergé par Huma-Num, une infrastructure de recherche dédiée aux disciplines des lettres, sciences humaines et sociales et aux humanités numériques.

Ils utilisent ORyX : les projets amis

  • Savoirs
  • FNSO TopEditor

Références

  • Pandore-Toolbox ;
  • WebAnno ;
  • Spacy (exemples) ;
  • recogito2 ;
  • tei-publisher-net : API pour encoder des entités nommées ;
  • Bilbo2.

••••••••••••••••••••••••••••••••••••••••••••••••••••••

About (english version)

Project history

ORyX is a tool for searching for entities in TXT and XML files. To date, ORyX allows the detection of named entities.

The idea for ORyX arose from the realization that certain research teams (such as PGHN at EHESS, or ObTIC at Sorbonne Université) and projects (such as Savoirs or PhDs) had a need for automatic detection of named entities in structured corpora in XML format. While programming (in Python in particular) enables those who have mastered it to carry out this type of processing, it seemed appropriate to offer the community an interface to make it accessible to as many people as possible.

**In December 2021, the first meetings took place at the University of Caen Normandie with Carmen Brando, Edith Cannet (IR Métopes), Axel Le Roy, Damien Risterucci, Dominique Roux and the Pôle Document Numérique teams (MRSH).

In 2022, after a needs definition phase in the first half of the year, development continued in 2023, leading to a first version of the service in 2024, open to the public and enhanced with several functionalities in 2025.

ORyX also offers a queryable version via an API, in a service-oriented logic. This makes it possible to integrate ORyX into a third-party application or processing chain. The team is currently developing an interface in the XmlMind editor, so that users can use this service directly from their XML editing software.

ORyX benefited from Alex Soarez’s internship (a student in Master 2 TNAH at the École nationale des chartes at this time) directed by Carmen Brando in 2021. Carried out in conjunction with the editorial team of the Savoirs project and within the PGHN of EHESS, this internship focused on “The recognition of named entities in a digital library on the History and Anthropology of Science and Knowledge”.

Documentation

All project documentation is available in the WIKI of the ORyX GitLab repository.

Credits and contacts

Coordination:

  • Carmen Brando (EHESS/CRH/PGHN) : carmen.brando@ehess.fr
  • Edith Cannet (Université de Caen/Métopes-PDN) : edith.cannet@unicaen.fr
  • Axel Le Roy (Sorbonne Université/ObTIC) : axel.le_roy@sorbonne-universite.fr

Development:

  • Damien Risterucci
  • Imagile

Financing:

  • Infrastructure de Recherche Métopes
  • LabEX Hastec, EPHE-PSL
  • DSI de l’EHESS

Website hosting:

  • The project is hosted by Huma-Num, a research infrastructure dedicated to the humanities, social sciences and digital humanities.

They’re using ORyX: friendly projects

  • Savoirs
  • FNSO TopEditor

References

  • Pandore-Toolbox ;
  • WebAnno ;
  • Spacy (exemples) ;
  • recogito2 ;
  • tei-publisher-net : API pour encoder des entités nommées ;
  • Bilbo2.

Conception : Carmen Brando (EHESS), Edith Cannet (IR Métopes, CNRS/Université de Caen Normandie) et Axel Le Roy (Sorbonne Université/ObTIC).
Développement : Damien Risterucci et Imagile.

Logo de Humanum
Logo du projet Savoirs
Logo de la Plateforme géomatique et humanités numériques
Logo de l'EHESS
Logo de Métopes
Logo de l'université de Caen
Logo de l'Observatoire des Textes, des Idées et des Corpus
Logo de Sorbonne Université
Logo de Humanum