schema thomson scientific

Sauver les données "perdues"


pour créer un nouveau produit

Thomson Scientific : Sauver les données "perdues"

logo thomson scientific

Application métier : Publishing

Thomson Scientific avait 49 volumes du Biological Abstracts® édités entre 1926 et 1968. Thomson Scientific voulait rendre ce contenu de nouveau accessible à partir du vocabulaire contrôlé BIOSIS pour offrir un nouveau produit à ses clients.

Problématique

Solution mise en place

L'approche suivante a été suivie:

  • utilisation d'un processus d'extraction des entités nommés à partir des titres et abstracts des articles pour obtenir de nouveaux candidats descripteur pour les thesaurus BIOSIS
  • alignement du vocabulaire extrait avec le vocabulaire BIOSIS
  • indexation des contenus avec un alignement entre les termes des articles le vocabulaire BIOSIS
  • Publication du nouveau produit web

Avantages ITM

Principaux résultats

  • Projet mené à bien dans les délais (5 mois)
  • 1,9 million de document traités
  • Tous les contenus ont au moins été enrichi d'une indexation minimum
  • Performance de traitement : 500ms par contenu
TS-A6035-1_BIOSIS-Archive-Aug7.pdf Thomson_Scientific_Miller.pdf

Partenaire

Intelligent Topic Manager (ITM) de MONDECA pour

  • la gestion du vocabulaire Biosis (plus de 2 millions de concepts dans 6 thésaurus)
  • la normalisation et publication des métadonnées des articles

Luxid de TEMIS pour l'extraction d'entités des documents numérisés en s'appuyant sur des "Cartouches" d'extraction et le vocabulaire BIOSIS

> Tous les projets