Thomson Scientific : Sauver les données "perdues" pour créer un nouveau produit

schema thomson scientific

Thomson Scientific : Sauver les données "perdues"

logo thomson scientific

Application métier : Publishing

Thomson Scientific avait 49 volumes du Biological Abstracts® édités entre 1926 et 1968. Thomson Scientific voulait rendre ce contenu de nouveau accessible à partir du vocabulaire contrôlé BIOSIS pour offrir un nouveau produit à ses clients.

Problématique

..............................................................................


Solution mise en place

..............................................................................

L'approche suivante a été suivie:

  • utilisation d'un processus d'extraction des entités nommés à partir des titres et abstracts des articles pour obtenir de nouveaux candidats descripteur pour les thesaurus BIOSIS
  • alignement du vocabulaire extrait avec le vocabulaire BIOSIS
  • indexation des contenus avec un alignement entre les termes des articles le vocabulaire BIOSIS
  • Publication du nouveau produit web

Avantages ITM

..............................................................................

Principaux résultats

  • Projet mené à bien dans les délais (5 mois)
  • 1,9 million de document traités
  • Tous les contenus ont au moins été enrichi d'une indexation minimum
  • Performance de traitement : 500ms par contenu

Partenaire

..............................................................................

Intelligent Topic Manager (ITM) de MONDECA pour

  • la gestion du vocabulaire Biosis (plus de 2 millions de concepts dans 6 thésaurus)
  • la normalisation et publication des métadonnées des articles

Luxid de TEMIS pour l'extraction d'entités des documents numérisés en s'appuyant sur des "Cartouches" d'extraction et le vocabulaire BIOSIS