Thomson Scientific : Sauver les données "perdues"
Application métier : Publishing
Thomson Scientific avait 49 volumes du Biological Abstracts® édités entre 1926 et 1968. Thomson Scientific voulait rendre ce contenu de nouveau accessible à partir du vocabulaire contrôlé BIOSIS pour offrir un nouveau produit à ses clients.
Problématique
Solution mise en place
L'approche suivante a été suivie:
- utilisation d'un processus d'extraction des entités nommés à partir des titres et abstracts des articles pour obtenir de nouveaux candidats descripteur pour les thesaurus BIOSIS
- alignement du vocabulaire extrait avec le vocabulaire BIOSIS
- indexation des contenus avec un alignement entre les termes des articles le vocabulaire BIOSIS
- Publication du nouveau produit web
Avantages ITM
Principaux résultats
- Projet mené à bien dans les délais (5 mois)
- 1,9 million de document traités
- Tous les contenus ont au moins été enrichi d'une indexation minimum
- Performance de traitement : 500ms par contenu
Partenaire
Intelligent Topic Manager (ITM) de MONDECA pour
- la gestion du vocabulaire Biosis (plus de 2 millions de concepts dans 6 thésaurus)
- la normalisation et publication des métadonnées des articles
Luxid de TEMIS pour l'extraction d'entités des documents numérisés en s'appuyant sur des "Cartouches" d'extraction et le vocabulaire BIOSIS
> Tous les projets
