CONTEXTE & ENJEUX
L'ONDRAF est l'organisme national belge chargé de la gestion des déchets radioactifs. Dans ce secteur hautement réglementé, la cohérence et la traçabilité de la documentation technique constituent des exigences de sûreté absolues. Des centaines de rapports, spécifications, notes de conformité et fichiers d'inventaire doivent rester mutuellement cohérents à travers le temps et les révisions.
Pour relever ce défi, l'ONDRAF développe un système AutoRAG (Automated Retrieval-Augmented Generation) capable de détecter automatiquement les incohérences entre documents : contradictions factuelles, évolutions non répercutées, définitions divergentes ou données numériques incompatibles.
MISSION DU STAGIAIRE
Le·la stagiaire prendra une part active au développement et à la validation de ce système de contrôle de cohérence. Les missions principales sont :
• Pipeline : Conception et implémentation du pipeline
• ingestion et vectorisation de documents (PDF, DOCX, XML) ; indexation dans une base vectorielle (Chroma, Qdrant ou Weaviate) ; orchestration des requêtes via LangChain / LlamaIndex.
• Détection : Développement du module de détection d'incohérences
• définition d'une taxonomie d'incohérences (valeurs numériques, terminologie, statuts réglementaires, références croisées) ; conception de prompts de comparaison multi-documents ; scoring de confiance.
• Validation : Création d'un jeu de données de test
• génération de documents tests avec incohérences intentionnelles (niveaux I0–I4) ; évaluation des performances (précision, rappel, F1) sur corpus réel ONDRAF.
• Livrable final : Rapport technique et recommandations pour le déploiement en production.