EGIS
Extraction documentaire pour le nucléaire
Mission de R&D et de data engineering pour Egis, dans le contexte de projets de construction nucléaire au Royaume-Uni (site Hinkley Point C / EDF). Deux volets livrés sous forme de notebooks Python.
Mission R&D — extraction documentaire · 2023-2024
extraction automatisée
plans techniques
mots-clés & résumés
Hinkley Point C
Des milliers de documents
et de plans à structurer
Sur un chantier nucléaire de grande ampleur, les échanges documentaires (QUAN) et les plans techniques s'accumulent en volume massif. Les extraire et les structurer manuellement est lent et coûteux. Il fallait automatiser l'extraction d'information depuis des PDF techniques hétérogènes.
Volume documentaire massif
Sur un chantier nucléaire de grande ampleur, les échanges documentaires (QUAN) entre Egis et EDF s'accumulent en volume massif, trimestre après trimestre.
PDF techniques hétérogènes
Les plans techniques et les documents structurés doivent être extraits et mis en forme manuellement — un travail lent et coûteux sur des PDF de natures très différentes.
Information à structurer
Il fallait automatiser l'extraction d'information depuis ces PDF hétérogènes pour transformer des échanges et des plans bruts en données exploitables.
Deux volets de traitement documentaire
Deux notebooks Python autonomes : l'un pour les échanges QUAN, l'autre pour les plans de charge.
Extraction automatique de QUAN
Parsing automatique de documents PDF très structurés — les échanges questions / réponses entre Egis et EDF. Extraction des métadonnées (expéditeur, destinataire, code PBS, référence, pièces jointes, questions, réponses), puis enrichissement par mots-clés (TF-IDF) et résumés automatiques (transformers).
Analyse de plans de charge (Load Drawings)
Traitement de plans d'étage PDF pour segmenter automatiquement les pièces et associer leurs annotations de charge : conversion PDF → image (PyMuPDF), filtrage chromatique (OpenCV), détection de zones de texte, OCR (pytesseract) et association spatiale. Exploration de segmentation par Mask R-CNN / Faster R-CNN (detectron2).
Du PDF brut à l'information structurée
Une chaîne de traitement reproductible qui transforme documents et plans en données exploitables.
Stack & Outils
PDF & Données
Vision & OCR
ML & NLP
Une montagne de PDF à exploiter ?
Parlons de votre projet data
Extraction documentaire, OCR & vision, NLP — nous concevons des chaînes de traitement qui transforment vos documents techniques en données structurées et exploitables.