IngénierieData EngineeringVision & NLP

EGIS
Extraction documentaire pour le nucléaire

Mission de R&D et de data engineering pour Egis, dans le contexte de projets de construction nucléaire au Royaume-Uni (site Hinkley Point C / EDF). Deux volets livrés sous forme de notebooks Python.

Mission R&D — extraction documentaire · 2023-2024

PDF → données

extraction automatisée

OCR + Vision

plans techniques

NLP

mots-clés & résumés

Nucléaire

Hinkley Point C

Le problème

Des milliers de documents et de plans à structurer

Sur un chantier nucléaire de grande ampleur, les échanges documentaires (QUAN) et les plans techniques s'accumulent en volume massif. Les extraire et les structurer manuellement est lent et coûteux. Il fallait automatiser l'extraction d'information depuis des PDF techniques hétérogènes.

Volume documentaire massif

Sur un chantier nucléaire de grande ampleur, les échanges documentaires (QUAN) entre Egis et EDF s'accumulent en volume massif, trimestre après trimestre.

PDF techniques hétérogènes

Les plans techniques et les documents structurés doivent être extraits et mis en forme manuellement — un travail lent et coûteux sur des PDF de natures très différentes.

Information à structurer

Il fallait automatiser l'extraction d'information depuis ces PDF hétérogènes pour transformer des échanges et des plans bruts en données exploitables.

Mission R&D livrée par Selego sous forme de notebooks Python
La solution

Deux volets de traitement documentaire

Deux notebooks Python autonomes : l'un pour les échanges QUAN, l'autre pour les plans de charge.

01

Extraction automatique de QUAN

Parsing automatique de documents PDF très structurés — les échanges questions / réponses entre Egis et EDF. Extraction des métadonnées (expéditeur, destinataire, code PBS, référence, pièces jointes, questions, réponses), puis enrichissement par mots-clés (TF-IDF) et résumés automatiques (transformers).

02

Analyse de plans de charge (Load Drawings)

Traitement de plans d'étage PDF pour segmenter automatiquement les pièces et associer leurs annotations de charge : conversion PDF → image (PyMuPDF), filtrage chromatique (OpenCV), détection de zones de texte, OCR (pytesseract) et association spatiale. Exploration de segmentation par Mask R-CNN / Faster R-CNN (detectron2).

Impact client

Du PDF brut à l'information structurée

Une chaîne de traitement reproductible qui transforme documents et plans en données exploitables.

MétriqueAvantAprèsGain
Extraction des QUANLecture manuelleParsing automatiqueMétadonnées extraites
EnrichissementAucunMots-clés & résumésTF-IDF + transformers
Plans de chargeAnnotation manuelleSegmentation autoPièces détectées
Chaîne de traitementPDF brutInformation structuréePipeline reproductible
Extraction et segmentation automatisées sur PDF techniques
Architecture technique

Stack & Outils

PDF & Données

Python 3 / Jupyter Notebooks
pypdf, PyPDF2
tabula-py (extraction de tables)
pandas
matplotlib

Vision & OCR

OpenCV (filtrage chromatique)
PyMuPDF (PDF → image)
Pillow
pytesseract (OCR)
detectron2 — Mask R-CNN / Faster R-CNN (exploratoire)

ML & NLP

scikit-learn — TF-IDF
HuggingFace transformers
Résumés automatiques
Extraction de mots-clés
Association spatiale texte / zones

Une montagne de PDF à exploiter ?

Parlons de votre projet data

Extraction documentaire, OCR & vision, NLP — nous concevons des chaînes de traitement qui transforment vos documents techniques en données structurées et exploitables.