IngénierieData EngineeringVision & NLP

EGIS
Extraction documentaire pour le nucléaire

Mission de R&D et de data engineering pour Egis, dans le contexte de projets de construction nucléaire au Royaume-Uni (site Hinkley Point C / EDF). Deux volets livrés sous forme de notebooks Python.

Mission R&D — extraction documentaire · 2023-2024

PDF → données

extraction automatisée

OCR + Vision

plans techniques

NLP

mots-clés & résumés

Nucléaire

Hinkley Point C

Le problème

Des milliers de documents
et de plans à structurer

Sur un chantier nucléaire de grande ampleur, les échanges documentaires (QUAN) et les plans techniques s'accumulent en volume massif. Les extraire et les structurer manuellement est lent et coûteux. Il fallait automatiser l'extraction d'information depuis des PDF techniques hétérogènes.

Volume documentaire massif

Sur un chantier nucléaire de grande ampleur, les échanges documentaires (QUAN) entre Egis et EDF s'accumulent en volume massif, trimestre après trimestre.

PDF techniques hétérogènes

Les plans techniques et les documents structurés doivent être extraits et mis en forme manuellement — un travail lent et coûteux sur des PDF de natures très différentes.

Information à structurer

Il fallait automatiser l'extraction d'information depuis ces PDF hétérogènes pour transformer des échanges et des plans bruts en données exploitables.

Mission R&D livrée par Selego sous forme de notebooks Python

La solution

Deux volets de traitement documentaire

Deux notebooks Python autonomes : l'un pour les échanges QUAN, l'autre pour les plans de charge.

Extraction automatique de QUAN

Parsing automatique de documents PDF très structurés — les échanges questions / réponses entre Egis et EDF. Extraction des métadonnées (expéditeur, destinataire, code PBS, référence, pièces jointes, questions, réponses), puis enrichissement par mots-clés (TF-IDF) et résumés automatiques (transformers).

Analyse de plans de charge (Load Drawings)

Traitement de plans d'étage PDF pour segmenter automatiquement les pièces et associer leurs annotations de charge : conversion PDF → image (PyMuPDF), filtrage chromatique (OpenCV), détection de zones de texte, OCR (pytesseract) et association spatiale. Exploration de segmentation par Mask R-CNN / Faster R-CNN (detectron2).

Impact client

Du PDF brut à l'information structurée

Une chaîne de traitement reproductible qui transforme documents et plans en données exploitables.

MétriqueAvantAprèsGain

Extraction des QUANLecture manuelleParsing automatiqueMétadonnées extraites

EnrichissementAucunMots-clés & résumésTF-IDF + transformers

Plans de chargeAnnotation manuelleSegmentation autoPièces détectées

Chaîne de traitementPDF brutInformation structuréePipeline reproductible

Extraction et segmentation automatisées sur PDF techniques

Architecture technique

Stack & Outils

PDF & Données

Python 3 / Jupyter Notebooks

pypdf, PyPDF2

tabula-py (extraction de tables)

pandas

matplotlib

Vision & OCR

OpenCV (filtrage chromatique)

PyMuPDF (PDF → image)

Pillow

pytesseract (OCR)

detectron2 — Mask R-CNN / Faster R-CNN (exploratoire)

ML & NLP

scikit-learn — TF-IDF

HuggingFace transformers

Résumés automatiques

Extraction de mots-clés

Association spatiale texte / zones

Une montagne de PDF à exploiter ?

Parlons de votre projet data

Extraction documentaire, OCR & vision, NLP — nous concevons des chaînes de traitement qui transforment vos documents techniques en données structurées et exploitables.

Discuter de votre projet Voir toutes nos références

EGIS
Extraction documentaire pour le nucléaire

Des milliers de documents
et de plans à structurer

Volume documentaire massif

PDF techniques hétérogènes

Information à structurer

Deux volets de traitement documentaire

Extraction automatique de QUAN

Analyse de plans de charge (Load Drawings)

Du PDF brut à l'information structurée

Stack & Outils

PDF & Données

Vision & OCR

ML & NLP

Parlons de votre projet data

Références similaires

SNU

EMEIS

MANO

API Engagement

EGISExtraction documentaire pour le nucléaire

Des milliers de documents et de plans à structurer

Volume documentaire massif

PDF techniques hétérogènes

Information à structurer

Deux volets de traitement documentaire

Extraction automatique de QUAN

Analyse de plans de charge (Load Drawings)

Du PDF brut à l'information structurée

Stack & Outils

PDF & Données

Vision & OCR

ML & NLP

Parlons de votre projet data

Références similaires

SNU

EMEIS

MANO

API Engagement

EGIS
Extraction documentaire pour le nucléaire

Des milliers de documents
et de plans à structurer