Documents avec OCR - Roadmap Globale
Date : 2026-01-24
Statut actuel : ✅ 100% Terminée (Phase 1, 2 et 3)
✅ Fonctionnalités Terminées
1. Intégration Contextuelle (100%)
- ✅ Migration DB :
session_idetcontact_idajoutés à la tabledocuments. - ✅ Types TypeScript :
DocumentTableetDocumentRowmis à jour. - ✅ Endpoints API scopés pour Sessions et Contacts.
- ✅ UI :
SessionDocumentsPaneletContactDocumentsPanel.
2. OCR Haute Performance (100%)
- ✅ Intégration Tesseract.js haute résolution (scale 2.0).
- ✅ Amélioration PDF : Comptage précis des pages et extraction parallèle via
Promise.all. - ✅ Gestion d'erreurs avancée : Détection des PDFs protégés par mot de passe ou corrompus.
- ✅ Système de cache de document pour réduire la charge CPU/RAM.
3. Intelligence Artificielle & Extraction (100%)
- ✅ Utilisation de OpenAI GPT pour transformer le texte OCR en JSON structuré.
- ✅ Auto-application : Boutons intelligents pour injecter les données extraites dans les notes, lieux et dates du CRM.
- ✅ Templates Personnalisables : Table
document_extraction_templateset API CRUD pour définir ses propres schémas d'extraction.
4. Validation & Qualité (100%)
- ✅ Validation Automatique :
DocumentValidationServicepour détecter les incohérences (ex: date du document vs date de session). - ✅ Alertes UI : Affichage visuel des avertissements et erreurs de validation.
- ✅ Tests Automatisés : Couverture des services PDF et Validation avec Vitest.
5. Export & Notifications (100%)
- ✅ Export Multi-format : Téléchargement des données extraites en CSV et JSON.
- ✅ Notifications en temps réel : Alertes WebSocket et Push quand l'OCR ou l'IA ont terminé leur travail.
🏗️ Architecture Finale
Le système repose sur un pipeline asynchrone robuste :
- Ingestion (
doc:ingest) -> Prépare les pages. - OCR (
doc:ocr) -> Tesseract.js (Parallélisé). - Extraction (
doc:extract_structured) -> OpenAI GPT (Template-based). - Notification -> Alerte l'utilisateur.
- Validation & Export -> Contrôle humain et exploitation des données.
🧪 Stabilité
- ✅
npm run lintpasse à 100%. - ✅ Build Docker optimisé pour les modules natifs (
canvas). - ✅ Tests unitaires fonctionnels.
🎯 Prochaines étapes suggérées (Hors Roadmap initiale)
- Apprentissage continu : Permettre de corriger une donnée et d'utiliser cette correction pour affiner le prompt futur.
- Recherche plein texte : Indexation du texte OCR dans une base vectorielle (ou ElasticSearch) pour une recherche globale.
- Auto-classification : Détecter automatiquement le type de document (Facture, Contrat, ID) dès l'upload pour choisir le bon template.
Roadmap close le 24 Janvier 2026.