Aller au contenu principal

Documents avec OCR - Roadmap Globale

Date : 2026-01-24
Statut actuel : ✅ 100% Terminée (Phase 1, 2 et 3)

✅ Fonctionnalités Terminées

1. Intégration Contextuelle (100%)

  • ✅ Migration DB : session_id et contact_id ajoutés à la table documents.
  • ✅ Types TypeScript : DocumentTable et DocumentRow mis à jour.
  • ✅ Endpoints API scopés pour Sessions et Contacts.
  • ✅ UI : SessionDocumentsPanel et ContactDocumentsPanel.

2. OCR Haute Performance (100%)

  • ✅ Intégration Tesseract.js haute résolution (scale 2.0).
  • ✅ Amélioration PDF : Comptage précis des pages et extraction parallèle via Promise.all.
  • ✅ Gestion d'erreurs avancée : Détection des PDFs protégés par mot de passe ou corrompus.
  • ✅ Système de cache de document pour réduire la charge CPU/RAM.

3. Intelligence Artificielle & Extraction (100%)

  • ✅ Utilisation de OpenAI GPT pour transformer le texte OCR en JSON structuré.
  • Auto-application : Boutons intelligents pour injecter les données extraites dans les notes, lieux et dates du CRM.
  • Templates Personnalisables : Table document_extraction_templates et API CRUD pour définir ses propres schémas d'extraction.

4. Validation & Qualité (100%)

  • Validation Automatique : DocumentValidationService pour détecter les incohérences (ex: date du document vs date de session).
  • Alertes UI : Affichage visuel des avertissements et erreurs de validation.
  • Tests Automatisés : Couverture des services PDF et Validation avec Vitest.

5. Export & Notifications (100%)

  • Export Multi-format : Téléchargement des données extraites en CSV et JSON.
  • Notifications en temps réel : Alertes WebSocket et Push quand l'OCR ou l'IA ont terminé leur travail.

🏗️ Architecture Finale

Le système repose sur un pipeline asynchrone robuste :

  1. Ingestion (doc:ingest) -> Prépare les pages.
  2. OCR (doc:ocr) -> Tesseract.js (Parallélisé).
  3. Extraction (doc:extract_structured) -> OpenAI GPT (Template-based).
  4. Notification -> Alerte l'utilisateur.
  5. Validation & Export -> Contrôle humain et exploitation des données.

🧪 Stabilité

  • npm run lint passe à 100%.
  • ✅ Build Docker optimisé pour les modules natifs (canvas).
  • ✅ Tests unitaires fonctionnels.

🎯 Prochaines étapes suggérées (Hors Roadmap initiale)

  • Apprentissage continu : Permettre de corriger une donnée et d'utiliser cette correction pour affiner le prompt futur.
  • Recherche plein texte : Indexation du texte OCR dans une base vectorielle (ou ElasticSearch) pour une recherche globale.
  • Auto-classification : Détecter automatiquement le type de document (Facture, Contrat, ID) dès l'upload pour choisir le bon template.

Roadmap close le 24 Janvier 2026.