Ce projet se concentre exclusivement sur la détection des anomalies structurelles et sémantiques dans les documents contractuels, en utilisant des techniques avancées de segmentation, réduction dimensionnelle et clustering.
Ce projet se concentre exclusivement sur la détection des anomalies structurelles et sémantiques dans les documents contractuels, en utilisant des techniques avancées de segmentation, réduction dimensionnelle et clustering.
Ce projet consiste à comparer notre approche d'extraction de texte basée sur Tesseract à GOT-OCR2.0 sur un corpus de documents juridiques expérimentaux. L'objectif est de mesurer la précision, le rappel et la cohérence de l'extraction de texte.
Développer un modèle pour découper automatiquement les documents contractuels en éléments distincts (en-têtes, pieds de page, blocs de texte, images).
Ce projet vise à développer une méthode hybride pour détecter automatiquement les anomalies structurelles et sémantiques dans les contrats juridiques. Il s'appuie sur une segmentation physique et logique des documents, combinée à une analyse sémantique fine à l'aide de modèles de plongement.