Traitement des formulaires
PixEdit (version OCR) permet d’extraire des informations d’un document scanné (comme un formulaire de réponse), de décoder les zones définies par l’utilisateur en vue d’en obtenir des chaînes de caractères pour des traitements spécifiques (avec Microsoft Excel, par exemple, ou avec tout système de gestion de base de données). L’utilisateur peut aussi bien extraire les données de fichiers existants, que des fichiers issus d’un scannage réseau ou de son propre scanner de bureau. Les documents fichiers multipages sont traités comme les documents ne comportant qu’une page, qu’ils soient en Noir & Blanc ou qu’ils soient en couleur. Si le volume des documents fichiers à traiter est considérable, plusieurs postes de travail équipés de PixEdit peuvent exploiter les documents accumulés dans un même répertoire, la gestion des accès et des conflits étant prise en charge.
Le traitement des formulaires constitue un « process » : le point de départ est constitué par un formulaire vierge imprimé sur papier, comportant des zones à remplir, des cases à cocher. Ce formulaire est distribué puis retourné rempli (ou complété, renseigné) à l’enquêteur qui peut l’exploiter à sa manière
N.B. Il n’y a pas toujours de formulaire papier vierge au début du « process » : les documents produits par un système informatique - factures par exemple - comportent des variables (à extraire) surajoutées à un document comportant des parties fixes, le tout étant imprimé en une seule passe.
PixEdit apporte un appui à l’exploitation de ces documents : le formulaire renseigné est scanné avec PixEdit. Le document scanné est alors utilisé pour créer un masque (ou formulaire maître) qui définit les zones contenant les réponses attendues par l’enquêteur, c’est à dire les zones à décoder, qui contiennent des données à extraire du formulaire. L’application PixEdit met alors en œuvre le moteur OCR (reconnaissance optique de caractères) pour produire les données décodées (extraites) exploitables avec une application comme Excel ou un gestionnaire de base de données. Un champ (ou colonne dans Excel) correspond à une zone décodée.
Avant l’extraction (ou décodage) de données du formulaire, il est nécessaire de définir la position des données à extraire du fichier scanné ainsi que leur type : nombres, texte, codes-barres ou case à cocher. Il est possible de définir autant de formulaires (ou masques) que de besoin. Les formulaires dessinés et enregistrés peuvent être modifiés ultérieurement.
Pour améliorer la reconnaissance des données, il est possible de définir des repères de positionnement. Ces repères permettront à l’application de redresser l’image scannée afin de faire coïncider les données à décoder avec leur emplacement attendu. Ces repères peuvent être constitués par tout graphisme stable correspondant au formulaire vierge. De plus, pour améliorer l’efficacité de l’extraction des données, des colorations jugées superflues peuvent être retirées du document scanné. La couleur est souvent utilisée dans les formulaires afin de faciliter leur utilisation, mais elle peut brider le processus de reconnaissance des caractères. La suppression des couleurs inutiles améliore les performances du moteur OCR et allège la taille des fichiers à conserver.
Les formulaires (masques) décrivent la position et le type des zones (ou cases) à décoder : nombre maximal de chiffres à accepter, etc. pour que l’application PixEdit puisse émettre un message d’alerte en cas d’incohérence.
Définition et création des formulaires
Avant de définir un formulaire, il faut afficher la barre d’outils Traitement de formulaire.
Barre d’outil Traitement de formulaire
Cliquer sur le bouton Nouveau formulaire. Dans la boite de dialogue, sélectionner l’emplacement où enregistrer le formulaire. Sélectionner un scanner ou sélectionner le document fichier ouvert, ou encore procéder au scannage d’un document. L’application PixEdit lance alors le redressement automatique de l’image et l’enregistre. Prendre soin de garder affichée la barre d’outil générale. Si nécessaire appuyer sur la touche F10 pour l’obtenir.
Comment définir les Champs du formulaire
Le document support du formulaire étant affiché, commencer par sélectionner le type de champ à reconnaître dans la liste déroulante, puis définir avec la souris une zone (rectangle) entourant les données à décoder. La zone peut être définie en premier, le choix du type intervenant en second. Le choix du type est à effectuer parmi plusieurs possibilités : texte, nombre, code-barre, repère, date, et case à cocher. Des conseils sont affichés au cours de l’opération.
Le type de donnée à décoder peut être complété par des caractéristiques complémentaires comme par exemple le nombre minimal, le nombre maximal de chiffres s’il s’agit d’un nombre. Ces caractéristiques peuvent être saisies en cliquant avec le bouton droit de la souris ou en cliquant deux fois sur la case à définir.
Par défaut PixEdit assigne automatiquement un nom à chaque zone, l’utilisateur peut le modifier à sa convenance.
Quelques exemples de zones à décoder. De gauche à droite : numéro (nombre), chaîne de caractères (texte), code-barre, et cases à cocher. Le type de champ est désigné par un symbole situé en haut et à droite de la case. Le type de champ peut être défini aussi bien avant qu’après le dessin de la zone correspondante.
Conseil : Copier et coller un champ
Un formulaire (masque) peut comprendre plusieurs zones présentant les mêmes caractéristiques. C’est le cas des cases à cocher. Il peut être pertinent de créer une zone et de la recopier autant que de besoin. Utiliser les boutons Copier et Coller pour ce faire ou les touches de raccourci habituelles : Ctrl+C et Ctrl+V. Les zones sont collées à l’endroit où se trouve le pointeur.
Redressement du formulaire et positionnement des cases
Le positionnement des documents scannés à décoder joue un rôle important dans l’efficacité du traitement. Même avec un scanner de précision, le scannage peut générer un document présentant une rotation ou une déformation plus ou moins importante, modifiant le positionnement des zones à décoder. Le formulaire vierge préimprimé peut également présenter des variations de positionnement. L’application PixEdit peut mettre en œuvre un processus de repositionnement pour corriger ces imperfections, avec des zones spéciales destinées à servir de repère.
L’usage des repères de repositionnement n’est pas strictement indispensable si les documents présentent des graphismes systématiquement positionnés au même emplacement. Il est toutefois très fortement conseillé.
Si les formulaires ne contiennent pas de repères fixes, tout type de graphisme peut être utilisé comme repère de positionnement à condition qu’il soit toujours au même endroit dans les formulaires à décoder. Les mentions fixes, logos ou tout autre type conviennent parfaitement. Dessiner une zone autour du graphisme destiné à servir de repère et sélectionner Repère de positionnement dans la liste déroulante. Le dessin du rectangle n’a pas besoin d’être particulièrement précis. Il suffit d’englober le graphisme, comme le montre l’illustration qui suit.
L’application PixEdit accepte jusqu’à quatre repères de positionnement par page de formulaire, mais un seul est souvent suffisant. Bien entendu, si le formulaire est déformé, si le repère attendu peut manquer, d’autres marques de positionnement sont les bienvenues.
PixEdit effectue un calcul de repositionnement et de repérage pour chaque page traitée. La page présentée ci-dessous comme exemple, comporte quatre repères de positionnement (un petit carré noir dans chaque angle de la page) et chacun a été défini dans le masque comme repère d’alignement. Le repérage de la position dans le masque n’a pas besoin d’être effectué avec précision. Il suffit que le repère soit entièrement contenu dans le rectangle dessiné dans le masque, à l’intérieur duquel l’application PixEdit recherchera le repère. En conclusion, ne pas hésiter à insérer des zones de positionnement chaque fois que c’est possible.
L’illustration présente un formulaire comportant des repères de positionnement. Dans l’exemple présenté, ils ont été spécialement dessinés en vue de la reconnaissance optique. Si le formulaire ne comporte pas de marques spécifiques, il est possible de sélectionner des lignes d’écritures fixes (question ou commentaire du formulaire à remplir).
Champs texte
Dessiner (ou faire glisser à partir d’un modèle) un cadre autour du texte à décoder (à extraire), puis sélectionner Texte pour le type de la zone, dans la liste déroulante. Des propriétés supplémentaires peuvent éventuellement être ajoutées en double cliquant sur la zone définie par le cadre. Le texte à décoder doit être imprimé. L’écriture manuelle n’est pas reconnue.
Champs numériques
Dessiner (ou faire glisser à partir d’un modèle) un cadre autour des chiffres à décoder (à extraire), puis sélectionner Nombre pour le type de la zone, dans la liste déroulante. Des propriétés supplémentaires peuvent éventuellement être ajoutées en double cliquant sur la zone définie par le cadre. Les chiffres à décoder doivent être imprimés. L’écriture manuelle est reconnue si les chiffres sont soigneusement formés (ci-dessous).
![]()
Les chiffres soigneusement écrits à la main peuvent être reconnus.
Codes-barres
Dessiner (ou faire glisser à partir d’un modèle) un cadre autour du code-barre à décoder (à extraire), puis sélectionner Code-barre pour le type de la zone, dans la liste déroulante. Des propriétés supplémentaires peuvent éventuellement être ajoutées en double cliquant sur la zone définie par le cadre. Le scannage doit être effectué avec une résolution suffisante pour assurer le décodage du code-barre. Une résolution de 300 dpi est habituellement suffisante. PixEdit reconnaît plusieurs types de codes-barres : cliquer sur la zone pour connaître les types reconnus.
Cases à cocher
Dessiner (ou faire glisser à partir d’un modèle) un cadre autour des cases à vérifier, puis sélectionner Case à cocher pour le type de la zone, dans la liste déroulante. Des propriétés supplémentaires peuvent éventuellement être ajoutées en double cliquant sur la zone définie par le cadre.
Date
Dessiner (ou faire glisser à partir d’un modèle) un cadre autour des dates à décoder (à extraire), puis sélectionner Date pour le type de la zone, dans la liste déroulante. Des propriétés supplémentaires peuvent éventuellement être ajoutées en double cliquant sur la zone définie par le cadre.
Champs obligatoires
Sélectionner l’option correspondante si un message d’erreur est souhaité dans le cas où une zone à décoder ne contiendrait pas de valeur.
Utiliser comme titre
Sélectionner l’option correspondante pour toute zone de texte ou de nombre. Le contenu de la zone à décoder sera utilisé comme nom de fichier pour enregistrer le document scanné après traitement (décodage). Cette option a priorité sur les paramétrages par défaut qui pourraient avoir été fixés dans l’Assistant Traitement par lot, ou dans le Processus Après Scannage.
Ordre des traitements
Lors du traitement d’extraction des données, PixEdit décode chaque zone dans le même ordre que celui qui a présidé à la construction du masque. Pour définir un ordre de restitution des champs différent, cocher l’option correspondante et cliquer successivement sur chaque champ, dans l’ordre souhaité pour la restitution des données.
Test du formulaire
Il est possible de vérifier le bon fonctionnement du dispositif avant d’exécuter le décodage des formulaires à décoder. Cliquer sur le bouton Test du formulaire pour vérifier que toutes les zones sont correctement décodées. Si le résultat n’est pas satisfaisant, ajuster le masque.
Traitements
L’application PixEdit propose deux méthodes de travail. L’Assistant Traitement par lot peut être mis en œuvre en sélectionnant un dossier (sous-répertoire) où enregistrer les documents fichiers à décoder, ou bien en définissant un dossier (sous-répertoire) où copier au fil de l’eau les fichiers à décoder. Dans ce cas PixEdit traitera sans intervention manuelle tout fichier copié dans le répertoire.
Mise en œuvre de l’Assistant Traitement par lots
Dans le menu, cliquer sur Assistant Traitement par lot (ou cliquer sur le bouton correspondant). Choisir le mode de traitement : sélection des documents et répertoires à traiter ou Mode permanent, puis cliquer du Suivant et sélectionner Traitement de formulaire.
Dans la section Traitement de formulaire, sélectionner le formulaire masque souhaité, le format d’export, et les modalités de traitement des erreurs. Si un champ (zone) Titre a été défini dans le formulaire masque, les données décodées seront utilisées pour le nom du fichier qui sera enregistré. Dans ce cas, les valeurs par défauts éventuellement définies pour les noms de fichiers seront ignorées. Cliquer sur Suivant pour terminer la mise en œuvre de l’Assistant par lot et lancer le traitement.
Traitement des formulaires dans le Processus Après Scannage
Pour inclure le Traitement de formulaire dans le Processus Après Scannage, cocher la case Activer, dans la fenêtre ScanBar, puis sur le bouton Configuration. Dans la boite de dialogue Après Scannage, sélectionner l’onglet Formulaires. Choisir le formulaire modèle, le format d’export des données décodées ainsi que les modalités de traitement des erreurs. Si un champ (zone) Titre a été défini dans le formulaire masque, les données décodées seront utilisées pour le nom du fichier qui sera enregistré. Dans ce cas, les valeurs par défauts éventuellement définies pour les noms de fichiers seront ignorées.