Transformer un document PDF en fichier texte
Vous avez la version imprimée entre les mains? Inutile de tout retaper:
scannez le document et soumettez l’image ainsi obtenue à un logiciel de reconnaissance optique de caractères pour en extraire le texte.
La reconnaissance optique de caractères ou OCR est une technique délicate, et les logiciels les plus performants, destinés aux professionnels, sont vendus assez chers, mais pour des besoins personnels ou ponctuels, une solution gratuite comme FreeOCR peut s’avérer suffisante.
Afin d’optimiser la reconnaissance, numérisez le document en haute qualité en noir et blanc, et faites fonctionner l’OCR uniquement sur du texte écrit à l’horizontale. Servez-vous de l’outil de sélection pour marquer, au fur et à mesure, le texte de votre document. Enfin, ne négligez pas la phase de relecture et de correction à l’issue de l’opération. C’est une étape indispensable, vous n’obtiendrez pratiquement jamais une retranscription totalement exempte d’erreurs.
Sélectionner le document
Lancez FreeOCR. Pour un imprimé, placez-le dans votre scanner, cliquez sur Scan puis sélectionnez votre périphérique et choisissez le noir et blanc. Lancez L’opération en cliquant de nouveau sur Scan. Pour un document numérique, faites Open (images jpg, tif ) ou Open PDF (document PDF). Votre document source apparaît à gauche.
À lire aussi :Comment créer et imprimer des étiquettes dans Word
Délimiter le texte
Sur votre document, sélectionnez la zone à retranscrire en faisant un clic gauche maintenu puis en encadrant la zone souhaitée (comme une sélection classique). Vous parcourez les différentes pages de votre document source à l’aide des flèches placées tout à gauche. Zoomez pour plus de précision dans la sélection avec l’outil loupe +
Lancer la transcription
Faites OCR puis OCR Current Pages Le texte retranscrit apparaît à droite. Via les commandes du milieu, cliquez sur Remove Line Breaks pour supprimer les sauts de ligne. Pour exporter votre texte fraîchement retranscrit, cliquez sur le W pour Word ou RTF pour exporter vers un fichier texte classique. Vous pouvez aussi copier-coller vers n’importe quel traitement de texte.
Corriger et enregistre
Dans votre traitement de texte, le texte retranscrit apparaît au format et dans la police par défaut. Procédez aux éventuelles corrections comme si c’était un fichier texte classique avant de faire Fichier -> Enregistrer sous pour sauvegarder toutes les modifications et enregistrer votre nouveau document.
Lien de téléchargement : http://www.paperfile.net/