Numérisez et convertissez des images en texte avec OCR, reconnaissance optique de caractères

2016-09-02 11:42:19
Principal·Logiciel·Numérisez et convertissez des images en texte avec OCR, reconnaissance optique de caractères

Il n'est pas rare que vous receviez un document par e-mail qui vous a été envoyé sous forme d'image ou peut-être sous forme de fichier PDF et vous devez pouvoir modifier ou avoir le texte sous une forme modifiable. Parfois, vous devrez peut-être numériser certains documents via un scanner et devrez les modifier à partir de votre traitement de texte.

La modification d'une image ou directement numérisée dans un fichier n'est pas possible en soi, et à moins que vous n'ayez du temps à perdre, vous ne voudrez pas tout taper en vous-même. Ce dont vous avez besoin est quelque chose qui existe depuis un certain temps appelé la reconnaissance optique de caractères (OCR) qui traduit le texte des images en texte que vous pouvez modifier. Certains des meilleurs logiciels OCR sont Omnipage et FineReader, mais ils coûtent cher. Voici une sélection de moyens principalement gratuits pour convertir votre texte en un formulaire modifiable. 1. FreeOCR

FreeOCR est un programme d'OCR basé sur le moteur open source Tesseract qui est maintenu par Google et considéré comme très précis. Il peut accepter des entrées directement à partir d'un scanner, d'un fichier PDF et de plusieurs types de formats d'image, y compris des fichiers TIFF de plusieurs pages, tout en prenant en charge la conversion dans 11 langues différentes. Vous pouvez également sélectionner des parties spécifiques du document d'entrée pour la conversion, ce qui est utile pour plusieurs blocs ou colonnes de texte et la sortie peut être exportée directement vers Word ou au format RTF.

Faites attention lors de l'installation car le programme utilise Install Manager pour vous proposer quelques logiciels publicitaires. FreeOCR fonctionne sur Windows XP à Windows 8, l'installation du .NET Framework v2 est requise pour les utilisateurs XP. FreeOCR est également autorisé à être utilisé à des fins commerciales et personnelles.

Télécharger FreeOCR


2. SimpleOCR

Le logiciel SimpleOCR est gratuit pour un usage personnel, éducatif et commercial et accepte les entrées d'un scanner, JPG, BMP et images TIFF de plusieurs pages. Le texte résultant peut être enregistré en tant que fichier texte standard ou document Word. Après l'installation, lorsque vous exécutez SimpleOCR pour la première fois, assurez-vous de sélectionner l'option supérieure «Machine Print» qui est gratuite, l'option inférieure est une démonstration de 14 jours du logiciel le plus avancé. Choisissez ensuite l'une des 4 langues pour votre profil et cliquez sur Sélectionner.

Plusieurs pages peuvent être ajoutées en cliquant sur le bouton Ajouter une page et converties en utilisant Convertir en texte. Une fois la reconnaissance des caractères terminée, le texte résultant s'affiche dans la fenêtre inférieure avec des mots colorés pour vous informer des problèmes potentiels avec l'orthographe. Le bleu est des mots suspects, le rouge est des mots introuvables dans le dictionnaire du programme, etc., et chacun de ces mots peut être vérifié avec une liste déroulante des alternatives proposées.

Télécharger SimpleOCR


3. i2OCR

i2OCR est un service de conversion OCR en ligne gratuit et illimité de Sciweavers.org qui accepte les entrées d'images des formats TIF, JPG, PNG, BMP, GIF, PBM, PGM et PPM. Il existe un support pour 33 langues massives et bien que la taille maximale du fichier soit limitée à 10 Mo, elle devrait être suffisante pour la plupart des utilisations générales.

L'utilisation est assez simple, sélectionnez simplement le bouton pour rechercher un fichier sur votre ordinateur, ou l'option URL peut récupérer un fichier directement à partir d'un emplacement en ligne tel que Dropbox, etc. Choisissez votre langue dans le menu déroulant et cliquez sur le gros bouton pour convertir le fichier, le temps de conversion était seulement une question de secondes lors du test. La précision de conversion semble excellente, bien qu'il ne s'agisse que de texte brut, et apparaîtra côte à côte avec l'image d'origine plus bas dans la fenêtre sur laquelle vous pouvez ensuite cliquer pour mettre en surbrillance et copier dans un document ou enregistrer directement en tant que fichier Word .DOC . Sciweavers possède également plusieurs autres outils de conversion de format utiles, notamment la conversion de fichiers au format PDF.

Visitez i2OCR


4. OCR en ligne

OCR en ligne gratuit dispose d'un service gratuit et payant, le service gratuit vous permettant de convertir jusqu'à 15 pages par heure. Cela comprend le téléchargement de documents JPG, BMP, TIF, PNG, PCX, GIF et PDF de plusieurs pages à traiter dans 1 des 32 langues reconnues d'une taille maximale de 4 Mo chacune. La sortie peut être un document Word (DOC), une feuille de calcul Excel (XLS) ou un fichier texte brut (TXT).

Choisissez votre fichier local pour le téléchargement, cliquez sur le bouton Télécharger, entrez le captcha numéroté et définissez la langue et le format de sortie requis. Cliquez ensuite sur Reconnaître et attendez quelques secondes pendant la conversion. Le texte résultant apparaîtra en dessous avec un bouton pour le télécharger au format de fichier choisi.

Visitez OCR en ligne


5. OCR en ligne gratuit

Ce service en ligne prend en charge le téléchargement des formats d'image les plus populaires JPG, GIF, BMP, PNG, TIFF et prend également en charge la conversion OCR des documents PDF. Après la conversion, le texte résultant peut également être sorti dans plusieurs formats différents de Word DOC, Richtext RTF, plain TXT et également un document PDF en couches. Le programme fait également de son mieux pour garder la mise en page et la mise en forme du texte aussi près que possible de la copie d'origine.

Pour utiliser le service, choisissez simplement votre fichier à télécharger et sélectionnez le format dans lequel vous souhaitez qu'il soit enregistré, puis cliquez sur le bouton. Vous obtenez un joli indicateur de progression à regarder pendant la conversion et un bouton de téléchargement apparaîtra une fois terminé. L'OCR en ligne gratuit semblait fonctionner assez bien et conservait la taille et la mise en forme des polices dans la plupart des cas. Le service est gratuit, mais il n'est pas fait mention de la taille des fichiers ou des limites d'utilisation, ce qui est un peu déroutant car nous ne savons pas si c'est vraiment illimité ou ils n'ont tout simplement pas mentionné les restrictions…

Visitez OCR en ligne gratuit


6. NewOCR

Ce service OCR en ligne gratuit a certainement beaucoup de support de format d'entrée. Il existe 9 formats d'image courants, la prise en charge des images dans les archives Zip, des documents de plusieurs pages tels que PDF, TIFF et DjVu, ainsi que des fichiers DOCX et ODT. La liste de sortie est plus petite mais toujours utile avec la sauvegarde de fichiers TXT, DOC et PDF disponible. La reconnaissance est gérée par les moteurs Tesseract et Cuneiform et peut reconnaître un total de 58 langues ainsi que du texte à plusieurs colonnes et également des images de qualité inférieure.

Pour utiliser NewOCR, sélectionnez simplement votre fichier local ou directement à partir d'une URL, choisissez la langue de reconnaissance, puis appuyez sur le bouton Aperçu. Cela chargera une page d'aperçu et en dessous, le texte converti OCR s'affiche. Si vous ne voyez pas le texte, appuyez sur le bouton bleu OCR. Le texte peut être exporté de différentes manières, y compris le téléchargement standard vers l'un des 3 formats de fichier, la copie dans le presse-papiers, le transfert via les traducteurs Google ou Bing, le collage en ligne vers Pastebin ou Pastie et même l'envoi direct vers Google Docs. NewOCR a des téléchargements illimités et ne nécessite aucune inscription.

Visitez NewOCR


7. Imagerie de documents Microsoft Office

Comme nous le savons, Microsoft Office n'est pas un produit gratuit, mais un grand nombre d'utilisateurs auront probablement une sorte de version installée. L'outil Office Document Imaging peut effectuer une OCR sur un document et les résultats sont très bons, mais malheureusement il n'est pas facilement disponible sur toutes les versions d'Office. Office 2003 devrait l'avoir inclus dans votre installation par défaut, les utilisateurs d'Office 2007 devront l'ajouter manuellement à partir de l'option d'ajout de composants, et ce n'est même pas dans Office 2010 par défaut. Des instructions sur la façon d'ajouter MODI à Office 2010 sont disponibles sur Microsoft.com.

L'option Microsoft Office Document Imaging se trouve dans votre menu Démarrer -> Programmes -> Microsoft Office -> Outils Microsoft Office. Il ne reconnaît que les images TIFF comme source d'entrée, vous devrez donc probablement convertir vos documents au préalable. Ouvrez le fichier et cliquez sur l'icône en forme d'œil dans la barre d'outils intitulée «Reconnaître le texte à l'aide de l'OCR». Cliquez ensuite sur le bouton à sa droite pour envoyer le texte directement dans Word.

Note de l'éditeur: OCROnline était un autre service gratuit testé, mais vous n'avez que 5 conversions gratuites d'une page par semaine, ce qui est un peu trop restrictif, et vous devez également créer un compte. La qualité de conversion est très bonne si vous n'avez besoin que de temps en temps de la page impaire.

Google Docs a également une option pour convertir des fichiers PDF et des images en documents via OCR. Accédez à votre Google Drive et cliquez sur Options -> Paramètres de téléchargement -> Convertir du texte à partir de fichiers PDF et d'images téléchargés, et sélectionnez également l'option de confirmation. Cela vous demandera ensuite si vous souhaitez OCR une image ou un PDF lorsque vous téléchargez un fichier sur Google Drive.

Choix De L'Éditeur