Documento PDF a texto (OCR) mediante OneNote 2010

Lo más habitual es que el uso de OCR (Optical Character Recognition) sea algo muy puntual y esporádico, aunque en mi caso por motivos de trabajo es bastante habitual. Motores OCR gratuitos hay varios, Google sin ir más lejos tiene Tesseract, pero el resultado suele ser bastante decepcionante, al menos en documentos en castellano, y si quieres resultados buenos tienes que irte a los de pago. Hasta hace poco usaba la combinación Ghostscript para pasar el documento PDF a TIFF multipágina, y de ahi con Microsoft Document Imaging para procesarlo mediante su OCR y pasarlo al Word, el resultado no era ninguna maravilla, pero es lo que había.

Eso hasta que me renovaron el PC y me pusieron Office 2010, y descubrí que Microsoft Document Imaging había desaparecido, en las opciones de instalación el módulo OCR estaba instalado, pero ni idea de como usarlo. Después de investigar un poco descubrí cómo hacerlo, así que os lo pongo aquí por si a alguien le resulta de utilidad, porque no es muy evidente que digamos.

Lo primero que tenemos que hacer con nuestro Office 2010 es instalar OneNote si no lo tenemos, ya que sin él no podremos hacer uso del motor OCR (o al menos de la forma en que nos interesa). Una vez instalado, nos colocará una impresora virtual en el sistema para pasar cualquier documento que imprimamos a OneNote, así que lo que tenemos que hacer es:

  • Abrir el PDF (o cualquier otro tipo de documento) con nuestro programa habitual, e imprimirlo mediante la impresora virtual de One Note. Con esto ya tenemos el documento pasado sin perdida en OneNote.
  • Una vez en OneNote (se abre solo después de imprimir), pulsar con el botón derecho del ratón sobre la primera página y pulsar Copiar texto de todas las páginas de la copia impresa, esto realiza el proceso OCR y ya tenemos el texto en el portapapeles.
  • Abrir el Word (o cualquier otro editor de texto) y pegarlo.

Con eso ya tendremos nuestro documento en texto, también se puede escanear a texto directamente, pero eso se puede hacer directamente desde los menús.

Anuncios

5 Responses to “Documento PDF a texto (OCR) mediante OneNote 2010”


  1. 1 Noe 6 marzo, 2013 en 14:23

    gracias, me estaba volviendo loca porque no encontraba solución

  2. 2 mk 17 marzo, 2015 en 17:44

    excelente!

  3. 3 OC 6 noviembre, 2015 en 17:15

    Muy buena nota

  4. 4 carmen16 28 enero, 2016 en 09:45

    Magnífico, muchísimas gracias!

  5. 5 Luiss 4 diciembre, 2016 en 22:31

    Genioo.! graciass.!!


Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s




Flashbacks

RSS Últimos temas escuchados

  • Ha ocurrido un error; probablemente el feed está caído. Inténtalo de nuevo más tarde.

Licencia

Creative Commons License


Esta obra está bajo una licencia de Creative Commons.

Member of The Internet Defense League


A %d blogueros les gusta esto: