viernes, 18 de noviembre de 2011

Cosas de OCR - OCRFeeder

Hola!!
Cuanto tiempo!! Bueno, cosas que pasan. De todas formas había poco que escribir pues poco es el tiempo que tengo para trastear y mi sistema necesita pocas mejoras.
A ver, lo último con lo que he trasteado es con un bonito ocr, si, eso que sirve para pasar de imagen a texto, eso.
Bueno, tras ver varias opciones he optado por uno sencillo y de esos que tiene los automatismos justos para que tengas que meter algo de mano y siempre tengas el control, como a mi me gusta (que no digo que sea lo mejor).
Por todo ello al final me he quedado don OCRFeeder. Tiene un entorno gráfico espartano pero grafico al fin y al cavo. Podéis instalarlo desde linea de comando (logados como root) de la siguiente manera:

#aptitude install ocrfeeder

Se buscarán las dependencias y se os pedirá permiso, si os gusta la idea decid que si.
Como no también se puede instalar desde Synaptic.

A grandes rasgos podréis crear un proyecto y añadir tantas imagenes como consideréis. Ordenar las ṕaginas y darle caña.
Esto último podeis hacerlo de forma automática y si la calidad de las imagenes no es buena llegar a algo parecido a un fracaso o de forma manual. Esto de manual significa ir pagina a pagina haciendo lo siguiente:
1-Optimización de la imagen para interpretación: Herramientas->unpaper->Aceptar
2-Marcado de zonas a escanear con ratón. Tras marcar cada zona indicar a la derecha si queremos tratarlo como texto o imagen. Si marcais algo que no queréis darle a suprimir.
3-Tras marcar, nos ponemos en un trozo marcado como texto y damos al botón OCR (abajo a la derecha). Bajo el aparecerá lo que se ha conseguido.
4-Tras hacer esto en todas las páginas, vais al menu Archivo->Exportar y seleccionais html o ODT. Os recomiendo esta última opción, queda mejor.

Bueno, también tiene una muy interesante opción para importar pdf, de esos creados a partir de imagenes escaneadas.

Pues eso es todo, a disfrutarlo.

=:)