Análisis de interfaces
Teniendo en cuenta que dentro de la Colección Académico se encuentran diferentes tipos de formatos, a continuación mostraremos los diferentes procesos o interfaces utilizados para lograr convertirlos a .TXT.
Conversión de .PDF a .TXT
Para la conversión de los documentos tipo .PDF a formato .TXT fue necesario en primer lugar utilizar un editor conocido como SomePDF.com, utilizando el siguiente enlace para descargue libre: http://es.kioskea.net/download/descargar-1257-pdf-to-word-converter
Se descarga el editor y esto genera el siguiente pantallazo.
Se ubica la carpeta donde se encuentran los archivos .PDF utilizando el icono de carpeta de archivo y se seleccionaron:
Se da clic en el botón Star Convert, lo cual inicia la conversión y se genera el siguiente pantallazo hasta que todos los archivos son convertidos:
Generándose así los documentos .RTF, los cuales siguen el proceso de conversión de los documentos .DOC hasta llegar al .TXT.
Después de convertir a .RTF
Fue necesario revisar aquellos archivos que reflejaban imágenes y que la conversión no permitió traer los datos por ejemplo en el caso del archivo invi1_ip_una2010422 fue necesario tomar (copiar) el texto directamente sobre el .PDF y anexárselo sobre la imagen que mostraba el archivo .RTF para que al convertirlo a .TXT se reflejara el texto del documento. A continuación se anexan los pantallazos:
La conversión de .PDF a .RTF se muestra de la siguiente manera y por supuesto al convertir a .TXT nos muestra ningún carácter textual.
Al copiar el texto del .PDF sobre el .RTF se muestra así:
Y al efectuar la conversión a .TXT ahora sí, se reflejan los caracteres textuales del documento:
Algunos documentos .PDF como: E-DOC 11-12-2000, INFORM 09-10-1999, Integración de sistemas de gestión electrónica documental, Parámetros para la selección de un SGDE, al ser resultado del escaneo de un documento al formato .PDF, no permite bajo ninguna circunstancia conversión a .TXT, ni deja siquiera copiar el contenido del formato de imagen.
Conversión de .DOC a .TXT
Escojo abrir el documento y le indico abrir con: Internet Explorer
Al abrirse Internet Explorer y saca la siguiente ventana se le dio abrir
Se abre Microsoft Word para guardar como otros formatos
En guardar como tipo se indica que Texto sin formato y guardar
Inmediatamente se abre la ventana de Conversión de archivos se le indica que es Otra configuración y se escoge Unicode para que genere la conversión a .TXT de manera universal
Se le da Aceptar y cerramos Microsoft Word y ya en la carpeta se puede visualiza el documento en .TXT
Ya con la conversión a .TXT están listos para la indizar los archivos en la herramienta de corpus de texto llamada Tenka Text.
La recuperación de información no sólo tiene que ver con texto, podemos requerir recuperar datos de imagenes, videos, grabaciones y demas soportes.
ResponderEliminar