Bienavenidos


BIENVENIDOS, Este espacio está dirigido a todos aquellos profesionales de Sistemas de Información, Archivistas, Bibliotecólogos, Administradores de contenido y en general profesionales afines con recuperación de informacion, sistemas de recuperación de informacion, búsquedas y recuperación de información, metadatos y posicionamiento web.


jueves, 31 de marzo de 2011

Buenas Prácticas en Análisis de Interfaces de Colección Académico

Análisis de interfaces

Teniendo en cuenta que dentro de la Colección Académico se encuentran diferentes tipos de formatos, a continuación mostraremos los diferentes procesos o interfaces utilizados para lograr convertirlos a .TXT.


Conversión de .PDF a .TXT

Para la conversión de los documentos tipo .PDF a formato .TXT fue necesario en primer lugar  utilizar un editor conocido como SomePDF.com, utilizando el siguiente enlace para descargue libre:    http://es.kioskea.net/download/descargar-1257-pdf-to-word-converter


Se descarga el editor y esto genera el siguiente pantallazo.


Se ubica la carpeta donde se encuentran los archivos .PDF utilizando el icono de carpeta de archivo y se seleccionaron:


Se da clic en el botón Star Convert, lo cual inicia la conversión y se genera el siguiente pantallazo hasta que todos los archivos son convertidos:

Generándose así los documentos .RTF, los cuales siguen el proceso de conversión de los documentos .DOC hasta llegar al .TXT.

Después de convertir a .RTF
Fue necesario revisar aquellos archivos que reflejaban imágenes y que la conversión no permitió traer los datos por ejemplo en el caso del archivo invi1_ip_una2010422 fue necesario tomar (copiar) el texto directamente sobre el .PDF y anexárselo sobre la imagen que mostraba el archivo .RTF para que al convertirlo a .TXT se reflejara el texto del documento.  A continuación se anexan los pantallazos:

La conversión de .PDF a .RTF se muestra de la siguiente manera y por supuesto al convertir a .TXT  nos muestra ningún carácter textual.

Al copiar el texto del .PDF sobre el .RTF se muestra así:

Y al efectuar la conversión a .TXT ahora sí, se reflejan los caracteres textuales del documento:


Algunos documentos .PDF como: E-DOC 11-12-2000, INFORM 09-10-1999, Integración de sistemas de gestión electrónica documental, Parámetros para la selección de un SGDE,  al ser resultado del escaneo de un documento al formato .PDF, no permite bajo ninguna circunstancia conversión a .TXT, ni deja siquiera copiar el contenido del formato de imagen.


Conversión de .DOC a .TXT

Escojo abrir el documento y le indico abrir con: Internet Explorer

Al abrirse Internet Explorer y saca la siguiente ventana se le dio abrir


Se abre Microsoft Word para guardar como otros formatos


En guardar como tipo se indica que Texto sin formato y guardar

Inmediatamente se abre la ventana de Conversión de archivos se le indica que es Otra configuración y se escoge Unicode para que genere la conversión a .TXT de manera universal


Se le da Aceptar y cerramos Microsoft Word y ya en la carpeta se puede visualiza el documento en .TXT

 Ya con la conversión a .TXT están listos para la indizar los archivos en la herramienta de corpus de texto llamada Tenka Text.

1 comentario:

  1. La recuperación de información no sólo tiene que ver con texto, podemos requerir recuperar datos de imagenes, videos, grabaciones y demas soportes.

    ResponderEliminar