CRITERIOS DE INFORMACIÓN UNISALLE 2011: METADATA EXTRACTION TOOL

Metadata Extractión Tool es una de las posibilidades que se que se encuentra en el medio tecnológico para la gestión de archivos virtuales.

La herramienta de extracción de metadatos fue desarrollada por la Biblioteca Nacional de Nueva Zelanda[1] para la función de extraer metadatos (que cumplirán con la función de preservación) en una serie de formatos de archivo como documentos PDF, archivos de imágenes, archivos de sonido documentos de Microsoft Office, y muchos otros.

Los objetivos del software consisten en[2]

Extraer automáticamente metadatos para la preservación de archivos digitales
Dar salida de los metadatos en un formato estándar (XML) para su uso en actividades de conservación y de recuperación de información.

La función de recuperación de información a través de la web se da en especial cuando se consulta información en bibliotecas virtuales.

Esta herramienta de extracción de metadatos contiene una serie de adaptadores los cuales reconocen y extraen los metadatos desde los archivos donde se encuentran contenidos los documentos. Dentro de los formatos actualmente previstos esta:

Imágenes: BMP, GIF, JPEG y TIFF.
Documentos de Office: Microsoft Word (versión 2, 6), Word Perfect, Open Office (versión 1), MS Works, MS Excel, MS PowerPoint y PDF.
Audio y vídeo: WAV, MP3 (normal y con ID3Tags), BFW, FLAC.
Lenguajes de marcado: HTML y XML.
Archivos de Internet: ARC

Lo adaptadores analizan la fuente binaria de los diferentes formatos de archivo los cuales pasan por una prueba de concepto donde se analiza la estabilidad o variabilidad del código fuente, por ejemplo: el formato TIFF se mantiene en el tiempo, caso contrario de los formatos manejados por Microsoft Word, que si han tenido diferentes ajustes por lo que su código fuente no es el mismo.

Lo anterior es verificado con el fin de medir la viabilidad de interpretación de los diferentes formatos que puede contener la unidad de información a través de una prueba de concepto (COP[3]) lo que determinara finalmente su utilidad en el momento de abrir y leer archivos. El COP ha encontrado viabilidad en los formatos anteriormente mencionados.

Cuando no es posible reconocer algunos de los formatos, la herramienta aplica un adaptador genérico el cual extrae los datos base sobre el formato (como el tamaño, nombre de archivo y fecha de creación). Se utiliza también la función DataAdapter[4] que tiene como función actuar junto con Dataset y el origen donde se encuentra la información, para recuperar y almacenar los datos.

A continuación el diagrama de su funcionamiento:

[5]Ilustración No. 1 Funcionamiento de la Herramienta

La aplicación abre todos los archivos como de sólo lectura, asegurando la integridad de los archivos originales. La herramienta lee la información de encabezado, por lo que el proceso de extracción es rápido.

REQUERIMIENTOS DEL SOFTWARE
Hardware

A nivel de procesador, memoria RAM, espacio en disco duro no hay limitaciones conocidas; no requiere un hardware con condiciones específicas de capacidad, puede afirmarse que es una herramienta que funcionaria en cualquier PC.

Software

La herramienta tiene tanto una interfaz de Microsoft Windows como una interfaz de línea de comandos de UNIX que permite trabajar para ser automatizado a través del procesamiento por lotes o procesados de forma individual según las necesidades. La herramienta de extracción de metadatos utiliza una combinación de Java y XML; puede ser utilizado a través de la interfaz gráfica de usuario, en la línea de comandos o incorporado a otros programas según sea necesario

La interfaz gráfica de usuario está gestionada a través de JAVA Swing, el cual es un tipo de programa que da otra posibilidad de interfaz[6].

LICENCIAMIENTO

Es de Desarrollo de Código Abierto y se distribuye como software libre bajo la Licencia Pública Apache (versión 2).

Desarrollada inicialmente en 2003 y lanzado como software de código abierto en 2007, la versión actual se puede descargar desde la página de descarga de SourceForge o directamente desde la página de la Biblioteca Nacional de Nueva Zelanda.

Sin duda el uso de herramientas para la extracción de metadatos representa una utilidad importante puesto que no contar con datos estructurados genera obsolescencia en las fuentes que contiene información como por ejemplo en las Bibliotecas tanto para la consulta de sus contenidos físicos como electrónicos. Hoy en día la creación de servicios digitales y el alojamiento de información en estos medios hace que se centre la importancia en crear herramientas y estandarizar los términos que ayuden a recuperar la información y hacerla útil; los metadatos se orientan bajo el sentido de recuperación de información y como forma de preservación de la información digital.

Con esto, se considera de importancia relevante todo lo que gire en torno a la gestión de metadatos, puesto que la inmediatez lleva a generar medios para crearlos, hacerlos accesibles en el mundo digital pero poco se trata la forma de preservarlos a largo plazo; con la ayuda de estándares y herramientas se logran resultados como el que ofrece la Biblioteca Nacional de Nueva Zelanda.

Sin duda la gestión constante de metadatos transforma y ajusta las herramientas a las necesidades del entorno donde son creados y continuaran en constante progreso puesto que el entorno digital conlleva a que la dinámica sea un constante cambio.

[1] National Library of New Zealand. Metadata Extraction Tool. [en línea] http://www.natlib.govt.nz/services/get-advice/digital-libraries/metadata-extraction-tool [consultado: 30/04/11].

[2] National Library of New Zealand. Metadata Extraction Tool Open source release information [en línea] http://meta-extractor.sourceforge.net/meta-extractor-info-sheet.pdf [consultado: 30/04/11].

[3] National Library of New Zealand. Metadata Extraction Tool Software Architecture, version 3.5. [en línea] http://meta-extractor.sourceforge.net/meta-extractor-software-architecture-v3.pdf . [consultado: 30/04/11]

[4] MSDN LIBRARY MICROSOFT. DataAdapter (Clase). [en línea] http://msdn.microsoft.com/es-es/library/system.data.common.dataadapter%28v=vs.80%29.aspx [consultado: 30/04/11]

[5] National Library of New Zealand. Metadata Extraction Tool Software Architecture. [en línea] http://meta-extractor.sourceforge.net/meta-extractor-software-architecture-v3.pdf [Consultado: 01/05/11]

[6] Ingeniería informática, Departamento de Informática, Universidad de valencia. Prácticas de lenguajes de programación (Java). [en línea] http://informatica.uv.es/iiguia/LP/laboratorio/P3/p3.pdf [consultado: 09/04/11]

CRITERIOS DE INFORMACIÓN UNISALLE 2011

Bienavenidos

domingo, 1 de mayo de 2011

METADATA EXTRACTION TOOL

No hay comentarios:

Publicar un comentario

Mi perfil

Mi lista de blogs