La búsqueda de un buscador empresarial inteligente y global
En el pasado, las principales razones para archivar datos se centraban en aspectos legales y de cumplimiento normativo, que incluían consulta de documentos, retención y conservación de documentos, auditorías y protección ante desastres. Cada vez más empresas aprovechan los sistemas de gestión documental y de análisis de datos para obtener ventajas competitivas en sus respectivos mercados, con lo que dan un nuevo significado al archivo.
En este blog proponemos una solución basada en un buscador único capaz de preindexar información de forma masiva y suministrar información personalizada explotando el conocimiento previo del usuario y las capacidades de minería de datos que ofrecen las nuevas tecnologías de Big Data.
El problema:
Aunque los archivos de datos pueden aportar un valor considerable a un negocio, gran parte de este valor permanece oculto debido a que muchas empresas no tienen una estructura adecuada para aprovechar óptimamente la inversión realizada en sus archivos. Según la consultora AIIM el 52% de las organizaciones tienen 3 o más sistemas de gestión de contenidos empresariales (ECMs) operativos, mientras que 22% tienen 5 o más.
Los archivos se componen de bases de datos relacionales y repositorios de imágenes o ficheros. La naturaleza de los datos es diversa pero estructurada, aunque muy pocas organizaciones han respetado las normas internacionales de gestión documental (p.ej. serie ISO-30300, requisitos funcionales de Moreq, etc.) a la hora de diseñar y gestionar sus fondos documentales y archivos.
Además, los contenidos desestructurados de las organizaciones están creciendo a un ritmo exponencial; de hecho se habla cada vez más de “infoxicación” y “caos electrónico” en cualquier compañía. Mucha información relevante reside hoy en repositorios de documentos compartidos (file systems), en correos electrónicos, incluso en whatsups y redes sociales.
Migrar a mano no es una opción:
No es sorprendente que esta diversidad de repositorios, tecnologías y formatos genere grandes dolores de cabeza a los administradores de TI. La migración y sincronización tradicional entre silos de información de distintos proveedores y épocas, es un proceso complejo y costoso. Hay muchas razones para ello, incluyendo convenciones y formatos heterogéneos, metadatos diferentes, bases de datos incompatibles, permisos de usuarios, versiones de documentos y otro tipo de artefactos. Una migración manual puede llevar miles de horas de técnicos, y muchos meses hasta que se consigan resolver todos los problemas y agujeros de seguridad.
Tampoco podemos olvidar que “apagar” un sistema no es tan sencillo por la resistencia al cambio de las personas, que impide una rápida adopción de herramientas sustitutivas y por la dificultad en justificar nuevas inversiones que conlleven riesgos de migración importantes.
En ocasiones la migración tampoco resuelve el problema, ya que existe información que nunca podrá ser combinada en un solo repositorio o una sola base de datos. Pensemos en un ejemplo del mundo sanitario, en donde queramos combinar información clínica y administrativa. No podemos gestionar las pólizas o las facturas de los pacientes junto con sus radiografías, diagnósticos o tratamientos. El acceso a la historia clínica electrónica tiene unas implicaciones de seguridad y de funcionalidad específicas, lo que obligará siempre a mantener varios silos de datos concurrentes.
Una nueva alternativa:
Una alternativa eficaz es implantar un sistema de búsqueda que sea capaz de conectarse, rastrear y pre-indexar los repositorios de la compañía definidos, dentro de un nuevo entorno usable y seguro, que podría constituirse como punto único de acceso a los silos de información de la compañía.
Este buscador representa el corazón del nuevo “Portal del empleado”, donde los usuarios podrán registrarse para consultar información valiosa sin saber dónde ésta resida físicamente.
Siendo el objetivo evidente, no lo es la forma de lograrlo, ya que se requiere conjugar varias disciplinas, algunas de ellas en constante evolución. Veamos los requisitos más importantes del sistema.
Requisitos del buscador único:
Web Semántica y Ontologías:
Los modelos ontológicos permiten modelar los conceptos de un dominio dado y de esta manera es posible representar o describir a las entidades que forman parte de un sistema y las relaciones entre ellos. Los modelos obtenidos permiten una comunicación más fluida entre los desarrolladores y expertos en la lógica del negocio del software que está en desarrollo. Los modelos ontológicos también permiten a sistemas diferentes comunicarse entre sí, siguiendo las relaciones creadas dentro del modelo.
Indexación masiva en “lagos de datos” (data lakes):
La indexación es el proceso mediante el cual se registran ordenadamente datos e informaciones para elaborar un nuevo registro que facilita y agiliza la búsqueda de información y ayuda a seleccionar con precisión la información pertinente, de acuerdo con las características del usuario.
Los procesos de indexación sobre documentos, archivos de texto e imágenes constituyen una parte primordial de la capacidad de un sistema para localizar y recuperar rápidamente cada uno de los términos del texto de dichos contenidos, con el fin de proporcionar funciones de búsqueda eficientes y organizadas.
Las características del lago de datos a menudo incluyen velocidades de ingesta y escritura rápidas, así como un almacenamiento de bajo coste, puesto que está diseñado para gestionar la variedad, velocidad y volumen que caracterizan el Big Data. Hablamos de millones de registros diarios.
Estándares de interoperabilidad:
Para poder conectarse con los silos de información, actuales o futuros, es necesario crear los conectores necesarios para que el buscador pueda rastrear y reconocer la información.
Ello exige cumplir con estándares de identificación única de usuarios (single sign-on), como OpenID, estándares de acceso a contenidos empresariales, como el Content Management Interoperability Standard (CMIS) y otros estándares más específicos, como los relativos a historias clínicas (p.ej. HL7). Cualquier nuevo silo de datos debe ser fácil de integrar, al estilo “plug & play”.
Sugerencias y redes sociales:
Como hizo Amazon en su momento, es importante que los nuevos buscadores empresariales puedan ofrecer al usuario un listado de información que pueda interesarle, en función de la búsqueda realizada y que estén acordes con su perfil y sus preferencias de búsqueda. Existen varias técnicas de recomendación:
- Recomendación colaborativa: Parte de la idea de que si dos usuarios han compartido intereses en el pasado, entonces tendrán gustos similares en el futuro, por tanto se debe mostrar lo que es popular entre vecinos. Para hallar la medida de similitud entre estos dos usuarios se utilizan técnicas de correlación que calculan un índice que representa el grado de afinidad de dos sujetos.
- Basadas en contenido: Se trata de destacar lo que haya interesado a otras personas, basándose en características de un producto y/o en un parámetro de relevancia que se va construyendo a medida que pasa el tiempo. Este parámetro puede solicitarse directamente (valoración) o extraerse de forma transparente calculando la frecuencia y el orden de selección de los resultados (al estilo de Google).
- Basadas en conocimiento: Cuando no existe un historial ni preferencias sobre las que se puedan fundamentar las recomendaciones, se requiere información adicional en base a un experto que tenga dominio de la aplicación.
Por otro lado, la integración de contenidos con redes sociales corporativas permite enriquecer la información y conectarla con otras fuentes internas o externas, fomentando discusiones y colaboración alrededor de estos contenidos.
Comportamiento inteligente y adaptativo:
El buscador debe ser y parecer “inteligente”. Para ello, ha de ser capaz de reconocer los hábitos, preferencias y necesidades profesionales de los usuarios. Debe comunicarse con ellos en un lenguaje intuitivo y ser muy fácil de usar y alimentar. Debe anticiparse a sus necesidades.
Un buscador inteligente aprovechará la inteligencia colectiva, es decir, reutilizará los consejos de otros usuarios y sus tendencias de búsqueda para proponer temas de interés “a priori” y priorizará el orden o destacará ciertas respuestas a las consultas que se le hagan.
Finalmente, el comportamiento del buscador debe poder parametrizarse y estos parámetros adaptarse en el tiempo para mejorar los resultados de las búsquedas, reduciendo el número de clics necesarios hasta el hallazgo exitoso de información, e incrementando la satisfacción de los usuarios con su sistema.
Seguridad:
En un contexto de buscador global, los aspectos de seguridad de la información son esenciales, destacando los siguientes:
- Seguridad en la identificación, no se debe permitir el uso de este buscador a usuarios desconocidos o de los cuales no se tenga absoluta certeza de su identidad. Recordemos que existen contenidos que son muy sensibles e incluso vigilados por la legislación de protección de datos personales.
- Filtros anti-intrusión, se hace necesario monitorear en tiempo real el comportamiento de los usuarios, para primeramente detectar acciones inusuales que pudieran ser indicativas de fraude o robo de información, así como permitir la posterior auditoría de las acciones realizadas por cualquier usuario en el sistema.
Desde 2017, Adapting lidera el Consorcio Search-Spider, un proyecto de I+D internacional sobre búsqueda en repositorios de Salud (vea aquí más información).