En este blog proponemos una solución basada en un buscador único capaz de preindexar información de forma masiva y suministrar información personalizada explotando el conocimiento previo del usuario y las capacidades de minería de datos que ofrecen las nuevas tecnologías de Big Data.
El problema:
Los archivos se componen de bases de datos relacionales y repositorios de imágenes o ficheros. La naturaleza de los datos es diversa pero estructurada, aunque muy pocas organizaciones han respetado las normas internacionales de gestión documental (p.ej. serie ISO-30300, requisitos funcionales de Moreq, etc.) a la hora de diseñar y gestionar sus fondos documentales y archivos.
Además, los contenidos desestructurados de las organizaciones están creciendo a un ritmo exponencial; de hecho se habla cada vez más de “infoxicación” y “caos electrónico” en cualquier compañía. Mucha información relevante reside hoy en repositorios de documentos compartidos (file systems), en correos electrónicos, incluso en whatsups y redes sociales.
Migrar a mano no es una opción:
Tampoco podemos olvidar que “apagar” un sistema no es tan sencillo por la resistencia al cambio de las personas, que impide una rápida adopción de herramientas sustitutivas y por la dificultad en justificar nuevas inversiones que conlleven riesgos de migración importantes.
En ocasiones la migración tampoco resuelve el problema, ya que existe información que nunca podrá ser combinada en un solo repositorio o una sola base de datos. Pensemos en un ejemplo del mundo sanitario, en donde queramos combinar información clínica y administrativa. No podemos gestionar las pólizas o las facturas de los pacientes junto con sus radiografías, diagnósticos o tratamientos. El acceso a la historia clínica electrónica tiene unas implicaciones de seguridad y de funcionalidad específicas, lo que obligará siempre a mantener varios silos de datos concurrentes.
Una nueva alternativa:
Este buscador representa el corazón del nuevo “Portal del empleado”, donde los usuarios podrán registrarse para consultar información valiosa sin saber dónde ésta resida físicamente.
Siendo el objetivo evidente, no lo es la forma de lograrlo, ya que se requiere conjugar varias disciplinas, algunas de ellas en constante evolución. Veamos los requisitos más importantes del sistema.
Requisitos del buscador único:
Web Semántica y Ontologías:
Los modelos ontológicos permiten modelar los conceptos de un dominio dado y de esta manera es posible representar o describir a las entidades que forman parte de un sistema y las relaciones entre ellos. Los modelos obtenidos permiten una comunicación más fluida entre los desarrolladores y expertos en la lógica del negocio del software que está en desarrollo. Los modelos ontológicos también permiten a sistemas diferentes comunicarse entre sí, siguiendo las relaciones creadas dentro del modelo.
Indexación masiva en “lagos de datos” (data lakes):
La indexación es el proceso mediante el cual se registran ordenadamente datos e informaciones para elaborar un nuevo registro que facilita y agiliza la búsqueda de información y ayuda a seleccionar con precisión la información pertinente, de acuerdo con las características del usuario.
Los procesos de indexación sobre documentos, archivos de texto e imágenes constituyen una parte primordial de la capacidad de un sistema para localizar y recuperar rápidamente cada uno de los términos del texto de dichos contenidos, con el fin de proporcionar funciones de búsqueda eficientes y organizadas.
Las características del lago de datos a menudo incluyen velocidades de ingesta y escritura rápidas, así como un almacenamiento de bajo coste, puesto que está diseñado para gestionar la variedad, velocidad y volumen que caracterizan el Big Data. Hablamos de millones de registros diarios.
Estándares de interoperabilidad:
Ello exige cumplir con estándares de identificación única de usuarios (single sign-on), como OpenID, estándares de acceso a contenidos empresariales, como el Content Management Interoperability Standard (CMIS) y otros estándares más específicos, como los relativos a historias clínicas (p.ej. HL7). Cualquier nuevo silo de datos debe ser fácil de integrar, al estilo “plug & play”.
Sugerencias y redes sociales:
Como hizo Amazon en su momento, es importante que los nuevos buscadores empresariales puedan ofrecer al usuario un listado de información que pueda interesarle, en función de la búsqueda realizada y que estén acordes con su perfil y sus preferencias de búsqueda. Existen varias técnicas de recomendación:
- Recomendación colaborativa: Parte de la idea de que si dos usuarios han compartido intereses en el pasado, entonces tendrán gustos similares en el futuro, por tanto se debe mostrar lo que es popular entre vecinos. Para hallar la medida de similitud entre estos dos usuarios se utilizan técnicas de correlación que calculan un índice que representa el grado de afinidad de dos sujetos.
- Basadas en contenido: Se trata de destacar lo que haya interesado a otras personas, basándose en características de un producto y/o en un parámetro de relevancia que se va construyendo a medida que pasa el tiempo. Este parámetro puede solicitarse directamente (valoración) o extraerse de forma transparente calculando la frecuencia y el orden de selección de los resultados (al estilo de Google).
- Basadas en conocimiento: Cuando no existe un historial ni preferencias sobre las que se puedan fundamentar las recomendaciones, se requiere información adicional en base a un experto que tenga dominio de la aplicación.
Por otro lado, la integración de contenidos con redes sociales corporativas permite enriquecer la información y conectarla con otras fuentes internas o externas, fomentando discusiones y colaboración alrededor de estos contenidos.
Comportamiento inteligente y adaptativo:
Un buscador inteligente aprovechará la inteligencia colectiva, es decir, reutilizará los consejos de otros usuarios y sus tendencias de búsqueda para proponer temas de interés “a priori” y priorizará el orden o destacará ciertas respuestas a las consultas que se le hagan.
Finalmente, el comportamiento del buscador debe poder parametrizarse y estos parámetros adaptarse en el tiempo para mejorar los resultados de las búsquedas, reduciendo el número de clics necesarios hasta el hallazgo exitoso de información, e incrementando la satisfacción de los usuarios con su sistema.
Seguridad:
En un contexto de buscador global, los aspectos de seguridad de la información son esenciales, destacando los siguientes:
- Seguridad en la identificación, no se debe permitir el uso de este buscador a usuarios desconocidos o de los cuales no se tenga absoluta certeza de su identidad. Recordemos que existen contenidos que son muy sensibles e incluso vigilados por la legislación de protección de datos personales.
- Filtros anti-intrusión, se hace necesario monitorear en tiempo real el comportamiento de los usuarios, para primeramente detectar acciones inusuales que pudieran ser indicativas de fraude o robo de información, así como permitir la posterior auditoría de las acciones realizadas por cualquier usuario en el sistema.
Desde 2017, Adapting lidera el Consorcio Search-Spider, un proyecto de I+D internacional sobre búsqueda en repositorios de Salud (vea aquí más información).