Auditoría & Co

Estamos viviendo una nueva revolución económica surgida de otra tecnológica. Lejos de ser un cliché, existe la evidencia empírica de este proceso en nuestra forma de expresarnos, es decir, en la forma que tenemos de comunicar nuestra realidad. Y es que el vocabulario que utilizamos para expresar conceptos de la actividad laboral diaria ha sido impregnado por nuevos conceptos que provienen de esta revolución tecnológica.

Inmersas las organizaciones en un proceso de transformación digital, donde la tecnología, cada vez más, soporta la estrategia de la empresa, los cambios que la infraestructura tecnológica que posibilita los procesos de negocio transforma cómo las compañías gestionan su información.

En este entorno, aparecen nuevos conceptos y se mejoran los ya existentes y esto, necesariamente, afecta al modo en el que las empresas de servicios profesionales ayudan a sus clientes a satisfacer sus necesidades.

La nube, abstracción que representa la externalización remota de tecnología, lleva asociada paradigmas arquitectónicos que las empresas están integrando poco a poco y que responden a diferentes necesidades de negocio: Plataforma como Servicio (PaaS), Software como Servicio (SaaS) o Infraestructura como Servicio (IaaS).

El análisis de datos es una de las múltiples prácticas que están cambiando al ritmo que marca la tecnología, moviéndose hacia enfoques basado en SaaS o PaaS. Tradicionalmente, el análisis de datos y, por tanto, aquel realizado para la detección de patrones de fraude, se ha realizado sobre la base de repositorios de datos centrales, es decir, un “sitio” donde parte de los datos de negocio de la organización están recogidos siendo estos repositorios de datos bases de datos, es decir, sistemas informáticos que organizan y gestionan los datos de forma eficiente y siguiendo un modelo que representa los vínculos entre ello.

Ese modelo representa el negocio. El equipo de ingenieros encargado de diseñar el modelo del repositorio debía adquirir un conocimiento del negocio para trasladarlo al terreno informático para soportar su operativa diaria.

Sin embargo, dicho modelo no tenía que ser el adecuado para el análisis posterior de la información y por ese motivo surgió el “datawarehouse”. Un datawarehouse es, también, una base de datos que representa, estructura y gestiona la información sobre “hechos” y que se alimenta de la base de datos de producción.

El análisis que podamos realizar con datawarehouses y bases de datos asume que la información que recogen ambos repositorios es la totalidad de la información que dispone la empresa que puede ser analizado. Nada más lejos de la realidad, la información que genera y gestiona la empresa no está centralizada ni modelizada, proviene de muchas fuentes, es heterogénea, no está estructurada y, la mayor parte, no es conocida por todos los agentes que se relacionan en la empresa.

Esta forma de analizar, por tanto, es un modelo rígido que traslada la complejidad del negocio al análisis. Implica asumir que la información accesible es toda la que existe y el modelo implica conocer el proceso de negocio y qué tipos de análisis se van a realizar sobre los datos, con independencia de que con posterioridad se utilicen otras técnicas como aprendizaje automático no supervisado (como, por ejemplo, Deep learning).

Por otro lado, bien fuera por el alto coste de implementar un datawarehouse, bien porque dicho análisis no fuera considerado una prioridad para el negocio, el análisis se realizaba sobre porciones de esa información extraída previamente mediante consultas SQL y cargadas en otras herramientas de análisis externo como las herramientas CAAT, en otras bases de datos o, incluso, en Excel. De este modo, estamos corriendo el riesgo de perder el contexto del negocio que el modelo nos proporcionaba.

La investigación de fraude en general, y la utilización para este propósito de técnicas de analítica de datos, sin embargo, necesita de una aproximación más exploratoria y experimental. No vale sólo con aplicar patrones de fraude sino que es necesario probar y validar hipótesis. Existe, por tanto, una intersección entre patrones de fraude, conocimiento del negocio y técnicas concretas de analítica de datos (exploración, consulta, visualización o machine learning, entre otros) que no puede ser abordada mecánicamente.

Asimismo, el fraude implica análisis de comportamientos que no siempre están recogidos en el repositorio central. Por eso una investigación se aborda con diferentes técnicas, como el análisis de redes sociales, corporate intelligence data matching, machine learning, tecnología forense, análisis financiero forense, entre otras.

Buscar casos de fraude únicamente mediante modelos elaborados a partir de datos extraídos de una o varias bases de datos y cargados en diferentes herramientas de análisis, como CAATs, bases de datos u herramientas de visualización, es una tarea que nos dará una visión parcial sobre posibles patrones de fraude.

Sin embargo, existe una nueva oportunidad para la analítica de datos orientada hacia la investigación de fraude gracias al Big Data, concepto cada vez más relevante en las empresas. Big Data hace referencia a la tecnología que hace posible recopilar y analizar masiva y eficientemente grandes volúmenes de información con independencia de la localización de los datos y de quien realiza el análisis.

Uno de los conceptos asociados a Big Data es el de “data lake” o lago de datos. Podemos pensar en un data lake como un repositorio central que almacena datos de diversas fuentes en bruto de diferentes fuentes de información.

Con los nuevos paradigmas arquitectónicos y, por tanto, con un data lake, quien afronta la tarea de utilizar la analítica de datos para detectar fraude ya no tiene que enfrentarse a las limitaciones de los sistemas tradicionales de análisis:

  1. Análisis nativo de los datos, sin extracciones intermedias que eliminen el contexto de los mismos.
  2. Por tanto, análisis, también, de metadatos asociados a las fuentes originales de dichos datos.
  3. La tecnología que subyace a los data lakes permite ir más allá del análisis relacional de datos basado en SQL, o de herramientas externas de análisis cuyo procesado dependía en muchos casos de la extracción previa de la información para ser cargada en otro repositorio, cuyo modelo también debería ser definido de forma adecuada. Tecnologías como Apache Spark permiten construir un ecosistema integral de análisis remoto, distribuido y escalable y que admiten de forma nativa la exploración inicial de los datos o la construcción de algoritmos de inteligencia artificial o la aplicación de otros ya existentes.
  4. El análisis de datos está más alineado con la los procedimientos de investigación de fraude, permitiendo un análisis exploratorio inicial que revele la naturaleza de los datos y de los procesos de negocio que alimentan el data lake.
  5. Posibilidad de interrelacionar datos que, antes, estaban ocultos o cuyo análisis agregado era mucho más costoso. 6.Posibilidad de definir en cualquier momento del análisis modelos y patrones más ajustados a la naturaleza de los posibles fraudes detectados.

En definitiva, los data lakes abren nuevas posibilidades en la investigación de fraude, permitiéndonos centrarnos en un análisis global de la información, del negocio y, por tanto, de la empresa en su totalidad.