Datos: hallar la aguja en el pajar (1)

Junio 13, 2014 4301
Valora este artículo
(0 votos)

A menudo se ha entablado discusión alrededor de qué elementos garantizan el éxito sobre cualquier escenario; desde la revolución industrial, los recursos se hallaban a la cabeza de esa lista de elementos. En plena era digital, las barreras físicas han sido superadas por la fibra óptica, y los ordenadores han empezado a substituir los libros como espacios para la acumulación de conocimiento.

El resultado ha sido un aumento exponencial de datos que antes destruiríamos. El aumento de capacidad en los ordenadores ha sido proporcional al aumento de información almacenada, por el simple hecho de que disponemos de millones de bytes.

El ejemplo

Busquemos cuatro agujas en un pajar. Tenemos ante nosotros un gran número de balas de paja, cada una con un número incontable de briznas de paja.

Podríamos usar un lanzallamas…

Sí, claro, pero el pajar no es nuestro; quizás nos cae un puro si quemamos las balas de paja.

Bueno… entonces, podemos dividirnos en grupo para buscar más y mejor

Es mejor idea que usar el lanzallamas. Sin embargo, el tiempo es limitado, hay poca luz, y cuatro agujas en un pajar siguen siendo muy difíciles de ver.

¿Y si usamos un imán?

Por ahora, es la mejor solución. El ser humano es el mejor elemento para solucionar un problema gracias a los procesos mentales que le ayudan a dar con esa solución. Su limitación viene dada por la imposibilidad de buscar, procesar y analizar un número tan elevado de datos como los que pueden hallarse en la red. El imán no buscará las agujas, pero su característica magnética las atraerá.

Para el investigador, la herramienta con la que busque los datos que deben serle de utilidad es importante, pero más importante es, si cabe, su formación en el manejo de dichas herramientas.

¿Qué diferencia un correcto almacenamiento de datos de un simple síndrome de Diógenes digital?

Los datos generados en la red pueden circular o permanecer almacenados, siendo los que circulan en la red lo suficientemente numerosos como para no poder almacenarlos (O’Reilly, 2012), o para generar cuellos de botella. A pesar de ello, debido a la facilidad de almacenaje, el número de datos que guardamos es elevado, y ello se hace indiscriminadamente; eso significa que almacenamos información vital junto a información despreciable o inútil.

Este almacenamiento indiscriminado convierte las bases de datos de empresas tanto públicas como privadas en cajones de sastre, como ya sucede en formato papel; así, se llega a la siguiente conclusión: Si los datos pasados a ordenador no se ordenan ni tratan, el único beneficio es el ahorro de espacio físico.

La importancia para el investigador: Encontrar información útil

En el seno de grandes cantidades de datos suele haber información útil. Sin embargo, cuantos más datos se acumulan, más compleja y difícil se hace su comprensión; a ello se añade que, a nivel global, las bases de datos duplican su contenido cada veinte meses.

La minería de datos es una disciplina cuyo objetivo es hallar patrones tras una gran cantidad de datos. Un patrón puede definirse como un resultado o resultados que se repetirán en unas circunstancias específicas y que, debido a su regularidad, puede predecirse su repetición dadas esas circunstancias. El proceso de minería de datos involucra Tres elementos:

  • El investigador
  • Un sistema de procesamiento de la información (p.ej. inteligencia artificial)
  •  Un océano de datos (p.ej. Internet, bases de datos)

En cuanto a minería de datos se refiere, el investigador puede ser la parte que decide – porque sabe – qué elementos clave buscar, y de qué elementos prescindir, y su cometido será indicarlo al sistema informático; sin embargo, no siempre se sabe qué se busca. Por ello, existe el aprendizaje supervisado, por el cual se fija un objetivo, y el aprendizaje no supervisado, en el que la herramienta busca patrones sin necesidad de un objetivo.

 Ello implica darle al sistema unas reglas (rules) para que haga bien su trabajo. Veamos un ejemplo:

Se han establecido unos valores predeterminados, destinados a tomar una decisión final sobre si jugar a fútbol o no. El resultado final (jugar o no a fútbol) no las escogerá el sistema, sino la persona que ha establecido estas reglas. Usemos estos términos en otro campo de datos y sin especificar decisiones:

La tabla expuesta es simple y carece de valor objetivo.

En el año dos mil doce, se registraron en España 83.115 accidentes de tráfico con víctimas (http://bit.ly/1oNcPfk). Cada accidente posee una explicación concreta, y cada explicación puede obedecer a muchísimas circunstancias.

La tabla de arriba podría – o más bien debería – tener muchos más valores que formen parte de los accidentes ocurridos. En la tabla superior, el personal a cargo definirá qué valores considera claves o que están más presentes en un accidente: muchos más tipos de vías, clase de vehículos, índices de muertes y lesiones, etc. La estructuración de datos permite a los investigadores hacer búsquedas específicas y hacer relaciones entre valores para determinar qué características son las que, combinadas, facilitan los siniestros viales.

No, con siniestro vial no me refería a esto.

 

 

 

 

 

 

 

 

No, con "siniestro vial" no me refería a esto.

El ejemplo de la DGT es ilustrativo debido a la elevada calidad de sus informes anuales. Precisamente, la determinación de los puntos negros en la carretera se hace a partir de unos indicadores – estadísticos en su mayoría – que se comparan.

El número de datos que somos capaces de captar es mucho mayor que hace unas décadas, pero ello no garantiza su utilidad. El uso de técnicas modernas como la minería de datos sólo serán útiles si el investigador sabe hacer un buen tratamiento previo de los datos :

  • identificar qué datos pueden ser útiles y no están previstos
  • Eliminar datos inútiles o redundantes
  • Hallar fuentes de datos y saber cómo extraerlos
  • Con qué formato representarlos
  • Valorar qué errores son más probables
  • Tratar valores desconocidos

 

Bibliografía:

Big Data Now Current Perspectives from O'Reilly Radar. S.l.: O' Reilly Media, 2011.

Dirección General de Tráfico; principales cifras de siniestralidad vial de 2012 (http://bit.ly/1oNcPfk).

 

 

Tags
Modificado por última vez en Sábado, 14 Junio 2014 11:42
Guillermo González

Nacido en 1986, apasionado de la historia y la arqueología además de la criminología. La historia humana y más adelante sus conflictos fueron los que me acercaron al deseo de conocer y entender los problemas de esta índole. Por ello, me interesé por los títulos que actualmente poseo: Graduado en criminología y Política Criminal y Licenciado en Criminología, así como algunos cursos desde las platformas Online Coursera y Udacity. Soy miembro de la Associació Interuniversitaria de Criminologia, Co-fundador de Criminólogos.eu  y subdirector de CyJ España, parte de Grupo CyJ. Siempre he tenido en alta estima la figura del emprendedor y del creador de proyectos; es por ello que me entusiasma asociarme con aquellas personas que, en vez de buscar un futuro, se lo fabrican; este es el caso del Grupo Criminología y Justicia. Combino mi labor en CyJ y Criminólogos.eu con una serie de investigaciones relcionadas con el ámbito de la seguridad y, en el terreno personal, con la escritura. Y encima, me gusta mucho el hip hop.

Correo: guillermogonzalez@criminologos.eu