La historia de Graphext - analisis de datos con deep learning
Es complicado ver en un Excel con varias decenes de filas y columnas qué jugador de fútbol tiene unas características parecidas a Cristiano Ronaldo y que, al mismo tiempo, sea mucho más barato de fichar que el portugués. O por qué hay determinadas personas que se han ido marchando de una empresa en un periodo de tiempo concreto.
Victoriano Izquierdo nos asegura que Graphext, empresa que cofundó en 2015, es capaz de dar pistas sobre el próximo CR7 low-cost o sobre las causas que pueden estar provocando un éxodo en una empresa.
¿Dónde está el truco? Al parecer, en combinar analítica de datos y herramientas de inteligencia artificial y machine learning.
Los amigos siempre cerca
Victoriano y su socio cofundador, Miguel Cantón, se mudaron de su ciudad natal, Granada (España), hasta Madrid. Allí empezaron a estudiar informática y en la propia residencia de estudiantes en la que vivían surgió el germen de Graphext.
La misión consistía en ordenar un collage de fotos que reunía a todos los estudiantes que vivieron en esa residencia los diez años anteriores. ¿Ordenarlo cómo? Poniendo al lado las fotos de aquellas personas que tenían una relación cercana entre sí. Para ello permitió la opción de que cada residente pusiera "datos de perfil" en ese collage, desde qué año entró, procedencia, cumpleaños o número de habitación hasta qué estudiaba o redes sociales.
La premisa de Victoriano era que si alguien era de Barcelona, de una determinada edad y estudiaba una carrera de letras, por ejemplo, tenía opciones de tener amistad con alguien de perfil parecido. Lo probó y el modelo falló estrepitosamente.
El siguiente paso fue recurrir a las interacciones de los residentes a través de sus perfiles de Twitter. Crearon una red en la que cada "punto" era una persona y en el gráfico se mostraba cómo se relacionaba con el resto de la comunidad (ponemos borrosa la imagen para preservar los nombres de usuario reales):
Según Victoriano, esto funcionó muy bien porque, además de ver las interacciones entre la gente, reflejó también la distancia que había entre las personas, es decir, entre quiénes no había ningún tipo de relación.
"Aquello me pareció tan fascinante, que después de la carrera me junté con otro amigo [su actual socio, Miguel] y montamos Contexto, predecesor de Graphext y cuya misión era definir cualquier comunidad de gente que tuviera redes sociales, desde el Congreso de los Diputados hasta los desarrolladores en España. Captábamos señales de los perfiles linkados en Twitter, Instagram o Linkedin como a quién empezaron a seguir, a quién hicieron RT, qué enlaces comparten, dónde ha trabajado, etc.".
A partir de aquí generaron un índice de relevancia para cada persona. Cuando tuvieron varios grupos de personas o clusters formados, aplicaron algoritmos de comunidades, como Zachary's Karate Club, que "se utiliza como ground truth para saber por dónde habría que partir una comunidad respecto a otra, que aunque no es perfecto, sirve como punto de partida", según Victoriano.
Ahí apreciaron, por ejemplo, clusters del Congreso de los Diputados de España en el que los miembros aparecían cerca según su partido político, o grupos de programadores según intereses (Women In Tech, Agile, Rails, Ruby...) y empezaron a perfilar quiénes de esos perfiles son más influyentes o qué medios de comunicación funcionan mejor en redes sociales, o qué temas estaban empezando a hacerse populares. "Incluso se puede saber dónde vive alguien si se hace un filtro de tuits que ha mandado recurrentemente entre las 9 de la noche y las 9 de la mañana, que es cuando en teoría estará en casa", afirma Victoriano.
La conclusión de Contexto fue que "agregando mucha información publica se pueden conseguir buenos insights". Y con todo ese aprendizaje y las propias metáforas visuales que utilizaron desde sus años en la universidad, Victoriano y Miguel crearon Graphext en 2015.
Graphext, o cómo ver cosas escondidas en datos
Graphext es una herramienta que permite a la gente analizar datos, usar técnicas de machine learning e inteligencia artificial para ver cosas escondidas en datos. En realidad es como hacer estadística pero más avanzada y haciendo click en lugar de escribiendo código o metiendo fórmulas matemáticas.
El concepto básico del que parte Graphext es el de agrupar datos en gráficos porque, según Victoriano, "las visualizaciones te sirven para hacerte más preguntas". Y, claro, a más preguntas que te hagas, más respuestas buscarás y más información interesante puedes extraer.
Todo parte de archivos .csv con muchas columnas y filas que se introducen en la plataforma de Graphext y que acaban teniendo un aspecto así:
En este ejemplo vemos un índice de popularidad de personajes históricos y su relación entre ellos. Así, según el gráfico observamos que Leonardo Da Vinci e Isaac Newton están parejos en fama, al igual que el caso de Alejandro Magno y Hitler.
Usando la misma base de datos que compartió el MIT en Kaggle (que a su vez bebe de los perfiles de Wikipedia de los personajes históricos), podemos obtener un gráfico aún más específico, como que España es el séptimo país de todo el mundo con más personajes históricos famosos, y que el 35% de ellos son futbolistas o deportistas en general. El resto, reyes, Papas, santos, escritores, artistas y exploradores:
Si nos fijamos más, también vemos que la mayor parte de personajes históricos españoles famosos nacieron a partir de las décadas previas al año 2.000 y que principalmente son de Madrid, Barcelona y Sevilla.
¿Más ejemplos? Quizá uno más práctico si eres ojeador o entrenador de fútbol. El equipo de Graphext se preguntó quién sería el mejor sustituto si Griezmann se va del Atlético de Madrid. Analizaron 71 variables de más de 18.000 jugadores y encontraron que los relevos ideales para el futbolista son Fede Bernardeschi, Riyad Mahrez y Valère Germain:
Con un proceso denominado "reducción de dimensionalidad", Graphext selección a los 12 jugadores con las características más parecidas a Griezmann. Y fue acotando aún más con preguntas como el valor de mercado de cada jugador.
Con la hipótesis de que el Atéltico no puede gastarse más de 50 millones de euros en el fichaje, vieron que Robben sería el más adecuado por precio, pero también que es demasiado mayor (34 años). El siguiente paso fue ajustar la edad de los jugadores a 27 años o menos y ahí es cuando aparecen Bernardeschi, Mahrez y Germain.
Los gráficos son bicicletas para la mente
Una vez Steve Jobs dijo que los "los ordenadores son bicicletas para la mente" por todo el progreso y oportunidades que nos dan a los seres humanos.
Utilizando esa frase como referencia y sin caer en odiosas comparaciones, Victoriano quiere conseguir con Graphext que los humanos "liberemos RAM de nuestra cabeza para poder centrarnos en lo que somos buenos, que es hacernos preguntas con los datos y poder resolverlas lo más rápidamente posible".
Pero para eso hay algunos retos. En sus palabras:
Hoy en día el análisis de datos depende mucho de que la gente tenga buenas hipótesis y luego usan los datos para comprobarlas o no. Pero seguimos dependiendo de la intuición humana, de sesgos cognitivios y psicológicos. Nosotros vamos en otra dirección. De manera proactiva te damos alertas o de qué deberías preocuparte. Para eso los clientes nos dan feedback para saber contexto de lo que les interesa y sugerirles cosas.
Aunque el principal escollo al que se están enfrentando es la falta de datos y también una mala calidad de los que ya existen. "La mayoría de empresas, incluso algunas muy importantes del IBEX 35, no tienen ni recolectan un montón de datos importantes o si los tienen es en formatos inusables, no saben dónde están, la información está dividida en silos, etc.", apunta Izquierdo.
Llegados a este punto es importante recalcar que Graphext puede beber de fuentes de datos públicas (Twitter, el INE o el CIS), o internas que tienen las empresas o instituciones y a las que necesitan acceso y permiso expreso.
Una vez que tenemos una base de datos sobre la que partir, el siguiente paso es convertir un enorme .csv en un gráfico como los que hemos visto más arriba. Para ello, Graphext emplea varias tecnologías: Javascript para sus propias librerías de visualización de redes, C++ para rastrear noticias, APIs para extraer datos, Elastic Search para indexar documentos, PostgreSQL para datos relacionales, Ruby y Rails para backend, Python para NLP, React.js para D3.js y para el frontend, etc.
Lo importante, según Victoriano, es romper en trozos un conjunto grande de datos para poder entenderlos mejor. De esta manera, afirma, "surgen categorías de una manera no supervisada y que son útiles para sacar insights".
¿Y cómo surgen los clusters o grupos por colores de los gráficos? "Cada fila de un Excel es un nodo que tiene un montón de atributos. Y lo que hacemos es calcular distancias entre vectores. Los vectores que son más próximos los conectamos. Y a partir de ahí surgen los clusters, incluso podríamos dividirlos en subclusters una y otra vez".
La moral y el futuro de Graphext
Cuando le saco el escándalo de Cambridge Analytica, Victoriano no duda en decirme que no cree "que fuera para tanto" el impacto en las elecciones del Brexit o de Estados Unidos como se está infiriendo. "Parece que el tipo de datos al que tenían acceso no era tan rico y luego la accionabilidad de esos datos tampoco parece que pudiera hacerse tanto como se ha vendido desde los medios que han movido la noticia".
Lo que sí cree Victoriano es que este escándalo abre un "tiempo nuevo de debate social" para las empresas y para la sociedad y, según él, el GDPR es un primer ejemplo de ello.
La siguiente pregunta que le hice fue algo más complicada. ¿Qué pensaría si Graphext se utiliza con fines militares o éticamente debatibles? Y le puse un ejemplo ficticio de un Gobierno que quiera aplicar la censura en una zona concreta del país, la que más usuarios activos tenga, algo que se podría extraer fácilmente con la plataforma.
Lo primero que me respondió es que no accederían a trabajar con proyectos que planteasen dilemas morales, y nos confiesa que todavía no tienen una cartera de clientes tan grande como para que eso se les escape de la manos. A día de hoy tienen clientes del ámbito farmacéutico, ONGs, agencias de marketing o entidades gubernamentales y, según nos dijo, hasta ahora no ha habido casos raros.
¿Tiene Graphext competencia? Sí, el propio Victoriano enumera Dataiku, "que son franceses que han abierto en Nueva York, y que dependen más de tener expertise en data science, de saber más de algoritmos, mientras que nosotros intentamos hacerlo mucho más fácil", Tableu o Qlik, "ambos llevan muchos años, están en bolsa y todo, pero ellos están muy centrados en visualización de datos", Excel, "para el que suelen hacer falta matemáticos, estadistas o expertos en fórmulas, e incluso no todo lo que hace Graphext se logra con Excel", Python y R, "que están de moda porque además son gratis y open source, aunque tampoco somos competidores directos porque precisamente nosotros queremos un producto en el que no haya que aprender a programar".
Tras una ronda de financiación de 500.000 euros por parte del fondo de venture capital K Fund, Graphext tiene ahora un equipo de 12 personas con oficina en Madrid y actualmente están buscando perfiles de sistemas, desarrolladores fronts y gente de desarrollo de negocio.
Los próximos pasos en materia de financiación son "levantar el dinero justamente necesario para poder competir y poder hacer un producto que juegue en primera división. Estos productos o juegan a nivel mundial, o no juegan en absoluto", confiesa Victoriano. Al mismo tiempo, están trabajando en ampliar clientes y uno de los focos es la educación: que universidades o institutos usen Graphext para enseñar medicina, programación, historia, etc.
El modelo de negocio de Graphext es Software As A Service o SaaS (Software como servicio). Venden licencias por suscripción o por uso y el precio varía en función de la aplicación de cada empresa, qué volumen de datos trabajan, etc.
0 comentarios:
Publicar un comentario