Tag Archives: big data

Sobre los “data scientist” , el big data y su evolución profesional. (real experts inside!!!)

(Recopilo y edito levemente un comentario que escribí en mi perfil de facebook sobre cómo está evolucionando el perfil del data scientist y que tuvo la suerte de ser enriquecido con los comentarios de varios expertos , cuyos comentarios también transcribo:)

 

Artículo original:

Como pasó con el almacenamiento en servidores o la capacidad de computación, el proceso de análisis y visualización de datos está en camino de “comoditizarse”. Una empresa ya está en disposición de encontrar modelos de correlación o de predicción en sus datos sin tener en plantilla un “data scientist“, gracias a servicios de empresas como CartoDBBigML (ambas de origen español) o los propios de Google o Amazon.
Esto no quiere decir que el trabajo del data scientist pierda relevancia, simplemente que cualquiera (organización, empresa, individuo) podrá realizar determinadas tareas “estandar” sin recurrir a ellos.

¿Dónde estará la diferenciación?. En el principio y el final de la cadena: el acceso a las fuentes de datos (estamos lejos de que todos los datos sean abiertos y accesibles.) y en las decisiones que se tomen a partir de los mismos.

(Nota: los diferentes pasos que contemplo de esta “cadena” son: 1) obtención de datos 2) Limpieza y formateo 3) Análisis de los mismos 4)  Visualización 5) Toma de decisiones)

Respecto al rol del data scientist, no creo que sufra en absoluto una pérdida  de prestigio similar al de la figura del “community manager” (antaño un puesto apto solo para los mejores). Las barreras de entrada para ser un “analista de datos” son extremadamente altas, pero sí se deberán enfrentar a entornos cada vez más complejos y se les exigirán capacidades cada vez más estratégicas, sin perder nunca el rigor científico , algo absolutamente revolucionario para otros departamentos de la empresa. Porque tal y como narra George Orwell en esa pesadilla llamada 1984: ” en la filosofía, la religión, la ética o la política dos y dos podían sumar cinco, pero al diseñar mi avión o un aeroplano tenían que sumar cuatro”

Comentarios posteriores de expertos:

Algunos de los expertos  que  han dejado comentarios en mi muro son:

Marco Bressan,  uno de los mayores expertos mundiales en este área y el Chief Data Scients del grupo BBVA me indica:

“Cierto aunque tus ejemplos no son, creo, los que mejor ilustran esto ya que siguen siendo herramientas de ayuda a un oficio cambiante. Sí que lo es, por ejemplo, http://www.automaticstatistician.com/ Se ve ahi que la automatización va a por todas, incluido la toma de decisiones, y lo único que queda es el principio de la cadena que mencionas.”

Una visión. Por tanto, aun más “agresiva” del proceso de automatización.

Asier Arranz, otro experto mundial en tecnologías emergentes y ganador de diversos hackatons a nivel mundial, me comenta:

“Entonces fechamos la moda del “Data scientist” en 2015 junto a “Transformación digital”, tranquilo todo el mundo, llegan nuevos nombres para ocupar el periodo, cada vez mas corto, en el que la máquina sustituye a la persona. “

Marcelo Soria-Rodríguez. emprendedor, co fundador de databeers, una de las comunidades de interesados en el tema más importantes y VP Data Services en BBVA Data and Analytics me comenta:

“Tal vez simplifiques en exceso y en la realidad no sea tan fácil que una empresa use BigML, por ejemplo, sin tener a alguien que sepa qué está haciendo (llámese Data Scientist o Segismundo Ruiz García), esté en Nueva York, Calcuta o Tomelloso. Pero sí es cierto que vamos hacia la comoditización (puaj) de las tareas más habituales.”

Y Juan Murillo Arias, amigo como los anteriores y un de los mayores expertos en arquitectura que conozco y referente en tema smart cities,  y project leader  en Urban Data Services y Aplicaciones en BBVA Data and Analytics me responde:

…y mientras llega la total suplantación del hombre por la máquina y podamos retirarnos todos a contemplar las nubes y el caos, me permito recomendar otra plataforma que democratiza la visualización de resultados de forma tan amigable como tableau, pero libre; prueben a representar correlaciones interesantes desde un punto de vista periodístico, como el aumento del índice de suicidios a lo largo del itinerario de la gira de verano de DJPaquirrín: http://www.quadrigram.com/#gallery

Un par de granitos más: en mi humilde opinión este proceso de automatización y estandarización de tareas que se venían desarrollando de forma artesanal (y en muchos casos tediosa) no es distinto al que han vivido otros sectores n veces en el pasado: por poner un ejemplo, en los 80 un arquitecto podía derivar trabajo a dos delineantes, a un par de aparejadores, un administrativo y a un gabinete de ingeniería sacando adelante uno o dos proyectos al año. Llegaron las herramientas CAD, los programas de cálculo de estructuras e instalaciones, los de elaboración de mediciones y presupuestos, y el paquete office, con lo que la mitad de aquellas personas hoy pueden sacar el doble número de proyectos al año.

Es evidente que en todos los sectores este aumento de productividad de la mano de la tecnología siempre trae pérdida de demanda de recursos humanos, pero también es cierto que el talento humano no ha de desperdiciarse en tareas ingratas como la curación de datos, la detección de outliers, o la representación gráfica de resultados mediante librerías desarrolladas por uno mismo, como apuntaban Marcelo y Marco paquetizar todo ello es positivo (y resistirse sería ludita). Sin embargo aún será durante mucho tiempo necesario el ojo del experto en el diseño de modelos, en la interpretación de relaciones y en la corroboración de los resultados dentro de los márgenes de la intuición… Para cuando la inteligencia artificial supere a la humana en todo ello no solo la función del Data Scientist se verá amenazada, sino la mayoría de profesiones de hoy en día.

Mientras, el hecho es que desde este artículo de Forbes (2012) la demanda de perfiles de DS no ha dejado de crecer, impulsada en un extremo de la cadena por la mayor disponibilidad de fuentes, y en el otro por la adopción cada vez más extendida de un modelo científico de gestión basado en datos: http://www.forbes.com/…/the-data-scientist-will-be…/

Como véis no podía dejar de compartir con vostros este interesantísimo intercambio de opiniones que estaré encantado de contiuar, aquí o en el grupo de Facebook Original

Innovachallenge, una gran oportunidad profesional.

El pasado viernes 20 de diciembre anunciábamos los ganadores del concurso Innovachallange, dando fin (al menos temporalmente) a unos meses de incesante trabajo y sobre todo un aprendizaje constante.

Durante mucho tiempo he contado tanto en el blog como en numerosas charlas el caso del “premio Netflix” como un ejemplo claro y tangible de lo que es la “innovación abierta”: colaboración entre empresa y comunidad para lograr una mejora en el producto final que no habría sido conseguida por otros medios.

Sin haberlo imaginado entonces, he tenido la oportunidad de participar en “Innovachallenge” uno de los mayores ejemplos de innovación abierta que una gran empresa (en este caso el Grupo BBVA) haya realizado hasta ahora.

Resumo: el departamento de Big Data de BBVA, uno de los más avanzados a nivel mundial, tenía interés en trabajar con desarrolladores , data scientists y expertos en datos en general para encontrar nuevas líneas de trabajo y conocer nuevos talentos. Para ello pusieron a libre disposición una serie de datos de gran relevancia (transacciones realizadas vía tarjeta de crédito en Madrid y Barcelona en 2012 y 2013, mostrando el origen demográfico, sexo , edad y tipo de compra) a través de un API.

Desde “Open Innovation” nuestro trabajo fue ayudar a hacer de esta llamada un éxito. Durante tres meses, y bajo el nombre de “innovachallenge” contactamos con toda comunidad de desarrolladores, periodista, blogger o persona de relevancia que pudimos para hablarle de este “reto”. Así mismo visitamos diversas universidades o centros como el medlalab prado, esade, barcelona digital, etc, explicando el concurso y dando formación en Big Data y uso específico de nuestro API de datos.

La acogida por parte de todos los especialistas que hemos encontrado fue extraordinaria y el “datathon” se mencionó en todos los blogs relevantes del tema. El caso que más ilusión me hizo fue la reseña en Programmable Web, un blog que sigo desde hace años y es el referente absoluto del sector, así como poder conocer en persona a su fundador John Musser.

Finalmente, y tras unos meses itinerantes con gran trabajo de formación y divulgación, se presentaron al concurso 144 aplicaciones de 19 países diferentes. Aunque no teníamos referencias que nos indicasen a partir de que cifras podíamos considerarlo un éxito (no hay muchos casos de datathones de Big Data en grandes empresas) creo sinceramente que innovachallenge ha sido un exitazo.

Si el número de concursantes fue muy elevado, lo más llamativo fue la enorme calidad de los mismos. La decisión del jurado fue particularmente dura a la hora de quedarse con solo los nueve ganadores, que podéis consultar aquí.

Os invito a que paséis unos minutos examinando estas aplicaciones desarrolladas a partir de una serie de datos proporcionados por BBVA vía API, y os daréis cuenta del enorme potencial que existe en colaborar con la comunidad.

El premio ha sido solo la primera parte. El reto viene ahora: ser capaces de analizar todo esta “tormenta creativa” y buscar formas de colaboración con sus creadores. Prometo iros contando todos los avances que se vayan produciendo.

Para mí, como decía al principio, ha significado una maravillosa oportunidad profesional, la de poder ver de primera mano cómo trabaja uno de los mejores equipos de Big Data del mundo, el del BBVA, conocer a expertos como Esteban Moro o Sergio Leiva, compartir muchas jornadas con desarrolladores de todo el mundo y poner desde “open innovation BBVA” nuestro granito de arena para que todo fuese posible.