C√≥mo compartir datos listos para analizar

Seguro que hab√©is oido que el 80% del tiempo de un proyecto de datos se dedica a organizar y limpiar los datos, y el resto a analizarlos, ¬Ņo era el 90%? Desde luego cualquiera que se haya puesto manos a la obra, habr√° experimentado que es una cantidad de tiempo no despreciable.

Lo que sigue es una serie de consejos que tienen como objetivo crear conjuntos de datos m√°s ordenados para facilitar la tarea del analista, y reducir, as√≠, el tiempo para obtener resultados. Son recomendaciones b√°sicas orientadas a datos estructurados (tablas) aunque algunas recomendaciones tambi√©n aplican a datos con texto libre. Si se te quedan cortas puedes encontrar √ļtil otras gu√≠as m√°s avanzadas [1].

Tened en cuenta que muchas de las aplicaciones y lenguajes de programación han sido desarrollados con el idioma y la cultura anglosajona en mente, lo que hace que algunas de las recomendaciones pueden sonar un tanto peregrinas vistas desde la perspectiva latina.

Primeramente, incluyo un resumen con los puntos que hay comprobar antes de compartir un conjunto de datos, y seguidamente se desarrollan cada una de estos puntos.

Resumen

Si hubiera que resumir en un √ļnico consejo sobre c√≥mo organizar los datos ser√≠a:

Sigue tu corazón pero, por favor, sé consistente en tus decisiones.

Además, antes de compartir el conjunto de datos mi recomendación es que revises que cumplas los siguientes puntos:

  • Datos tabulares organizados en un fichero por cada tabla
  • Formato del archivo CSV (separado por , o por ;), o TSV (separado por tabuladores).
  • Nombre del archivo relevante.
  • Los datos en cada tabla tienen que cumplir:
    • Primera fila reservada para la cabecera.
    • Nombre de las variables relevantes sin incluir espacios.
    • Utilizar el punto como separador decimal.
    • No incluir el separador de miles.
    • Los valores de las variables categ√≥ricas deber√≠an ser descriptivos.
    • Codificar correctamente los valores perdidos.
    • Utilizar una representaci√≥n los m√°s est√°ndar posible para codificar fechas (YYYY-MM-DD) y horas (hh:mm:ss).
  • Codificaci√≥n del texto UTF-8.
  • Documentaci√≥n del conjunto de datos.
  • No incluir informaci√≥n que pueda identificar personas directa o indirectamente.

1. Organización del conjunto del datos

Las tablas son la manera más habitual de organizar datos estructurados. Una tabla es una estructura en dos dimensiones que se compone de filas y columnas. Cada fila se corresponde con una observación, y cada columna con los valores de distintas variables relativas a esa observación. Si tuvierais conjuntos de observaciones distintas tendrían que organizarse en tablas separadas y almacenarlas en un fichero por cada tabla. Esto es lo que se conoce como tidydata [2].

1.1 El formato de archivo más recomendable para compartir tablas es CSV (Comma-Separated Value). Los separadores de campos deberían ser , o ;

Ejemplo de archivo CSV

Altura,Peso,Genero
1.65,59,F
1.80,85,M
1.72,95,M
1.83,68,F
1.66,70,M

Una alternativa muy interesante es el formato TSV (Tab-Separated Value) que emplea el tabulador como separador.

Si no es posible obtener un archivo en CSV √≥ TSV, y dado su enorme popularidad, otra alternativa son los formatos nativos de Excel, XLSX, o XLS. En este caso, es imporante que se incluya una √ļnica hoja por archivo, y no se a√Īada informaci√≥n de formato (por ejemplo, no incluir colores, o formatos condicionales) ni f√≥rmulas. √önicamente el puro dato siguiendo las indicaciones de esta gu√≠a.

También se puede compartir un enlace a una hoja de cálculo en Google Drive.

En el caso de que los datos no estructurados (texto libre) o con una estructura compleja, los formatos preferidos son JSON y XML.

Si el archivo es pesado, hay que comprimirlo en formato ZIP, y si fuera muy pesado separarlos en¬† m√ļltiples archivos. Evitar utilizar otras extensiones como RAR.

1.2 El nombre del archivo del conjunto de datos deber√≠a ser un resumen relevante¬†de su contenido. No incluyais espacios dentro del mismo, acentos, ni nuestra querida √Ī.

Ejemplo

2019-calificaciones-cienciadatos.csv

mejor que:

misdatos.csv

2. Organización de una tabla

Una serie de reglas b√°sicas que tiene que cumplir cada tabla que compartamos:

2.1 La primera fila se denomina cabecera, y se reserva para el nombre de las variables. Siempre se incluye la cabecera, y no se incluyen más filas antes de la cabecera (ni tan siquiera vacías), ni al final de los datos. La cabecera tiene que comenzar en la primera columna, es decir, no dejar columnas vacias a la izquierda de la primera variable.

En el ejemplo anterior la cabecera es:

Altura,Peso,Genero

Un ejemplo incorrecto de archivo sería:

1.65,59,F
1.80,85,M
1.72,95,M
1.83,68,F
1.66,70,M

ya que no tiene la cabecera.

Tampoco sería válido:

Archivo que incluye distintas medidas de peso y altura 
Altura,Peso,Genero
1.65,59,F
1.80,85,M
1.72,95,M
1.83,68,F
1.66,70,M

ya que incluye una primera línea antes de la cabecera.

El siguiente ejemplo también es incorrecto debido a que aparecen filas adicionales después de los datos.

Altura,Peso,Genero
1.65,59,F
1.80,85,M
1.72,95,M
1.83,68,F
1.66,70,M
Media=1.74,Media=75.4
F=2, M=3

2.2 El nombre de las variables tiene que ser descriptivo, sin incluir espacios, y empleando √ļnicamente caracteres anglosajones (sin acentos, ni √Ī).

Ejemplos v√°lidos

RentaPerCapita, Rentapercapita, RENTAPERCAPITA, Renta_per_capita

mientras que habría que evitar:

Renta per capita, Renta, RPC

El primer ejemplo incluye espacios dentro del nombre de la variable. El segundo ejemplo es un nombre poco claro ya que no se sabe a qué tipo de renta se refiere. Si se utilizan siglas y abreviaturas, hay que asegurarse que son aceptadas y conocidas por la amplia mayoría de los usuarios del datos.

Eligamos nombres en inglés si nuestro conjunto de datos tienen vocación internacional.

2.3 Utilizar el punto (.) como¬†separador decimal. Este es un problema muy t√≠pico cuando se exportan datos de un programa como Excel y la configuraci√≥n del idioma est√° en Espa√Īol, ya que por defecto utiliza la coma como separador. Desde 2010, la RAE recomienda utilizar el punto en lugar de la coma con el fin de unificar criterios [3].

Así, el siguiente ejemplo sería incorrecto:

Altura,Peso,Genero
1,65;59;F
1,80;85;M
1,72;95;M
1,83;68;F
1,66;70;M

2.4 No incluir el separador de millares. Cuando escribimos un n√ļmero en un texto, habitualmente se separa en grupos de tres cifras para faciltar la lectura del mismo. En cambio, de cara al an√°lisis de datos este separador no tiene ninguna funci√≥n, es m√°s dificulta el an√°lisis independientemente del separador que se use (espacio en blanco, coma o punto) ya que hay que eliminarlo antes de poder utilizar el dato.

Por ejemplo, su en una celda el dato es cien mil, la √ļnica manera v√°lida de representarlo es:

100000

Por el contrario, las siguientes representaciones son incorrectas:

100 000
100,000
100.000

2.5 No incluir la unidades de medida en la misma celda que el dato. Es fundamental indicar las unidades de medida de cada variable (v√©ase el punto 4) pero nunca acompa√Īando al propio dato.

El siguiente ejemplo es incorrecto:

Altura,Peso,Genero
1.65 m,59 kg,F
1.80 m,85 kg,M
1.72 m,95 kg,M
1.83 m,68 kg,F
1.66 m,70 kg,M

2.7 Los valores de las variables categ√≥ricas deber√≠an ser descriptivos, y tener el mismo formato. Una variable categ√≥rica es aquella que puede tomar un n√ļmero limitado y fijo de valores como, por ejemplo, g√©nero, colores, o paises.

Las variables categóricas suelen ser fuente de errores, y hay que ser cuidadoso para asegurar que una  categoría no se representa con distintos valores.

Tres comprobaciones b√°sicas

  • Elegir nombres descriptivos de las categor√≠as. Si se emplean siglas o abreviaturas, tienen que ser ampliamente aceptados. Hay que evitar codificar con n√ļmeros estas variables, as√≠ mejor F y M, que 0 y 1.
  • Asegurarse que todos los valores se escriben con el mismo formato de min√ļsculas y may√ļsculas. Escogamos un formato (FEMENINO, femenino, √≥ Femenino), y mantengamos fiel a √©l en todas las variables categ√≥ricas.
  • Revisar que una misma categor√≠a no tiene distintos valores. La casu√≠stica es variada. Por ejemplo, puede ocurrir que se hayan cometido errores ortogr√°ficos (ej. femnino), que se hayan utilizado sin√≥nimos (ej. varon, masculino), que se hayan combinado nombres y abrevituras/siglas (ej. masc, masculino), m√ļltiples combinaciones de las anteriores, o nuevas alternativas que se me pasan.

El siguiente ejemplo contiene errores en la variable categoríca:

Altura,Peso,Genero
1.65,59,Femenino 
1.80,85,Masc 
1.72,95,Masculino 
1.83,68,Femenino 
1.66,70,Masclino

Cuando se establece un orden entre las categorías se denominan variables ordinales, como por ejemplo, intervalos en una medición (bajo, moderado, alto), calificaciones (suspenso, aprobado, notable sobresaliente), o medallas (oro, plata, bronce).

En este caso aplican las mismas reglas que hemos visto para las variables categ√≥ricas con la salvedad que algunas variables ordinales se representan correctamente con valores n√ļmericos. Por ejemplo, la posici√≥n en una competenci√≥n es mejor codificarla num√©ricamente (1, 2, 3…) que utilizar los cardinales (primero, segundo, tercero…).

2.8 Codificar correctamente los valores perdidos. Es posible que nos dispongamos datos de todas las observaciones, y que algunas celdas se nos hayan quedado vacias. Ahora bien, tambi√©n es com√ļn codificar estas celdas con alg√ļn valor num√©rico fuera del rango de posible valores en vez de dejarlas vac√≠as, por ejemplo, 0, -1o 999.¬† Esto puede llevar a dos errores:

  1. El valor empleado para codificar el perdido realmente también sea un valor válido, y estamos codificando dos informaciones distintas de la misma manera. Por ejemplo, en una variable como RentaPerCapitapuede pasar que el 0represente que la persona no haya querido revelar sus ingresos, o que no tenga ingresos.
  2. En el proceso de elaboración del conjunto de datos se comete un error, y se baila o se cambia una cifra del valor perdido, y se convierte en un valor válido, o viceversa.

El siguiente ejemplo ilustra este problema codificando los perdidos con 999:

Altura,Peso,Genero
1.65,59,F
999,85,M
1.72,99,M
1.83,999,F
1.66,70,M

En la tercera fila de datos, ¬Ņes el 99un valor v√°lido, o se han olvidado un 9al incluirlo?

Es preferible, dejar las celdas vacías, o utilizar una etiqueta como NA (Not Available) que identifique inequivocamente que es un valor perdido.

M√°s claro en el siguiente ejemplo:

Altura,Peso,Genero
1.65,59,F
NA,85,M
1.72,NA,M
1.83,NA,F
1.66,70,M

Y, por supuesto utilizar la misma manera de codificarlos en todas las variables.

2.9 Utilizar una representaci√≥n los m√°s est√°ndar posible para codificar fechas y horas. Existe un reportorio de formatos para representar fechas y horas que incluso llegan a dificultar muchas veces la propia comprensi√≥n del dato 03/11/1978¬† ¬Ņhace referencia al 3 de noviembre, o al 11 de marzo? Pues depende de la nacionalidad de a qui√©n le preguntes. Adem√°s, esta variedad incluye elegir entre distintos s√≠mbolos para separar los campos, sustituir los meses del a√Īo por su nombre o abreviaturas de los mismo.

Reglas b√°sicas

  • Como m√≠nimo, y no me cansar√© de decirlo, deber√≠amos ser coherente y emplear la misma representaci√≥n en todo el fichero.
  • Evitar utilizar los nombres de los meses ya que son dependientes del idioma.
  • Representar los a√Īos con cuatro cifras.
  • Restringuirse al gui√≥n (-) o la barra (/) como separadores.
  • Indicar en la documentaci√≥n cualquier particularidad que pudiera tener la representaci√≥n escogida. Por ejemplo, la posici√≥n de los d√≠as y de los meses.

El siguiente fichero incumple las reglas anteriores:

Altura,Peso,Genero,FechaNac
1.65,59,F,19 de marzo de 1982
1.80,85,M,3-11-1978 
1.72,95,M,18/Jan/1996
1.83,68,F,7/4/14
1.66,70,M,15 de Febrero, 2001

Idealmente deberíamos seguir el formato establecido en el estándar internacional ISO 8601 [4].

En esta representaci√≥n, las fechas se codifican como YYYY-MM-DD siendo YYYYel a√Īo entre 0000 y 9999, MM el mes entre 01 y 12, y DD el d√≠a entre 01 y 31.

Ejemplo, el 23 de marzo de 2019 sería:

2019-03-23

Podr√≠amos omitir el d√≠a, si quisieramos representar s√≥lo a√Īo y mes, y seguir√≠a siendo una fecha en formato v√°lido:

2019-03

Con las horas tenemos también nuestro quebraderos de cabeza aunque son menos frecuentes. Principalmente, hay que tener en cuenta que las horas siempre se representan bajo el sistema de 24 horas, nunca se emplea el sistema de 12 horas donde se divide el día en dos mitades mediante los marcadores AM (Ante Meridiem) y PM (Post Meridiem) para hacer referencia a la hora antes o después del mediodía.

En ISO 8601, la información horaria tiene el siguente formato hh:mm:ss siendo hhlas horas entre 00 y 23, mm los minutos entre 00 y 59, y ss los segundos entre 00 y 59.

Ejemplo

18:03:45

Si queremos representar informaci√≥n horaria en diferentes zonas horarias emplearemos el est√°ndar UTC (Coordinated Universal Time)¬† [5] que refleja la diferencia relativa respecto a la zona horaria de referencia (UTC¬Ī00:00, meridiano de Greenwich) [6].

Por ejemplo, M√©xico se encuentra oficialmente en UTC-06:00, es decir, seis horas menos que la zona horaria de referencia, mientras que la Espa√Īa peninsular se encuentra en UTC+01:00. Para a√Īadirle m√°s complejidad al tema, algunas paises cambian sus horarios en verano, cambiando en consencuencia su desplazamiento respecto a la hora de referencia que es fija. As√≠, M√©xico en verano se convierte en UTC-05:00, y la pen√≠nsula en UTC+02:00.

En ISO 8601, se representar√≠a la hora de la zona horaria de referencia (UTC¬Ī00:00) y el desplazamiento que hay que sumar o restar para obtener la hora local. El formato ser√≠a hh:mm:ss¬Īhh:mm. En el caso de la hora de referencia se sustituye el desplazamiento por una Z.

Ejemplo

Las diez y ocho (10:08) de la ma√Īana en UTC¬Ī00:00 ser√≠a en horario de inverno las 4:08 en Ciudad de M√©xico (UTC-6), y las 11:08 en Valencia (UTC+1). En formato ISO 8601:

10:08:00Z
10:08:00-06:00
10:08:00+01:00

Finalmente, indicar que se pueden combinar fechas y horas separ√°ndolas por una T.

Ejemplo

2019-03-23T18:03:45

3. Codificación del texto

La codificaci√≥n del archivo deber√≠a ser UTF-8. Existen m√ļltiples codificaciones que organizan la informaci√≥n de un archivo de manera distinta. Cuando se abre un archivo es preciso indicar la codificaci√≥n correcta, ya que en caso contrario ciertos caracteres, como las vocales acentuadas, o la √Ī pueden aparecer mal.¬† Este es un tema que trae muchos dolores de cabeza, ya que distintos programas guardan la informaci√≥n con distinta codificaci√≥n. Afortunadamente cada vez m√°s se tiende a que los archivos se distribuyan con esta codificaci√≥n.

4. Documentación

Es muy √ļtil incluir un archivo con informaci√≥n adicional que contenga la descripci√≥n y significado de cada variable. Este archivo deber√≠a contener, al menos, para cada variable: nombre,¬† tipo, unidades de medida, rango de valores permitidos, y descripci√≥n.

Un posible ejemplo de fichero de documentación:

Relación entre altura y peso por género
5 Observaciones, 3 Variables

RESUMEN:

Este conjunto de datos contiene medidas de la altura, peso, y 
genéro de cinco individuos (3 hombres y 2 mujeres).

FUENTE:

Las medidas fueron realizadas, inicialmente, por Pablo A. Haya a 
cuatro compa√Īeros ficticios de trabajo seleccionados al azar. 
Posteriormente, se a√Īadi√≥ una medida adicional de un compa√Īero 
ficticio igualmente seleccionado al azar.  

DESCRIPCI√ďN DE LAS VARIABLES:

Altura   (continua)   Altura del individuo en metros. 
Peso     (continua)   Peso del individuo en kilogramos. 
Genero   (categórica) M - Masculino o F - Femenino

FORMATO:

CSV separado por comas con valores perdidos codificados con NA

5. Datos de caracter personal

En ning√ļn caso, se debe incluir informaci√≥n de car√°cter personal (nombres, NIF, direcciones IP, cuentas de correo electr√≥nico, usuarios de redes sociales‚Ķ). La manera m√°s segura de proceder es eliminar los campos de car√°cter personal del conjunto de datos.

Si es necesario preservar las columnas, un primer paso es disociarlos, sustituyendo los datos personales por valores autogenerados, por ejemplo, cambiando los NIF por n√ļmeros aleatorios, o los nombres por nombres escogidos al azar de una lista.

Si tenemos variables tablas relacionadas por un dato de caracter personal (ej. NIF) es necesario preservar la coherencia entre ambas, de manera que en el proceso de disociacion el n√ļmero que escogamos para sustituir el NIF de un individuo sea el mismo en las dos tablas.

Hay que tener en cuenta que seg√ļn el Reglamento General de Protecci√≥n de Datos (RGPD) de la UE [7], dato personal es toda informaci√≥n sobre una persona f√≠sica identificada o identificable ya sea directa o indirectamente. Es posible que hayas eliminado todos los identificadores personales, y aun as√≠ sea posible inferir la identidad de una persona. Por ejemplo, a partir de las variables de nuestro ejemplo (Altura, Peso, Genero) podr√≠amos localizar un individuo concreto si conocieramos y tuvieramos bien acotada la poblaci√≥n de donde hemos seleccionado la muestra.

Con todo esto, si tienes en tu poder datos de caracter personal, lo primero que tendr√≠as que hacer es asegurarte que cumples con la RGPD, ya que, entre otras m√ļltiples consideraciones es preciso que dispongas del consentimiento expl√≠cito e informado de estas personas para disponer y tratar sus datos.

Referencias

1. How to share data with an statistician from Leek group guide to data sharing [Acceso: 2019-08-10] https://github.com/jtleek/datasharing

2. Tidy Data. Hadley Wickham [Acceso: 2019-08-10] http://vita.had.co.nz/papers/tidy-data.pdf

3. Ortograf√≠a de la lengua espa√Īola (Versi√≥n beta) de la Real Academia Espa√Īola y Asociaci√≥n de Academias de la Lengua Espa√Īola (2010). Edici√≥n en l√≠nea (www.rae.es). [Acceso: 2019-08-10] http://aplica.rae.es/orweb/cgi-bin/v.cgi?i=fuRhOImVQKYykcp,

4. ISO 8601 ¬ęElementos de datos y formatos de intercambio ‚ÄĒ Intercambio de informaci√≥n ‚ÄĒ Representaci√≥n de fechas y horas¬Ľ [Acceso: 2019-08-10] https://es.wikipedia.org/wiki/ISO_8601

5. Coordinated Universal Time from Wikipedia, the free encyclopedia [Acceso: 2019-08-10] https://en.wikipedia.org/wiki/Coordinated_Universal_Time

6. List of UTC time offsets from Wikipedia, the free encyclopedia [Acceso: 2019-08-10] https://en.wikipedia.org/wiki/List_of_UTC_time_offsets

7. Reglamento (UE) 2016/679 del Parlamento Europeo y del Consejo, de 27 de abril de 2016, relativo a la protección de las personas físicas en lo que respecta al tratamiento de datos personales y a la libre circulación de estos datos y por el que se deroga la Directiva 95/46/CE (Reglamento general de protección de datos) [Acceso: 2019-08-10] https://www.boe.es/buscar/doc.php?id=DOUE-L-2016-80807

Ponencia en Defence and Security Innovation Brokerage ¬ęAplicaciones del PLN en Seguridad y Defensa¬Ľ

El Procesamiento del Lenguaje Natural es una tecnolog√≠a que se puede aplicar en cualquier sector. Bajo esa premisa tan generalista d√≠ a conocer algunas de las aplicaciones en el Defence and Security Innovation Brokerage organizado por TEDAE y AESMIDE, y con el amparo del Ministerio de Defensa. Fue una exposici√≥n en cinco minutos con un t√≠tulo muy original¬† ‚ÄúProcesamiento del Lenguaje Natural en Defensa y Seguridad‚ÄĚ.

Más información en la entrada del blog de IIC.

Ponencia en XII Congreso Nacional de la Abogac√≠a: ¬ęGesti√≥n del conocimiento en el sector legal¬Ľ

El pasado jueves 9 de mayo expliqué las posibilidades que ofrece el Procesamiento del Lenguaje Natural (PLN) en la gestión del conocimiento para potenciar el despacho profesional.  Esta ponencia se realizó en la XII edición del Congreso Nacional de la Abogacía  que reunión en Valladolid a más de 2.000 congresistas y 250 ponentes de distintas disciplinas.

En la misma mesa, estuve acompa√Īado de Eva Ferrada Lavall, Socia de Ur√≠a Men√©ndez Abogados, y Vicente Oya Amate, Consejero del Consejo General de la Abogac√≠a Espa√Īola, como moderador.

Más información en la entrada del blog de IIC.

Ponencia en ¬ęCan robots invent and create?: A dialogue between Artificial Intelligence and Intellectual Property¬Ľ

El pasado viernes 15 de marzo me invitaron a una mesa redonda en el congreso Can robots invent and create?: A dialogue between Artificial Intelligence and Intellectual Property organizado por la Fundación para la Investigación sobre el Derecho y la Empresas (FIDE) en la Universidad de Alicante. 

Compart√≠ mesa con tres compa√Īeros de Altran, IBM y Telef√≥nica, y debatimos sobre Inteligencia Artificial, creatividad, y propiedad intelectual. Mi intervenci√≥n de Pablo Haya se centr√≥ en c√≥mo impactan las tecnolog√≠as de Procesamiento de Lenguaje Natural¬†(PLN) en los medios de comunicaci√≥n. En especial, se presentaron distintos proyectos que hacen uso de una tecnolog√≠a conocida como Generaci√≥n de Lenguaje Natural, que permite redactar textos con una narrativa similar a como lo har√≠a una persona.

M√°s detalle en el blog del IIC.

DEDOS: An authoring toolkit to create educational multimedia activities for multiple devices

David Roldán-Alvarez, Estefanía Martín, Pablo A. Haya, Manuel García-Herranz, María  Rodríguez-González.

IEEE Transactions on Learning Technologies, 11(4), 493-505. ISSN: 1939-1382. IEEE. DOI: 10.1109/TLT.2017.2788867 JCR 2018:  (2,315 Р50/106 Computer Science, Interdisciplinary Applications РQ2; 46/243 Education & Educational Research РQ1)

Abstract

Information and Communication Technologies offer new possibilities for teachers to enhance their teaching methods. The increasing use of personal computers, tablets, interactive whiteboards or even multitouch tabletops in the classrooms seems to attract the interest of the students. However, there are not many tools that allow teachers to create multimedia activities for all these technologies in an effortless way. Most of current authoring tools either focus on creating content for only one device or they do not fully exploit the benefits of rich content for designing engaging educational activities. In this paper we present an authoring toolkit composed by two applications: DEDOS-Editor, which allow teachers to design their own learning activities, and DEDOS-Web, which allows the students to perform those activities adapting them to multiple devices. To test both tools, we have performed two evaluations. One with teachers to test the authoring tools and a second one with primary school students to test if the activities designed with this tool enhance their learning process. Results show that DEDOS-Editor is an easy to learn authoring tool which helps teachers to complement their learning methods while DEDOS-Web is flexible enough to create several learning scenarios from just one set of activities, factors which lead to achieving positive learning outcomes.

 

 

 

 

Ponencia en I Jornadas Industrial C√°mara de Comercio Franco-Espa√Īola

El pasado 7 de noviembre impart√≠ una ponencia en las I Jornadas Industrial organizadas por la C√°mara de Comercio Franco-Espa√Īola con t√≠tulo el Procesamiento de Lenguaje Natural al servicio de la Inteligencia Colectiva y su impacto en los resultados donde present√© c√≥mo las tecnolog√≠as PLN permiten agregar la informaci√≥n que se genera en lenguaje natural dentro de una empresa. En particular, present√© nuestro caso de √©xito con la empresa Naturgy.

Las Jornadas tenían como objetivo plantear nuevas tecnologías y metodologías que permitan colaborar de un nuevo modo dentro del marco de la industria 4.0. De este nuevo paradigma de colaboración surge una nueva Inteligencia Colectiva entre humanos y tecnologias que permite mejorar la eficiencia operativa, la formación y la seguridad.

Entrevista en Hablemos de empresas

Recientemente han publicado una entrevista que me realizó el periodista Juan Fernández para el portal Hablemos de empresas. En la entrevista se tratan temas diversos temas relacionados con análisis de datos, ciencia de datos, y big data.

La primera respuesta empieza:

¬ęA Arqu√≠medes se le atribuye la frase ‚ÄúDadme un punto de apoyo y mover√© el mundo‚ÄĚ. Se refiere al progreso que supuso poder utilizar palancas y poleas para mover objetos. Si hubiera nacido en esta √©poca, creo que dir√≠a algo como ‚ÄúDadme un conjunto de datos y mover√© el mundo‚ÄĚ. El uso de los datos para conocer el mundo viene siendo fundamental para el avance de la ciencia y el progreso tecnol√≥gico desde hace siglos […]¬Ľ

 

Oportunidades de la IA, PLN y aprendizaje autom√°tico en la automatizaci√≥n de procesos empresariales

El pasado 26 de septiembre participe en el evento AIshow donde present√© la ponencia ‚ÄúOportunidades de la IA, PLN y aprendizaje autom√°tico en la automatizaci√≥n de procesos empresariales‚ÄĚ

La organización del congreso publicó una entrevista donde desarrollo la potencialidad de las tecnologías de Procesamiento de Lenguaje Natural en el mundo empresarial, y los casos de éxito que hemos tenido en el IIC en este ámbito.

En el siguiente vídeo hemos publicado un resumen de la ponencia:

 

 

Nuevo post: ¬ę¬ŅTienes ‚Äėinfluencers‚Äô en tu plantilla? Det√©ctalos¬Ľ

Un nuevo artículo que firmo en El País Retina sobre el trabajo que realizamos con la metodología AROS (Análisis de Redes Organizativas y Sociales) para la detección de empleados influenciadores en organizaciones.

En mi opinión, una metodología revolucionaria para entender cómo funcionan las organizaciones, y para poder medir el impacto del empleado más allá de lo que indica su descripción funcional y su posición en el organigrama formal.