Dr. Pascal Poncelet, investigador en el Laboratorio de Informática, Robótica y Micro Electrónica (LIRMM) de la Universidad de Montpellier, Francia.

El desarrollo de las Tecnologías de la Información y la Comunicación (TICs), gracias a internet, implicó un salto de tal magnitud que redefinió el vínculo entre el hombre y su entorno. El mundo se interconectó. El conocimiento se multiplicó más rápido; y se hizo necesario involucrar nuevas herramientas tecnológicas que permitan un óptimo tratamiento de grandes volúmenes de información.

Big Data es un concepto que engloba a la gestión y el tratamiento de grandes volúmenes de datos que sobrepasa un análisis por parte de herramientas de software habituales. Estos datos son procesados con diferentes técnicas a fin de convertir la data analizada en información que revela la relación entre el cliente y la empresa que oferta diverso producto o servicio.

Es así que Big Data se convierte en una excelente oportunidad de negocio, ya que posibilita una mejor toma de decisiones por parte de las empresas. En ese sentido, como parte de las actividades organizadas, en marco del Taller de Investigación 2015, por el Instituto de Investigación de la Facultad de Ingeniería de Sistemas e Informática (FISI) de la Universidad Nacional Mayor de San Marcos (UNMSM), se realizó, el pasado 28 de agosto, la conferencia internacional titulada: "Big Data: nuevas oportunidades de investigación y negocio".

Minería de datos y nuevas ontologías

Dr. Antonio Lossio, egresado de nuestra casa de estudios e investigador en el proyecto SIFR en Francia.

Entre los diversos especialistas visitantes que abordaron esta temática se encontró el Dr. Pascal Poncelet, investigador en el  Laboratorio de Informática, Robótica y Micro Electrónica (LIRMM) de la Universidad de Montpellier, Francia. Expuso los avances en cuanto a las nuevas técnicas en la minería de datos, que sean fáciles de emplear y útiles para diferentes aplicaciones tecnológicas. Advirtió, además, un mejor tratamiento en la riqueza semántica del texto pese a que “aún no podemos confiar en la puntuación y [necesariamente] tenemos que leer todo el texto”, afirmó.

A su turno, el egresado de la FISI, Dr. Antonio Lossio, explicó la importancia del Big Data, específicamente, el Big Data Analytics. “¿El Big Data dónde es explotado? Trata de ser explotado en el área de la banca, de seguros, de las telecomunicaciones, salud, etcétera”, comentó. He allí su importancia puesto que, por ejemplo, el historial de llamadas de una persona sirve como análisis del consumo de un usuario, y por ende, una mejor oferta de planes ajustados a su perfil.

Este proceso de explotarse la data se le llama Big Data Analytics y esta especialidad nació porque se necesita entender al Big Data para obtener beneficios. Pero ¿cuál es el problema? “Los textos, videos, audios, imágenes son diferentes tipos de datos llamados ´heterogéneos´. Y el gran problema del Big Data es procesar exactamente este tipo de datos”, resaltó el Dr. Lossio.

“La primera solución es representar los datos de una misma forma para poder tratarlos en conjunto. Esto es lo que llamamos ´Ontologías´. Es cómo representamos el conocimiento de un experto de un área a través de un esquema conceptual. Es un modelo de conocimiento”, afirmó como punto esencial de la construcción y enriquecimiento de ontologías (términos) a partir de textos biomédicos en otros idiomas, como el francés o el español.

Proyecto BirthDAY: aplica el

Big Data en la toma de decisiones para el desarrollo de la agricultura y protección de la biodiversidad en el Perú.

En colaboración con la Universidad de Stanford (EE.UU.) y los laboratorios asociados al proyecto SIFR (The Semantic Indexing of French Biomedical Data), se propone, declaró el investigador, “una herramienta para esto [llamado] Procesamiento de Lenguaje Natural (PLN). Como los textos de este campo están escritos por expertos, necesitamos una técnica para poder entender este lenguaje natural para así crear [o actualizar] las ontologías”, resaltó el Dr. Lossio.

Este lenguaje de interacción entre el humano y la máquina es muy conocido por quienes hacen uso de estas sencillas pero útiles herramientas: traducción automática, generación automática de textos, el reconocimiento de la escritura, la resolución de la ambigüedad, el reconocimiento morfosintáctico de una palabra en su contexto, entre otros.

¿Es posible una convergencia entre el Big Data, las ontologías y el PNL? “Hemos ideado metodologías para enriquecer los términos, para la detección de la polisemia, la inducción del concepto de los nuevos términos y cómo agregar semánticamente a una ontología. Esta es una forma de cómo poder orquestarlas, puede haber otras formas”, concluyó el Dr. Antonio Lossio en reflexión a la problemática de incorporar nuevas ontologías biomédicas.

El decano (e) de la FISI, Mg. Cayo León Fernández, junto a destacados investigadores invitados y docentes de la Facultad. 

En síntesis, el Big Data es la inferencia estadística de todas las fuentes de información o bases de datos heterogéneos. En diversos países se aplica esta promesa tecnológica, desde el sector salud en Francia, hasta el sector editorial en España. Entonces ¿el Perú estaría preparado para el Big Data? Actualmente se desarrolla el BirthDAY, un proyecto que tiene como objetivo proporcionar nuevas herramientas de toma de decisiones eficaz para el desarrollo agrícola en el Perú.

Importante

La UNMSM participará en el Simposio internacional SIMBig15, del 2 al 4 de setiembre en la ciudad del Cusco, evento en el que se compartirán muchos proyectos en el que se aplica el Big Data. Cabe resaltar que la FISI se encuentra en coordinaciones con los investigadores y representantes de la Universidad de Montpelier (Francia) para una futura alianza estratégica con dicha universidad, a fin de difundir actividades académicas en beneficio de ambas partes (intercambio estudiantil, cotutela de tesis, etcétera).