Análisis de Grandes Volúmenes de Datos

Atributos

Sigla:

CI0163

Créditos:

Horas:

Requisitos:

Proyecto Integrador de Ingeniería de Software y Bases de Datos

Bases de Datos

Clasificación:

Curso propio

Descripción:

Las capacidades de generación y recopilación de los datos han aumentado rápidamente debido a varios factores: automatización de los negocios, diversificación de las transacciones en medios electrónicos, uso de dispositivos electrónicos especializados en recopilación de datos (sensores), crecimiento del uso de redes sociales y aumento de las conexiones entre dispositivos (internet de las cosas), entre otros. Este crecimiento de datos genera una necesidad de contar con las técnicas y herramientas automatizadas que permiten la transformación de grandes volúmenes de datos en la información o conocimiento útil para la toma de decisiones con el objetivo de mejorar la situación de los negocios u organizaciones/instituciones. Este análisis permite descubrir patrones interesantes (no triviales, implícitos, previamente desconocidos y potencialmente útiles) que un ser humano no es capaz de encontrar. La aplicación de técnicas de análisis de grandes volúmenes de datos requiere un aprendizaje sobre la preparación de datos, la capacidad de poder seleccionar una técnica adecuada al problema a solucionar y a la interpretación de resultados.

Objetivo general:

El objetivo general del curso es que los estudiantes desarrollen las habilidades necesarias para el pre-procesamiento de datos y el uso de técnicas adecuadas de análisis, con el fin de descubrir el conocimiento en grandes volúmenes de datos, mediante estrategias que integren lo teórico y lo práctico, incluyendo un fuerte componente de actividades en el laboratorio.

Objetivos específicos:

Durante este curso el estudiante desarrollará habilidades para:

Identificar las necesidades de aplicar las técnicas automatizadas de descubrimiento de conocimientos en grandes volúmenes de datos, con el fin de encontrar los patrones que permiten la transformación de los datos en información o conocimiento útil para la toma de decisiones, a través de estrategias declarativas.
Pre-procesar los datos, incluyendo su limpieza, transformación, integración y reducción, para asegurar descubrimiento de conocimiento veraz, a través de estrategias declarativas y prácticas.
Utilizar y contrastar diferentes técnicas de análisis de grandes volúmenes de datos para seleccionar la técnica más apropiada al problema y tipo de datos en cuestión, mediante el uso práctico de estas técnicas.
Interpretar y evaluar los resultados obtenidos al aplicar las técnicas automatizadas para asegurar el descubrimiento de patrones no triviales, implícitos, previamente desconocidos y potencialmente útiles.
Ampliar los conocimientos a los métodos o las técnicas novedosas usadas para distintos conjuntos de datos, para enfrentar los cambios continuos en el manejo y análisis de datos.

Contenidos:

Objetivo específico	Eje temático	Desglose
1	Conceptos introductorios de grandes volúmenes de datos y diferentes métodos de análisis	Grandes volúmenes de datos: sus características y diferentes formas de almacenamiento. Métodos tradicionales de análisis de datos, minería de datos, aprendizaje automático, métodos emergentes.
2	Pre-procesamiento de datos	Diferentes tipos de atributos y conjuntos de datos. Exploración de datos. Limpieza, transformación e integración de los datos. Reducción de la dimensionalidad de datos. Muestreo.
3, 4	Clasificación y predicción	Conceptos básicos, árboles de decisión, redes neuronales, algoritmos genéticos, máquinas de soporte vectorial. Medidas de exactitud y error. Criterios para la selección del modelo.
3, 4	Asociación	Análisis de canasta básica, algoritmo Apriori. Métricas para evaluar las reglas de asociación.
3, 4	Segmentación	Medición de distancia entre datos de diferentes tipos. Método k-means, métodos jerárquicos (de aglomeración), métodos basados en densidad, método SOM (self-organizing maps). Evaluación de segmentos.
5	Nuevas tendencias en análisis de grandes volúmenes de datos	Análisis de flujo de datos: El problema de muestreo, ventanas deslizantes, filtro Bloom para seleccionar flujos de interés, algoritmos de clasificación y segmentación de flujo de datos. Minería de patrones frecuentes en flujo de datos.
		Análisis de grafos: Segmentación de grafos, métodos de particionamiento. Minería de grafos aplicada a redes sociales.
		Otros: análisis de datos de serie de tiempo, secuenciales, espaciales, entre otros.

Bibliografía:

Berry M. y Linoff G. Data Mining Techniques for Marketing, Sales, and Customer Relationship Management, tercera edición. Wiley Publishing, 2011.
Han J. y Kamber M. Data Mining: Concepts and Techniques, tercera edición. Morgan Kaufman Publishers, 2011.
Larose D. y Larose Ch. Data Mining and Predictive Analytics, segunda edición. Wiley Publishing, 2016.
Leskovec J., Rajaraman A. y Ullman J. Mining of Massive Datasets. Standford University, 2014.
Loshin D. Big Data Analytics: from Strategic Planning to Entreprise Integration with Tools, Techniques, NoSQL, and Graphs. Morgan Kaufmann, 2013.
Tan P.N., Steinbach M. y Karpatne A. Introduction to Data Mining, segunda edición. Pearson, 2018.
Vercellis C. Business Intelligence: Data Mining and Optimization for Decision Making. Wiley Publishing, 2009.
Witten I.H., Frank W., Hall M. y Pal Ch. Data Mining: Practical Machine Learning Tools and Techniques, cuarta edición. Morgan Kaufmann Publishers, 2016.

LIberación de responsabilidad:

Este no es un documento oficial. Documentos oficiales se entregan en la secretaría de la escuela.

Formulario de búsqueda