Skip to content

Latest commit

 

History

History
219 lines (140 loc) · 9.8 KB

README.md

File metadata and controls

219 lines (140 loc) · 9.8 KB

Minería de Datos Aplicada

Curso de pregrado de la Universidad Nacional de Colombia sede Medellín

  1. PROGRAMA

2.1. Descripción

Los datos convertidos en información tienen una relevancia para las decisiones de gestión más informadas, objetivas e inteligentes. Además, la captura y costos de datos de manera electrónica se han venido abaratando. Múltiples fuentes de datos también entran a jugar en este nuevo panorama. Innovaciones tales como el Internet, el comercio electrónico, banca electrónica, dispositivos de punto de venta, lectores de códigos de barras, y las máquinas inteligentes son solo una de estas fuentes de datos.

La minería de datos es un campo de rápido crecimiento que se ocupa de las técnicas de desarrollo para ayudar a los administradores a hacer un uso inteligente de estos repositorios. Una serie de aplicaciones exitosas han sido reportadas en áreas como la calificación crediticia, la detección de fraudes, marketing de base de datos, gestión de relaciones con los clientes, y las inversiones bursátiles. El campo de la minería de datos ha evolucionado a partir de las disciplinas de las estadísticas y la inteligencia artificial.

2.2. Objetivos

 Desarrollar el pensamiento del estudiante en solución de problemas asistido por información.

 Incrementar el pensamiento científico de los participantes.

 Dotar de habilidades técnicas en procesamiento de datos en forma computacional de tal manera que el participante conozca las ventajas, desventajas y formas apropiadas de usar los algoritmos en las diferentes situaciones desde académicas hasta la búsqueda de solución de problemas sociales de gran envergadura.

 Desarrollar las habilidades de los estudiantes en gestión de proyecto mediante filosofías y artefactos agiles y tradicionales.

  1. CONTENIDO

  2. ¿Qué es descubrimiento de conocimiento en bases de datos y la minería de datos? (2 horas)

1.1 Minería de datos, aprendizaje de máquina y aprendizaje estadístico 1.2 Habilidades de un científico de datos 1.3 Casos de éxitos

  1. Problemas de negocio y sus soluciones analíticas: Metodologías CRISP-DM y Scrum (4 horas)

2.2 La inteligencia de negocios u organizacional 2.3 Fundamentos de metodología de proyectos agiles y de framework Scrum 2.4 Metodología de gestión de minería de datos: CRISP-DM 2.5 Integración CRISP-DM con Scrum

  1. Introducción a las nuevas tecnologías de información (6 horas) (opcional, Algunos apartados se darán entre temas)

3.1. Bodegas de datos 3.2. NoSQL 3.3. Bases de datos en memoria 3.4. Procesamiento distribuido y paralelo en bases de datos: Hadoop y Spark

  1. Exploración de datos y visualización (4 horas)

4.1. Calidad de datos 4.2. Reprocesamiento de datos 4.3. Resúmenes estadísticos 4.4. Visualización

  1. Análisis de conglomerados (Clúster) (8 horas)

5.1. ¿qué tipos de problemas se han solucionado mediante clúster? 5.2. Métodos de particionamiento 5.3. Métodos jerárquicos 5.4. Métodos basados en la densidad 5.5. Métodos basados en rejilla 5.6. Evaluación del clúster 5.7. Métodos basados en modelos probabilísticos (opcional) 5.8. Clúster en datos de alta dimensionalidad (opcional) 5.9. Clúster en datos de grafos y redes (opcional) 5.10. Clúster con restricciones (opcional)

  1. Descubriendo pautas: Minería de patrones frecuentes y de asociaciones (8 horas)

6.1. Generación de conjunto de elementos frecuente 6.2. Generación de reglas 6.3. Métodos jerárquicos 6.4. Algoritmo FP-Growth 6.5. Evaluación de patrones de asociación 6.6. Patrones secuenciales 6.7. Patrones infrecuentes 6.8. Patrones en subgrafos (opcional) 6.9. Patrones basados en restricciones (opcional) 6.10. Patrones en datos de alta dimensionalidad (opcional)

  1. Clasificación (22 horas)

7.1. Arboles de decisiones por inducción 7.2. Sobrespecificación del modelo 7.3. Evaluación de un clasificador 7.4. Métodos para comparar clasificadores 7.5. Clasificación basada en reglas 7.6. Aprendizaje mediante vecinos 7.7. Clasificadores bayesianos 7.8. Algunas técnicas de redes neuronales artificiales 7.9. Machina de soporte vectorial 7.10. Métodos colectivados (Ensemble) (opcional)

Tópicos opcionales:

• Reducción de dimensionalidad

• Análisis de componentes principales (PCA) • Descomposición de vareos singulares (SVD) • Análisis de factor • Incrustación local lineal (LLD) • Escala multidimensional, FastMAp, a ISOMAP

• Detección de anomalías

• Aproximaciones estadísticas • Detección de atípicos basados en proximidad • Detección de atípicos basados en densidad • Técnicas basadas en clústerig}

• Fundamentos prácticos de procesamiento en Spark

• Instalación de Spark y configuración de Clústers • Usar Spark Shell • Manipulación de tu RDD • Uso de Sparl MLlib

• Introducción a la minería de texto

• Representación de documentos para la minería de datos • Técnica “Bag of Words” • Stop Word y Stemming • Uso OAuth para acceder a las APIs de Twiter • Análisis de sentimientos • Análisis de relaciones de amistad

• Introducción al aprendizaje por refuerzo (Reinforment learning)

• Retroalimentación (feedback) • El problema del aprendizaje por refuerzo • Inicios de programación dinámica • Métodos de monte carlo • Aprendizaje diferencial -Temporal

  1. EVALUACIÓN

Parciales Temas Fechas Porcentaje 1 Seguimiento 50 2 Uso de diferentes herramientas 15 3 Trabajo semestral 35

Seguimiento (50%):

 Quizzes-Taller (atreves de Moodle) Se procurará realizar una evaluación por temática con el objeto de obtener retroalimentación de como el estudiante se apropia del tema. También se busca incentivar las habilidades de investigación y la extensión de conceptos mediante estos talleres

 Ejercicios en clase En ocasiones estos ejercicios serán presentados de manera corta. Aun si el criterio de evaluación de estas presentaciones tendrá en cuenta los siguientes criterios:

  1. (30%) Completitud: El contenido de la exposición incluye los tópicos esenciales.
  2. (30%) Conocimiento del tema: La exposición es clara, demostrando un conocimiento adecuado del tema por parte de los estudiantes.
  3. (15%) Expresión y uso de recursos: La presentación está bien hecha (expresión verbal y expresión corporal) y demuestra un adecuado uso de las ayudas audiovisuales y la distribución del tiempo.
  4. (15%) Participación: Los expositores motivan la participación del auditorio en la discusión y análisis del tema.
  5. (10%) Formato: La presentación está hecha con buena redacción y ortografía y utiliza adecuadamente un sistema de citación y referenciación.

 Ejercicios especiales y/o retadores En ocasiones se propondrán ejercicios que puedan extender conceptos o que requieran un análisis más complejo.

Uso de diferentes herramientas (15%): El mundo de análisis de datos esta en contante cambio, nuevas herramientas y formas de procesar los datos emergen espontáneamente cambiando, en ocasiones, como se tratan los datos. Por ello, y en miras a que el estudiante adquiera flexibilidad, adaptación y tolerancia a lo desconocido, por grupos deben entregar al menos un video tutorial o documento que explique cómo implementar 3 diferentes algoritmos de aprendizaje de maquina (o visualizaciones interesantes) en tres deferentes herramientas

Trabajo semestral (35%): Este es el núcleo de la asignatura Esta materia es sumamente aplicada y espera que el final el estudiante pueda solucionar un problema real o académico. En ese orden de ideas el trabajo tiene las siguientes consideraciones:

  • El trabajo será evaluado durante en todo el semestre con entrega de avances máximo cada 15 días (se busca implementar metodologías agiles)
  • Se busca desarrollar las habilidades de los estudiantes en gestión de proyecto mediante filosofías y artefactos agiles
  • Los estudiantes diseñaran sus propias metodologías de gestión inspirándose en métodos tradicionales, agiles y el contexto de su propios equipos y proyectos
  • El trabajo es en equipos de 3-4 personas
  1. METODOLOGÍA  Presentación de los conceptos por parte del profesor.  Exposiciones orales por los estudiantes.  Discusión crítica de casos prácticos o de estudio a realizar por los estudiantes bajo tutela académica del profesor responsable.

Se espera que los estudiantes desarrollen las siguientes competencias:

Capacidad para identificar y analizar correctamente los factores que influyen en el comportamiento de los consumidores desde la perspectiva estratégica Capacidad de investigación, análisis y búsqueda de herramientas y contenidos para la resolución de problemas relacionados con la minería de datos Capacidad para aplicar los conocimientos teóricos, metodológicos trabajando en equipo.

Bibliografía principal:

El curso no se guía exclusivamente por un texto. El libro más cercano a los objetivos técnicos, contenido y nivel de dificultad de curso es:

  • Han, J., Kamber, M., & Pei, J. (2011). Data Mining: Concepts and Techniques. Morgan Kaufmann.

Bibliografía específica e interesante:

  • Abu-Mostafa, Y. S., Magdon-Ismail, M., & Lin, H.-T. (2012). Learning From Data. AMLBook.
  • James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning: with Applications in R. Springer.
  • Kuhn, M., & Johnson, K. (2013). Applied Predictive Modeling. Springer.
  • North, M. A. (2013). Data Mining for the Masses. Global Text Project.
  • Provost, F., & Fawcett, T. (2013). Data Science for Business: What you need to know about data mining and data-analytic thinking. O’Reilly Media.
  • Silver, N. (2015). The Signal and the Noise: Why So Many Predictions Fail--but Some Don’t. Penguin Books.
  • Sims, C., & Johnson, H. L. (2012). Scrum: a Breathtakingly Brief and Agile Introduction. Dymaxicon.
  • Williams, S., & Williams, N. (2006). The Profit Impact of Business Intelligence. Morgan Kaufmann.