Análisis y Modelado de Datos Complejos

Asignatura

Ficha Técnica
Modalidad Electiva
Área Especialización
U.C: 3
Código 2120360000880

Justificación

Debido a los considerables avances en computación las empresas del sector público y privado generan y almacenan, actualmente, un cúmulo creciente de datos que deben procesar inteligentemente para descubrir valiosa información.

La Estadística y los métodos de computación emergente aportan el marco teórico para esta tarea. Hoy en día el análisis exploratorio de datos, (Data Mining), combina técnicas provenientes de la Estadística, las Redes Neuronales, la Lógica Difusa y la Visualización, para procesos de selección de variables relevantes, extracción de características, clasificación no supervisada, reconocimiento de patrones, creación de modelos, pronóstico de series de tiempo, etc.

Objetivos del Curso

  • Proveer los conceptos básicos del análisis y modelado de datos.
  • Proveer de una introducción a las metodologías para la solución de problemas de análisis exploratorio de datos haciendo énfasis en los aportes de los métodos de computación emergente.
  • Resolver problemas concretos del área mediante el uso de paquetes computacionales (SAS, SNNS, SOMPAK, LVQPAK, etc.)

Prerequisitos

Haber cursado Matemática para la Computación, Técnicas de programación, Métodos Estadísticos y Redes Neuronales.

Contenido Programático

Unidad 1: Visualización

  • Revisión de la representación gráfica de las características principales de una variable (boxplot, normal plot, etc). Ajuste de una estimación paramétrica de la densidad, estimación no paramétrica de la densidad (ventanas de Parzen).
  • Visualización de variables multidimensionales. Representación conjunta: caras de Chernoff, diagrama estrella, método de Andrews (series de Fourier); limitaciones. Representación de la relación entre dos variables, correlación, distribución Normal multivariada, curvas de nivel de confianza.

Unidad 2: Preprocesamiento de la data<

  • Transformaciones elementales, estandarización estadística, distancias de Mahalanobis y disimilaridades (Jaccard).
  • Filtrado de señales:Transformada discreta de Fourier y Wavelets.

Unidad 3. Reducción de la dimensionalidad y extracción de características

  • Proyecciones lineales: Análisis de Componentes Principales a partir de las matrices de dispersión, varianza y correlación. Representación vs clasificación. Determinación del número de componentes principales. Visualización a partir de las primeras componentes principales.
  • Proyecciones no lineales: Mapas Autoorganizativos (SOM ), Escalamiento multidimensional (mapa de Sammon). Visualización..

Unidad 4. Clasificación no supervisada

  • Métodos que particionan (k-means), Algoritmos iterativos. Determinación del número óptimo de clases.
  • Métodos jerárquicos. Distancias entre elementos y entre clases. Principales algoritmos de clasificación jerárquica.
  • Clasificación difusa. Lógica difusa, clasificación difusa vs clasificación rígida. Algoritmo iterativo. Determinación del número óptimo de clases difusas.
  • Mapas Auto Organizativos de Kohonen (SOMPAK), representación espacial del mapa (Ultsch) para la determinación de las clases. Trayectorias sobre el Mapa. Codificación y representación de densidades.

Unidad 5. Clasificación supervisada

  • PARAMÉTRICA:
    • Decisión bayesiana, clasificación y funciones discriminantes, casos de la distribución Normal Multivariada. Estimación de parámetros.
  • NO PARAMÉTRICA:
    • Funciones lineales discriminantes de Fischer, representación canónica de clases. Visualización de las clases en función de las dos primeras variables canónicas.
    • Método del K-entorno más cercano (KNN).
    • Redes Neuronales perceptrón multicapa como clasificador.
    • Edición de data y conjuntos prototipos. Método LVQ (Learning Vector Quantization) de Kohonen (LVQ). Codificación y representación de las fronteras entre las clases.

Unidad 6. Construcción de modelos

  • Fundamentos de la construcción de modelos a partir de datos. Tipo de data: histórica vs simulada. Finalidad del modelo: aproximación vs optimización. Naturaleza de la respuesta: aleatoria vs determinística.
  • Modelos de Regresión Lineal. Criterios globales de ajuste y selección de variables.
  • Modelo Perceptrón multicapa.
  • Modelo RBF (Radial basis function).

Metodología de la Enseñanza

Se realizarán exposiciones de clases teóricas por parte del profesor, presentaciones por parte de investigadores en el área y de los estudiantes participantes, etc.

Intensidad Horaria

La intensidad horaria es de 3 horas/semana durante 16 semanas (48 horas/semestre).

Bibliografía

  • Bishop C. (1995). Neural Networks for Pattern Recognition. Oxford University Press.
  • Chernoff, H. (1973) The use of faces to represent points in k-dimensional space graphically. Journal of theAmerican Statistical Association, 68:361-368.
  • Cuadras C. Métodos de Análisis Multivariante. PPU 1991.
  • Duda R. ; Hart P. ; Stork D. . Pattern Classification and Scene Analysis.
  • Escudero L. Reconocimiento de Patrones.
  • Freeman j. y Skapura, D (1992). Redes Neurales. Addison-Wesley
  • Hech-Nielsen R. (1990). Neurocomputing. Addison-Wesley.
  • Green P. Mathematical Tools for Aplied Multivariate Análisis. Academic Press 1976.
  • Kendall, M. Multivariate Analysis. Charles Griffin y Company Ltd.
  • Kohonen, T. (1995) Self-Organizing Maps. Springer, Berlin.
  • Kohonen, T., Hynninen, J., Kangas, J., and Laaksonen, J. (1996a) SOM_PAK: the self-organizing map program package. Technical Report A31, Helsinki University of Technology, Laboratory of Computer and Information Science, Espoo, Finland.
  • Mendenhall, W.; Scheaffer, R.; Wackerly, D. (1994) Estadística Matemática con Aplicaciones. Grupo Editorial Iberoamericana.
  • Oja, E. (1992) Principal components, minor components, and linear neural networks. Neural Networks, 5:927-935.
  • Ripley B. (1996). Pattern Recognition and Neural Networks. Cambridge University.
  • Ritter H., Martinetz T. and Schulten K. Neural Computation and Self-Organizing Maps. Addison-Wesley.
  • Sammon, Jr., J. W. (1969) A nonlinear mapping for data structure analysis. IEEE Transactions on Computers, 18: 401-409.
  • Tukey, J. W. (1977) Exploratory Data Analysis. Addison-Wesley, Reading, MA.