Data Mining en la Industria Petrolera

Asignatura

Ficha Técnica
Modalidad Electiva
Área Especialización
U.C: 3
Código 2120360001180

Justificación

Hoy en día el análisis exploratorio de datos (Data Mining), combina técnicas provenientes de la Estadística, Redes Neuronales, y Visualización, para procesos de selección de variables relevantes, extracción de características, clasificación no supervisada, reconocimiento de patrones, creación de modelos, pronóstico de series de tiempo, y optimización. Estos procesos están asociados con la solución de un número creciente de problemas en la industria petrolera, en áreas tales como: caracterización de yacimientos, optimización integrada subsuelo-superficie, detección temprana de mermas de producción, y monitoreo y control de operación de pozos.

Objetivos del Curso

  • Proveer los conceptos básicos del análisis y modelado de datos.
  • Proveer de una introducción a las metodologías para la solución de problemas de análisis exploratorio de datos haciendo énfasis en los aportes de los métodos de computación emergente.
  • Resolver problemas de ingeniería de petróleo mediante el uso de paquetes computacionales (MATLAB, SAS, SNNS, SOMPAK, LVQPAK, etc.)

Prerequisitos

Haber cursado Métodos Estadísticos.

Contenido Programático

Unidad 1: Visualización

  • Revisión de la representación gráfica de las características principales de una variable (boxplot, normal plot, etc). Ajuste de una estimación paramétrica de la densidad, estimación no paramétrica de la densidad (ventanas de Parzen).
  • Visualización de variables multidimensionales. Representación conjunta: caras de Chernoff, diagrama estrella, método de Andrews (series de Fourier); limitaciones. Representación de la relación entre dos variables, correlación, distribución Normal multivariada, curvas de nivel de confianza.

Unidad 2: Reducción de la dimensionalidad y extracción de características

  • Proyecciones lineales: Análisis de Componentes Principales a partir de las matrices de dispersión, varianza y correlación. Representación vs. clasificación. Determinación del número de componentes principales. Visualización a partir de las primeras componentes principales.
  • Proyecciones no lineales: Mapas Autoorganizativos (SOM ), Escalamiento multidimensional (mapa de Sammon). Visualización.

Unidad 3: Clasificación no supervisada

  • Métodos que particionan (k-means), Algoritmos iterativos. Determinación del número óptimo de clases.
  • Métodos jerárquicos. Distancias entre elementos y entre clases. Principales algoritmos de clasificación jerárquica.
  • Mapas Auto Organizativos de Kohonen (SOMPAK), representación espacial del mapa (Ultsch) para la determinación de las clases. Trayectorias sobre el Mapa. Codificación y representación de densidades.

Unidad 4: Clasificación supervisada

  • PARAMÉTRICA. Decisión bayesiana, clasificación y funciones discriminantes, casos de la distribución Normal Multivariada. Estimación de parámetros.
  • NO PARAMÉTRICA.
  • Método del K-entorno más cercano (KNN).
  • Redes Neuronales perceptrón multicapa como clasificador.
  • Edición de data y conjuntos prototipos. Método LVQ (Learning Vector Quantization) de Kohonen (LVQ). Codificación y representación de las fronteras entre las clases.

Unidad 5: Construcción de modelos

  • Fundamentos de la construcción de modelos a partir de datos. Tipo de data: histórica vs. simulada. Finalidad del modelo: aproximación vs. optimización. Naturaleza de la respuesta: aleatoria vs. determinística.
  • Modelos de Regresión Lineal. Criterios globales de ajuste y selección de variables.
  • Modelo Perceptrón multicapa.
  • Modelo RBF (Radial basis function).

Unidad 6: Optimizacion

  • Métodos de optimización local. Métodos de descenso. Métodos de Newton. Programación Secuencial Cuadrática (SQP).
  • Métodos de optimización global. Algoritmos genéticos. Direct..

Metodología de la Enseñanza

Se realizarán exposiciones de clases teóricas por parte del profesor, presentaciones por parte de investigadores en el área y de los estudiantes participantes, etc.

Intensidad Horaria

La intensidad horaria es de 3 horas/semana durante 16 semanas (48 horas/semestre).

Bibliografía

  • Bishop C. (1995). Neural Networks for Pattern Recognition. Oxford University Press.
  • Chernoff, H. (1973) The use of faces to represent points in k-dimensional space graphically. Journal of theAmerican Statistical Association, 68:361-368.
  • Cuadras C. Métodos de Análisis Multivariante. PPU 1991.
  • Duda R. ; Hart P. ; Stork D. . Pattern Classification and Scene Analysis.
  • Escudero L. Reconocimiento de Patrones.
  • Freeman j. y Skapura, D (1992). Redes Neurales. Addison-Wesley
  • Hech-Nielsen R. (1990). Neurocomputing. Addison-Wesley.
  • Green P. Mathematical Tools for Aplied Multivariate Análisis. Academic Press 1976.
  • Kendall, M. Multivariate Analysis. Charles Griffin y Company Ltd.
  • Kohonen, T. (1995) Self-Organizing Maps. Springer, Berlin.
  • Kohonen, T., Hynninen, J., Kangas, J., and Laaksonen, J. (1996a) SOM_PAK: the self-organizing map program package. Technical Report A31, Helsinki University of Technology, Laboratory of Computer and Information Science, Espoo, Finland.
  • Mendenhall, W.; Scheaffer, R.; Wackerly, D. (1994) Estadística Matemática con Aplicaciones. Grupo Editorial Iberoamericana.
  • Oja, E. (1992) Principal components, minor components, and linear neural networks. Neural Networks, 5:927-935.
  • Ripley B. (1996). Pattern Recognition and Neural Networks. Cambridge University.
  • Ritter H., Martinetz T. and Schulten K. Neural Computation and Self-Organizing Maps. Addison-Wesley.
  • Sammon, Jr., J. W. (1969) A nonlinear mapping for data structure analysis. IEEE Transactions on Computers, 18: 401-409.
  • Tukey, J. W. (1977) Exploratory Data Analysis. Addison-Wesley, Reading, MA.
  • Therrien, C. W. (1989) Decision, Estimation, and Classification. An Introduction to Pattern Recognition and Related Topics. Wiley, New York, NY.
  • Ultsch, A. (1993b) Self-organizing neural networks for visualization and classification. In Opitz, O., Lausen, B., and Klar, R., editors, Information and Classification, pages 307-313. Springer-Verlag, Berlin.
  • Yoh-han pao. Adaptive Pattern Recognition and Neural Networks. Addison-Wesley.