Elementos básicos de Análisis
Inteligente de Datos
Autor/es:
Jaramillo-Chuqui, Iván Fredy
Villarroel-Molina, Ricardo
© Publicaciones Editorial Grupo AEA Santo Domingo Ecuador
Publicado en: https://www.editorialgrupo-aea.com/
Contacto: +593 983652447; +593 985244607 Email: info@editorialgrupo-aea.com
Título del libro:
Elementos básicos de Análisis Inteligente de Datos
© Jaramillo Chuqui Iván Fredy, Villarroel Molina Ricardo.
© Diciembre, 2023
Libro Digital, Primera Edición, 2023
Editado, Diseñado, Diagramado y Publicado por Comité Editorial del Grupo AEA,
Santo Domingo de los Tsáchilas, Ecuador, 2023
ISBN:
978-9942-651-20-4
https://doi.org/10.55813/egaea.l.2022.65
Como citar: Jaramillo-Chuqui, I. F., Villarroel-Molina, R. (2023). Elementos
básicos de Análisis Inteligente de Datos. Primera edición. Editorial Grupo AEA.
Ecuador. https://doi.org/10.55813/egaea.l.2022.65
Palabras Clave: Inteligencia, Datos, R project
Cada uno de los textos de Editorial Grupo AEA han sido sometido a un proceso de
evaluación por pares doble ciego externos (double-blindpaperreview) con base en la
normativa del editorial.
Revisores:
Ing. Castrejón Valdez Manuel,
Ph.D.
Universidad Nacional de
Huancavelica Pe
Ing. Mencia Sánchez Noemi
Gladys, Ph.D.
Universidad Nacional de
Huancavelica Pe
Los libros publicados por Editorial Grupo AEA” cuentan con varias indexaciones y
repositorios internacionales lo que respalda la calidad de las obras. Lo puede revisar en
los siguientes apartados:
Editorial Grupo AEA
http://www.editorialgrupo-aea.com
Editorial Grupo AeA
editorialgrupoaea
Editorial Grupo AEA
Aviso Legal:
La información presentada, así como el contenido, fotografías, gráficos, cuadros, tablas
y referencias de este manuscrito es de exclusiva responsabilidad del/los autor/es y no
necesariamente reflejan el pensamiento de la Editorial Grupo AEA.
Derechos de autor ©
Este documento se publica bajo los términos y condiciones de la licencia Creative
Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-
SA 4.0).
El “copyright” y todos los derechos de propiedad intelectual y/o industrial sobre el
contenido de esta edición son propiedad de la Editorial Grupo AEA y sus Autores. Se
prohíbe rigurosamente, bajo las sanciones en las leyes, la producción o almacenamiento
total y/o parcial de esta obra, ni su tratamiento informático de la presente publicación,
incluyendo el diseño de la portada, así como la transmisión de la misma de ninguna
forma o por cualquier medio, tanto si es electrónico, como químico, mecánico, óptico,
de grabación o bien de fotocopia, sin la autorización de los titulares del copyright, salvo
cuando se realice confines académicos o científicos y estrictamente no comerciales y
gratuitos, debiendo citar en todo caso a la editorial. Las opiniones expresadas en los
capítulos son responsabilidad de los autores.
Elementos básicos de Análisis Inteligente de Datos
VII
Editorial Grupo AEA
Índice
Índice .............................................................................................................. VII
Índice de Tablas ................................................................................................ X
Índice de Figuras ............................................................................................. XI
Introducción ................................................................................................... XIII
Capítulo I: Fundamentos de análisis inteligentes de datos con R ...................... 1
1.1. Introducción y objetivos....................................................................... 3
1.2. Origen de la inteligencia de datos ....................................................... 3
1.2.1. Antecedentes................................................................................. 3
1.2.2. Bases de datos .............................................................................. 5
1.2.3. Algoritmos evolutivos y el poder de computo ................................. 6
1.3. Retos y aplicaciones ........................................................................... 8
1.4. Metodología para el análisis inteligente de datos .............................. 12
1.5. El programa R-Project en la inteligencia de datos ............................. 13
1.5.1. Definiciones básicas .................................................................... 14
1.5.2. Objetos en memoria .................................................................... 15
1.5.3. Operaciones básicas con datos ................................................... 17
1.5.4. Uso de R para análisis inteligente de datos ................................. 20
Capítulo II: Técnicas en R para la preparación de los datos............................ 23
2.1. Introducción y objetivos..................................................................... 25
2.2. Fuente de los datos .......................................................................... 25
2.2.1. Repositorios de acceso libre ........................................................ 26
2.2.2. Bases de datos transaccionales .................................................. 28
2.2.3. Captura de datos desde dispositivos ........................................... 31
2.3. Selección de variables ...................................................................... 32
2.3.1. Critério de significancia ................................................................ 35
2.3.2. Criterio de información ................................................................. 38
Elementos básicos de Análisis Inteligente de Datos
VIII
Editorial Grupo AEA
2.4. Limpieza de datos ............................................................................. 41
2.4.1. Definiciones ................................................................................. 41
2.4.2. Valores faltantes completamente al azar (MCAR) ....................... 42
2.4.3. Valores faltantes al azar (MAR) ................................................... 43
2.4.4. Valores faltantes no al azar o no ignorables (NMAR) .................. 43
2.4.5. Tratamiento de datos faltantes .................................................... 43
2.4.6. Métodos para imputación de datos faltantes ................................ 47
2.4.7. Comparación de tres métodos de imputación .............................. 49
2.4.8. Imputación por regresión lineal .................................................... 51
2.5. Discretización ................................................................................... 55
2.5.1. Definiciones ................................................................................. 55
2.5.2. Intervalos de igual frecuencia ...................................................... 57
2.5.3. Método 1R ................................................................................... 63
2.5.4. ChiMerge ..................................................................................... 64
2.5.5. Entropía ....................................................................................... 66
2.6. Normalización ................................................................................... 69
2.6.1. Definiciones ................................................................................. 69
2.6.2. Técnica Softmax .......................................................................... 70
2.6.3. Técnica Z-SCORE ....................................................................... 75
2.6.4. Otras técnicas de normalización .................................................. 77
Capítulo III: Técnicas supervisadas ................................................................. 81
3.1. Introducción y objetivos..................................................................... 83
3.1.1. ¿Qué son las técnicas supervisadas? ......................................... 83
3.1.2. ¿Por qué existen las técnicas supervisadas? .............................. 84
3.1.3. ¿Cuándo se utilizan las técnicas supervisadas? .......................... 84
3.2. Un enfoque de clasificación de las TS .............................................. 85
3.3. Redes neuronales ............................................................................. 87
Elementos básicos de Análisis Inteligente de Datos
IX
Editorial Grupo AEA
3.3.1. Definiciones ................................................................................. 87
3.3.2. Caso Práctico: estimación y predicción con redes neuronales
(NNET) 89
3.3.3. Construcción de un modelo predictivo con NNET utilizando KFOLD-
CV 98
3.4. Máquinas de soporte vectorial (SVM) ..............................................101
3.4.1. Definiciones ................................................................................101
3.4.2. Caso práctico utilizando SVM .....................................................103
3.5. Naïve Bayes ....................................................................................105
3.5.1. Definiciones ................................................................................105
3.5.2. Construcción de un clasificador Bayesiano .................................107
3.5.3. Ejemplo clasificador Naïve Bayes en datos discretos .................108
3.5.4. Ejemplo clasificador Naïve Bayes en datos continuos ................109
3.5.5. Caso práctico utilizando Naïve Bayes .........................................110
3.6. Arboles de decisión ..........................................................................114
3.6.1. 3.6.1. Definiciones ......................................................................114
3.6.2. Caso Práctico utilizando arboles de decisión ..............................116
3.6.3. Caso práctico de comparación en varias técnicas supervisadas 121
Capítulo IV: Técnicas no supervisadas ..........................................................129
4.1. Introducción y objetivos....................................................................131
4.1.1. ¿Por qué existen las técnicas no supervisadas? ........................131
4.1.2. ¿Cuándo se utilizan las técnicas no supervisadas? ....................131
4.2. Técnicas de agrupamiento ...............................................................132
4.2.1. Definiciones ................................................................................132
4.2.2. Medidas de similitud ...................................................................132
4.2.3. Agrupamiento jerárquico .............................................................133
4.2.4. Agrupamiento particionado .........................................................136
Elementos básicos de Análisis Inteligente de Datos
X
Editorial Grupo AEA
4.2.4.1. K-MEANS .............................................................................137
4.2.4.2. Caso Práctico: agrupamiento particionado con K-MEANS ...138
4.3. Reglas de asociación .......................................................................142
4.3.1. Definiciones ................................................................................142
4.3.2. Algoritmo Apriori .........................................................................144
4.3.3. Algoritmo Fp-Growth ...................................................................145
4.3.4. Caso Práctico: Reglas de asociación ..........................................146
4.4. Reducción de dimensionalidad ........................................................150
4.4.1. Definiciones ................................................................................150
4.4.2. Análisis de componentes principales ..........................................151
4.4.3. Caso Práctico: Análisis de componentes principales (PCA) .......151
Glosario .........................................................................................................157
5.1. Glosario de siglas ............................................................................159
5.2. Glosario de términos ........................................................................161
Referencias Bibliográficas ..............................................................................165
Índice de Tablas
Tabla 1 Cuadro comparativo metodologías minería de datos ......................... 12
Tabla 2 Cuatro modelos para estimar grasa corporal en porcentaje ............... 34
Tabla 3 Significados Notación de resultados AIC ........................................... 40
Tabla 4 Nombres de atributos del conjunto de datos Adult ............................. 43
Tabla 5 Resumen conjunto de datos “sedes” .................................................111
Tabla 6 Resumen del conjunto de datos “basketball" ....................................116
Tabla 7 Ejemplo de formato de transacciones para algoritmos de reglas de
asociación ......................................................................................................148
Elementos básicos de Análisis Inteligente de Datos
XI
Editorial Grupo AEA
Índice de Figuras
Figura 1 Representación lógica de las estructuras de datos de R .................. 18
Figura 2 Interface principal de Rattle .............................................................. 21
Figura 3 Sección del repositorio de datos del sitio web KEEL ........................ 28
Figura 4 Esquema de interfaces entre R y RDBMS ........................................ 29
Figura 5 Sección de una base de datos ventas de partes computadoras ....... 30
Figura 6 Representación básica de recolección de datos desde sensores ..... 32
Figura 7 Matriz gráfica de correlación entre variables .................................... 36
Figura 8 Muestra de una sección del conjunto de datos adult ........................ 44
Figura 9 Gráfico comparativo de tres métodos de imputación ........................ 51
Figura 10 Pasos para la discretización 1 ........................................................ 57
Figura 11 Gráfico de cajas de diferencia de rangos técnica softmax .............. 72
Figura 12 Datos originales vs datos normalizados técnica softmax caso 1 ..... 73
Figura 13 Datos originales vs datos normalizados técnica softmax caso 2 ..... 75
Figura 14 Datos originales vs datos normalizados técnica z-score ................. 76
Figura 15 Clasificación de técnicas de minería de datos ................................ 86
Figura 16 Una taxonomía desde el enfoque de minería de datos ................... 87
Figura 17 Representación de una neurona con sus partes elementales ........ 88
Figura 18 Red neuronal artificial ..................................................................... 88
Figura 19 Elementos internos de una RNA .................................................... 89
Figura 20 Gráficos de validación para el modelo de regresión lineal .............. 92
Figura 21 Representación lógica de método K-fold cross validation ............... 99
Figura 22 Distribución de puntos de densidad en la viga con todos los datos
.......................................................................................................................104
Figura 23 Distribución de puntos de densidad en la viga con la muestra ......105
Figura 24 Ejemplo de conjunto de datos discretos ........................................108
Figura 25 Ejemplo de conjunto de datos con variable continua .....................109
Figura 26 Ejemplos de árboles de decisión ...................................................115
Figura 27 Gráfico de error en ajuste CART y Random Forest .......................121
Figura 28 Valores predichos de la lista A ......................................................128
Figura 29 Gráfico de proceso de los tipos de agrupamiento ..........................132
Figura 30 Gráfico del proceso de los tipos de agrupamiento jerárquico ........134
Figura 31 Gráfico de un agrupamiento jerárquico ..........................................134
Elementos básicos de Análisis Inteligente de Datos
XII
Editorial Grupo AEA
Figura 32 Dendrograma de un agrupamiento jerárquico ...............................136
Figura 33 Gráfico compactación según wss en función de agrupaciones ...139
Figura 34 Gráfico la media del índice de silhouette en función de agrupaciones
.......................................................................................................................140
Figura 35 Gráfico las agrupaciones optimas según método de codo ..........141
Figura 36 Gráfico las agrupaciones óptimas según método average silhouette
.......................................................................................................................142
Figura 37 Ejemplo de uso del algoritmo Apriori .............................................145
Figura 38 Frecuencia absoluta de ítems en las transacciones ......................149
Figura 39 Gráfica de la variable Murder en función de variable Assault ........152
Figura 40 Graficas de las varianzas de un PCA con datos sin escalar versus un
PCA con datos escalados ..............................................................................153
Figura 41 Gráfica de los Componentes Principales PC1 y PC2 ....................154
Elementos básicos de Análisis Inteligente de Datos
XIII
Editorial Grupo AEA
Introducción
En la era digital actual, donde los datos son generados a una velocidad
exponencial, la inteligencia de datos emerge como un campo esencial para
desentrañar el valor latente en estas vastas corrientes de información. Al
aprovechar tecnologías avanzadas y técnicas analíticas, la inteligencia de datos
constituye las herramientas para que las organizaciones no solo comprendan
mejor su propia realidad, sino también anticipar tendencias, desafíos y
oportunidades en un mundo empresarial en constante cambio.
Esta obra se define como un recurso para iniciar el estudio del análisis inteligente
de datos, está dirigido a estudiantes que cursan carreras relacionadas a los
sistemas de información y la computación.
Una herramienta prominente en este campo es R. Conocido por su poder y
versatilidad en el análisis estadístico y la visualización de datos. Al aprovechar
las capacidades de R, los profesionales de la información pueden explorar
conjuntos de datos de manera personalizada, abriendo la puerta a una toma de
decisiones más informada y estratégica en las organizaciones.
En el capítulo uno se aborda las concepciones asociadas a una exploración
sistemática de información valiosa a partir de conjuntos de datos diversos y
complejos. Este apartado se apoya en un sólido conjunto de fundamentos que
abarcan desde la recopilación inicial de datos hasta la estructuración de los
datos. A través de la aplicación de principios estadísticos, métodos matemáticos
y técnicas de análisis, la inteligencia de datos en general busca descubrir
patrones, correlaciones y relaciones ocultas que ofrecen una comprensión más
profunda del entorno empresarial.
Antes de que los datos puedan ser analizados con precisión, es esencial
someterlos a un proceso de preprocesado. El capítulo dos incluye una revisión
de temas asociados a la limpieza, transformación y estructuración para eliminar
errores, duplicados y valores atípicos que podrían distorsionar los resultados.
Una vez preparados, los datos pueden ser sometidos a técnicas tanto
supervisadas como no supervisadas, que son abordadas en el capítulo tres y
cuatro. Las técnicas supervisadas, como la regresión y la clasificación, se
Elementos básicos de Análisis Inteligente de Datos
XIV
Editorial Grupo AEA
explora mediante ejemplos y digos cortos en R, sobre conjuntos de datos
etiquetados para predecir valores futuros o categorizar elementos.
Por otro lado, las técnicas no supervisadas, como el agrupamiento y la reducción
de dimensionalidad, exploran patrones intrínsecos en los datos sin etiquetas
previas, revelando agrupamientos y estructuras que a menudo pasan
desapercibidos, también se presenta con un enfoque teórico práctico para los
métodos más usados.
En conjunto, los elementos teóricos y prácticos que se ha introducido en esta
obra conforman la esencia de la inteligencia de datos, una disciplina que genera
valor agregado en los profesionales de la informática hoy en día.
Elementos básicos de Análisis Inteligente de Datos
pág. 1
Catulo I:
Fundamentos de análisis inteligentes de datos con R
Capítulo I: Fundamentos de alisis inteligentes de
datos con R
01
Fundamentos de
análisis
inteligentes de
datos con R
Elementos básicos de Análisis Inteligente de Datos
pág. 2
Catulo I:
Fundamentos de análisis inteligentes de datos con R