Excel y la estadistica - P. Vidales

571 Pages • 30,702 Words • PDF • 100.4 MB
Uploaded at 2021-09-24 15:20

This document was submitted by our user and they confirm that they have the consent to share it. Assuming that you are writer or own the copyright of this document, report to us by using this DMCA report button.


EXCEL Y LA ESTADÍSTICA Ejercicios resueltos

2

P.VIDALES

3

1.3 ENTORNO DE EXCEL 2013, 2010 Y 2007. LIBROS Y HOJAS DE CÁLCULO 1 3.1 Introducción de datos y fórmulas 1 3.2 Series de datos. Autocompletar 1.4 FÓRMULAS 1.4.1 Barra de fórmulas 1.4.2 Rellenar una hoja mediante una fórmula 1.5 OPERADORES 1 5.1 Orden de los operandos y preferencia de los operadores en las fórmulas 1 5.2 Tipos de operadores 1 5.3 Fórmulas matriciales 1 5.4 Paleta de fórmulas 1 5.5 Rangos con nombre 1.6 V NCULACIÓN DE L BROS 1 6.1 Crear una fórmula para calcular datos en otra hoja o en otro libro 1 6.2 Vínculo a una hoja de cálculo en otro libro 1.7 MOSTRAR FÓRMULAS Y VALORES EN UNA HOJA DE CÁLCULO 1.8 FUNCIONES DE HOJA DE CÁLCULO 1 8.1 Funciones anidadas dentro de funciones 1 8.2 Categorías de funciones en Excel 2010 1.9 COMPLEMENTOS EN EXCEL Y LA ESTADÍSTICA VARIABLES ESTADÍSTICAS Y DISTRIBUCIONES DE FRECUENCIAS 2.1 VARIABLES ESTADÍSTICAS 2.2 DISTRIBUCIONES DE FRECUENCIAS Y SU F NALIDAD 2.3 INTERPRETAR LAS DISTR BUCIONES DE FRECUENCIAS

5

2.4 FORMALIZAR LAS DISTR BUCIONES DE FRECUENCIAS 2.5 REPRESENTAR DISTRIBUCIONES DE FRECUENCIAS 2 5.1 Representaciones para variables cualitativas: diagramas de rectángulos, diagramas de sectores y pictogramas 2 5.2 Representaciones para variables cuantitativas sin agrupar: diagramas de barras, en escalera y polígonos de frecuencias 2 5.3 Representaciones para variables cuantitativas agrupadas: histogramas y polígonos de frecuencias simples y acumulados 2.6 GRÁFICOS EN EXCEL 2.7 EXCEL Y LAS DISTR BUCIONES DE FRECUENCIAS 2.7.1 La función FRECUENCIA de Excel 2.7.2 Distribuciones de frecuencias e histogramas con herramientas de análisis de Excel MEDIDAS DE POSICIÓN, DISPERSIÓN Y FORMA 3.1 EXPRESIÓN CUANTITATIVA DE LAS DISTRIBUCIONES 3.2 MED DAS DE POSICIÓN: MEDIA MEDIANA MODA CUANTILES PERCENT LES Y MOMENTOS 3.3 MED DAS DE DISPERSIÓN 3.4 MED DAS DE FORMA 3.5 ANÁLISIS EXPLORATORIO DE DATOS 3.6 GRÁFICO DE SIMETRÍA 3.7 GRÁFICO NORMAL DE PROBABIL DAD 3.8 FUNCIONES DE EXCEL PARA MEDIDAS DE POSICIÓN, DISPERSIÓN Y FORMA 3.9 MED DAS DE POSICIÓN, DISPERSIÓN Y FORMA CON HERRAMIENTAS DE ANÁLISIS Al pulsar Aceptar en la Figura 3-19, se obtiene la Figura 3-20 con todos los estadísticos incluido el radio del intervalo de confianza para la

6

4.15 EXCEL Y LA CORRELACIÓN MÚLT PLE CON HERRAMIENTAS DE ANÁLISIS 4.15.1 Correlación y matriz de correlaciones 4.15.2 Covarianza y matriz de covarianzas 4.16 EXCEL Y LAS TABLAS DE CONTINGENCIA MEDIANTE TABLAS D NÁMICAS 4.16.1 Excel y las tablas de contingencia para dos variables cualitativas 4.16.2 Excel y las tablas de contingencia para dos variables, una cualitativa y otra cuantitativa 4.16.3 Excel y las tablas de contingencia para más de dos variables 4.17 EXCEL Y LOS CONTRASTES DE ASOCIACIÓN E INDEPENDENCIA NÚMEROS ÍNDICES Y MEDIDAS DE CONCENTRACIÓN 5.1 NÚMEROS ÍNDICES S MPLES 5.2 NÚMEROS ÍNDICES COMPLEJOS NO PONDERADOS 5.3 NÚMEROS ÍNDICES COMPLEJOS DE PRECIOS NO PONDERADOS 5.4 NÚMEROS ÍNDICES COMPLEJOS PONDERADOS 5.5 NÚMEROS ÍNDICES COMPLEJOS DE PRECIOS PONDERADOS 5.6 NÚMEROS ÍNDICES COMPLEJOS PONDERADOS CUÁNTICOS O DE PRODUCCIÓN 5.7 PROP EDADES DE LOS NÚMEROS ÍNDICES 5.8 ÍNDICES EN CADENA 5.9 CAMBIO DE BASE Y ENLACES DE NÚMEROS ÍNDICES 5.10 DEFLACTACIÓN DE SERIES ESTADÍSTICAS 5.11 PARTICIPACIÓN Y REPERCUSIÓN 5.12 ÍNDICES OFICIALES

8

5.13 TASAS DE VARIACIÓN 5.14 MED DAS DE CONCENTRACIÓN 5.15 ÍNDICE DE CONCENTRACIÓN DE G NI 5.16 CURVA DE CONCENTRACIÓN DE LORENTZ

9

1.1 INTRODUCCIÓN La estadística es una materia en alza, en una época en la que los datos son un activo muy importante y el análisis cuantitativo tiene aplicaciones muy relevantes en diferentes campos de la ciencia como la economía, las finanzas, la ingeniería, la matemática en general, la sociología, la psicología, la biología, la medicina, etc. Es clave para empezar a trabajar en estadística, sea cual sea el campo en que se aplique, la comprensión de los propios conceptos estadísticos, para posteriormente realizar la operatoria matemática necesaria para desarrollarlos a través del software, que facilita obtener los resultados de los procedimientos estadísticos de forma rápida y con menos errores que cuando las operaciones se realizaban manualmente. Este libro trata los temas elementales de la estadística desde una óptica aplicada, pero a la vez formal. Se presentan coincenzudamente los conceptos, intentando que sean inteligibles para lectores con formación diversa (ciencias, letras, etc.) Las técnicas estadísticas se describen en lenguaje asequible, y se elimina el problema de la operatoria tediosa matemática utilizando un programa tan sencillo y disponible para todos como es Excel. Los cap tulos se complementan con ejercicios resueltos totalmente, tanto con su operatoria matemática habitual, como con el apoyo del software, con la finalidad de facilitar al lector la comprensión de los conceptos. También se proponen ejercicios cuya solución se aporta al lector en archivos Excel disponibles en la página web de la editorial.

11

Por otra parte, Excel también implementa determinados complementos para ampliar el campo de trabajo en diferentes áreas. Uno de estos complementos lo constituyen las Herramientas para análisis que se insertan en el grupo Análisis de la ficha Datos de la cinta de opciones de Excel. Al final de este capítulo se muestra la forma de utilizar estos complementos en Excel. También existen otras herramientas adicionales como Solver, que permiten trabajar en temas estadísticos como la programación lineal, optimización, etc.

15

1.3 ENTORNO DE EXCEL 2013, 2010 Y 2007. LIBROS Y HOJAS DE CÁLCULO Al iniciar Excel 2013, 2010 0 2007 se observa un entorno de trabajo similar. La Figura 1-3 muestra el entorno de Excel 2010, pero las otras versuiiones presentan un entorno idéntico y las posibilidades de rabajo en Estadístiva Descriptiva son similares. Destacan la Cinta de opciones con sus fichas y sus grupos de opciones en cada ficha, la barra de herramientas de acceso rápido y la barra de estado con los botones de visualización y el Zoom. La Cinta de opciones presenta fichas orientadas a tareas que contienen grupos lógicos de comandos (opciones). Se ha diseñado para encontrar fácilmente los comandos necesarios para realizar tareas que antes estaban ocultos en complejos menús y barras de herramientas, y que ahora se agrupan de modo lógico en las fichas Inicio, Insertar, Diseño de página, Fórmulas, Datos, Revisar y Vista. En determinados grupos de las fichas de la Cinta de opciones aparecen iniciadores de cuadros de diálogo, que son pequeños iconos que se sitúan en la parte inferior izquierda del grupo y que abren cuadros de diálogo. Por ejemplo, el grupo Fuente de la ficha Inicio en la Figura 1-3 presenta a su derecha un iniciador que abre el cuadro de diálogo Formato de celdas con su pestaña Fuente seleccionada. La Barra de herramientas de acceso rápido aparece de forma predeterminada en la parte superior izquierda de la ventana de Excel (Figura 13) y proporciona acceso rápido a herramientas que se utilizan con frecuencia.

16

funciones, etc. Una Hoja de cálculo u Hoja de trabajo (abreviadamente Hoja) es un conjunto de celdas distribuidas en filas y columnas. Las hojas se utilizan para introducir, mostrar y analizar datos. Si se crea un gráfico, éste podrá colocarse en la hoja de cálculo con sus datos correspondientes o en una hoja de gráfico. Un Libro de trabajo (abreviadamente Libro) es un conjunto de hojas diferentes, que normalmente están relacionadas entre sí. El libro corresponde al concepto de archivo. Excel nombra por defecto las hojas del mismo libro como Hoja1, Hoja 2, etcétera. Los nombres de las distintas hojas del mismo libro aparecen en etiquetas en la parte inferior de la ventana de la hoja de cálculo (Figura 1-3). Para moverse de una hoja a otra, haga clic en las etiquetas de las hojas. En la línea superior de la pantalla de entrada en Excel 2010 con todos sus elementos, tenemos la Barra del t tulo del libro y los botones de Windows. El título del libro es por defecto Libro1, mientras no se guarde como archivo y se le dé otro nombre. Los botones de Windows, que aparecen a la derecha de la barra de título, se utilizan, respectivamente, para minimizar, maximizar y cerrar el libro de Excel activo (libro de trabajo). Pueden introducirse y modificarse los datos en varias hojas de cálculo del mismo libro y pueden ejecutarse cálculos basándose en los datos de las distintas hojas de cálculo del mismo libro simultáneamente. El libro de trabajo se corresponde con el concepto de fichero o archivo de datos de Excel, de modo que cuando se guarda el fichero actual, realmente se están guardando todas las hojas del libro de trabajo actual en el fichero especificado. Un libro de trabajo puede contener, además de una o más hojas de cálculo, una o varias hojas de gráficos cuyo contenido puede ser cualquier tipo de gráfico representativo de los datos contenidos en la hoja. Los libros de trabajo ayudan a organizar los proyectos y a guardar los objetos que estén relacionados entre sí en un mismo lugar. Excel permite dar nombre a las hojas de cálculo, añadir nuevas hojas y eliminar hojas vacías o no utilizadas. Finalmente, cada ventana de un libro de trabajo contiene barras de

18

desplazamiento que se pueden utilizar para pasar de una hoja de cálculo a la siguiente o para hacer desplazamientos de un lugar a otro dentro de la hoja de cálculo activa.

19

Un valor numérico puede ser un entero (como 32), un número decimal (como 499,95), una fracción entera (como 10 3/4), o un número en notación científica (como 4,09 E+13). En los números, se pueden utilizar símbolos matemáticos, como el símbolo de suma (+), el de resta (-), el de tanto por ciento (%), fracciones (/) y exponenciales (E). Asimismo, es posible utilizar el símbolo de dólar ($). Si se introduce un número demasiado grande como para ser presentado en una celda, Excel mostrará el número en notación científica o mostrará ####### en la celda, para advertirle de que necesita incrementar el ancho de la misma. De todos modos, Excel siempre guarda internamente el número que se ha introducido, y este valor subyacente se podrá ver en la barra de fórmulas cuando la celda esté activa. Por defecto, los valores numéricos son siempre alineados a la derecha de la celda. Cuando se introduce más de un número, después de haber introducido el primero se pueden utilizar las teclas de flecha (o teclas de dirección) para desplazarse a una nueva celda e introducir el siguiente número. Por ejemplo, si se escribe un número y se pulsa la tecla de flecha hacia abajo, el puntero de celda se desplazará una línea hacia abajo. Las teclas de flecha hacia la izquierda, hacia arriba y hacia la derecha hacen que se mueva el puntero una celda a la izquierda, hacia arriba y hacia la derecha, respectivamente. En Microsoft Excel, un número puede tener sólo los siguientes caracteres: 0 1 2 3 4 5 6 7 8 9 + - ( ) , / $ % . E e. Por otra parte, Excel ignora los signos más (+) a la izquierda, y trata a los puntos como separadores de miles o separadores decimales (igualmente las comas). Todas las demás combinaciones de números y caracteres no numéricos son consideradas texto. Para evitar introducir una fracción como fecha, coloque un cero (0) delante de cada fracción; por ejemplo, escriba 0 1/2. Delante de los números negativos, sitúe un signo menos (-), o bien encierre los números entre paréntesis ( ). Dentro de una celda, todos los números se alinean a la derecha por defecto (si no se produce la alineación al pulsar Enter o TAB, el número está mal escrito). Para cambiar la alineación, seleccione la celda o celdas que

21

el número deseado. Esto no afectará a los datos que haya indicado en las celdas antes de seleccionar la opción Número fijo de decimales. Para anular temporalmente la opción Número fijo de decimales, especifique un separador de decimales al escribir el número. Se pueden elegir los caracteres para separar decimales y miles con las opciones Usar separadores del sistema, Separadores de decimales y Separadores de miles de la Figura 1-8.

26

Figura 1-8

28

También es posible especificar el tipo de serie de relleno utilizando el botón secundario del ratón para arrastrar el controlador de relleno sobre el rango y después hacer clic en el comando adecuado del menú contextual de la Figura 1-16. Por ejemplo, si el valor inicial es la fecha ENE-2002, haga clic en Rellenar meses para obtener la serie FEB-2002, MAR-2002, etc. También puede hacer clic en Rellenar años para obtener la serie ENE-2003, ENE-2004, etc.

32

41

49

% ^ * y/ + y& = < > =

Porcentaje Exponente Multiplicación y división Suma y resta Conecta dos cadenas de texto (concatenación) Comparación

51

1.6 VINCULACIÓN DE LIBROS Pueden compartirse los datos almacenados en hojas de cálculo y libros diferentes mediante la utilización de vínculos o de referencias externas. La vinculación resulta especialmente útil cuando no conviene conservar grandes modelos de hoja de cálculo en el mismo libro.

61

el nombre de la otra hoja de cálculo o del otro libro contiene caracteres no alfabéticos, se deberá poner el nombre (o la ruta de acceso) entre comillas sencillas.

65

funciones de texto (Figura 1-53) y las funciones lógicas (Figura 1-54).

77

79

1.9 COMPLEMENTOS EN EXCEL Y LA ESTADÍSTICA Como ya habíamos anticipado al principio del cap tulo, Excel 2010 dispone de complementos adicionales (Herramientas para análisis, Solver, etc.) que pueden cargarse después de la instalación del programa y que incorporan funcionalidades adicionales para el trabajo en estadística. Para cargar o descargar un complemento de Excel, se tendrán en cuenta los pasos siguientes: Haga clic en el Archivo y, a continuación, pulse en Opciones. En la Figura 1-55 haga clic en la categoría Complementos de panel izquierdo. En el cuadro Administrar (Figura 1-55), haga clic en Complementos de Excel y, a continuación, en Ir. En el cuadro Complementos disponibles (Figura 1-56), active la casilla de verificación situada junto al complemento que desea cargar y, luego, haga clic en Aceptar. Si el complemento que desea utilizar no aparece en la lista del cuadro Complementos disponibles, haga clic en Examinar y, a continuación, busque el complemento. Los complementos que no están disponibles en el equipo se pueden descargar de Descargas en Office Online.

87

2.1 VARIABLES ESTADÍSTICAS En el trabajo estadístico la información se recoge en variables. Estas variables se organizan de forma ordenada y se almacenan en ficheros. Posteriormente será posible operar con estas variables y aplicar funciones a las mismas para realizar las transformaciones y los análisis estadísticos que se desee. Las variables pueden contener datos numéricos (variables cuantitativas) y datos categóricos no cuantificables numéricamente (variables cualitativas). El sexo, la profesión y el lugar de origen serían variables cualitativas. La estatura y la edad serían ejemplos de variables cuantitativas. Las variables cuantitativas pueden ser discretas y continuas. Una variable es discreta cuando toma una cantidad finita o numerable de valores aislados, es decir, entre cada dos valores consecutivos no se puede intercalar ningún otro valor de la variable. El número de hijos, el número de parados y el número de caras obtenido al lanzar tres monedas al aire serían ejemplos de variables cuantitativas discretas. Una variable es continua cuando toma una infinidad no numerable de valores, es decir, entre cada dos valores cualesquiera siempre existen infinitos valores de la variable. La fuerza física, la longitud y el peso serían ejemplos de variables cuantitativas continuas. Las variables cualitativas suelen clasificarse, según la naturaleza de los datos categóricos que representan, en variables nominales y variables ordinales. Las variables nominales describen las categorías directamente por su contenido, por ejemplo, las categorías de la variable cualitativa sexo son varón y mujer. A veces suelen asignarse por comodidad códigos numéricos a las distintas categorías de una variable cualitativa nominal, por ejemplo, varón=1 y hembra=2, en cuyo caso hay que resaltar que dichos códigos siguen siendo variables cualitativas no tratables numéricamente. Las variables ordinales describen las categorías por el orden que ocupan, por ejemplo, los valores (categorías) de la variable cualitativa

92

“satisfacción en el trabajo” pueden ordenarse en “satisfación baja” (valores entre 0 y 10 según una determinada escala de puntuación que varía entre 0 y 30), “satisfación media” (valores entre 10 y 20) y “satisfacción alta” (valores entre 30 y 40). Las variables cuantitativas suelen clasificarse en variables ratio, que toman valores numéricos puntuales, y variables por intervalos, en las cuales se agrupan los valores numéricos en intervalos convenientes con vistas a facilitar el trabajo.

93

2.2 DISTRIBUCIONES DE FRECUENCIAS Y SU FINALIDAD Cuando se analiza una característica medida por una variable cualquiera resultado de un determinado proceso (de producción, de medida, económico, financiero, sociológico, médico, biológico, demográfico, etc.), los datos que obtenemos siempre están dispersos y nunca tienen un único valor constante. Una vez que sabemos que los datos relativos a las distintas características van a estar dispersos, nos surge el problema de detectar el patrón en la variabilidad de los datos. Para ayudar a esta tarea existen herramientas estadísticas básicas como las distribuciones de frecuencias y los histogramas, así como técnicas sencillas de análisis exploratorio de datos. Cuando los datos están dispersos, la dispersión sigue un cierto patrón. Inicialmente los datos no nos dicen nada por sí mismos, pero si los dividimos en clases o celdas ordenadamente, puede aclararse la forma de su dispersión, es decir, puede aclararse la forma de cómo están distribuidos. Esta forma de la distribución de los datos inherente a su variabilidad se denomina distribución de frecuencias. Normalmente es posible ver la forma general de una distribución si se recogen cien o más valores y se prepara convenientemente una tabla de frecuencias con diez o veinte clases. Pero la distribución se puede ver aún con mayor claridad en forma de representación gráfica mediante un histograma de frecuencias. El histograma es una representación visual de los datos en la que pueden observarse más fácilmente tres propiedades esenciales de una distribución como son: forma, tendencia central o acumulación y dispersión o variabilidad. De esta forma, el histograma da una idea del proceso, lo que un simple examen de los datos tabulados no hace. Hay muchos métodos para construir histogramas. Cuando los datos son numerosos, es muy útil reunirlos en clases y se recomienda utilizar entre 4 y 20 clases (o celdas). A menudo conviene elegir un número total de clases igual aproximadamente a la raíz cuadrada del tamaño de la muestra. Las clases deben tener amplitud uniforme y se construye la primera de ellas comenzando con un límite inferior sólo un poco menor que el valor más pequeño

94

de los datos. Se construye la última clase finalizando con un límite superior sólo un poco mayor que el valor más grande de los datos. Para realizar el histograma se marcan las clases sobre el eje de abscisas, y sobre cada clase se levanta un rectángulo de altura proporcional al número de observaciones de la variable (frecuencia absoluta) que caen en la clase. El agrupamiento de los datos en clases condensa los datos originales, lo que da como resultado una pérdida de algo de detalle. Así, cuando el número de observaciones es relativamente pequeño, o cuando las observaciones sólo toman pocos valores, puede construirse el histograma a partir de la distribución de frecuencias de los datos sin agrupar, dando lugar a los diagramas de barras. Las distribuciones de frecuencias son la herramienta más sencilla y más utilizada y eficaz cuando estamos rodeados de montones de datos, que no nos dicen nada si no hacemos más que enumerarlos. Al expresar estos datos en forma de una distribución de frecuencias, ya nos proporcionan diversas ideas. Puesto que las distribuciones de frecuencias se utilizan muy a menudo, es necesario conocer la finalidad de las mismas y su interpretación y uso. El fin principal de la preparación de una distribución de frecuencias es, usualmente, uno de los siguientes: Dejar bien visible la distribución de la variable estudiada e identificar su forma. Analizar, controlar y mostrar las capacidades de los procesos de los que derivan sus datos, tanto cualitativa como cuantitativamente. Ayudar a determinar el promedio, la desviación estándar, los coeficientes de asimetría y curtosis, así como otras medidas características de una distribución. Probar a qué tipo de distribución matemática se puede acoplar estadísticamente la distribución empírica de los datos relativos a la

95

variable estudiada.

96

2.3 INTERPRETAR LAS DISTRIBUCIONES DE FRECUENCIAS Las distribuciones de frecuencias facilitan que todo el mundo vea y comprenda intuitivamente la forma de los valores de la variable que representa. Sin embargo hay que prestar atención a la interpretación de las distribuciones. Cuando se miran las distribuciones de frecuencias, se tiene que prestar atención a los puntos siguientes: ¿Está el promedio de la distribución en una posición adecuada? ¿Cómo es la dispersión de la distribución respecto al promedio? ¿Cuál es la relación entre valores tales como la desviación estándar, el valor medio, el rango, etc? ¿Hay algunos huecos, como dientes que faltan, o subidas o bajadas repentinas como las púas de un peine, en la distribución? ¿Hay algunos puntos aislados fuera del cuerpo principal de la distribución? ¿Son aceptables los valores máximo y mínimo de la distribución? ¿Es asimétrica la distribución, con un extremo mucho más largo que el otro, o bien es simétrica? ¿Tiene aspecto de acantilado la parte izquierda o la derecha de la distribución? ¿Tiene más de un pico la distribución? ¿Es demasiado agudo o demasiado chato el pico de la distribución?

97

98

2.5 REPRESENTAR DISTRIBUCIONES DE FRECUENCIAS El objetivo esencial de las representaciones gráficas de las distribuciones de frecuencias es obtener una idea general sobre sus propiedades en un simple vistazo. Observando un histograma de frecuencias podemos deducir si la variable se aproxima a la normalidad o si es simétrica, así como otras propiedades que posteriormente pueden ser analizadas de modo formal utilizando contrastes u otras herramientas adecuadas. A la hora de representar distribuciones de frecuencias será necesario tener presente en primer lugar si la variable es cualitativa o cuantitativa. En segundo lugar, y ya dentro de las variables cuantitativas, habrá que tener presente si la distribución es agrupada o no agrupada. Teniendo en cuenta estas características de la variable cuya distribución de frecuencias se representa podemos clasificar los gráficos como sigue:

102

frecuencias es el polígono de frecuencias acumuladas, que se utiliza cuando se trabaja con frecuencias absolutas o relativas acumuladas y que se construye levantando en el extremo superior de cada intervalo de clase una ordenada igual a la frecuencia acumulada correspondiente y uniendo a continuación dichas ordenadas. Los puntos que se unen serán (Li+1, Ni). La primera ordenada se une al extremo inferior del primer intervalo prolongándose el polígono desde este punto hacia la izquierda sobre el eje X, y prolongándose también el polígono a partir de la ordenada del extremo superior del último intervalo con una paralela al eje de abscisas. De esta forma, la ordenada correspondiente a cada valor de la variable X mide el número de observaciones para las cuales la variable toma valores menores o iguales que la abscisa (concepto que aproxima la función de distribución de la variable X). La Figura 2-11 muestra el polígono de frecuencias simple relativo a la variable X.

116

2.6 GRÁFICOS EN EXCEL La forma más habitual de crear un gráfico en Excel consiste en seleccionar los datos para la construcción del gráfico en la hoja de cálculo y utilizar el tipo de gráfico que se quiera crear del grupo Gráficos de la ficha Insertar (Figura 2-13) en la que hemos seleccionado el tipo Línea (gráficos de líneas). También se pueden utilizar los tipos Columna (Figura 2-14), Barra (Figura 2-15), Circular (Figura 2-16), Área (Figura 2-17), Dispersión (Figura 2-18) y Otros gráficos (Figura 2-19). Es posible ver todos los tipos de gráfico disponibles haciendo clic en la opción Todos los tipos de gráfico cualquier Figura anterior. Se obtiene la Figura 2-20.

119

la Figura 2-21) que contiene las tres fichas Diseño, Presentación y Formato que permiten la edición de un gráfico ya existente. La ficha Diseño permite cambiar el tipo de gráfico, los datos del mismo, los diseños a utilizar, los estilos y la ubicación. La ficha Presentación (Figura 2-22) permite trabajar con el área del gráfico, etiquetas, t tulos, ejes, fondos, líneas de tendencia y todos los elementos habituales que componen un gráfico. La ficha Formato (Figura 2-23) permite trabajar con estilos de forma, estilos de Word Art, así como con el tamaño y la organización del gráfico.

128

2.7 EXCEL Y LAS DISTRIBUCIONES DE FRECUENCIAS Excel permite trabajar con distribuciones de frecuencias por dos vías distintas. Por un lado, aporta la función FRECUENCIA, disponible desde las primeras versiones del programa. Por otro lado, el complemento de Análisis de datos incorpora la opción Histograma, que permite hallar distribuciones de frecuencias para variables aleatorias cuantitativas y representarlas mediante los correspondientes histogramas de frecuencias.

131

2.7.1 La función FRECUENCIA de Excel La función FRECUENCIA de Excel calcula las frecuencias absolutas de los valores de una variable en un rango de intervalos o grupos cuyos extremos se conocen. Debe introducirse como una fórmula de matrices, debido a que FRECUENCIA devuelve una matriz. Su sintaxis es la siguiente: FRECUENCIA(datos;grupos) El argumento datos es una matriz de un conjunto de valores o una referencia a un conjunto de valores x1, x2,..., xn cuyas frecuencias se desea calcular (columna DATOS de la Figura 2-24). El argumento grupos es una matriz de intervalos o una referencia a extremos superiores de intervalos L1, L2,..., Lk dentro de los cuales desea agrupar los valores del argumento datos (columna NTERVALOS de la Figura 2-15). L1, L2,..., Lk representan los intervalos (-∞,L1], (L1,L2],..., (Lk-1, Lk], (Lk, ∞). Si grupos no contiene ningún valor, FRECUENCIA devolverá el número de elementos contenido en datos. La función FRECUENCIA se introduce como una fórmula matricial después de seleccionar un rango de celdas adyacentes en las que se desea que aparezca el resultado de la distribución (Figura 2-24).

132

Haga clic en la opción En una hoja nueva para insertar una hoja nueva en el libro actual y pegar los resultados comenzando por la celda A1 de la nueva hoja de cálculo. Para asignar un nombre a la nueva hoja de cálculo, escríbalo en el cuadro. Pulse en la opción En un libro nuevo para crear un nuevo libro y pegar los resultados en una hoja nueva del libro creado. Active la casilla Pareto (Histograma ordenado) para presentar los datos en orden de frecuencia descendente en la tabla de resultados. Si esta casilla está desactivada, Microsoft Excel presentará los datos en orden ascendente, y omitirá las tres columnas situadas más a la derecha que contienen los datos ordenados. Active la casilla Porcentaje acumulado para generar una columna de tabla de resultados con porcentajes acumulados y para incluir una línea de porcentaje acumulado en el gráfico de histograma. Desactívela para omitir los porcentajes acumulados. Active la casilla Crear gráfico para generar un gráfico de histograma incrustado con la tabla de resultados. En la Figura 2-33 se muestra la salida correspondiente al Histograma de la variable Datos, con extremos de intervalos de clase dados por la columna Intervalos para el cuadro de diálogo Histograma de la Figura 2-32.

142

Dado que estamos ante una variable cuantitativa con datos sin agrupar podemos representarla mediante el diagrama de barras o mediante el polígono de frecuencias (Figura 2-47) obtenidos mediante los mismos pasos del ejercicio anterior. El diagrama de barras y el polígono de frecuencias suelen ofrecer información sobre la simetría y la normalidad de la distribución. En este caso vemos que estas representaciones no se desvían demasiado de una campana de Gauss, lo que indica que puede admitirse la normalidad de los datos. En cuanto a la simetría se observa que la parte izquierda de la distribución aglomera más frecuencia, por lo que podría haber una asimetría débil en esa dirección. No obstante, podría admitirse también la simetría, al igual que la normalidad con un margen de error no muy elevado.

161

detectar qué patrón sigue dicha variabilidad para determinar mejor la estructura de los datos. En primer lugar será conveniente realizar una ordenación de los datos según su magnitud, es decir, una tabla de frecuencias, que aportará algo de luz sobre la distribución de frecuencias subyacente. Como se trata de una variable cuantitativa con 154 valores comprendidos entre 13 y 49, será necesario agruparlos en intervalos o clases. Para ello tomamos 12 intervalos de igual anchura (12 es un entero que aproxima bien la raíz cuadrada de N = 154). La anchura de los intervalos será (49 – 13)/12 = 3. Para hallar las frecuencias absolutas por clases, se utiliza la función FRECUENCIA de Excel con la sintaxis que se observa en la Figura 254, previa introducción de los datos de la variable (Xi) y de la columna de extremos superiores de los intervalos (menos el último). Hay que tener en cuenta el rango seleccionado para escribir la fórmula y que hay que pulsar Mayus+Control+Enter para ejecutarla. Se obtiene la Figura 2-55. Conocidas las frecuencias absolutas, ya podemos construir la tabla de frecuencias tal y como se ha hecho en los ejercicios anteriores (Figura 2-56).

170

Figura 2-64

185

Figura 2-65

187

3.1 EXPRESIÓN CUANTITATIVA DE LAS DISTRIBUCIONES En el capítulo anterior se han definido los conceptos básicos en el estudio de una distribución de frecuencias de una variable. En el presente cap tulo estudiaremos las distintas formas de resumir dichas distribuciones mediante medidas de posición (o de centralización), teniendo presente el error cometido en el resumen mediante las correspondientes medidas de dispersión. A su vez, analizaremos la forma de la distribución mediante las medidas de forma. El histograma de frecuencias ya nos daba una representación visual de las tres propiedades más importantes de los datos muestrales relativos a variables: la forma de su distribución, su tendencia central y su dispersión. Ahora se trata de cuantificar estos conceptos. Por otra parte, también en este cap tulo se tratan las técnicas de análisis exploratorio de datos, que amplían la información ofrecida por las medidas de concentración, dispersión y forma de una distribución. Mediante las técnicas de análisis exploratorio se estudian exhaustivamente las distribuciones de frecuencias y se detectan las posibles anomalías que presentan las observaciones.

189

3.2 MEDIDAS DE POSICIÓN: MEDIA, MEDIANA, MODA, CUANTILES, PERCENTILES Y MOMENTOS La finalidad de las medidas de posición es encontrar unos valores que sinteticen las distribuciones de frecuencias. En vez de manejar todos los datos sobre las características o variables, tarea que puede ser pesada, podemos caracterizar su distribución de frecuencias mediante algunos valores numéricos, eligiendo como resumen de los datos un valor central alrededor del cual se encuentran distribuidos los valores de la variable. El valor de la variable elegido para representar a una distribución se llama promedio o medida de posición, y es un valor representativo de todos los valores que toma la variable. Debe hallarse entre el mayor y el menor valor de la variable. Pero estas medidas de posición de una distribución de frecuencias han de cumplir determinadas condiciones para que sean verdaderamente representativas de la variable a la que resumen. Toda síntesis de una distribución se considerará como operativa si intervienen en su determinación todos y cada uno de los valores de la distribución, siendo única para cada distribución de frecuencias, y siendo siempre calculable y de fácil obtención. A continuación, se hace una relación de las medidas de posición más comunes utilizadas en estadística. Media aritmética: Se define como la suma de todos los valores de la distribución dividida por el número total de datos. La expresión matemática que representa la media aritmética coincide con el momento de primer orden respecto al origen. Pero esto sólo es válido en el supuesto más sencillo, en el que los datos de la variable están sin agrupar. En el caso de que tuviésemos una distribución con datos agrupados en intervalos, los valores individuales de la variable serían desconocidos y, por tanto, no podríamos utilizar la fórmula anterior. En este supuesto, los datos estarán agrupados en clases, y se postula la hipótesis de que el punto medio del intervalo de clase (marca de clase) representa adecuadamente el valor medio de dicha clase, por lo que aplicaríamos la fórmula original de la media simple para dichos valores. En el caso de que la variable presente valores anormalmente extremos, éstos pueden distorsionar la media aritmética, haciéndola incluso poco representativa. A los estadísticos que no son

190

3.3 MEDIDAS DE DISPERSIÓN Las medidas de dispersión permiten calcular la representatividad de una medida de posición, para lo cual será preciso cuantificar la distancia de los dife​rentes valores de la distribución respecto a dicha medida. A tal distancia es a lo que, en términos estadísticos, denominaremos variabilidad o dispersión de la distribución. Las medidas de dispersión tienen como finalidad estudiar hasta qué punto, para una determinada distribución de frecuencias, las medidas de tendencia central o de posición son representativas como síntesis de toda la información de la distribución. Medir la representatividad de una medida de posición equivale a cuantificar la separación de los valores de la distribución respecto a dicha medida. Por ejemplo, si queremos estudiar en qué grado una media aritmética nos marca una tendencia central generalizable del comportamiento de todos los elementos del conjunto estudiado, tendremos que fijarnos en la separación o desviación de cada valor respecto a la media. Si todos los valores están cercanos al valor medio, éste será representativo de ellos. A la mayor o menor separación de los valores de una distribución respecto de otro, que se pretende que sea su síntesis, se le llama dispersión o variabilidad. Será, pues, tanto más representativa la media aritmética de una variable cuanto más agrupados en torno a ella estén los valores promediados; por el contrario, será tanto más rechazable, por no ser representativa, cuanta mayor dispersión exista de los valores de la variable respecto a la media. Resulta pues necesario para completar la información que pueda deducirse de una medida de posición o centralización, acompañarla de uno o varios coeficientes que nos midan el grado de dispersión de la distribución de la variable respecto de esa medida de centralización. Estos coeficientes son los que llamamos medidas de dispersión. Inicialmente, se distingue entre medidas de dispersión absolutas y relativas, entendiéndose por relativas las que no dependen de las unidades de medida. Posteriormente, se clasifican las medidas absolutas y relativas según sean medidas referidas a promedios o no lo sean. Entre las medidas de dispersión absolutas no referidas a promedios tenemos el recorrido, o diferencia entre el mayor valor y el menor valor de una

199

Índice de dispersión respecto a la mediana: Se usa para resolver el problema de comparación de medianas de varias distribuciones, que pueden venir, en general, en unidades diferentes. Se define como la relación por cociente entre la desviación media respecto de la mediana y la mediana aritmética VMe = DMe / M e. Evidentemente, a menor índice de dispersión mejor es la mediana.

204

3.5 ANÁLISIS EXPLORATORIO DE DATOS Los estadísticos descriptivos más habitualmente utilizados han sido la media y la desviación típica. Sin embargo, el uso automático de estos índices no es muy aconsejable. La media y la desviación típica son índices convenientes sólo cuando la distribución de datos es aproximadamente normal o, al menos simétrica y unimodal. Pero las variables objeto de estudio no siempre cumplen estos requisitos. Por lo tanto es necesario un examen a fondo de la estructura de los datos. Actualmente se utilizan las novedosas técnicas del análisis exploratorio de datos, mediante las cuales se pueden analizar los datos exhaustivamente y detectar las posibles anomalías que presentan las observaciones. J. W. Tuckey ha sido uno de los pioneros en la introducción de este tipo de análisis. Se recomienda iniciar un análisis con gráficos que permitan visualizar su estructura. Por ejemplo, para datos cuantitativos es aconsejable comenzar con el histograma de frecuencias. El paso siguiente suele ser examinar la posible presencia de valores atípicos (outliers) en el conjunto de datos. Para ello, suelen utilizarse los propios histogramas u otros tipos de gráficos más avanzados como los gráficos de caja y bigote o histogramas digitales (gráficos de tallo y hojas). Las técnicas de análisis exploratorio de datos amplían la información ofrecida por las medidas de concentración, dispersión y forma de una distribución. Mediante las técnicas de análisis exploratorio se estudian exhaustivamente las distribuciones de frecuencias y se detectan las posibles anomalías que presentan las observaciones, su simetría y su grado de normalidad.

211

3.6 GRÁFICO DE SIMETRÍA El gráfico de simetría (Figura 3-1) es una herramienta que permite analizar visualmente el grado de simetría de una variable. En el eje de abscisas se representan las distancias de los valores de la variable a la mediana que quedan por debajo de ella, y en el eje de ordenadas se representan las distancias de los valores de la variable a la mediana que quedan por encima de ella. Si la simetría fuese perfecta, el conjunto de puntos resultante sería la diagonal principal. Mientras más se aproxime la gráfica a la diagonal más simetría existirá en la distribución de la variable. Para el ejemplo de la variable X, variable definida por el número de litros consumidos por los automóviles cada 1000 kilómetros que venimos considerando durante todo el capítulo, tenemos el gráfico de simetría siguiente:

212

la mediana. 4.

Se toman los valores positivos de di ordenados de menor a mayor y se les denomina pi. Estos valores serán las distancias sobre la mediana.

5.

Se toman los valores negativos de di ordenados de menor a mayor y se les denomina ni. Estos valores cambiados de signo serán las distancias bajo la mediana.

6.

Se grafican los puntos de coordenadas (-ni, pi).

214

del rango de entrada están organizados en filas o en columnas. Rótulos en la primera fila y rótulos en la primera columna: si la primera fila del rango de entrada contiene rótulos, active la casilla de verificación Rótulos en la primera fila. Si los rótulos están en la primera columna del rango de entrada, active la casilla de verificación Rótulos en la primera columna. Esta casilla de verificación estará desactivada si el rango de entrada carece de rótulos; Microsoft Excel generará los rótulos de datos correspondientes para la tabla de resultados. Nivel de confianza para la media: active esta casilla si desea incluir una fila correspondiente al nivel de confianza de la media en la tabla de resultados. En el cuadro, escriba el nivel de confianza que desee utilizar. Por ejemplo, un valor de 95% calculará el nivel de confianza de la media con un nivel de importancia del 5%. Késimo mayor: active esta casilla si desea incluir una fila correspondiente al valor k-ésimo mayor de cada rango de datos en la tabla de resultados. En el cuadro, escriba el número que va a utilizarse para k. Si escribe 1, esta fila contendrá el máximo del conjunto de datos. Késimo menor: active esta casilla si desea incluir una fila correspondiente al valor k-ésimo menor de cada rango de datos en la tabla de resultados. En el cuadro, escriba el número que va a utilizarse para k. Si escribe 1, esta fila contendrá el mínimo del conjunto de datos. Rango de salida: introduzca la referencia correspondiente a la celda superior izquierda de la tabla de resultados. Esta herramienta genera dos columnas de información por cada conjunto de datos. La columna de la izquierda contiene los rótulos de estadística, y la columna de la derecha contiene las estadísticas. Excel escribirá una tabla de estadísticas de dos columnas por cada columna o fila del rango de entrada, dependiendo de la opción que se haya seleccionado en el cuadro Agrupado por. En una hoja nueva: haga clic en esta opción para insertar una hoja nueva en el libro actual y pegar los resultados comenzando por la celda A1 de la nueva hoja

236

de cálculo. Para darle un nombre a la nueva hoja de cálculo, escr balo en el cuadro. En un libro nuevo: haga clic en esta opción para crear un nuevo libro y pegar los resultados en una hoja nueva del libro creado. Resumen de estadísticas: seleccione esta opción si desea que Excel genere un campo en la tabla de resultados por cada una de las siguientes variables estadísticas: media, error típico (de la media), mediana, moda, desviación estándar, varianza, curtosis, coeficiente de asimetría, rango, mínimo, máximo, suma, cuenta, mayor (#), menor (#) y nivel de confianza.

237

Figura 3-25 Al hacer clic en Aceptar, se obtiene la pantalla Estadística descriptiva, cuyos campos se rellenan como se indica en la Figura 3-26. Al hacer clic en Aceptar, se obtiene la Figura 3-27, que presenta varios de los estadísticos pedidos en el problema. Se observa que la moda (peso más frecuente) y la mediana (peso tal que la mitad de los restantes pesos sean inferior a él) coinciden y valen 106. Como el coeficiente de asimetría (0,38) y el coeficiente de curtosis (-0,044) están en el intervalo [-2, 2], la distribución de los pesos podrá considerarse realmente normal.

251

Dado el valor positivo del coeficiente de asimetría de Pearson, se concluye que la distribución es simétrica positiva. El coeficiente de asimetría de Fisher se calcula como sigue:

Dado el valor positivo del coeficiente de asimetría de Fisher, se concluye que la distribución es simétrica positiva. Para cuantificar el grado de apuntamiento de la distribución se calcula el coeficiente de curtosis como sigue:

Este resultado nos dice que la distribución es ligeramente leptocúrtica, es decir, un poco más apuntada que la normal. Un criterio bastante efectivo para comprobar la normalidad de los datos es observar los valores de los coeficientes de asimetría y curtosis. Si ambos coeficientes caen en el intervalo (-2, 2) se considera que los datos provienen de una distribución normal. En nuestro caso g1=1,16 y g2=1,17, valores que caen dentro del intervalo (-2, 2), lo que indica posible presencia de normalidad en los datos.

286

Capítulo 4

VARIABLE N-DIMENSIONAL. CORRELACIÓN Y REGRESIÓN. TABLAS DE CONTINGENCIA

287

4.1 DISTRIBUCIONES BIDIMENSIONALES DE FRECUENCIAS Si X e Y son dos variables observadas, la distribución bidimen​sional (X,Y) será (xi,yi,nij). Cada frecuencia corresponde ahora a un par de valores (variables cuantitativas) o modalidades (variables cualitativas): el primer elemento del par corresponde al valor de la primera característica observada, el segundo hace referencia a la segunda de tales características, y el tercero a la frecuencia conjunta. Evidentemente, sería posible realizar un estudio por separado de la distribu​ción de X e Y, y resumir estos caracteres por medio de sus medidas de posición y dispersión descritas en el cap tulo anterior; tales distribuciones recibirán el nombre de distribuciones marginales. Sin embargo, nuestro interés en este punto se centra en el aná​lisis simultáneo de ambas características; es decir, en la distribución conjunta de las mismas, con el fin de establecer si existe relación entre ellas y en qué grado. Los pares que contienen los valores de las variables o atributos junto con sus correspondientes frecuencias, suelen disponerse en una tabla de doble entrada, que recibe el nombre de tabla de correlación en el caso de que ambos carac​teres sean cuantitativos, y tabla de contingencia cuando son cualitativos. Es​tos dos tipos de tablas serán objeto de nuestra atención en los apartados siguientes.

288

4.2 TABLA DE CORRELACIÓN: DISTRIBUCIONES MARGINALES Y DISTRIBUCIONES CONDICIONADAS Queremos estudiar conjuntamente dos caracteres cuantitativos, X e Y, sobre una población, apareciendo X con h niveles e Y con k. Para ello, seleccionamos una muestra de tamaño N y la sometemos a observación, disponiendo los resultados en una tabla de doble entrada, donde x1, ..., xh e y1, ..., yk repre​sentan los valores observados para cada variable, y nij la frecuencia absoluta conjunta, es decir, las veces que aparecen simultáneamente el valor iésimo de X y j-ésimo de Y.

289

nij = frecuencia absoluta del valor (Xi,Yj) de la distribución conjunta (X,Y).

= frecuencia absoluta del valor Xi de la variable marginal X.

290

= frecuencia absoluta del valor Yj de la variable marginal Y.

= frecuencia relativa del valor (Xi,Yj) de la distribución conjunta (X,Y).

= frecuencia relativa del valor Xi de la variable marginal X.

= frecuencia relativa del valor Yj de la variable marginal Y. Se cumple que:

y

291

En esta tabla, ni. y n.j nos proporcionan las frecuencias marginales. Es decir, el número de veces que aparece el valor i-ésimo de X, con independencia de cuál sea el valor de Y, es ni., y el número de veces que aparece el valor jésimo de Y, independientemente de cuál sea el valor de X con el que se da conjuntamente Y, es n.j. De esta forma tenemos que las distribuciones marginales de X e Y vienen dadas por (xi; ni.) y (yj; n.j ). Estas distribuciones marginales pueden expresarse como sigue:

Dado que estas distribuciones marginales son variables unidimensionales, es posible calcular todo tipo de medidas de centralización, dispersión y forma, mediante los procedimientos ya vistos en el capítulo anterior.

292

A partir de la tabla de correlación es posible formar un nuevo tipo de distribuciones, que denominaremos distribuciones condicionadas debido a que para su obtención es preciso definir previa​mente una condición. Esta condición hará referencia a la fijación a priori de un valor (o valores) de una de las variables, para posteriormente calcular la distribu​ción de la otra variable sujeta a esa condición. Si fijamos la variable Y en el valor y2 (podríamos fijar más de un único valor), la distribución de la variable X condicionada a que Y tome el valor y2 vendrá dada por:

Donde X/Y=y2 nos dará los valores que puede tomar la variable X cuando Y toma el valor y2, y ni/j=2 nos da las frecuencias con que se presenta cada uno de los valores. En general, dado que se pueden establecer condiciones sobre Y y X calculan​do posteriormente la distribución de X o Y sujeta a esa condición, nos encontra​mos distribuciones que, de manera genérica, tendrán la forma:

293

Dado que estas distribuciones condicionadas son variables unidimensionales, es posible calcular todo tipo de medidas de centralización, dispersión y forma, mediante los procedimientos ya vistos en el capítulo anterior. Para todas las distribuciones condicionadas, será posible trabajar con frecuencias relativas en vez de con frecuencias absolutas. Tenemos lo siguiente:

294

Otra relación importante entre distribuciones condicionadas, marginales y conjunta es la siguiente:

295

4.3 COVARIANZA Pero, puesto que no interesan únicamente las distribuciones marginales, sino tam​bién la conjunta, es preciso introducir medidas que hagan referencia a esta última distribución. El momento bidimensional de orden (r,s) centrado en el origen, se define como:

El momento bidimensional de orden (r,s) centrado en las medias, se define como:

Los momentos de la distribución marginal de X se calcularán como ar0 (los centrados en el origen) y mr0 (los centrados en la media). Concretamente a10 es la media de X, y m20 es la varianza de X. De la misma forma, los momentos de la distribución marginal de Y se calcularán como a0s (los centrados en el origen) y m0s (los centrados en la media). Concretamente, a01 es la media de Y, y m02 es la varianza de Y. De entre las medidas relativas a la distribución conjunta, la de mayor interés en todo análisis estadístico es la covarianza sxy, que se define como m11. Su fórmula será:

296

La covarianza es una medida de gran importancia por su signo, más que por el valor que pueda alcanzar; el signo indica el sentido de la variación conjunta de las variables que estamos considerando. De esta forma, si la covarianza es positiva, quiere decir que ambas variables varían en el mismo sentido alrededor de sus medias, mientras que si la variación de las mismas tiene lugar en sentido contrario, la covarianza tomará valores negativos. En ocasiones, suele utilizarse la cuasicovarianza debido a sus propiedades muestrales. La expresión de la cuasicovarianza es:

297

4.4 VARIABLES INDEPENDIENTES ¿Cómo podemos detectar la existencia de independencia entre dos variables? ¿qué instrumentos estadísticos son los que nos permiten señalar la ausencia de tal relación? Para detectar la no presencia de asociación entre dos caracteres ana​lizados sobre la misma población, se procede a elaborar la tabla de correlación (para variables cuantitativas) o de contingencia (para variables cualitativas), y se calculan las respectivas distribuciones conjuntas, marginales y condicionadas. Las variables son independientes si se cumple cualquiera de las dos siguien​tes condiciones equivalentes: Las frecuencias relativas condicionadas coinciden con sus respectivas frecuencias relativas marginales, lo que nos indica que el condicionamiento, en cuanto tal, no existe. Ha de cumplirse que fi/j = fi.= ni. /N y fj/i =f.j= n.j /N para todo i,j. La frecuencia relativa conjunta es igual al producto de las frecuencias rela​tivas marginales, es decir, nij /N = (ni. /N)*(n.j /N) Û fij = fi. f.j para todo i,j. Cuando las dos variables son independientes, la covarianza es cero, aunque debemos señalar que el recíproco no es siempre cierto (es decir, la covarianza nula no implica necesariamente que ambas variables sean independientes).

298

4.5 COEFICIENTE DE CORRELACIÓN LINEAL ENTRE DOS VARIABLES. REGRESIÓN SIMPLE MÍNIMO CUADRÁTICA Se llama correlación al grado de dependencia mutua entre dos variables. El coeficiente de correlación intenta medir la intensidad con que dos variables están relacionadas. Este concepto está directamente relacionado con el concepto de curva de regresión. Mediante la regresión simple mínimo cuadrática, se expresa la estructura funcional de la relación existente entre dos variables, ajustando la nube de puntos dada por los pares de valores de las dos variables a una curva de la forma mejor posible (minimizando la varianza del error). El ajuste será de la forma Y=f(x)+e o X=f(Y)+e, donde e denota el error cometido cuya varianza debe ser mínima. El coeficiente de correlación mide la calidad de ese ajuste. Cuando la curva es una recta, la regresión se llama lineal, y en este caso el coeficiente de correlación se llama coeficiente de correlación lineal, y mide el grado de asociación lineal que existe entre las variables. El ajuste será de la forma Y = a + b X + e (recta de regresión de Y sobre X), o X = c + d Y + e

(recta de regresión de X sobre Y), donde a =

,b=

, c=

yd =

.

A los parámetros a y b se les denomina coeficientes de regresión de Y sobre X, y a los parámetros c y d se les llama coeficientes de regresión de X sobre Y. También se pueden expresar las rectas de regresión de Y sobre X y X sobre Y respectivamente de la forma

y

299

. Si suponemos el ajuste de la forma Y = a + b X + e (recta de regresión de Y sobre X), el criterio de mínimos cuadrados considera que la función que mejor se ajusta a los datos es la que minimiza la varianza del error e, lo que es equivalente a minimizar:

Derivando respecto de los parámetros a y b e igualando a cero tenemos:

Las soluciones a y b de este sistema de ecuaciones normales son a

= y b= de regresión de Y sobre X sea:

, lo que hace que la recta

300

Y= a+ bX =

+



Razonando de forma similar, se obtienen la recta de regresión de X sobre Y. La expresión del coeficiente de correlación lineal entre las variables X e Y viene dado por la expresión:

Si r = 1 existe correlación perfecta positiva, y la relación funcional entre ambas variables es exacta y positiva, variando las dos en el mismo sentido (al aumentar una aumenta la otra, y al disminuir una disminuye la otra). Si r = - 1 existe correlación perfecta negativa, y la relación funcional entre ambas variables es exacta y negativa, variando las dos en el sentido opuesto (al aumentar una disminuye la otra, y al disminuir una aumenta la otra). Si r = 0 la correlación es nula, y las variables no están asociadas, siendo imposible encontrar una relación funcional entre ellas. Si 0 < r < 1 la correlación es positiva, pero el grado de asociación entre las dos variables será mayor a medida que r se acerca más a 1, y será

301

menor a medida que r se acerca más a cero. Si - 1 < r < 0 la correlación es negativa, pero el grado de asociación entre las dos variables será mayor a medida que r se acerca más a -1, y será menor a medida que r se acerca más a cero. El cuadrado del coeficiente de correlación r 2, denotado en general por R2, se denomina coeficiente de determinación y representa el porcentaje de variabilidad de la variable dependiente que es explicada por la regresión. Dada su definición, R2 puede expresarse de forma general en función de la varianza de

Y

y de la varianza residual

como sigue:

En general, se trata de una medida de la bondad del ajuste por regresión. Si R2 se aproxima a la unidad el ajuste es bueno y si R2 se acerca a cero el ajuste es malo. Esta definición e interpretación de R2 es válida para cualquier tipo de ajuste aunque no sea lineal. En cuanto a relación entre correlación e independencia, se observa que al definir el coeficiente de correlación lineal como r = Sxy /(Sx Sy), si las variables son independientes estarán incorrelacionadas, ya que r=0 debido a que Sxy es cero cuando hay independencia. Ahora bien, el recíproco no es necesariamente cierto, ya que dos variables pueden estar incorrelacionadas linealmente y ser dependientes, puesto que al ser r=0, lo único que podemos decir es que la asociación lineal es nula, pero esas variables pueden depender según otro tipo

302

de asociación (parabólica, exponencial, etc.)

303

4.6 REGRESIÓN PARABÓLICA Si suponemos el ajuste de la forma Y = a + b X + c X 2 + e (curva de regresión parabólica de Y sobre X), el criterio de mínimos cuadrados considera que la función que mejor se ajusta a los datos es la que minimiza la varianza del error e, lo que es equivalente a minimizar:

Derivando respecto de los parámetros a, b y c e igualando a cero tenemos:

Las soluciones a, b y c de este sistema de ecuaciones normales proporcionan la ecuación de la parábola que mejor ajusta los datos en el sentido

304

de mínimos cuadrados.

305

4.7 REGRESIÓN POLINÓMICA Si suponemos el ajuste de la forma Y = a + b X + c X 2 + d X 3 + … + e (curva de regresión polinómica de Y sobre X), el criterio de mínimos cuadrados considera que la función que mejor se ajusta a los datos es la que minimiza la varianza del error e, lo que es equivalente a minimizar:

Derivando respecto de los parámetros a, b, c, d,… e igualando a cero tenemos:

Las soluciones a, b, c, d,… de este sistema de ecuaciones

306

normales proporcionan la ecuación polinómica que mejor ajusta los datos en el sentido de mínimos cuadrados.

307

4.8 REGRESIÓN HIPERBÓLICA, POTENCIAL Y EXPONENCIAL Si suponemos el ajuste de la forma Y = a + b / X + e (curva de regresión hiperbólica de Y sobre X), podemos realizar la transformación Z=1/X, con lo que la ecuación a ajustar resulta ser Y = a + b Z + e (curva de regresión lineal de Y sobre X), regresión que ya sabemos resolver. Una vez realizado el ajuste se deshace el cambio en la ecuación resultante. Si suponemos el ajuste de la forma Y=aXb(curva de regresión potencial de Y sobre X), podemos aplicar logaritmos, con lo que la ecuación a ajustar resulta ser LnY=Lna+bLnX+e (curva de regresión lineal de Y sobre X), regresión que ya sabemos resolver. Realizado el ajuste lineal se obtienen Lna y b, es decir, ya conocemos a y b. Si suponemos el ajuste de la forma Y=abX (curva de regresión exponencial de Y sobre X), podemos aplicar logaritmos, con lo que la ecuación a ajustar resulta ser LnY=Lna+XLnb+e (curva de regresión lineal de Y sobre X), regresión que ya sabemos resolver. Una vez realizado el ajuste lineal se obtienen Lna y Lb, es decir, ya conocemos a y b.

308

4.9 COEFICIENTE DE CORRELACIÓN POR RANGOS Es muy típico considerar, sobre todo en variables cualitativas, el coeficiente de correlación entre los rangos de los valores de las variables. Se entiende por rango de un valor de una variable el lugar que ocupa dicho valor en el conjunto total de valores de la variable, suponiendo una ordenación de menor a mayor. Sean Ai y Bi las diferentes modalidades de dos variables cualitativas X e Y. Sean xi e yi los rangos o números de orden que le corresponden a Ai y Bi, supuestas ordenadas estas modalidades, con la escala que se determine, y de menor a mayor. Se define el coeficiente de correlación por rangos de Spearman para las variables cualitativas X e Y como el coeficiente de correlación lineal de las variables cuyos valores son xi e yi. Este valor se utiliza para medir el grado de asociación de las variables cualitativas X e Y basándonos en la concordancia o discordancia de las clasificaciones por rangos de sus modalidades. El coeficiente de correlación por rangos también se utiliza para variables cuantitativas, con la aclaración de que el grado de asociación obtenido no es el de los valores de las variables, sino el de las clasificaciones por rangos de dichos valores. Este coeficiente viene dado por:

siendo di = xi - yi. Este coeficiente también se denomina coeficiente de correlación ordinal, y por ser un coeficiente de correlación varía entre -1 y 1. Cuando la concordancia entre los rangos es perfecta, entonces di = xi - yi = 0 y r =1. Cuando la discordancia es perfecta, r = -1. Cuando no hay ni concordancia ni discordancia, r = 0.

309

4.10 DISTRIBUCIONES DE MÁS DE DOS DIMENSIONES: MATRIZ DE COVARIANZAS Y MATRIZ DE CORRELACIONES Cuando se tiene una variable tridimensional (X,Y,Z) o enedimensional en general, también se puede realizar la descripción y análisis de las distribuciones de frecuencias subyacentes. La complejidad crece cuando el número de variables o factores que se analizan simultáneamente aumenta, pero conocido el procedimiento para el caso tridimensional, su gene​r alización al ndimensional es inmediata. El análisis es igualmente válido cuando los caracteres analizados son de naturaleza cuantitativa o cualitativa. Al igual que en las distribuciones bidimensionales, la forma más usual de representación de distribuciones tridimen​sionales son las tablas de correlación (referentes a caracteres cuantitativos) o las tablas de contingencia (referentes a caracteres cuantitativos). Como sucedía en el caso de la distribución bi​dimensional, se pretende que las frecuencias, tanto conjuntas y marginales como condi​cionadas, sean fácilmente localizables, y también sus respectivas distribucio​nes. Un elemento esencial en el estudio de variables enedimensionales es la matriz de covarianzas, que resume las covarianzas para todos los posibles pares de variables de entre n dadas X1, X2, ..., Xn. Se define como:

310

donde cada sij representa la covarianza entre Xi y Xj para todo i,j. El signo de cada sij indica el sentido de la variación conjunta de las dos variables Xi y Xj que estamos considerando. Si la covarianza es positiva, quiere decir que ambas variables varían en el mismo sentido, mientras que si la variación de las mismas tiene lugar en sentido contrario, la covarianza tomará valores negativos. Con la matriz de covarianzas analizamos simultáneamente el sentido de la variación conjunta de todos los posibles pares de variables Xi y Xj para todo i,j. Otro elemento esencial en el estudio de variables enedimensionales es la matriz de correlaciones, que resume las correlaciones para todos los posibles pares de variables de entre n dadas X1, X2,...,Xn. Se define como:

311

donde cada rij es el coeficiente de correlación entre Xi y Xj para todo i,j. Si dada una serie de variables X1, X2, ..., Xn, se trata de estudiar el grado de dependencia simultánea entre todas ellas (o bien entre grupos de ellas), puede utilizarse la matriz de correlaciones. Si en base a la intensidad con que dependen se puede establecer una función que explique una variable mediante todas las demás, que se supone son sus causas influyentes, estamos ante un problema de regresión múltiple, que será estudiado en cap tulos posteriores. Mediante el coeficiente de correlación lineal múltiple se estudia el grado de asociación lineal simultánea entre todas las variables, mientras que mediante los coeficientes de correlación simples r ij se mide el grado de asociación entre las variables Xi y Xj sin tener en cuenta a las demás variables.

312

4.11 VARIABLES CUALITATIVAS: TABLAS DE CONTINGENCIA Y DISTRIBUCIONES MARGINALES Y CONDICIONADAS En los apartados anteriores hemos trabajado con variables cuyos valores son cuantificables numéricamente, es decir, hemos estudiado la denominada estadística de variables, que incluye las diferentes técnicas para analizar la información disponible acerca de un determi​nado fenómeno colectivo cuyos sucesos vienen expresados en términos cuantitativos o numéricos (renta, salarios, precios, etc.). Sin embargo, cuando esos sucesos vienen referidos a cualidades o características no medibles del fenómeno estudiado (color, nacionalidad, enfermedades, etc.), estaremos hablando de lo que definimos como estadística de atributos, que se ocupa de las variables cualitativas. En la estadística de atributos, bien establecemos un determinado orden o rango entre las observaciones (cuando estas son susceptibles de aparecer en una determina​da escala ordinal), bien procedemos al simple recuento de las distintas modalidades en que se divide el atributo o cualidad en la serie de objetos o individuos que se estén analizando (cuando la información aparezca en escala nominal). En este último caso, el carácter numérico surge al efectuar el recuento, obteniéndose de este modo la dis​tribución de frecuencias del atributo o variable cualitativa correspondiente. Pero, aunque se obtenga la distribución de frecuencias para la variable cualitativa, no tendría sentido el empleo de promedios, tales como la media aritmética o geométrica. Cuando las obser​vaciones aparecen en una escala nominal, sólo la moda puede utilizarse como medida resumen de posición o centralización. Si las observaciones responden a una escala ordinal, puede determinarse, además del valor modal, también la mediana. Consideramos una población (o una muestra) compuesta por N individuos sobre los que se pretende analizar simultáneamente dos atributos o factores (variables cualitativas). Designemos como A1, ..., Ah y como B1, ..., Bk las h y k modalidades del factor A y del factor B respectivamente, y por nij el número de

313

individuos que presentan a la vez las modalidades A¡ y Bj. La tabla estadística que describe estos N individuos, denominada tabla de contingencia, será una tabla de do​ble entrada como la siguiente:

Al igual que en el caso de las variables cuantitativas, en esta tabla ni. y n.j nos proporcionan las frecuencias marginales; es decir, el número de veces que aparece la modalidad i-ésima de A, con independencia de cuál sea la modalidad de B, es ni., y el número de veces que aparece la modalidad j-ésima de B, independientemente de cuál sea la modalidad de A con el que se da

314

conjuntamente B, es n.j. De esta forma tenemos que las distribuciones marginales de A y B vienen dadas por (Ai; ni.) y (Bj; n.j). A partir de la tabla de contingencia es posible formar un nuevo tipo de distribuciones, que denominaremos distribuciones condicionadas debido a que para su obtención es preciso definir previa​mente una condición. Esta condición hará referencia a la fijación a priori de una modalidad (o modalidades) de una de las variables cualitativas o factores, para posteriormente calcular la distribu​ción de la otra variable cualitativa sujeta a esa condición. Si fijamos la variable B en el valor B2 (podríamos fijar más de un único valor), la distribución de la variable A condicionada a que B tome el valor B2 vendrá dada por:

Donde A/B2 nos dará los valores que puede tomar la variable A cuando la B toma el valor B2, y ni/2 nos da las frecuencias con que se presenta cada uno de los valores (modalidades). En general, dado que se pueden establecer condiciones sobre A y B calculan​do posteriormente la distribución de A o B sujeta a esa condición, nos encontra​mos distribuciones que, de manera genérica, tendrán la forma:

315

Para todas las distribuciones será posible trabajar con frecuencias relativas en vez de con frecuencias absolutas.

316

4.12 INDEPENDENCIA Y ASOCIACIÓN DE VARIABLES CUALITATIVAS: COEFICIENTES En cuanto a la independencia de variables cualitativas, ya fue tratada al hablar de la independencia de variables cuantitativas, aunque este concepto toma aquí especial relevancia, pues en el caso de variables cualitativas la falta de independencia suele denominarse asociación, y el análisis del grado de asociación entre variables cualitativas tiene fuerte incidencia en la estadística de atributos. Ya hemos visto que de forma análoga a lo que ocurre en el caso de dos variables cuantitativas, la observación simultánea de dos atribu​tos da lugar a una tabla de doble entrada, en donde nij indica el número de objetos o individuos que poseen conjuntamente las modalidades indicadas en la fila i-ésima y en la columna j-ésima de la tabla de contingencia. También hemos visto que las distribuciones que se refieren a uno solo de los dos atributos o variables cualitativas se de​nominan igualmente distribuciones marginales. Se dice que dos atributos A y B son independientes, cuando entre ellos no existe ningún tipo de influencia mutua. Si dos atributos, A y B, son independientes estadísticamente, la frecuencia relativa conjunta será igual al producto de las frecuencias marginales respectivas. Para que A y B sean independientes, habrá de cumplirse que nij = (ni.n.j)/N para todo i,j. En la práctica basta con que la relación se verifique para (h-1)(k-1) valores de nij, ya que entonces se verificará para todos los restantes.

Si designamos como nij la frecuencia conjunta correspondiente a las modalidades Ai del atributo A y Bj de B, y por nij la frecuencia teórica que correspondería en el caso de que ambos atributos fuesen independientes, esto es, nij = (ni.n.j)/N, i=1,...,h, j=1,...,k, siendo N el total de elementos que se estudian, definimos el coeficiente de contingencia (c 2)como sigue:

317

c2= Este coeficiente también se denomina en la literatura estadística cuadrado de la contingencia, y puede expresarse de forma más sencilla para el cálculo como sigue:

c2= El coeficiente de contingencia c 2 se utiliza para realizar un contraste formal para la hipótesis nula de independencia de los atributos A y B cuya información muestral se recoge en la tabla de contingencia dada. La hipótesis alternativa es la existencia de asociación entre los atributos A y B. El contraste se basa en que, bajo la hipótesis nula de independencia de los atributos A y B, el estadístico c 2 se distribuye según una chi-cuadrado con (h-1)(k-1) grados de libertad. Cuando el tamaño muestral es pequeño (N menor que 150), se utiliza el test exacto de Fisher para contrastar la independencia de atributos. En este caso suele introducirse una corrección por continuidad en el estadístico de la chi-cuadrado, tomando en su lugar para el contraste de independencia el estadístico corregido de Yates, cuya expresión es la siguiente:

318

c2= Como concepto contrario al de independencia tenemos el de asociación. Se dice que A y B están asociados cuando aparecen juntos en mayor número de casos del que cabría esperar si fuesen independientes. Según que esa tendencia a coincidir o no coincidir esté más o menos marcada, tendremos distintos grados de asociación. Para medirlos se han ideado diversos procedimientos, denominados coeficientes de asociación, entre los que destacaremos los siguien​tes: Cuadrado medio de la contingencia: Se trata de una medida de asociación sencilla, que no es más que el cociente entre el coeficiente de contingencia c 2 y el tamaño de la muestra (N), con lo cual se elimina el efecto del tamaño muestral. Este coeficiente alcanza el valor máximo (uno) cuando entre los dos atributos existe asociación perfecta estricta. El valor del coeficiente es cero si los atributos son independientes. Se trata de una medida muy sensible a la presencia de totales marginales desequilibrados, por lo cual, cuando esta circunstancia se presenta, los valores tomados por esta medida pueden llevarnos a conclusiones falsas. Tanto el coeficiente de contingencia como el cuadrado medio de la contingencia no pueden ser nunca negativos. La expresión del cuadrado medio de la contingencia será :

F2 = c 2/N =

319

Coeficiente de contingencia C de K. Pearson: Se trata de un coeficiente definido como C = (c 2/(N+c 2)) 1/2. El coeficiente C tiene un campo de variación entre 0 y 1, de manera que su valor es cero cuando existe una carencia absoluta de asociación entre los atributos, o sea, cuando los atributos son independientes. Cuando los atributos muestran una total asociación entre sí, el coeficiente se aproxima a uno, pero sólo se alcanzaría el valor uno en el caso ideal de infinitas modalidades. Se puede demostrar que en el caso de una tabla de contingencia cuadrada (h=k), el límite superior de C es S=((h-1)/h) 1/2, lo que permitiría calcular un nuevo valor para esta medida, llamado coeficiente ajustado, que vendría dado por CA=C/S. Este coeficiente ajustado podría resultar de interés, puesto que proporciona una idea del verdadero grado de asociación, al evaluar la discrepancia entre el valor obtenido y el máximo que podría alcanzar para la tabla dada. La expresión del coeficiente de contingencia C de K. Pearson será:

El coeficiente T de Tschuprow: Se trata de un coeficiente que depende de c 2, del número de filas y columnas de la tabla de contingencia y del total de elementos N. El coeficiente varía entre 0 y 1, pero no alcanza el máximo valor cuando la tabla analizada es rectangular, y sí cuando la tabla es cuadrada. La expresión de este coeficiente es la siguiente:

320

También se cumple que:

El coeficiente V de Cramer: Se trata de un coeficiente que toma el valor 1 cuando existe asociación perfecta entre atributos, cualquiera que sea el número de filas y columnas de la tabla de contingencia analizada. Cuando la tabla es cuadrada se tiene V=T, y en caso contrario, se tiene V>T. Su expresión es :

donde m = min(h-1,k-1) Coeficientes Lambda de Goodman y Kruskall: Se trata de coeficientes que ya no dependen de c 2. Suponiendo que se ha elegido Y como factor explicado y X como explicativo, se evalúa la capacidad de X para predecir Y mediante el coeficiente ly, cuya expresión es :

321

De la misma forma, suponiendo que se ha elegido X como factor explicado e Y como explicativo, se evalúa la capacidad de Y para predecir X mediante el coeficiente lx, cuya expresión es:

Tanto lx como ly varían entre 0 y 1, y están especialmente pensadas como medidas asimétricas. Por ello, cuando no es posible determinar de manera objetiva cuál de los dos factores es el explicativo o el explicado, se debe optar por la utilización de la versión simétrica de estas medidas, cuyo valor es:

322

El valor de l está comprendido entre lx y ly, y presenta como inconveniente su gran sensibilidad a la presencia de totales marginales desequilibrados. Si l se aproxima a uno existe asociación entre X e Y, y si se aproxima a cero existirá independencia.

323

4.13 FUNCIONES DE EXCEL PARA CORRELACIÓN Y REGRESIÓN SIMPLE Excel dispone de varias funciones que permiten trabajar con coeficientes de correlación, regresión y otros conceptos sobre variables multidimensionales. Ya sabemos que para ver las funciones de la categoría Estadísticas, se hace clic sobre el icono Insertar función, , de la barra de fórmulas (o se elige la opción Insertar del grupo Biblioteca de funciones de la ficha Fórmulas), con lo que se obtiene la Figura 4-1, en cuyo cuadro Seleccionar una categoría se elige Estadísticas, presentándose todas las funciones de dicha categoría elegida en el cuadro Seleccionar una función (Figura 4-2). Si en el cuadro Seleccionar una función hacemos clic con el ratón sobre una función, por ejemplo la función COEF.DE.CORREL, se obtiene la paleta de la función con su sintaxis (Figura 4-3). Una vez completados los argumentos (variables X e Y de la Figura 4-4), se obtiene el resultado en la parte inferior de la paleta. Al pulsar Aceptar, la fórmula y su resultado se insertan en la celda activa de la hoja de cálculo.

324

325

Figura 4-1

Figura 4-2

326

327

Figura 4-3 Figura 4-4 A continuación, se presenta una relación de funciones de Excel para correlación, regresión y variables multidimensionales, acompañada de un ejemplo referido a las variables X e Y de la hoja de cálculo de la Figura 4-4 cuyos valores ocupan los rangos A2 A11 y B2:B11. Devuelve COVAR(x;y) COVAR(A2:A11;B2:B11)

Devuelve

328

COEF.DE.CORREL(x;y) COEF.DE.CORREL(A2:A11;B2:B11)

Da el coe COEFICIENTE.R2(y;x) COEFICIENTE.R2(B2:B11;A2:A11)

Da la pen PENDIENTE(y;x) PENDIENTE(B2:B11;A2:A11)

INTERSECCION.EJE(y;x) INTERSECCION.EJE(B2:B11;A2:A11)

Da la orde

PRONOSTICO(z;y;x) PRONOSTICO(2;B2:B11;A2:A11)

Halla la p variable in Halla las para los v Constante especifica

TENDENCIA(y;x;z;constante) TENDENCIA(A2:A8;B2:B8;B9:B11)

CRECIMIENTO(y;x;z;constante) CRECIMIENTO(A2:A8;B2:B8;B9: B11;0)

329

Halla las para los v Constante especifica Devuelve

ERROR.TIPICO.XY(y;x) ERROR.TIPICO(B2:B11;A2:A11)

error típic para un va

Estas funciones pueden escribirse directamente sobre las celdas de la hoja de cálculo de igual modo que cualquier otra fórmula. La Figura 4-5 presenta varias funciones de cálculo de medidas de correlación y regresión situadas en las celdas de la hoja de cálculo y referidas a los valores de las variables X e Y que ocupan las dos primeras columnas de la hoja. La Figura 4-6 presenta los resultados de las fórmulas.

Figura 4-5

330

Figura 4-6 A continuación, para algunas funciones se presenta su paleta, omitiéndose dicha presentación para paletas de funciones muy similares en su sintaxis (figuras 4-7 a 4-10).

331

Figura 4-7

332

Figura 4-8

333

Figura 4-9

334

Figura 4-10 Como ejemplo de ajuste por regresión simple con Excel consideramos las variables R (renta personal en unidades monetarias) y H (número de personas que se van de vacaciones al extranjero), cuyos valores para un determinado país son los siguientes:

335

a) Justificar si puede aceptarse una dependencia estadística lineal entre R y H. b) En caso positivo, hallar la recta de ajuste y representar la nube de puntos ajustada. Introducimos en la hoja de cálculo las variables R y H como columnas de la misma y, a continuación, situamos las fórmulas como se indica en la Figura 4-11. Los resultados se presentan en la Figura 4-12.

336

Figura 4-11

Figura 4-12 Se observa que el coeficiente de correlación entre R y H es r=0,986, lo que asegura la fuerte dependencia lineal positiva entre las dos variables.

337

Con vistas a realizar un ajuste entre ambas variables, lo lógico es que el número de personas que se van de vacaciones al extranjero dependa de la renta personal, con lo que hemos de hallar la función lineal f tal que H=f(R), es decir, tenemos que hallar la recta de regresión de H sobre R, cuya pendiente ha resultado ser b=0,057 y cuya ordenada en el origen ha resultado ser a=-17,34. Por lo tanto, la recta de regresión de H sobre R es H=-17,34+0,057R, que nos define la relación lineal entre el número de personas que se van de vacaciones al extranjero y su renta personal. Podemos representar la recta de regresión marcando el rango de las dos variables y haciendo clic en la opción Dispersión sólo con marcadores del grupo Gráficos de la ficha Insertar (Figura 4-13). Se obtiene la nube de puntos de la regresión (Figura 4-14). A continuación, se elige la opción Agregar línea de tendencia del menú emergente resultante al hacer clic con el botón derecho del ratón sobre el grafo de la línea de ajuste (Figura 4-15), seleccionando en la solapa Tipo tendencia lineal (Figura 4-16), mientras que en la solapa Opciones se elige presentar la ecuación en el gráfico y el valor de Rcuadrado (Figura 4-17). Al pulsar Aceptar, se obtiene la Figura 4-18, que presenta la nube de puntos ajustada a la recta de regresión cuya ecuación también aparece sobre el gráfico. El alto valor de R2 indica un buen ajuste.

338

Figura 4-13

339

Figura 4-14

340

Figura 4-15

341

342

Figura 4-16

Figura 4-17

343

Figura 4-18 Como ejemplo adicional consideramos las variables Q (producción en millones de unidades monetarias) y E (exportaciones en milllones de unidades monetarias), cuyos valores durante cuatro años para un determinado sector económico son los siguientes:

344

a) Si se estima que las producciones en los ejercicios 1988, 1999 y 2000 van a ser de 640, 690 y 720 millones, respectivamente, y que las condiciones del mercado internacional no van a variar, ¿cuál será el volumen de exportaciones previsible para esos años? b) ¿En qué medida esta previsión puede ser o no aceptable? c) ¿Cuáles serían las previsiones considerando una línea de ajuste exponencial? Lógicamente, el volumen de exportaciones dependerá de la producción, con lo que hemos de hallar la función f tal que E=f(P), es decir, la recta de regresión de E sobre P. Una vez calculada la ecuación de esta recta, podría usarse para predecir el volumen de exportaciones relativo a una producción de 640 millones. No obstante, Excel dispone de funciones para predicción que no necesitan del cálculo previo de la ecuación de regresión, y que son las que utilizaremos aquí. Comenzamos introduciendo en la hoja de cálculo las variables E y P como columnas de la misma. A continuación, situamos las fórmulas de los coeficientes de correlación, determinación y error típico como se indica en la

345

Figura 4-19. Los resultados se presentan en la Figura 4-20, e indican que el ajuste por regresión ha sido bueno, al ser el coeficiente de correlación muy próximo a la unidad (0,9493) y el coeficiente de determinación superior al 90%.

Figura 4-19 Figura 4-20 Para realizar la predicción lineal mínimo cuadrática múltiple (sin constante en el modelo), se ha utilizado la función matricial TENDENCIA (Figura 4-21) y se han obtenido previsiones de exportaciones de 125,6, 136,5 y 141,3 millones para los años 1998, 1999 y 2000, respectivamente. Las

346

predicciones según la línea de ajuste exponencial Q = bEx se han calculado mediante la función matricial CREC M ENTO (Figura 4-22), y se han obtenido previsiones de exportaciones de 576,5, 947,3 y 1 276,1 millones para los años 1998, 1999 y 2000, respectivamente (lógicamente mayores que para el caso de la predicción lineal). Los valores aceptables de los coeficientes de correlación y regresión y el valor bajo del error típico indican que las predicciones realizadas pueden ser bastante fiables.

347

Figura 4-21

Figura 4-22

348

4.14 EXCEL Y LOS AJUSTES POR REGRESIÓN POLINÓMICA, LOGARÍTMICA, EXPONENCIAL Y POTENCIAL Consideramos la serie de inversiones realizadas por una empresa en 10 períodos consecutivos que se presenta en la Figura 4-23. Con la finalidad de predecir correctamente la inversión empresaril futura, se trata de ajustar la serie a una línea de tendencia cúbica, exponencial, potencial, logarítmica y de media móvil de orden 2 para decidir finalmente cuál de los modelos ofrece mejores prediciones. Se comienza seleccionando los datos de la serie y eligiendo la opción Línea en el grupo Gráficos de la pestaña Insertar (Figura 4-23). Se obtiene el gráfico de líneas de la serie de la Figura 4-24. Se hace clic con el botón derecho del ratón sobre la línea y en el menú emergente resultante se elige Agregar línea de tendencia (Figura 4-25). Eligiendo las opciones indicadas en la Figuras 4-25, 4-27, 4-29, 4-31 y 4-33, se obtienen las líneas de tendencia e las Figuras 4-26, 428, 4-30, 4-32 y 4-34, Se observa que la mejor linea de tendenia es la cúbica porque tiene el mayor valor de R2.

349

Figura 4-23

350

Figura 4-24

351

352

Figura 4-25

Figura 4-26

353

354

Figura 4-27

Figura 4-28

355

356

Figura 4-29

Figura 4-30

357

358

Figura 4-31

Figura 4-32

359

360

Figura 4-33

Figura 4-34

361

4.15 EXCEL Y LA CORRELACIÓN MÚLTIPLE CON HERRAMIENTAS DE ANÁLISIS Excel proporciona herramientas de análisis para medir la relación entre dos conjuntos de datos. El cálculo de la correlación devuelve la covarianza de dos conjuntos de datos dividida por el producto de sus desviaciones estándar. Se puede utilizar la herramienta Coeficiente de correlación para determinar si dos conjuntos de datos varían conjuntamente; es decir, si los valores altos de un conjunto están asociados con los valores altos del otro (correlación positiva), si los valores bajos de un conjunto están asociados con los valores bajos del otro (correlación negativa), o si los valores de ambos conjuntos no están relacionados (correlación con tendencia a cero). Cuando se consideran más de dos variables, esta herramienta devuelve la matriz de correlaciones entre ellas. Asimismo, Excel también permite hallar el promedio del producto de desviaciones de variables respecto de sus medias (covarianza) mediante la herramienta Covarianza. La covarianza es una medida de la relación entre dos rangos de datos, y también se puede utilizar para determinar si dos rangos de datos varían conjuntamente. Cuando se consideran más de dos variables, esta herramienta devuelve la matriz de covarianzas entre ellas.

362

4.15.1 Correlación y m atriz de correlaciones La opción Análisis de datos del grupo Análisis de la ficha Datos (Figura 4-35) nos lleva al cuadro de diálogo Análisis de datos de la Figura 4-36. Si en la lista Funciones para análisis elegimos Coeficiente de correlación, se obtendrá el cuadro de diálogo de la Figura 4-37, que permite calcular la matriz de correlaciones de las variables especificadas en el campo Rango de entrada.

363

Figura 4-35

Figura 4-36

364

Figura 4-37 En el campo Rango de entrada introduzca la referencia de celda del rango de datos que desee analizar (rango que contiene las variables cuya correlación o matriz de correlaciones se va a calcular). La referencia deberá contener dos o más rangos adyacentes organizados en columnas o filas. En el campo Agrupado por haga clic en el botón Filas o Columnas para indicar si los datos del rango de entrada están organizados en filas o en columnas. Si la primera fila del rango de entrada contiene rótulos, active la casilla de verificación Rótulos en la primera fila. Si los rótulos están en la primera columna del rango de entrada, active la casilla de verificación Rótulos en la primera columna. Esta casilla de verificación estará desactivada si el rango de entrada carece de rótulos. Microsoft Excel generará los rótulos de datos

365

correspondientes para la tabla de resultados. En cuanto a las Opciones de salida, en el campo Rango de salida introduzca la referencia correspondiente a la celda superior izquierda de la tabla de resultados (matriz de correlaciones). Microsoft Excel sólo completará media tabla, ya que la correlación entre dos rangos de datos es independiente del orden en que se procesen dichos rangos. Las celdas de la tabla de resultados con coordenadas de filas y de columnas iguales contendrán el valor 1, ya que cada conjunto de datos está perfectamente correlacionado consigo mismo. Haga clic en la opción En una hoja nueva para insertar una hoja nueva en el libro actual y pegar los resultados comenzando por la celda A1 de la nueva hoja de cálculo. Para darle un nombre a la nueva hoja de cálculo, escríbalo en el cuadro. Haga clic en la opción En un libro nuevo para crear un nuevo libro y pegar los resultados en una hoja nueva del libro creado. En la Figura 4-38, se muestra la matriz de correlaciones de las variables X, Y y Z para las opciones de entrada en el cuadro Coeficiente de correlación de la Figura 4-37. Se observa la escasa relación existente entre las variables, ya que todos los coeficientes de correlación son muy pequeños.

Figura 4-38

366

4.15.2 Covarianza y m atriz de covarianzas La opción Análisis de datos del grupo Análisis de la ficha Datos (Figura 4-35) nos lleva al cuadro de diálogo Análisis de datos de la Figura 4-39. Si en la lista Funciones para análisis elegimos Covarianza, se obtendrá el cuadro de diálogo de la Figura 4-40, que permite calcular la matriz de correlaciones de las variables del campo Rango de entrada.

Figura 4-39

367

Figura 4-40

Figura 4-41

En el cuadro Rango de entrada introduzca la referencia de celda del rango de datos a analizar (rango que contiene las variables cuya covarianza o matriz de covarianzas se quiere calcular). La referencia deberá contener dos o más rangos adyacentes organizados en columnas o filas. En el campo Agrupado

368

por haga clic en el botón Filas o Columnas para indicar si los datos del rango de entrada están organizados en filas o en columnas. Si la primera fila del rango de entrada contiene rótulos, active la casilla de verificación Rótulos en la primera fila. Si los rótulos están en la primera columna del rango de entrada, active la casilla de verificación Rótulos en la primera columna. Esta casilla de verificación estará desactivada si el rango de entrada carece de rótulos. Excel generará los rótulos de datos correspondientes para la tabla de resultados. En cuanto a las Opciones de salida, en el campo Rango de salida introduzca la referencia correspondiente a la celda superior izquierda de la tabla de resultados (matriz de covarianzas). Microsoft Excel sólo completará media tabla, ya que la covarianza entre dos rangos de datos es independiente del orden en que se procesen dichos rangos. Las celdas de la tabla de resultados con coordenadas de filas y de columnas iguales contendrán el valor de la varianzas de las variables. Haga clic en la opción En una hoja nueva para insertar una hoja nueva en el libro actual y pegar los resultados, comenzando por la celda A1 de la nueva hoja de cálculo. Para darle un nombre a la nueva hoja de cálculo, escr balo en el cuadro. Haga clic en la opción En un libro nuevo para crear un nuevo libro y pegar los resultados en una hoja nueva del libro creado. En la Figura 4-41 se muestra la matriz de covarianzas de las variables X, Y y Z para las opciones de entrada en el cuadro Covarianza de la Figura 4-40.

369

4.16 EXCEL Y LAS TABLAS DE CONTINGENCIA MEDIANTE TABLAS DINÁMICAS En Excel es posible construir tablas de contingencia a través de las tablas dinámicas. Una tabla dinámica o informe de tabla dinámica es una tabla interactiva que se puede utilizar para presentar tablas cruzadas y distribuciones de frecuencias que resumen rápidamente grandes volúmenes de datos. Podrán elegirse las variables de sus filas y columnas a medida para ver diferentes resúmenes de los datos de origen. Las variables a tabular serán dinámicas, es decir, a partir de un conjunto extenso de información previamente almacenada de forma bruta en múltiples variables, se cruzarán entre sí las variables que se desee, filtrando los datos y mostrando los detalles de las áreas que consideremos de interés. La información de las tablas dinámicas puede graficarse, dando lugar a los gráficos dinámicos o informes de gráfico dinámico, que se corresponden con los histogramas de frecuencias. Como veremos a continuación con ejemplos, en Excel es posible construir tablas de contingencia para dos variables cualitativas, para una variable cuantitativa y otra cualitativa, y para tres o más variables.

370

4.16.1 Excel y las tablas de contingencia para dos variables cualitativas La tabla siguiente muestra los datos relativos a los resultados de una encuesta de opinión (favorable o desfavorable) sobre un determinado acontecimiento, realizada a un conjunto de hombres y mujeres pertenecientes a una determinada clase social y con una edad conocida.

371

372

Se trata de crear una tabla de contingencia que cruce las variables cualitativas sexo y opinión. Posteriormente, se especificará la tabla de contingencia anterior según los valores de la variable clase. Para crear una tabla de contingencia, utilice el Asistente para tablas y gráficos dinámicos como guía para buscar y especificar los datos de origen que desea analizar y para crear el diseño de la tabla. Los pasos para crear una tabla de contingencia comienzan por abrir el libro en que se desee crear la tabla y hacer clic en una celda de la hoja que contiene los datos. A continuación, haga clic en Tablas dinámicas en el grupo Tablas de la ficha Insertar (Figura 4-42). En el Asistente para tablas y gráficos dinámicos (Figura 4-43) especifique la zona de la hoja que contiene los datos a analizar y la esquina superior izquierda de la hoja que contendrá el informe de tabla de dinámica que se va a generar. Se obtiene la Figura 4-44.

373

Figura 4-42 4-43

374

Figura

Figura 4-44 Para diseñar el informe, se arrastran los campos cuyos valores van a situarse en filas en la tabla, desde la barra de herramientas Tabla dinámica a la zona Coloque campos de fila aquí (o a la zona Etiquetas de fila de la parte inferior derecha encabezada por Arrastrar campos entre las áreas siguientes), y se arrastran los campos cuyos valores van a situarse en columnas a la zona Coloque campos de columna aquí (o a la zona Etiquetas de columna). Al arrastrar el campo por cuyos valores se tabula a la zona Coloque los campos de

375

valor aquí (o a la zona Valores), se obtiene la tabla dinámica. Para diseñar nuestro informe de tabla dinámica, se arrastran los campos cuyos valores van a situarse en filas en la tabla, desde la parte superior derecha de la figura (encabezada por Lista de campos de tabla dinámica) a la zona Etiquetas de fila (en nuestro caso Sexo). También se arrastran los campos cuyos valores van a situarse en columnas a la zona Etiquetas de columna (en nuestro caso OPINION). Por último, se arrastra el campo por cuyos valores se tabula (en nuestro caso OPINION) a la zona Valores. Se obtiene la tabla dinámica de la Figura 4-45. La Lista de campos de tabla dinámica de la Figura 4-45 permite agregar campos a las filas y a las columnas de la tabla de contingencia para obtener tablas múltiples. Por ejemplo, si arrastramos a la zona de columnas el campo Clase, se obtiene la tabla de contingencia triple de la Figura 4-46.

376

377

Figura 4-45

378

Figura 4-46

379

4.16.2 Excel y las tablas de contingencia para dos variables, una cualitativa y otra cuantitativa Con los datos del ejemplo anterior, se trata ahora de obtener la tabla de contingencia que cruza la variable cualitativa OPINION con la variable cuantitativa EDAD. Ahora se trata de cruzar la OPINION con la EDAD para tabular el número de personas que con las distintas edades tienen las diferentes opiniones. Para crear este tipo de tabla de contingencia, se utiliza el Asistente para tablas y gráficos dinámicos igual que en el apartado anterior, con la única diferencia de que en la pantalla de diseño se arrastra Edad a Etiquetas de fila, Opinion a Etiquetas de columna y Edad a Valores. Se obtiene la tabla dinámica de la Figura 4-47.

380

381

Figura 4-47 Como la variable que resume los datos es ahora una variable cuantitativa (Edad), la función de resumen es por defecto la función Suma. No obstante, puede utilizarse cualquier otra. Si se hace clic en la flecha situada a la derecha de Suma de Edad, se obtendrá el menú emergente de la Figura 4-48 en el que se elige la opción Configuración de campo de valor que nos permite elegir cualquier función para resumir los datos (en nuestro caso la función Cuenta) de las mostradas en la Figura 4-49. Se obtiene la nueva tabla de contingencia pedida, que se muestra en la Figura 4-50.

382

383

Figura 4-48

Figura 4-49

384

Figura 4-50

385

4.16.3 Excel y las tablas de contingencia para m ás de dos variables Con los datos del ejemplo anterior realizaremos una tabla de contingencia tridimensional que cruce la variable EDAD (filas) con las variables OPINIÓN y SEXO (columnas). Posteriormente, realizar una tabla de contingencia que cruce la EDAD con OPINION y SEXO para la clase media. El camino para realizar tablas de contingencia de tres o más variables es el mismo que en los casos anteriores, teniendo presente que a la hora de diseñar la tabla hay que situar en F LA y COLUMNA las variables adecuadas. Para realizar una tabla de contingencia tridimensional que cruza la variable EDAD (filas) con las variables OPINION y SEXO (columnas), se realiza el diseño de la tabla tal y como se indica en la Figura 4-51.

386

Figura 4-51 Para aumentar las dimensiones de una tabla de contingencia, puede utilizarse también la zona de arrastre de campos Filtro de informe. Por ejemplo, podemos realizar la tabla tridimensional del ejemplo anterior para cada valor de la variable CLASE (con lo cual ya estamos introduciendo una cuarta dimensión). Para ello, llevamos el campo CLASE a la zona Filtro de informes, y situamos los demás campos como en el párrafo anterior. Se obtiene la tabla dinámica de la Figura 4-52, que presta la nueva dimensión CLASE en su parte superior. Por defecto, la tabla se realiza considerando todas las clases, pero

387

pueden obtenerse tablas que crucen EDAD con OP NION y SEXO para cada valor de CLASE haciendo clic en el triángulo situado en la parte inferior del campo Todas (Figura 4-53). Por ejemplo, en la Figura 4-54 se cruza EDAD con OPINION y SEXO para la clase media.

Figura 4-52

388

Figura 4-53

389

Figura 4-54

390

4.17 EXCEL Y LOS CONTRASTES DE ASOCIACIÓN E INDEPENDENCIA En Excel es muy sencillo calcular el cuadrado de la contingencia c2 a partir de las frecuencias absolutas Oj de las propias celdas de la tabla de contingencia y de las frecuencias esperadas Ej = (Total Columna)(Total Fila)/(Total General). La expresión del estadístico c2 para contrastar la independencia es:

A partir del valor de este estadístico, podemos contrastar la independencia de dos variables aleatorias cualitativas a un nivel alfa calculando el valor cr tico correspondiente a ese nivel alfa según una chi-cuadrado con (r1)(s-1) grados de libertad, siendo r y s el número de filas y columnas, respectivamente, de la tabla de contingencia. Una vez calculadas las frecuencias esperadas Ej, Excel dispone de la función PRUEBA.CHI(rango_tabla; rango_Ej), que devuelve el valor del estadístico c2 (cuadrado de la contingencia). Excel también dispone de la función PRUEBA.CHI.INV(alfa; grados), que devuelve el valor cr tico de una chi-cuadrado correspondiente al nivel alfa y a los grados de libertad especificados. Si el valor del estadístico es mayor que el valor cr tico, se rechazará la hipótesis de independencia entre las dos variables cualitativas. En caso contrario, se acepta la hipótesis de independencia. A partir del valor del cuadrado de la contingencia pueden calcularse el resto de las medidas de asociación entre las variables cualitativas

391

estudiadas en este cap tulo. Como ejemplo, con los datos anteriores estudiaremos la independencia entre las variables cualitativas OPINION y SEXO. Además, cuantificaremos el grado de asociación entre las dos variables citadas a partir de los coeficientes de asociación estudiados en este cap tulo. Comenzamos creando la tabla de contingencia 2*2 a partir del diseño de la Figura 4-55. A continuación, construimos la tabla de frecuencias esperadas (Figura 4-57) mediante las fórmulas de la Figura 4-56.

392

Figura 4-55

393

Figura 4-56

Figura 4-57

394

A partir de los valores de la tabla de contingencia y de los valores de la tabla de frecuencias esperadas, podemos calcular el valor del cuadrado de la contingencia y el valor crítico al 95%. Para calcular c2, hacemos clic en , y en la categoría Estadísticas seleccionamos la función PRUEBA.CHI (Figura 4-58), rellenando su paleta como se indica en la Figura 4-59 (previamente nos hemos situado en la celda de la hoja en la que se insertará el resultado de la función), para hallar el p-valor (0,456). Para hallar el valor c2 (0,554), usamos la paleta de la función PRUEBA.CHI. NV de la Figura 4-60. De igual forma, se calcula el valor crítico del 95% (3,841) con la paleta de la función PRUEBA.CHI.INV de la Figura 4-61. En la Figura 4-62 se observa que el valor del estadístico c2 es menor que el valor cr tico (3,84), con lo que se acepta la hipótesis de independencia (además, el p-valor es mayor que 0,05). La Figura 463 muestra las fórmulas.

395

Figura 4-58

Figura 4-59

396

397

Figura 4-60

Figura 4-61

Figura 4-62

398

Figura 4-63 Para calcular el resto de los coeficientes de asociación estudiados en este cap tulo, se utilizan las fórmulas de la Figura 4-64, que ofrecen los resultados de la Figura 4-65.

399

Figura 4-64

400

Figura 4-65 Vemos que los coeficientes de asociación están muy próximos a cero, lo que indica la debilidad de la asociación entre las dos variables SEXO y OPINION. El resultado anterior concuerda con la aceptación de la hipótesis de independencia entre ellas, ya corroborada anteriormente. Los coeficientes de asociación se han calculado mediante las siguientes expresiones: El valor del cuadrado medio de la contingencia será:

401

F2 = c 2/N =

=0,030789

El valor del coeficiente de contingencia C de K. Pearson será:

=0,172827 El valor del coeficiente T de Tschuprow se calcula así:

=0,175468 El coeficiente V de Cramer se calcula mediante la expresión:

402

= 0,175468 donde m = min(h-1,k-1)=1 El coeficiente Lambda de Goodman y Kruskall ly se calcula de la forma siguiente:

=-0,44444

EJERCICIOS RESUELTOS Ejercicio 1. Se han estudiado los pesos en kg y las tallas en cm de 70 individuos obteniéndose los datos de la tabla siguiente:

403

1. 2.

Hallar el peso medio y la talla media así como el error cometido al resumir pesos y tallas por sus valores medios ¿Qué media es mejor? Hallar la distribución según las tallas de los individuos que pesan 54 kilos y la distribución según los pesos de los individuos que miden entre 161 cm y 167 cm. Hallar media y varianza de las dos distribuciones condicionadas.

Si llamamos X a la variable pesos e Y a la variable tallas, los datos pueden arreglarse en una tabla de doble entrada como sigue para realizar los cálculos: X/Y

160

162

164

166

48

3

2

2

1

51

2

3

4

2

54

1

3

6

8

57

0

0

1

2

404

60 n.j n.jyj n.jyj2

0

0

0

2

6

8

13

15

960

1296

2132

2490

153600

209952

349648

413340

La tabla anterior puede obtenerse a través de Excel mediante los cálculos que se especifican en la Figura 4-66.

Figura 4-66 Para hallar el peso medio y la talla media se calcularán las medias de las distribuciones marginales de X e Y respectivamente. Asimismo, para cuantificar el error cometido al resumir pesos y tallas por sus valores medios se cuantificarán los coeficientes de variación de Pearson para ambas marginales. Las distribuciones marginales de X e Y son las siguientes: X

ni.

Y

405

48

8

160

51

14

162

54

24

164

57

14

166

60

10

168 170

Tenemos lo siguiente:

406

Se observa que el menor coeficiente de variación es el relativo a la talla media, que resulta ser así un promedio más adecuado. La distribución según las tallas de los individuos que pesan 54 kilos es la distribución de Y condicionada a X=54, y la distribución según los pesos de los individuos que miden entre 161 cm y 167 cm es la distribución de X condicionada a Y=162,164,166. X/Y=162,164,166

ni/j=2,3,4

Y/X=54

48

5

160

51

9

162

54

17

164

57

3

166

60

2

168 170

La tabla Excel que genera estas distribuciones se presenta en la Figura 4-67.

407

Figura 4-67 La media y la varianza de cada una de estas dos distribuciones condicionadas se calcula de la misma forma que para cualquier distribución de frecuencias.

408

Ejercicio 2. Se considera la variable bidimensional (X,Y) cuya distribución de frecuencias se presenta en la tabla siguiente:

1. 2. 3.

Estudiar si las dos variables son independientes utilizando la distribución conjunta y las marginales. Estudiar si las dos variables son independientes utilizando las distribuciones marginales y las condicionadas. Hallar la covarianza de X e Y

409

Para estudiar la independencia de las dos variables utilizando la distribución conjunta y las marginales tenemos que comprobar que fij = fi.f.j "i,j. La primera tarea será construir una tabla con la distribución conjunta (fij = nij/N) y con las marginales (fi.= ni./N y f.j = n.j/N) como se indica en la Figura 4-68. X/Y

15

24

12

3

4

15

6

8

19

9

12

18

24

0,03571429

0,04761905

n.j fij

f.j

0,07142857

0,0952381

0,10714286

0,14285714

0,21428571

0,28571429

Figura 4-68 Ya estamos en condiciones de comprobar que fij = fi.f.j "i,j. Para ello ordenamos los cálculos fi.f.j como se indica a continuación: 0,21428*0,16666

0,28571*0,16666

0,21428*0,33333

0,28571*0,33333

0,21428*0,5

0,28571*0,5

410

Observamos que, una vez realizados estos cálculos, se obtiene la tabla de la distribución conjunta fij. fij

0,035714286

0,04761905

0,071428571

0,0952381

0,107142857

0,14285714

0,214285714

0,28571429

Las fórmulas de Excel de la Figura 4-69 nos llevan a las distribuciones marginales y conjuntas de la Figura 4-70.

411

412

Figura 4-69

Figura 4-70

Para estudiar la independencia de las dos variables utilizando las distribuciones marginales y las condicionadas tenemos que comprobar que fj/i = f.j "i,j. fi/j=1

fi/j=2

fi/j=3

fj/i=1

3/14

4/14

2/14

fj/i=2

6/28

8/28

4/28

413

fj/i=3

9/42

12/42

6/42

f.j

18/84

24/84

12/84

Los cálculos se arreglarían en Excel según las fórmulas de la Figura 471.

Figura 4-71 Observamos que se cumple fj/i = f.j "i,j ya que: 3/14 = 6/28 = 9/42 = 18/84 4/14 = 8/28 = 12/42 = 24/84 2/14 = 4/28 = 6/42 =12/84 5/14=10/28=15/42=30/84 Para estudiar la independencia de las dos variables utilizando las distribuciones marginales y las condicionadas también podríamos comprobar que fi/j = fi. "i,j. fi/j=1

fi/j=2

fi/j=3

3/18

4/24

2/12

414

n.j

6/18

8/24

4/12

9/18

12/24

6/12

18

24

12

Los cálculos se arreglarían en Excel según las fórmulas de la Figura 472.

Figura 4-72 Observamos que se cumple fi/j = fi. "i,j ya que: 3/18 = 4/24 = 2/12 = 5/30 = 14/84 6/18 = 8/24 = 4/12 = 10/30 = 28/84 9/18 = 12/24 = 6/12 = 15/30 = 42/84 La covarianza entre X e Y viene dada por la expresión:

Luego para su cálculo necesitamos las medias de las dos

415

marginales X e Y, que se calcularán con los datos de la tabla de la Figura 4-73 X/Y

15

24

12

3

4

15

6

8

19

9

12

18

24

n.j

Figura 4-73 Los cálculos se arreglarían en Excel según las fórmulas de la Figura 474.

Figura 4-74

416

La covarianza, que será cero debido a la independencia, puede calcularse como sigue:

La covarianza también puede calcularse de la forma siguiente:

Para realizar el cálculo de se utiliza la tabla siguiente: X/Y

15

24

27

30

417

ni.

xiy1n1j

xiz2n2j

n.j

12

3

4

2

5

14

540

1

15 19

6

8

4

10

28

1350

28

9

12

6

15

42

2565

54

18

24

12

30

84

4455

95

Los cálculos se arreglarían en Excel según las fórmulas de la Figura 475.

Figura 4-75

Ejercicio 3. En una empresa se toma una muestra de 100 trabajadores con la finalidad de estudiar si hay relación entre su edad X y los días que están de baja en el año Y. Se obtienen los siguientes resultados:

418

1.

4.

¿Es simétrica la distribución del número de días de baja de los trabadores? ¿Cuál es la edad más frecuente de los trabajadores que piden la baja? Ajustar mediante un modelo exponencial los días de baja en función de la edad. Realizar el mismo ajuste considerando un modelo lineal.

5.

¿Cuál de los ajustes es el mejor?

2. 3.

Para realizar los cálculos necesarios elaboramos la tabla siguiente:

X/Y

n.j

10

30

50

24

28

2

0

35

26

15

4

45

6

14

5

60

31

9

yjn.j

600

930

450

yj2n.j

6000

27900

22500

419

ni.

yj3n.j N.j

60000

837000

1125000

60

91

100

Los cálculos se arreglarían en Excel según las fórmulas de la Figura 476.

Figura 4-76 Realizamos los siguientes cálculos:

420

Para estudiar la asimetría del número de días de baja de los trabajadores calculamos el coeficiente de asimetría de Fisher de la variable marginal Y como sigue:

421

Se observa que hay una ligera asimetría hacia la derecha, pero muy pequeña. Los días de baja se distribuyen casi simétricamente a lo largo del año. Para calcular la edad más frecuente de los trabajadores que piden la baja hallaremos la moda de la variable marginal X. Observamos que el intervalo modal es [30,40] ya que es el que tiene mayor frecuencia ni. El cálculo de la moda se realiza como sigue:

años Ahora intentaremos ajustar los días de baja en función de la edad de los trabajadores mediante un modelo de regresión exponencial de ecuación y = abx.

La regresión exponencial es equivalente a la regresión lineal con variable dependiente Log(y) y con variable independiente x. Los cálculos para esta regresión se presentan en la tabla siguiente: X/Z

1

1,4771

1,699

422

ni.

x

24

28

2

0

30

35

26

15

4

45

6

14

5

25

n.j

45

60

31

9

100

z jn. j

60

45,790

15,291

121,0811

zj2n.j

60

67,6365

25,97940

153,6159

Los cálculos se arreglarían en Excel según las fórmulas de la Figura 477.

Figura 4-77 El parámetro Log(b) se estima por mínimos cuadrados mediante:

423

El parámetro Log(a) se estima por mínimos cuadrados mediante:

Los parámetros finales buscados a y b del modelo exponencial se estimarán mediante:

El modelo estimado tiene la ecuación y = 3,99(1,04)x. Para medir la calidad de este ajuste podemos utilizar el coeficiente de determinación R2, que se calcula como:

424

El ajuste no es de calidad porque R2 está más cerca de cero que de la unidad. El ajuste por regresión lineal es de la forma y = a + bx siendo:

El coeficiente de determinación será en este caso el cuadrado del coeficiente de correlación, que se calcula como sigue:

425

Para realizar el cálculo de se utiliza la tabla siguiente: X/Y

n.j

10

30

50

ni.

xiy1n1j

xiy2n2

24

28

2

0

30

6720

35

26

15

4

45

9100

45

6

14

5

25

2700

60

31

9

100

18520

Los cálculos se arreglarían en Excel según las fórmulas de la Figura 478.

426

Figura 4-78 El ajuste lineal tampoco es de calidad porque R2 está más cerca de cero que de la unidad. Además, el ajuste exponencial es mejor que el ajuste lineal porque su coeficiente de determinación es mayor (0,26 > 0,2536).

Ejercicio 4. Consideramos la siguiente variable aleatoria bidimensional:

1. 2. 3. 4.

Calcular medias y varianzas marginales de X e Y. Relacionar la media marginal de Y y la media de las medias condicionadas de Y a X. Calcular la media y varianza condicionada de la distribución de X condicionada a los valores 5 y 9 de Y. Calcular la recta de regresión de X sobre Y.

Comenzaremos resumiendo los datos de muestra variable bidimensional en la tabla de doble entrada que se presenta a continuación:

427

Para realizar los cálculos necesarios elaboramos la tabla siguiente: X/Y

n.j

2

5

9

10

3

0

2

1

2

4

2

1

0

3

6

3

0

4

2

5

3

5

7

yjn.j

10

15

45

70

yj2n.j

20

75

405

700

Los cálculos se arreglarían en Excel según las fórmulas de la Figura 479.

428

Figura 4-79 Las medias y varianzas marginales se calculan como se indica a continuación:

429

Las distribuciones condicionadas de Y a todos los valores de X, así como los cálculos requeridos se presentan a continuación: Y/X=3

Y/X=4

n.j

yjn.j

Y/X=6

n.j

2

n.j 0

yjn.j 0

2

2

4

2

3

5

2

10

5

1

5

5

0

9

1

9

9

0

0

9

4

10

2

20

10

3

30

10

2

5

39

6

39

430

9

Se observa que se cumple:

luego la media marginal de Y es igual a la media de las medias condicionadas de Y a X. La media y la varianza de X condicionadas a los valores 5 y 9 de Y se calcula de la misma forma que para cualquier distribución de frecuencias. X/Y=5,9

ni.

Xi2ni.

Xini.

3

3

9

4

1

4

16

6

4

24

144

8

37

187

431

27

La recta de regresión de X sobre Y tiene como ecuación

.

La tabla siguiente permite el cálculo de X/Y

n.j

. ni.

xiy1n1j

2

5

9

10

3

0

2

1

2

5

0

4

2

1

0

3

6

16

6

3

0

4

2

9

36

5

3

5

7

20

52

Los cálculos se arreglarían en Excel según las fórmulas de la Figura 480.

Figura 4-80

432

La recta de regresión de X sobre Y tiene como ecuación . Para medir la calidad de este ajuste suele calcularse el coeficiente de correlación, o su cuadrado, el coeficiente de determinación.

El coeficiente de determinación tan bajo indica que el ajuste no es de calidad, y el coeficiente de correlación tan bajo indica que las variables X e Y están muy poco relacionadas. Ejercicio 5. Se han obtenido datos sobre el consumo (C) y la renta mensual (RM) de 100 familias, expresadas en 104 unidades monetarias, obteniéndose la siguiente tabla bidimensional de frecuencias: C 15 RM 30 40 50

10 5

25

35 45

15 20 15

25 5

433

5

a) Ajustar los datos a una relación lineal adecuada entre el consumo y la renta. b) Medir el grado de representatividad de la relación lineal anterior. c) Calcular el consumo esperado para una renta de 60*104 unidades monetarias. d) Obtener las distribuciones marginales de las variables C y RM y sus medias, varianzas, desviaciones típicas y coeficientes de asimetría y curtosis. En este ejercicio es esencial la forma en que se ofrecen los datos para su tratamiento en Excel. Observamos que los valores de las variables vienen dados en forma de tabla bidimensional de frecuencias absolutas. La primera tarea será introducir adecuadamente los valores de las dos variables como dos columnas de la hoja de cálculo Excel. El par de valores RM=30 y C=15 se introduce 10 veces, el par de valores RM=40 C=15 se introduce 5 veces, y así sucesivamente; se introduce cada par de valores tantas veces como indique su frecuencia absoluta. Es lógico que el consumo de las familias dependa de su renta mensual, con lo que hemos de hallar la función f tal que C=f(RM), es decir, la recta de regresión de C sobre RM. Una vez calculada la ecuación de esta recta, la utilizaremos para predecir el consumo esperado para una renta de 60*104 unidades monetarias. Una vez introducidos los datos de las variables, utilizamos las funciones de Excel que permiten calcular el coeficiente de correlación y la pendiente y ordenada en el origen de la recta de regresión de C sobre RM (Figura 4-81). La Figura 4-82 presenta los resultados.

434

Figura 4-81

Figura 4-82 Se observa que el coeficiente de correlación entre C y RM es 0,4613, que no es un valor lo suficientemente alto como para asegurar una dependencia fuerte entre las dos variables.

435

No obstante, correlación débil no implica independencia, por lo que puede hallarse la recta de regresión de C sobre RM, pero con la precaución de que dicha relación lineal entre ambas variables puede no ser buena, y sobre todo pueden no ser fiables las predicciones basadas en dicha relación de linealidad. Una vez calculadas la pendiente y la ordenada en el origen de la recta de regresión, tenemos la relación C=7,5+0,5RM. Una vez calculada la ecuación de la recta de regresión, la utilizaremos para predecir el consumo esperado relativo a una producción de 60*104 unidades monetarias, que vendrá dado por C=7,5+0,5*60*104 = 37,5*104 unidades monetarias. Esta predicción puede no ser lo suficientemente buena, ya que el contraste de ajuste por regresión aceptaba la incorrelación entre las variables, y el coeficiente de correlación no es muy próximo a la unidad (0,4949). La predicción también puede calcularse mediante la función PRONOSTICO de Excel, tal y como se indica en la Figura 4-83.

Figura 4-83

436

Para hallar las medias, varianzas, desviaciones típicas y coeficientes de variación, asimetría y curtosis de las distribuciones marginales de C y RM, seleccionamos la opción Análisis de datos del menú Herramientas, y elegimos Estadística descriptiva en Funciones para análisis (Figura 4-84). Rellenamos la pantalla Estadística descriptiva como se indica en la Figura 4-85. Al pulsar Aceptar, se obtienen los resultados de la Figura 4-86.

437

Figura 4-84

Figura 4-85

438

Figura 4-86 Para hallar las propias distribuciones marginales de C y RM, seleccionamos la opción Análisis de datos en el grupo Análisis de la ficha Datos, y elegimos Histograma en Funciones para análisis (Figura 4-87). Rellenamos la pantalla Histograma como se indica en la Figura 4-88. Al pulsar Aceptar, se obtiene la distribución e histograma de RM. Repitiendo el proceso para C (Figura 4-89), se obtiene la marginal de C. Los resultados se observan en la Figura 4-90.

439

Figura 4-87

440

441

Figura 4-88

Figura 4-89

442

Figura 4-90 Ejercicio 6. Consideramos la distribución bidimensional de las variables presión (P) y tiempo de aplicación de dicha presión (T) sobre determinadas piezas para el control de su calidad de fabricación. T

0

5

443

10 15

20

P 66 68 70 72 74

1

1 3 0 1 3

0 2 1 2 1

1 1 9 1 2

2 0 1 2 1

1 2 1 2

a) Estudiar el grado de dependencia lineal existente entre las dos variables. b) Hallar las distribuciones marginales de P y T y sus coeficientes de variación, tercer cuartil y percentil 15. c) Hallar la distribución de P condicionada a que T=10, así como su esperanza, varianza, moda, mediana, tercer cuartil y coeficiente de variación. d) Hallar la distribución de T condicionada a que P=72, así como su esperanza, varianza, moda, mediana, tercer cuartil y coeficiente de variación. e) Para la distribuciones de T condicionadas a P=66,68,70,72,74, respectivamente, y las de P condicionadas a T=0,5,10,15,20, respectivamente. La primera tarea será introducir adecuadamente los valores de las dos variables como dos columnas de la hoja de cálculo. El par de valores P=66 y T=0 se introduce una vez, el par de valores P=68 y T=0 se introduce 3 veces, y así sucesivamente, se introduce cada par de valores tantas veces como indique su frecuencia absoluta. Una vez introducidos los datos de las variables, utilizamos la función de Excel que permite calcular el coeficiente de correlación (Figura 491).

444

Figura 4-91 También puede usarse la paleta de la función COEF DE.CORREL, tal y como se indica en la Figura 4-92 (basta hacer clic en clic en la función).

445

y hacer doble

Figura 4-92 Se observa que el coeficiente de correlación entre P y T es 0,0073, que es un valor muy próximo a cero, con lo que el grado de dependencia entre las dos variables es prácticamente nulo. No tendría sentido hacer un ajuste por regresión. La forma más rápida de hallar las propias distribuciones marginales de P y T, es elegir la opción Análisis de datos en el grupo Análisis de la ficha Datos y seleccionar Histograma en Funciones para análisis (Figura 493). Rellenamos la pantalla Histograma como se indica en la Figura 4-94, y al pulsar Aceptar, se obtiene la distribución e histograma de P. Repitiendo el proceso para T (Figura 4-95), se obtiene la marginal de T. Los resultados se observan en la Figura 4-96.

446

Figura 4-93

447

Figura 4-94

Figura 4-95

448

449

Figura 4-96 El camino más sencillo para calcular coeficientes de variación, cuartiles y percentiles de las distribuciones marginales de P y T, es utilizar las respectivas funciones de Excel, tal y como se indica en la Figura 4-97. La Figura 4-98 presenta los resultados.

Figura 4-97

Figura 4-98

Para hallar la distribuciones condicionadas de P a todos los valores de T, utilizamos la opción Tabla dinámica del grupo Tablas de la ficha

450

Insertar. La pantalla de diseño se rellena llevando la variable P a F LA, y la variable T a COLUMNA y a VALORES, y utilizando la función CUENTA como función de resumen. Al pulsar Aceptar, se obtiene la Figura 4-99, cuyas columnas son distribuciones de P condicionadas al valor de T que encabeza la columna (la tercera columna presenta la condicionada de P a T=10).

Figura 4-99

Figura 4-100

451

Para hallar la distribuciones condicionadas de T a todos los valores de P, utilizamos la opción Informes de tabla y gráfico dinámico del menú Datos, rellenando la pantalla de diseño llevando la variable T a FILA y la variable P a COLUMNA y a VALORES, y utilizando la función CUENTA como función de resumen. Al pulsar Aceptar, se obtiene la Figura 4-100, cuyas columnas son distribuciones de T condicionadas al valor de P que encabeza la columna (la cuarta columna presenta la condicionada de T a P=72). Para calcular estadísticos relativos a las distribuciones condicionadas, bastaría con introducir sus valores en columnas de Excel y aplicar las fórmulas correspondientes. No obstante, para calcular la media, varianza, moda, mediana, tercer cuartil y coeficiente de variación de la distribución de P condicionada a T=10, bastaría fijarse en que esos valores de P ocupan el rango A18 A21. Por lo tanto, plantearíamos las fórmulas de la Figura 4-101 para obtener los resultados de la Figura 4-102. En el caso del cálculo de la media, varianza, moda, mediana, tercer cuartil y coeficiente de variación de la distribución de T condicionada a P=72, introducimos sus valores en una columna de la hoja de cálculo y aplicamos las fórmulas de la Figura 4-103 para obtener los resultados de la Figura 4-104.

Figura 4-101

452

Figura 4-102

453

Figura 4-103

454

Figura 4-104 Ejercicio 7. Los ahorros S y los ingresos Y mensuales en cientos de euros de una muestra de 10 familias de una determinada región se presentan en la tabla siguiente:

1.

Ajustar los datos anteriores a un modelo lineal que explique los ahorros familiares en función de los ingresos para la región dada.

455

2.

Ajustar los datos anteriores a un modelo lineal parabólico que explique los ahorros familiares en función de los ingresos para la región dada. ¿Qué ajuste es mejor? ¿Qué ahorro se puede prever para una familia de la región que ingrese 2500 euros mensuales?

3. 4.

Comenzaremos elaborando una tabla de datos adecuada para los cálculos a realizar en el problema: Si

yi

SUMAS → 21,9

yi 2

Siyi

Si

1,9

20,5

38,95

420,25

1,8

20,8

37,44

432,64

2

21,2

42,4

449,44

2,1

21,7

45,57

470,89

1,9

22,1

41,99

488,41

2

22,3

44,6

497,29

2,2

22,2

48,84

492,84

2,3

22,6

51,98

510,76

2,7

23,1

62,37

533,61

3

23,5

70,5

552,25

220

484,64

4848,38

La tabla anterior se obtiene mediante las fórmulas de Excel de la Figura 4-105.

456

Figura 4-105

El modelo lineal mediante el sistema de ecuaciones normales siguiente:

457

puede ajustarse

Luego el modelo lineal ajustado será:

Para medir la calidad del ajuste lineal utilizamos el coeficiente de correlación, o su cuadrado, el coeficiente de determinación, que se calcula como sigue:

Se observa que la calidad del ajuste es buena porque el coeficiente de determinación es alto (el coeficiente de correlación vale

, que es un valor elevado indicativo del alto grado de relación entre el ahorro y la renta de las familias).

El modelo lineal parabólico puede ajustarse mediante el sistema de ecuaciones normales siguiente:

458

La solución de este sistema ofrece los parámetros del modelo parabólico (b0=85,713, b1= -7,962 y b2 = 0,189). Luego el modelo ajustado será:

Para medir la calidad del ajuste lineal utilizamos el coeficiente de determinación, que se calcula como sigue:

El ajuste parabólico es de mayor calidad que el lineal porque tiene un coeficiente de determinación mayor. Por lo tanto se usará el modelo parabólico para hacer predicciones.

459

La tabla siguiente ordena los cálculos para hallar

Si

yi

(Si-(85,713-7,962yi+0,189

1,9

20,5

1,8

20,8

2

21,2

2,1

21,7

1,9

22,1

2

22,3

2,2

22,2

2,3

22,6

2,7

23,1

3

23,5

La tabla anterior se obtiene mediante las fórmulas de Excel de la Figura 4-106.

460

Figura 4-106 Para saber qué ahorro se puede prever para una familia de la región que ingrese 2500 euros mensuales, realizamos la correspondiente predicción para yi = 25 cientos de euros mediante el modelo parabólico recién estimado. Tenemos:

Ejercicio 8. Para describir la distribución de la renta de las personas físicas suele utilizarse la ley de Pareto que viene definida por la siguiente ecuación:

461

donde y es el porcentaje de personas con una renta igual o inferior a x siendo x0 la renta mínima y b un parámetro estructural. Se pide ajustar una ley de Pareto a los datos siguientes:

Se trata de un ajuste de tipo hiperbólico potencial. Todo este tipo de ajustes se resuelve aplicando logaritmos para linealizar de la siguiente forma:

El modelo lineal mediante el sistema de ecuaciones normales siguiente:

462

puede ajustarse

Luego el modelo lineal ajustado será:

Una tabla adecuada para los cálculos sería la siguiente: n(xi)

yi

Zi= Ln(1-yi)

ZiLn(xi)

0,7

0,033

-0,03355678

-0,0234

1,2

0,107

-0,1131687

-0,1358

1,5

0,22

-0,24846136

-0,3726

1,8

0,373

-0,46680874

-0,8402

2,2

0,55

-0,7985077

-1,7567

2,7

0,753

-1,39836694

-3,7755

3,2

0,88

-2,12026354

-6,7848

3,5

0,96

-3,21887582

-11,266

4

1

16,8

3,876

-8,39800958

-24,955

463

Para medir la calidad del ajuste lineal utilizamos el coeficiente de correlación, o su cuadrado, el coeficiente de determinación, que se calcula como sigue:

La tabla anterior puede obtenerse mediante las fórmulas de Excel de la Figura 4-107.

Figura 4-107 Se observa que la calidad del ajuste lineal es buena porque el coeficiente

464

de determinación es alto (el coeficiente de correlación vale

, que es un valor elevado indicativo del alto grado de relación entre Zi y Ln(xi), y por tanto entre xi e yi). Para ver la forma del modelo de Pareto deshacemos el cambio de variable como sigue:

El modelo de Pareto ajustado será el siguiente:

Ejercicio 9. La inversión K y el producto interior bruto y se relacionan mediante la expresión y = aKc, (denominada en términos económicos función simple de Cobb-Douglas). Se pide ajustar una función de Cobb-Douglas a los datos siguientes:

465

Se trata de un ajuste de tipo potencial. Todo este tipo de ajustes se resuelve aplicando logaritmos para linealizar de la siguiente forma:

El modelo lineal sistema de ecuaciones normales siguiente:

puede ajustarse mediante el

Luego el modelo de Cobb-Douglas ajustado será:

Una tabla adecuada para los cálculos sería la siguiente: Ki

yi

Zi = log(yi)

0,6

2,6

0,41497335

0,6

2,9

0,462398

466

xi

0,8

3,4

0,53147892

1

4,1

0,61278386

1,3

5,1

0,70757018

1,4

6

0,77815125

1,6

7,2

0,8573325

1,9

9,2

0,96378783

2,2

11,2

1,04921802

2,5

13,1

1,1172713

2,9

15,2

1,18184359

3,5

17,3

1,2380461

3,9

19,9

1,29885308

SUMAS →

11,213708

La Figura 4-108 muestra las fórmulas de Excel adecuadas a la tabla anterior.

467

Figura 4-108 Para medir la calidad del ajuste potencial medimos la del ajuste lineal al que es equivalente utilizando el coeficiente de correlación, o su cuadrado, el coeficiente de determinación, que se calcula como sigue:

Se observa que la calidad del ajuste lineal es muy buena porque el coeficiente de determinación es alto (el coeficiente de correlación vale

468

, que es un valor muy próximo a 1 indicativo del alto grado de relación entre Zi y xi, y por tanto entre xi e yi). Ejercicio 10. Consideramos las variables X, Y ,Z cuyos valores son los siguientes:

6. 7.

Hallar la matriz de correlaciones deduciendo el grado de dependencia de las variables. Hallar la matriz de covarianzas e interpretar el resultado.

En primer lugar introducimos como tres columnas de Excel las variables X, Y y Z. A continuación, seleccionamos la opción Análisis de datos del grupo Análisis del menú Datos, y elegimos Estadística descriptiva en Funciones para análisis (Figura 4-109). Rellenamos la pantalla Estadística descriptiva como se indica en la Figura 4-110. Al pulsar Aceptar, se obtienen los resultados de la Figura 4-111.

469

Figura 4-109

470

Figura 4-110

471

Figura 4-111 Para calcular la matriz de correlaciones, seleccionamos la opción Análisis de datos del grupo Análisis del menú Datos, y elegimos Coeficiente de correlación en Funciones para análisis (Figura 4-112). Rellenamos la pantalla Coeficiente de correlación como se indica en la Figura 4-113 Al pulsar Aceptar, se obtiene la matriz de correlaciones de la Figura 4-114.

472

Figura 4-112

Figura 4-113

473

Figura 4-114 En la salida anterior, se observa que el coeficiente de correlación entre las variables X e Y es 0,9899, entre X y Z es 0,9802, y entre Y y Z es 0,9830, lo que indica la fuerte dependencia lineal positiva entre cada par de variables. La matriz de correlaciones tiene la forma siguiente:

Para hallar la matriz de covarianzas, seleccionamos la opción Análisis de datos del grupo Análisis del menú Datos, y elegimos Covarianza en Funciones para análisis (Figura 4-115). Rellenamos la pantalla Covarianza como se indica en la Figura 4-116. Al pulsar Aceptar, se obtiene la matriz de covarianzas de la Figura 4-117.

474

Figura 4-115

Figura 4-116

475

Figura 4-117 A la vista de los resultados, podemos decir que como todas las covarianzas son positivas, los pares de variables varían en el mismo sentido alrededor de sus medias. Por otro lado, como la covarianza entre X e Y es 12, entre X y Z es 7,96 y entre Y y Z es 10,8 y además las varianzas de X, Y y Z son respectivamente 8,96, 16,4 y 7,36 la matriz de covarianzas tiene la forma siguiente:

Ejercicio 11. Se pregunta a 50 economistas, 40 ingenieros y 10 aboga​dos si creen que la bolsa en el próximo mes va a bajar, subir o permanecer igual. El 20 % de los economistas opina que subirá, mientras que el 40% de ellos piensa que bajará. El 50 % de los ingenieros se inclina porque permanecerá igual, y tan sólo el 5% cree que bajará. Por último, la mitad de los abogados se decanta por la subida y la otra mitad cree que bajará. a) Resumir los datos en la variable bidimensional que cruza la profesión con el

476

pronóstico y presentar la tabla de contingencia correspondiente. b) Hallar las distribuciones marginales del atributo profesión y del atributo pronóstico y realizar un diagrama de barras para el atributo F. c) Hallar la distribución de la profesión condicionada al valor igual del atributo pronóstico. d) ¿Existe relación entre los pronósticos sobre la evolución del mercado bursátil y la profesión del encuestado? Comenzaremos calculando la tabla de contingencia relativa al problema (Figura 4-118).

Figura 4-118 La siguiente tarea será introducir los datos de los dos atributos como dos variables en la hoja de cálculo. Denominamos P a la variable pronóstico, y F a la variable profesión. P puede tomar los valores B (baja), I (igual) y S (sube). F puede tomar los valores E (economista), I (Ingeniero) y A (abogado). El valor EB de la variable bidimensional lo introducimos 20 veces (la E en la columna de la varible F y la B en la columna de la variable P), el valor EI 20 veces, el valor ES 10 veces, el valor IB 10 veces, el valor II 20 veces, el valor IS 18 veces, el valor AB 5 veces, y el valor AS 5 veces. Para crear la tabla de contingencia 3*3, utilizamos el Asistente para tablas y gráficos dinámicos (opción Tablas dinámicas del grupo Tablas de la ficha Insertar) rellenando la pantalla de diseño situando la variable P en COLUMNA y la variable F en F LA y VALORES, para obtener la tabla de

477

contingencia de la Figura 4-119.

Figura 4-119 La distribución marginal de F ya se observa sobre la tabla de contingencia (zona en negrita de la Figura 4-120). Lo mismo ocurre con la distribución marginal de P (zona en negrita de la Figura 4-121). Para hallar un diagrama de barras para el atributo F, basta pulsar el icono (opción Columna del grupo Gráficos de la ficha Insertar) estando posicionados sobre cualquier celda de la tabla de contingencia. Se obtiene el gráfico dinámico de la Figura 4-122, que presenta un diagrama de barras para F subdividido por clases correspondientes a los valores de P.

478

Figura 4-120

Figura 4-121

479

Figura 4-122

480

La distribución de la Profesión condicionada al valor Igual del atributo Pronóstico, está formada por la zona en negrita de la figura 5-123. Para ver si existe relación entre los atributos Pronóstico y Profesión, calculamos medidas de asociación y realizamos el contraste de independencia de la chi-cuadrado según las fórmulas de la Figura 4-124. Se obtienen los resultados de la Figura 4-125.

Figura 4-123

481

Figura 4-124

482

Figura 4-125 Se observa que el p-valor del contraste de la chi-cuadrado es menor que 0,05, lo que indica que las variables no son independientes. Además, el valor del estadístico de la chi-cuadrado es superior al valor crítico al 95%, lo que corrobora la dependencia de las variables. Como ya sabemos que no hay independencia, la siguiente tarea es medir el grado de asociación de P y F. Para ello, utilizamos los valores de las diferentes medidas de asociación, que como es lógico son bastante altos (se alejan bastante de cero), lo que nos muestra que existe un cierto grado de

483

asociación entre las variables.

484

Capítulo 5

NÚMEROS ÍNDICES Y MEDIDAS DE CONCENTRACIÓN

485

5.1 NÚMEROS ÍNDICES SIMPLES En los capítulos anteriores se han caracterizado las distribuciones de una y varias variables por una serie de medidas que intentaban sintetizar el conjunto de toda la información disponible (medidas de posición), pasando después al estudio de la variabilidad (medidas de dispersión) y de las medidas de forma (asimetría y curtosis). El problema que ahora se nos presenta es la comparación de magnitudes simples o complejas referidas a una situación inicial, que se fijará previamente de la forma más adecuada posible a los objetivos que se persigan y que condiciona la comparación. En cuanto a las magnitudes complejas, habrá que tener en cuenta la homogeneidad de las unidades y el problema de la agregación. También se estudiará en este capítulo la deflactación de series estadísticas y los índices o medidas de concentración. Consideraremos un número índice simple como una medida que nos da la evolución de una magnitud en el tiempo. Más formalmente, definiremos un número índice como aquella medida estadística que nos permite estudiar los cambios que se producen en una magnitud simple o compleja con respecto al tiempo o al espacio; es decir, vamos a comparar dos situaciones, una de las cuales se considera de referencia. Si la magnitud estudiada es simple, el índice se llama simple, y si la magnitud estudiada es compleja, el índice se llama complejo. Sea Xi una magnitud simple y sean xi0 y xit los valores de dicha magnitud en los períodos base y actual respectivamente. El número índice simple Ii para la magnitud citada se define como: Ii = I0t(i) = xit / xi0 que mide la variación en tanto por uno que ha sufrido la magnitud Xi entre los dos períodos considerados. Generalmente, estos índices se suelen expresar en porcentajes, multiplicándolos por cien. Índices simples de precios, cantidad y valor

486

Entre los números índices simples más usuales tenemos los índices de precios, los índices de cantidades, de producción o cuánticos, y los índices de valor. Un índice simple de precios, o precio relativo, es la razón entre el precio de un bien en el período actual pit y el precio del mismo en el período base pio. Se puede escribir: P0t = pit / pi0 De la misma forma, un índice simple de cantidad, producción, cuántico o cantidad relativa, puede definirse como la razón entre la cantidad producida o vendida de un bien en sus períodos actual qit y base qio. Se puede escribir: Q0t = qit / qi0 Un índice simple de valor, o valor relativo, se define como el cociente entre el valor de un bien en el período actual (producto del precio de ese bien y la cantidad producida en el período actual pit*qit) y el valor de ese bien en el período base (pi0*qi0). Tendremos que: V0t = pit*qit / pi0*qi0 = (pit/pi0) * (qit/qi0) Por lo tanto, se cumple que el índice de valor es igual al índice de precios por el índice de cantidades, o, lo que es lo mismo, que el valor relativo de un bien es igual al producto de su precio relativo y su cantidad relativa.

487

5.2 NÚMEROS ÍNDICES COMPLEJOS NO PONDERADOS En la práctica, los números índices simples no suelen utilizarse aisladamente. Por lo general, no estamos interesados en comparar precios, cantidades o valores de bienes individuales, sino en comparar dichas magnitudes para grandes grupos de bienes. Como consecuencia de ello, la información suministrada por los índices simples de cada uno de los diferentes bienes debe ser resumida en un único índice al que vamos a denominar complejo. Un índice complejo ha de ser sencillo, pero a la vez ha de reunir la mayor cantidad posible de información. Así, podemos considerar dos tipos de índices complejos, en los que va a primar, en mayor o menor medida, cada una de las características anteriores. Si se prefiere sencillez, tendremos los índices complejos no ponderados, y si, por el contrario, lo que se desea es que contengan la mayor cantidad de información posible, se utilizarán los índices complejos ponderados. Los índices complejos no ponderados van a ser medias aritméticas, geométricas, armónicas y agregativas de los índices simples. Pero todas las medias calculadas serán no ponderadas. Esto es lógico, pues para resumir la información obtenida a través de los índices simples, lo natural es promediar éstos. En los apartados siguientes se definirán los índices complejos sin ponderar más usuales. Índice media aritmética, geométrica y armónica de índices simples Sea la magnitud compleja X formada por las magnitudes simples X1, X2, ..., Xi, ..., XN que toman los siguientes valores: Período base x10 . .

Período actual

Índices simples

x1t

I1 = x1t / x10

. .

. .

488

xi0 . . xN0

xit

Ii = xit / xi0

. .

. . xNt

IN = xNt / xN0

El índice complejo sin ponderar media aritmética resume los diferentes índices simples Ii considerando su media aritmética sin ponderar, con lo que su expresión será:

El índice complejo sin ponderar media geométrica resume los diferentes índices simples Ii considerarando su media geométrica sin ponderar, con lo que su expresión será:

El índice complejo sin ponderar media armónica resume los diferentes índices simples Ii considerando su media armónica sin ponderar, con lo que su expresión será:

489

Índice media agregativa Este tipo de índice considera, en vez de las medias entre los diferentes índices simples, la relación por cociente entre las sumas de los diferentes valores de la magnitud en los dos períodos. Su expresión es:

490

5.3 NÚMEROS ÍNDICES COMPLEJOS DE PRECIOS NO PONDERADOS En los epígrafes siguientes se tratan los índices complejos de precios no ponderados más habituales. Estos indices van a tener la ventaja de su sencillez de cálculo, pero tienen la desventaja de no tener en cuenta la importancia relativa de cada uno de los diferentes bienes en el conjunto total, ya que no son ponderados. También es una desventaja el hecho de que las unidades utilizadas para medir los precios de cada bien afectan al valor de los índices, con lo que estos no resultan homogéneos. Índice de Sauerbeck Se trata de una media aritmética no ponderada de índices simples de precios Ii=pit /pi0. Con lo que el índice de Sauerbeck será:

que es simplemente la media aritmética de los precios relativos de los bienes considerados. Índice de Bradstreet-Dûtot Es la media agregativa sin ponderar de los precios, y su expresión es la siguiente:

491

492

5.4 NÚMEROS ÍNDICES COMPLEJOS PONDERADOS Los números índices complejos ponderados tienen en cuenta la diferente importancia relativa de cada una de las magnitudes simples dentro del conjunto de todas ellas. Para ello, es necesario afectar a cada magnitud simple, y por tanto a sus índices, de unas ponderaciones que midan su peso relativo dentro del conjunto en que se consideren. Índice media aritmética, geométrica y armónica de índices simples Supongamos que las diferentes ponderaciones o pesos asignados a los índices simples que van a constituir el índice complejo son w1, w2,..., wi,...wn. Según el tipo de media ponderada utilizado para calcular el índice complejo obtendríamos los siguientes números índices: El índice complejo ponderado media aritmética resume los diferentes índices simples Ii considerando su media aritmética ponderada, con lo que su expresión será:

El índice complejo ponderado media geométrica resume los diferentes índices simples Ii considerando su media geométrica ponderada, con lo que su expresión será:

493

El índice complejo ponderado media armónica resume los diferentes índices simples Ii considerando su media armónica ponderada, con lo que su expresión será:

Índice media agregativa Este tipo de índice considera, en vez de las medias ponderadas entre los diferentes índices simples, la relación por cociente entre las sumas de los diferentes valores ponderados de la magnitud en los dos períodos. Su expresión es:

494

495

5.5 NÚMEROS ÍNDICES COMPLEJOS DE PRECIOS PONDERADOS En el trabajo con los índices complejos de precios ponderados es fundamental el tipo de ponderaciones utilizado. Entre los sistemas de ponderaciones propuestos tradicionalmente, tenemos: wi = pi0*qi0, que es el valor de la cantidad consumida del bien i-ésimo en el período base, a precios de dicho período. wi = pit*qit, que es el valor actual de la cantidad consumida del bien iésimo, a precios actuales. wi = pi0*qit, que es el valor de precios del período base de la cantidad consumida del bien i en el período actual. wi = pit*qi0, que es el valor actual de la cantidad consumida del bien i en el período base. Las diferentes ponderaciones dan lugar a los diferentes índices complejos de precios ponderados. Los más habituales se estudian en los epígrafes siguientes.

Índice de Laspeyres Es la media aritmética ponderada de los índices simples de precios. El criterio de ponderación seguido es wi=pi0*qi0; luego la expresión del índice será:

496

Índice de Paasche Es también una media aritmética ponderada de índices simples de precios, pero en este caso el coeficiente de ponderación es wi=pi0*qit, con lo que la expresión del índice será:

La fórmula de Paasche exige calcular las ponderaciones qit para cada período corriente. El cálculo de este índice es laborioso, y presenta el inconveniente adicional de que el índice de precios de cada año sólo se puede comparar con el del año base, debido a que las ponderaciones varían de período en período, siendo por tanto distintas en los diferentes índices calculados. Índice de Edgeworth

497

Es una media agregativa ponderada de precios cuyo coeficiente de ponderación es wi=qi0+qit. Su expresión será:

Índice ideal de Fisher Se trata de la media geométrica de los índices de precios complejos ponderados de Laspeyres y Paasche; es decir:

498

5.6 NÚMEROS ÍNDICES COMPLEJOS PONDERADOS CUÁNTICOS O DE PRODUCCIÓN La evolución de las magnitudes también puede estudiarse a través de sus cantidades físicas. Los números índices cuánticos o de producción tienen como objetivo estudiar las variaciones habidas en la producción física de un conjunto de bienes y servicios, para medir su evolución en el tiempo. Los más importantes se ven en los epígrafes siguientes. Índice cuántico de Laspeyres Es la media aritmética ponderada de los índices simples de cantidades. El criterio de ponderación seguido es wi=pi0*qi0; luego la expresión del índice será:

Índice cuántico de Paasche Es también una media aritmética ponderada de índices simples de cantidades, pero en este caso el coeficiente de ponderación es wi=pit*qi0, con lo que la expresión del índice será:

499

Índice ideal de Fisher Se trata de la media geométrica de los índices cuánticos complejos ponderados de Laspeyres y Paasche; es decir:

Lo mismo que para los índices de precios, el índice cuántico de Laspeyres es el que más se utiliza.

500

5.7 PROPIEDADES DE LOS NÚMEROS ÍNDICES Existen determinadas propiedades que serían deseables para todo número índice. Las más importantes son las siguientes: Existencia: Todo número índice debe existir, ha de tener un valor finito distinto de cero. Por ejemplo, los índices de media geométrica y armónica se anulan si algún xit es cero y, por lo tanto, en este caso, no están determinados. Identidad: Si se hacen coincidir el período base y el período actual, el número índice debe ser igual a la unidad. Esta propiedad debe cumplirse necesariamente, puesto que los números índices miden variaciones entre dos períodos, y al hacer coincidir éstos, el número índice no debe reflejar ninguna variación. Inversión: Si designamos como I0t un número índice con base 0 y período actual t, al intercambiar los períodos entre sí (It0), el nuevo índice debe cumplir que I0t = 1/It0 => It0*I0t = 1. Circular: Si consideramos los períodos 0, t, t , t , se debe cumplir que I0t*Itt *It 0=1 y I0t*Itt *It t *It 0=1. Como consecuencia de esta propiedad y de la inversión, tenemos que I0t*Itt = I0t y I0t*Itt *It t = I0t Proporcionalidad: Si en el período actual todas las magnitudes sufren una variación proporcional, el número índice debe quedar lógicamente afectado por la misma variación, es decir, si los valores xit sufren una variación proporcional de orden k, de forma que los nuevos valores en el período t son xit = xit + kxit = (1+k)xit, el nuevo índice simple será I i = xit /xi0 = (1+k)xit /xi0=(1+k)Ii. Homogeneidad: Un número índice no debe venir afectado por un cambio en

501

las unidades de medida. Sería deseable que estas propiedades que, en general, se cumplen para los índices simples, se verificasen también en los complejos, pero esto no siempre ocurre. La idoneidad de un índice puede basarse en el grado de cumplimiento de las propiedades citadas, y por esta vía puede intentarse determinar cuál de todos los índices ya definidos es el más idóneo para ser utilizado en la medición de las variaciones de los precios o las cantidades. Las propiedades de existencia y unicidad las cumplen todos los índices definidos. Las propiedades de inversión y circularidad las verifican solamente los índices de Bradstreet-Dûtot, Edgeworth y Fisher. La proporcionalidad la satisfacen todos los índices algebraicamente, si bien desde el punto de vista económico hay que hacer algunas objeciones para los índices de Paasche, Edgeworth y Fisher.

502

5.8 ÍNDICES EN CADENA Los índices en cadena son une serie de índices en los que la base es siempre el período precedente, con lo que cada uno de ellos ofrece una comparación porcentual respecto al período anterior. A través de este procedimiento, y partiendo de una serie de enlaces relativos, podemos conseguir una serie de índices referidos a una base común aplicando la propiedad circular. La nueva serie obtenida nos permitirá efectuar comparaciones a medio y largo plazo. Si tenemos datos sobre una magnitud, referidos a los instantes consecutivos en el tiempo 0, 1, 2,..., t -1, t, podemos expresar el número índice en el instante t con base en el instante 0 como producto de una cadena de índices cuyas bases son los instantes consecutivos, de la siguiente forma: I0,1*I1,2*It-1,t = I0,t

503

5.9 CAMBIO DE BASE Y ENLACES DE NÚMEROS ÍNDICES A medida que pasa el tiempo, mantener el período base de un índice puede resultar inadecuado. Existe pérdida de representatividad de los índices al irnos alejando del período base, sobre todo cuando para ponderar magnitudes actuales se utilizan pesos relativos referidos al período base. Este problema se resuelve haciendo un cambio de base a un período más cercano al actual. Para poder relacionar series de índices referidos a distintos períodos base, se utilizan los enlaces técnicos entre ambas series. Para efectuar el cambio de base nos basaremos en la propiedad de inversión de los números índices. Sea la siguiente serie de números índices referidos al período de base 0. Supongamos que deseamos efectuar un cambio de período base desde el período 0 al h. Obtenemos así una nueva serie referida a dicho período base h. Período 0

Índice base 0

Índice base h

1

I00 I10

I0h I1h

. . i

. . Ii0

. . Iih

. . h

. . Ih0

. .

. . t

. . It0

Ihh . . Ith

La nueva serie de índices se obtendrá teniendo en cuenta que

504

Iih = Ii0/Ih0 * Ihh = Ii0 / Ih0 donde Ih0 es el índice que hace de enlace técnico entre las dos series.

505

5.10 DEFLACTACIÓN DE SERIES ESTADÍSTICAS De forma muy simple, puede decirse que deflactar es eliminar el efecto de los precios que puede existir en la variación total de una magnitud. De este modo, puede conocerse la alteración de la magnitud debida exclusivamente al cambio en las cantidades (variación en términos reales o a precios constantes). Así, deflactando una serie a precios corrientes (serie en la que las modificaciones de sus términos recogen el efecto de los precios y de las cantidades), se obtiene otra a precios constantes o en términos reales (serie en la que las variaciones de sus elementos son debidas únicamente al efecto de las cantidades). Para pasar de una serie en pesetas corrientes a una en pesetas constantes, dividiremos la serie primitiva por un índice de precios adecuado, ya que de esta forma se puede eliminar la influencia de los precios. El paso de una serie de valores corrientes a constantes se conoce con el nombre de deflactación de la serie, y al índice elegido para efectuar dicha transformación se le llama deflactor. En el caso de las magnitudes complejas, los deflactores son índices de precios que se obtienen mediante ponderaciones de la evolución de los precios de los bienes y/o servicios que integran la magnitud estudiada. No existe un deflactor único que pueda utilizarse con cualquier serie. La utilización de uno u otro dependerá de la magnitud económica que esté recogida en la serie. Así, por ejemplo, si se pretende deflactar una serie temporal de consumo privado o medir la variación de la capacidad adquisitiva de los trabajadores, lo más indicado será tomar como deflactor el índice de precios al consumo, y si la serie fuese el producto interior bruto habría que emplear el deflactor implícito del PIB.

506

5.11 PARTICIPACIÓN Y REPERCUSIÓN Supongamos que todas las magnitudes simples que componen un índice complejo sufren una variación que podemos expresar por Dp1t, Dp2t,.., DpNt. El índice presentará una variación total debida a todas estas variaciones, y cada una de sus componentes contribuirá con una variación particular, denominada repercusión, a la variación del índice general. La suma de todas las repercusiones individuales de cada componente es igual a la variación total del índice general. Se entiende por participación de la componente i en la variación del índice general, la relación por cociente entre la repercusión de la componente i y la suma de repercusiones de todas las componentes. lustraremos estos conceptos aplicándolos al índice de Laspeyres de precios. Si todas las magnitudes simples que componen el índice complejo de Laspeyres de precios sufren una variación que podemos expresar por Dp1t, Dp2t, ..., DpNt, el nuevo índice será:

donde

507

La variación en porcentaje del índice general se expresa como:

Llamaremos repercusión, en valor absoluto, de la variación de la componente i en el índice general, a la expresión:

En porcentaje, la variación de la componente i en el índice general será:

508

La participación en porcentaje de la componente i en la variación del índice general será la relación por cociente entre la repercusión en porcentaje y la suma de repercusiones en porcentaje de todas las componentes, expresada en tanto por ciento. Su expresión será:

509

5.12 ÍNDICES OFICIALES Índice de precios al consumo Entre los índices de precios de mayor importancia se encuentra el índice de precios al consumo ( PC), que tiene por objeto medir la evolución en el tiempo de los precios, basándose en un conjunto determinado de bienes y servicios, que componen la llamada cesta de la compra, para un determinado estrato de población convenientemente elegido. En casi todos los países el índice elegido para el PC es un índice tipo Laspeyres. En España, para determinar la cesta de la compra, se obtiene a través de la Encuesta de Presupuestos Familiares, y referido a un determinado estrato de población, el conjunto de bienes y servicios que dicho grupo adquiere normalmente, y que le proporciona el mismo nivel de vida a lo largo de un período de tiempo no demasiado amplio. Una vez determinada la cesta de la compra, se valoran las correspondientes cantidades consumidas a precios del período base y del actual. Su cociente nos dará el índice del coste de la vida. Índices de producción y precios industriales Recogen las variaciones de la oferta industrial dentro de la mayoría de las ramas de la actividad económica. El índice de producción industrial ( PI) tiene por objeto indicar la evolución en volumen de la parte del Producto Interior Bruto (P B) que tiene su origen en la industria, es decir, el valor añadido bruto al coste de los factores de las diversas ramas industriales y del conjunto del sector industrial. De esta forma, el IPI sintetiza en un número restringido de cifras o, aún mejor, en una única serie estadística, la multitud de informaciones estadísticas sobre las cantidades de bienes producidos por la industria de un país. Este índice es uno de los principales instrumentos con que se cuenta para el análisis económico coyuntural, especialmente cuando se utiliza en combinación con otros indicadores, tales como los relativos al comercio exterior, el empleo o el paro. Se utiliza, asimismo, para la actualización a corto plazo de las cifras relativas al producto interior bruto (en las cuentas nacionales trimestrales o en las primeras estimaciones de las cuentas nacionales anuales). Para su cálculo se utiliza la fórmula del índice complejo ponderado de Laspeyres

510

para cantidades. El índice de precios industriales ( PRI) es un indicador que mide la evolución de los precios en el primer paso de comercialización de los productos, es decir, en la fase de venta de éstos a los precios de producción, esto es, sin incluir los impuestos indirectos que los gravan. Se refiere únicamente a productos industriales de producción nacional, con exclusión de los servicios, tales como instalaciones, transportes, comercialización, reparaciones, etc. Este índice sirve de indicador de la evolución coyuntural de los precios de producción, tanto en general, como por sectores. También sirve de base para el estudio y determinación de la política de precios más conveniente en relación con la redistribución de las rentas. También se usa como un instrumento para las revisiones de precios en la contratación a largo plazo, así como para detectar en sus inicios las presiones inflaccionistas o deflaccionistas. También sirve como instrumento técnico para la deflacción de ciertos indicadores coyunturales de la industria, y de los datos relativos a las transacciones sobre productos industriales en el marco de las tablas Input Output y de la contabilidad nacional. Para su cálculo se utiliza la fórmula del índice complejo ponderado de Laspeyres para precios. Índices de salarios Reflejan las variaciones del salario total de los trabajadores por unidad de tiempo. Suelen ser del tipo media aritmética ponderada, recogiendo la variación de la relación por cociente entre las remuneraciones en el período base y el actual. Índices de comercio exterior Este tipo de índices suele analizar la evolución de la balanza comercial, e involucra un gran volumen de transacciones. Los más importantes son los siguientes: Índices de ventaja comparativa revelada: Analizan el comercio exterior por sectores, y los más usuales son el saldo comercial relativo (SCR) y el índice de contribución al saldo (ICS). Ambos índices se construyen a partir

511

del saldo comercial de cada sector. Si llamamos Xi y M i a las exportaciones e importaciones del sector i, sus expresiones son:

Índices de especialización (IE) y dependencia (ID) comercial: Comparan la estructura comercial española con la de una agrupación de países de referencia, por ejemplo la Unión Europea, considerando por separado la vertiente exportadora de la importadora. Si consideramos las exportaciones e importaciones del sector i (Xi y M i) relativas a España (ESP) y a la Unión Europea (UE), estos índices se expresan de la siguiente manera:

512

Índice de comercio intraindustrial: Se utiliza cuando en los diferentes sectores se produce simultáneamente la exportación e importación de un mismo tipo de productos. Su expresión es:

513

Índices de competitividad: Se utilizan para medir la competitividad de las economías, y se basan en la evolución de los precios y los tipos de cambio. Los más importantes son el tipo de cambio efectivo nominal (TCEN), que se utiliza para medir la evolución de una moneda en un período determinado (marcado por el año 0 que es el base y el año t que es en el que se realiza el cálculo) frente a un conjunto de monedas correspondientes a una agrupación de países con los que mantiene intercambios, y el tipo de cambio efectivo real (TCER), que es un ajuste del anterior introduciendo un factor que refleja las variaciones de precios relativos entre el país que elabora el índice y los demás a lo largo de un período determinado. Sus expresiones son las siguientes:

donde W i = (Xi+M i)/(X+M), siendo Xi las exportaciones españolas con destino al país i, M i las importaciones españolas procedentes del país i, X

514

el total de exportaciones españolas destinadas al conjunto de países en cuestión, y M el total de importaciones españolas procedentes del conjunto de países. Ci0 y Cit representan las cotizaciones oficiales de la peseta frente a la moneda del país i en el año base y en el año t respectivamente. Pt y P0 son los índices de precios de España en los instantes base, y t, y Pi0 y Pit son los índices de precios del país i en el año base y en el año t. Índice de relaciones de cambio: También se denomina relación real de intercambio, y viene expresada por R = Pp(X) / Pp(M); es decir, es el cociente de índices de precios de Paasche de exportaciones y de importaciones. Índices de cotización de valores en bolsa Miden las fluctuaciones en la cotización que se registran diariamente, y hacen referencia a la cotización de los valores en el momento de cierre de la sesión. Indicadores de la coyuntura Son un conjunto de índices (precios, producción, salarios, etc.) que nos dan una idea aproximada sobre la evolución de la economía de un país, y permiten un análisis a corto plazo de sus distintos aspectos.

515

5.13 TASAS DE VARIACIÓN Expresan el porcentaje que representa la variación absoluta de una magnitud, en un intervalo temporal determinado, sobre el valor inicial de dicha magnitud, que normalmente se corresponde con el del año anterior. Esto es:

Donde v es una magnitud cualquiera, i es el período inicial de intervalo de variación, f es el período final de intervalo de variación, vf - vi es la variación absoluta, y TV es la tasa de variación expresada en tantos por uno. Evidentemente, se cumple que:

Otro concepto muy utilizado es el de tasa de variación media acumulativa, que expresa el porcentaje de variación que una magnitud debería haber experimentado período tras período para, desde su valor inicial, alcanzar su valor final. Se define como:

Donde n es el número de períodos entre el año inicial y el final, o bien el número de datos de la serie menos uno. Evidentemente, se cumple que:

516

517

5.14 MEDIDAS DE CONCENTRACIÓN Las medidas de concentración tratan de poner de relieve el mayor o menor grado de igualdad en el reparto del total de los valores de una variable. Son, por tanto, indicadores del grado de equidistribución de la variable. Estos indicadores no deben confundirse con las medidas de dispersión, ya que desde el punto de vista estadístico la dispersión hace referencia a la variabilidad de los datos, a las diferencias que entre ellos existen y, por tanto, a la mayor o menor representatividad de los promedios. Estas medidas tienen especial aplicación a variables económicas (rentas, salarios, etc.). En una distribución estadística, de rentas por ejemplo, desde el punto de vista de la equidad económica, ni la media, ni siquiera la varianza son significativas. Lo que verdaderamente interesa es la mayor o menor igualdad en su reparto entre los componentes de la población, es decir, que esté equitativamente repartida. Para este fin, están concebidos los estudios sobre concentración, entendiéndose por concentración la mayor o menor equidad en el reparto de la suma total de la variable considerada. Es decir, si suponemos que la distribución es de rentas, y que tenemos n rentistas cuyas rentas son x1 £ x2 £ x3 £ ... £ xn, nos interesa estudiar hasta qué punto la suma total de rentas x1+x2+...+xn está equitativamente repartida. Las situaciones extremas se producen (a) cuando de los n rentistas, sólo uno percibe el total de renta y los demás nada (concentración máxima, es decir, x1= x2 = x3 = ... = xn-1= 0 y xn ¹ 0), y (b) cuando todos los rentistas perciben la misma cantidad (concentración mínima o equidistribución, es decir x1 = x2 = x3 = ... = xn). Las medidas de concentración más utilizadas en el reparto de la renta son el índice de Gini, la curva de Lorentz, y el porcentaje de población bajo el umbral de pobreza.

518

5.15 ÍNDICE DE CONCENTRACIÓN DE GINI Sea una distribución de frecuencias relativa a rentas (xi,ni), de la que vamos a considerar las siguientes características: Los productos xi*ni, que nos indicarán la renta total percibida por los ni rentistas de renta individual xi. Las frecuencias absolutas acumuladas Ni. Los totales acumulados ui de los productos xi*ni, o sea, u1 = x1n1, u2 = x1n1 + x2n2, ..., un = x1n1 + x2n2 + ... + xnnn. De esta forma, ui será la renta total percibida por los Ni primeros rentistas. Las frecuencias acumuladas relativas, que expresaremos en tantos por ciento, y que aquí llamaremos pi, es decir, pi = (Ni/N)*100. Una medida que expresa cada ui en tantos por ciento de un. A este porcentaje le llamamos qi. Tendremos que qi = (ui/un) *100. Se define el índice de concentración de Gini mediante la expresión:

519

Sabemos que si la concentración es mínima, es decir, si la renta está repartida por igual, pi = qi, con lo que IG =0. En el caso de concentración máxima, solamente el último trabajador percibe renta, por lo que, q1 = q2 = ... = qn-1 = 0, con lo que IG =1. El campo de variación de IG va, pues, de cero a uno, y su valor responderá a una distribución tanto más justa de la renta o del salario cuanto más próximo esté a cero.

520

5.16 CURVA DE CONCENTRACIÓN DE LORENTZ La distribución de salarios, o de rentas, se puede materializar gráficamente, obteniéndose la llamada curva de concentración o curva de Lorentz. Para construirla, dibujamos un cuadrado cuyos lados están divididos en una escala de 1 a 100. En el vértice inferior izquierdo está el origen de coordenadas, en el eje de abscisas representamos los valores pi, y en el de ordenadas los valores qi. A continuación, representamos los puntos (pi,qi), que, al unirlos entre sí, nos determinan una poligonal llamada curva de Lorentz. La curva de Lorentz es siempre creciente, resultando que la curva que indica la concentración mínima (equidistribución) es la diagonal del cuadrado (ya que pi = qi para concentración mínima). Cuanto más próxima esté la curva a la diagonal del cuadrado que parte del orígen, mayor equidistribución existirá. La curva de Lorentz es más curvada cuanto más desigual sea la distribución y más fuerte la concentración.

PROBLEMAS RESUELTOS Ejercicio 1. La evolución de las ganancias de una empresa del ramo del automóvil desde el año 1950 hasta 1960 se presenta en la tabla siguiente:

3. 4.

Hallar los índices de ganancias tomando como base el año 1950. Cambiar de base los índices anteriores tomando como nuevo período base el año 1960.

Los números índices simples de ganancias con base en 1950 se calcularán de acuerdo a la tabla siguiente, cuya estructura puede implementarse en Excel):

521

Año

Ganancias

Índices simples

1950

g0

100

1951

g1

(g1/g0)*100

1952

g2

(g2/g0)*100

1953

g3

(g3/g0)*100

1954

g4

(g4/g0)*100

1955

g5

(g5/g0)*100

1956

g6

(g6/g0)*100

1957

g7

(g7/g0)*100

1958

g8

(g8/g0)*100

1959

g9

(g9/g0)*100

1960

g10

(g10/g0)*100

Una vez realizados los cálculos de la tabla anterior tenemos los siguientes resultados para los índices simples: Año

Ganancias

Índices simples

1950

12

100

1951

14

116,6666667

1952

18

150

1953

18

150

1954

19

158,3333333

1955

15

125

522

1956

12

100

1957

16

133,3333333

1958

20

166,6666667

1959

24

200

1960

35

291,6666667

Para realizar el cambio de base desde base 0 a base i tendremos en cuenta las siguientes transformaciones de índices simples Ii. t

Índices en base 0

Índices en base i

0

0

( 0/Ii)*

1

I1

(I1/Ii)*

2

I2

(I2/Ii)*

3

I3

(I3/Ii)*

4

I4

(I4/Ii)*

5

I5

(I5/Ii)*

6

6

( 6/Ii)*

7

I7

(I7/Ii)*

8

I8

(I8/Ii)*

9

I9

(I9/Ii)*

10

I10

(I10/Ii)*

La estructura de la tabla anterior puede implementarse fácilmente en fórmulas de Excel.

523

Una vez realizados los cálculos de la tabla anterior tenemos los siguientes resultados para los índices simples en base 1960: Año

Índices simples en base 1950

Ganancias 1950

12

100

1951

14

116,6666667

1952

18

150

1953

18

150

1954

19

158,3333333

1955

15

125

1956

12

100

1957

16

133,3333333

1958

20

166,6666667

1959

24

200

1960

35

291,6666667

Ejercicio 2. El precio de un artículo de consumo descendió en 1964 un 20% con respecto al año anterior, pero aumentó un 50% respecto al año 1959. Hallar el número índice de precios de 1963 tomando como año base 1959. Los datos del problema nos dicen que: I 63,64 = 80 I59,64 = 150

524

Por las propiedades de los índices podemos hacer lo siguiente:

Ejercicio 3. En 1960 el precio de un bien de consumo aumentó en un 60% por encima del que tenía en 1953, mientras que su producción disminuyó en un 40%. ¿En qué porcentaje aumentó o disminuyó el índice de valor de dicho bien en 1960 con respecto a 1953? Según el enunciado del problema tenemos que:

y Ahora calculamos el índice de valor de la siguiente forma:

Como la base en 1953 es 100 y el índice de valor en 1960 es 96, dicho índice de valor ha disminuido en un 4%. Ejercicio 4. Hallar los números índices de precios de Laspeyres, Paasche y Edgeworth con base 1980 = 100 de tres artículos de consumo, A , B y C, dados los precios y cantidades correspondientes a los años 1980 a 1984 que se presentan en la siguiente tabla:

525

Artículo A

Artículo B

Artículo C

Años Precio

Cantidad Precio Cantidad

Precio

Cantidad

10 11 12 12 13

1980 3 1981 2 1982 3 1983 1 1984 2

2

10

5

12

2

12

6

10

3

15

6

5

4

20

7

6

4

18

8

5

Para calcular los índices de precios de Laspeyres, Paasche y Edgeworth nos basaremos en sus expresiones generales definidas mediante:

526

Para hallar el índice de precios de Laspeyres en el año 1981 con base en 1980 (Lp81,80) es necesario hallar å(P81*Q80)/å (P80*Q80)*100. De la misma forma se calculan los índices de precios de Laspeyres en los años 1982, 1983 y 1984 con base en 1980 (Lp82,80; Lp83,80 y Lp84,80) usando las expresiones: å(P82*Q80)/å(P80*Q80)*100, å(P83*Q80)/å(P80*Q80)*100 y å(P84*Q80)/å(P80*Q80)*100. La Figura 5-1 presenta las fórmulas de Excel adecuadas, y la Figura 5-2 los resultados.

527

Figura 5-1

Figura 5-2 Para hallar los índices de precios de Paasche en los años 1981, 1982, 1983 y 1984 con base en 1980 (Pp81,80; Pp82,80; Pp83,80 y Pp84,80), usamos: å (P81*Q81)/ å (P80*Q81)*100, å(P82*Q82)/å(P80*Q82)*100, å(P83*Q83)/å(P80*Q83)*100 y å(P84*Q84)/å (P80*Q84)*100, para conseguir los valores 112,8, 130,6, 167,5 y 170,4 respectivamente. La Figura 5-3 muestra las fórmulas de Excel, y la Figura 7-4 los resultados.

528

Figura 5-3

Figura 5-4 Para hallar los índices de precios de Edgeworth en los años 1981, 1982, 1983 y 1984 con base en 1980 (Ep81,80; Ep82,80; Ep83,80 y Ep84,80), se usan las expresiones: å(P81*(Q80+Q81))/å(P80*(Q80+Q81))*100, å(P82* (Q80+Q82))/å(P80*(Q80+Q82))*100, å(P83*(Q80+Q83))/å(P80* (Q80+Q83))*100 y å(P84*(Q80+Q84))/å(P80*(Q80+Q84))*100, para obtener los valores 113,2, 127,7, 154,7 y 163,9 respectivamente.

529

La Figura 5-5 muestra las fórmulas, y la Figura 5-6, los resultados.

Figura 5-5

Figura 5-6 Para realizar cálculos con números índices siempre es conveniente introducir como columnas los datos de los diferentes años.

530

Ejercicio 5. Con los datos del producto interior bruto a precios de mercado (P Bpm) y del deflactor implícito del P Bpm (D Ppm) de la economía española recogidos en el cuadro presentado a continuación: PIBpm D Ppm DIPpm Años corriente Base 1980

P Bpm

Años

corriente

Base 1980 1970 2574,6 24,3 1971 2911,2 26,2

1982 1983

19562,3 22531,8

127,2

143,7 1972

3417,3

28,6

1984

25519,5

1973

4156,3

32,1

1985

28200,9

1974

5102,0

37,2

1986

32324,0

1975

6018,3

43,6

1987

36144,0

1976

7234,2

51,0

1988

40158,7

1977

9178,4

62,5

1989

45006,0

160,7 173,1 192,2 203,3 214,8 230,1 1978

11230,7

75,2

1990

50125,3

1979

13157,7

87,7

1991

54791,1

1980

15209,1

100,0

1992

58677,2

247,0 263,9

1. 2.

279,8

Hallar P B a precios del mercado en pesetas constantes del año 1980 para 1970-1992. Calcular las tasas de variación interanual del P Bpm en pesetas constantes del año 1980.

531

3. 4.

Hallar índices con base 1974 de la serie P Bpm en pesetas constantes del año 1980. Hallar P B a precios del mercado en pesetas constantes del año 1986 para 1970-1992.

Como la serie del deflactor que el enunciado proporciona ya está expresada tomando como base el año 1980 (obsérvese que el valor del DIP en 1980 es igual a 100), no habrá que realizar ninguna transformación previa. Así, dividiendo cada uno de los términos de la serie del PIBpm en términos corrientes entre el deflactor correspondiente y multiplicando por cien el resultado, se obtendrá la serie del PIBpm expresada en pesetas constantes del año 1980. Comenzamos introduciendo los datos del problema como dos variables (columnas) de la hoja de cálculo llamadas PIBpmC y DIPpm80. A su vez, creamos la columna llamada PIBpmK80 con la fórmula (PIBpmC/DIPpm80)*100 (Figura 5-7). Los datos así obtenidos expresan cuál fue la producción de cada año valorada a precios del año 1980 (Figura 5-8). Así pues, cualquier variación en los elementos de la serie obtenida será producto de modificaciones sólo en las cantidades producidas, y no en los precios.

532

533

Figura 5-7

Figura 5-8

Los datos así obtenidos expresan cuál fue la producción de cada año valorada a precios del año 1980. Así pues, cualquier variación en los elementos de la serie obtenida será producto de modificaciones sólo en las cantidades producidas, y no en los precios. Analizando la serie P BpmK80 obtenida, se observa que en la economía española, a lo largo del período 19701992, el producto interior bruto a precios de mercado creció en términos reales

534

de modo generalizado, excepto en el año 1981. Para calcular las tasas de variación interanual del PIBpmK80 creamos la columna de nombre TVP BpmK80 con la expresión PIBpmK80/ P BpmK80(-1)*100 tal y como se indica en la Figura 5-9. La nueva serie TVPIBpmK80 que, contempla las tasas porcentuales de variación interanuales de la serie del producto interior bruto a precios de mercado en pesetas constantes de 1980, tal y como se observa en la Figura 5-10.

535

Figura 5-9

Figura 5-10

Analizando la nueva serie TVPIBpmK80, se observa el ritmo al que ha ido creciendo el P Bpm español a precios constantes durante el período 1970-1992. El período 1970-1974 pertenece a una etapa de desarrollo de la economía española; el período 1975-1985 constituye un período de crisis; el período 19861990 es un período de recuperación; y en el período 1991-1992 aparece una nueva etapa de crisis.

536

Para calcular los números índices con base en el año 1974 de la serie TVPIBpmK80 creamos la columna Ind74 mediante la expresión (P BpmK80/13715,1)*100, donde 13715,1 es el valor del PIBpm de 1974 en pesetas constantes de 1980 (Figura 5-11). Se obtiene la nueva serie Ind74, que contempla la serie de números índices pedidos (Figura 5-12).

Figura 5-11

537

Figura 5-12 Para hallar la serie del PIBpm a precios constantes del año 1986, necesitamos los datos del deflactor del P B en base 1986. Como el enunciado

538

nos proporciona la serie del deflactor en base 1980, será necesario realizar el cambio de base. Para ello, creamos la columna llamada D Ppm86 con la expresión (DIPpm80/192,2)*100 (Figura 5-13), donde192,2 es el deflactor implícito del PIBpm de 1986 en base 1980. Se obtiene la nueva serie DIPpm86 con los datos del deflactor del PIBpm en base 1986 (Figura 5-14).

539

Figura 5-13

540

Figura 5-14

541

Ahora ya podemos hallar la serie del P Bpm a precios constantes de 1986. Para ello creamos la columna de nombre P BpmK86 con la expresión (P BpmC/DIPpm86)*100 (Figura 5-15) para obtener los datos de la Figura 5-16.

542

543

Figura 5-15

544

545

Figura 5-16 Ejercicio 6. Una fábrica de automóviles produce cuatro modelos, cuyos precios de venta, costes de materiales empleados y números de unidades producidas en los últimos tres años fueron los siguientes: _________1985_______ _________1986________ _________1987________ Modelos Precio Nº de Precio Nº de Nº de venta Coste unidades venta Coste unidades Coste unidades 205 5 600 309 0,7 4 300 405 1,3 2 000 605 2,8 1 200

0,9

0,4

3 200

1,1

0,5

4 100

1,2

1,3

0,6

4 200

1,3

0,7

3 000

1,5

1,9

1,0

2 300

2,0

1,1

2 400

2,1

3,8

2,2

1 700

4,1

2,5

1 500

4,3

Precio venta

0,6

1. 2. 3.

Hallar el índice de producción de Laspeyres para 1986 y 1987, con base 1985. Hallar los índices cuánticos de Paasche, con la misma base. Hallar los índices de precios de Laspeyres, con la misma base.

En los índices de cantidades, las ponderaciones han de ser valores añadidos, para evitar dobles contabilizaciones y sobreestimaciones. Luego las ponderaciones serán los valores precio de venta-coste. El índice de producción de Laspeyres tiene la siguiente expresión:

546

Para calcularlo construiremos una tabla con variables (columnas) que reflejan los precios de venta, costes y cantidades para los cuatro modelos de automóviles. Para calcular el índice de producción de Laspeyres en el año 1986 con base en 1985 usamos la expresión definida como Lq86,85 = å(Q86*(P85 C85)) /SUM(Q85*(P85 - C85))*100. Se obtiene el valor 93,3. De la misma forma se calcula el índice de producción de Laspeyres en el año 1987 con base en 1985, utilizando la expresión Lq87,85 = å(Q87*(P85 - C85))/SUM(Q85*(P85 C85))*100, para obtener el valor 102,1. La Figura 5-17 muestra las fórmulas y la Figura 5-18 los resultados.

Figura 5-17

547

Figura 5-18 El índice de cantidades de Paasche tiene la siguiente expresión:

Para calcular los índices de cantidades de Paasche en los años 1986 y 1987 con base 1985, usamos: Pq86,85 = å(Q86*(P86-C86))/SUM(Q85*(P86C86))*100 y Pq87,85 = å(Q87*(P87 - C87)) /SUM(Q85*(P87 - C87))*100, para obtener los valores 95,6 y 105,5 respectivamente. La Figura 5-19 muestra las fórmulas de Excel y la Figura 5-20 muestra los resultados.

548

Figura 5-19

Figura 5-20

549

El índice de precios de Laspeyres se calcula mediante la siguiente expresión:

Para calcular los índices de precios de Laspeyres en los años 1986 y 1987 con base en 1985, utilizaremos las expresiones definidas por Lp86,85 = å(P86*Q85)/SUM(P85*Q85)*100 y Lp86,85 = å(P87*Q85)/SUM(P85*Q85)*100, para obtener los valores 107,2 y 116,2 respectivamente. La Figura 5-21 muestra las fórmulas de Excel y la Figura 5-22 muestra los resultados.

550

Figura 5-21

Figura 5-22

Ejercicio 7. Consideremos cuatro productos de una industria, cuyos precios de venta y producción son los siguientes: 1979

1988

Productos Precio Cantidad

Precio

Cantidad Producto A Producto B

225 75

200 15

314 82

Producto C

68

10

75

Producto D

109

34

120

320

21 14 50

Hallar el índice de valor para 1988 con base en 1979. En este problema suponemos que los precios que nos dan representan también el valor añadido de cada producto, que es tanto como decir que el coste de las materias primas empleadas es cero. Pueden asimilarse a este caso, en

551

parte, las industrias integrales y las industrias de la primera fase del proceso productivo. Comenzamos introduciendo los datos en una tabla creando variables (columnas) que reflejan los precios y cantidades para los cuatro productos. Para hallar el índice de valor de la producción para 1988 base 1979, utilizamos Iv87,86 = å(P88*Q88)/ å(P79*Q79)*100. Se obtiene el índice de valor 216,29. La Figura 5-23 muestra las fórmulas de Excel y la Figura 5-24 muestra los resultados.

Figura 5-23

552

Figura 5-24

Ejercicio 8. A partir de los datos que se exponen a continuación, calcular el tipo de cambio efectivo nominal TCEN de la peseta frente al conjunto de países de la Unión Europea. Países M P91 Francia 120,2 Alemania 110,7 Italia 140,0 Reino Unido 728,191,2 141,3 Países Bajos 339,545,9 107,7 Bélgica-Luxemburgo

CO85

19,00

CO91

X

18,42 1244,354,9

1467,708,8

57,99

62,64

992,575,6

1565,523,7

8,92

8,38

706,740,4

971,727,0

219,46

183,29

477,873,8

51,41

55,58

267,741,4

287,41

304,23

193,745,9

553

287,477,0 114,6 Portugal 263,276,2 190,6 Dinamarca 75,441,8 124,1 Irlanda 74,245,1 121,4 Grecia 24,182,1 265,9

98,96

71,93

410,428,3

16,10

16,24

54,288,1

180,53

167,31

21,658,3

123,43

5 7,09

47,621,1

La expresión del TCEN es la siguiente:

donde W i = (Xi+M i)/(X+M), siendo Xi las exportaciones españolas con destino al país i, M i las importaciones españolas procedentes del país i, X el total de exportaciones españolas destinadas al conjunto de países en cuestión, y M el total de importaciones españolas procedentes del conjunto de países. Ci0 y Cit representan las cotizaciones oficiales de la peseta frente a la moneda del país i en el año base y en el año t respectivamente. Pt y P0 son los índices de precios de España en los instantes base, y t, y Pi0 y Pit son los índices de precios del país i en el año base y en el año t. Comenzamos introduciendo los datos ordenadamente en una tabla creando variables (columnas) que reflejan las magnitudes del problema. Para calcular el indicador TCEN, generamos la variable de expresión:

554

Para hallar el TCEN basta con hacer el producto de los elementos de la columna TCENt y multiplicar por 100; es decir, elevaremos a la potencia 10 la media geométrica de la variable TCENt y multiplicaremos por 100. La Figura 5-25 muestra las fórmulas, y la Figura 5-26, los resultados.

Figura 5-25

555

Figura 5-26

Ejercicio 9. Dada la tabla de exportaciones (X) e importaciones (M) españolas y comunitarias por sectores del año 1989 que se presenta a continuación: España 1989 UE 1989 Sector X

M

X

M

1. Productos alimenticios 87820 97225 2. Bebidas y tabaco

556

5424

.418

686

741

16380 11633 3. Materias primas 31401 65480 4. Productos energéticos 34794 86508 5. Aceites y grasas 4002 4266 6. Productos químicos 124782 108157 7. Productos manufacturados 197244 194880 8. Maquinaria y material de transporte 393977 348614 9. Artículos diversos 127949 130465 Total 1018349 1047228 1. 2. 3.

1634

4824

1906

7148

383

217

3902

6307

9001

8178

15230

24.112

4514

5996

42680

62941

Hallar los indicadores de ventaja comparativa revelada, saldo comercial relativo (SCR) e índice de contribución al saldo (ICS). Hallar los índices de especialización (IE) y de dependencia ( D). Hallar el índice de comercio intraindustrial (ICI).

Los indicadores de ventaja comparativa revelada analizan el comercio exterior por sectores, y los más usuales son el saldo comercial relativo (SCR) y el índice de contribución al saldo (ICS). Ambos índices se construyen a partir del saldo comercial de cada sector. Si llamamos Xi y M i a las exportaciones e importaciones del sector i, sus expresiones son:

557

Para resolver este problema comenzamos construyendo una tabla con los datos en las columnas XE (exportaciones españolas), ME (importaciones españolas), XUE (exportaciones de la Unión Europea), y MUE (importaciones de la Unión Europea). Para hallar el saldo comercial relativo, creamos la columna llamada SCR con la expresión (XE-ME)/(XE+ME)*100. Sectores con SCR positivo indican que el país presenta ventaja comparativa para el sector en cuestión. Para hallar el índice de contribución al saldo, creamos la columna llamada ICS, con la expresión ((XE-ME)/(XE+ME) - å(XE-ME) / å(XE+ME)) *100. Para simplificar las expresiones usamos como apoyo S = XE+ME y D=XEME. Sectores con ICS positivo contribuyen positivamente al saldo comercial español, dado que su saldo comercial relativo es superior al de la economía española en su conjunto. Los índices de especialización (IE) y dependencia ( D) comercial comparan la estructura comercial española con la de una agrupación de países de referencia, por ejemplo la Unión Europea, considerando por separado la vertiente exportadora de la importadora. Si consideramos las exportaciones e importaciones del sector i (Xi y M i) relativas a España (ESP) y a la Unión Europea (UE), estos índices se expresan de la siguiente manera:

558

El índice de comercio intraindustrial se utiliza cuando en los diferentes sectores se produce simultáneamente la exportación e importación de un mismo tipo de productos. Su expresión es:

559

Para hallar el índice de especialización, que ya es un indicador de comparación de la estructura comercial española con la de la Unión Europea, creamos la columna llamada E mediante la fórmula ((XE/å(XE))/(XUE/ å(XUE)))*100. Para sectores con IE superior a 100, sus exportaciones tienen una representación mayor en España que en el conjunto de la Unión Europea. Para hallar el índice de dependencia, que es otro indicador de comparación de la estructura comercial española con la de la Unión Europea, creamos la columna llamada D, mediante la fórmula ((ME/å(ME))/(MUE/ å(MUE)))*100. Para sectores con D inferior a 100, sus importaciones tienen una representación menor en España que en el conjunto de la Unión Europea. Para hallar el índice de comercio intraindustrial, que es otro indicador de comparación de la estructura comercial española con la de la Unión Europea cuando se produce simultáneamente la exportación y la importación de un mismo tipo de productos, creamos la columna llamada ICI mediante la fórmula (1-| XE-ME| /(XE+ME))*100. Para sectores con ICI próximo a 100, existe un elevado índice de comercio intraindustrial. La Figura 7-27 muestra todas las fórmulas para la generación de todas las series utilizas durante el problema, y la Figura 7-28 presenta los resultados, en los que pueden analizarse los comentarios realizados a lo largo del problema.

560

Figura 7-27

561

Figura 7-28 Ejercicio 10. Tenemos los siguientes datos sobre el índice de precios al consumo (IPC) con base 1983 = 100: Grupos Índice mensual

Índices

Ponderaciones

base 1983 = 100

medio

de 1986 1. Alimentos, bebidas y tabaco 136,9 2. Vestido y calzado 134,1 3. Vivienda 122,1

100

330,3

100

87,4

100

185,7

562

4. Menaje 100 131,5 5. Servicios médicos y sanitarios 100 23,9 123,8 6. Transportes y comunicaciones 100 121,3 7. Esparcimiento, enseñanza y cultura 100 129,6 8. Otros bienes y servicios 100 85,2 137,9 Total

100

74,1

143,8 69,6

1000,0

130,5 1. 2.

Hallar las repercusiones y participaciones de cada uno de los grupos del PC en la variación sufrida por el índice general en 1986. ¿Qué grupos son los más y los menos afectados por la subida de precios?

La serie de repercusiones en la variación global del IPC desde 1983 a 1986 para los distintos grupos, viene dada por la fórmula Ri=DIiW i/åW i. Para resolver este problema comenzamos creando una tabla e introduciendo los datos del problema en las columnas de nombres IPC83, W e IPC86. Para hallar las repercusiones creamos la columna llamada REP con la fórmula (IPC86 PC83)*W/å(W). Se obtiene la nueva serie REP de repercusiones en la variación global del IPC desde 1983 a 1986 para los distintos grupos. Para hallar la participación de cada grupo en la variación del PC, utilizamos la fórmula Pi=Ri/DLp. Pero DLp es un dato del problema en su fila de totales, que vale 130,5 - 100 = 30,5. Si este dato no fuese dado, se calcularía mediante la fórmula de Laspeyres Lp = åIiWi/åWi. Para hallar las participaciones, creamos la columna llamada PAR con la fórmula (REP/30,5)*100. Se obtiene la nueva serie PAR de participaciones de cada grupo en la variación global del IPC desde 1983 a 1986. La Figura 7-29

563

presenta las fórmulas, y la Figura 7-30 presenta los resultados.

Figura 7-29

Figura 7-30 Ejercicio 11. Hallar el índice bursátil para 1986, con base 1980=100, de la

564

siguiente cartera de valores (volumen de negocio en 109 pesetas): 1980 Cotización

1986

Volumen negociado

Bancos 230 Eléctricas 94 Inmobiliarias 112 Monopolios 125 Químicas 82 Metalúrgicas 75 Inversión mobiliario 60 Varios 107

25,4 10,3 7,1 8,9 2,1 0,8 3,4 0,5

Cotización 614 153 510 325 184 415 825 407

Como norma general, los índices de cotizaciones de bolsa suelen ser medias ponderadas de índices simples de cotizaciones Ct/C0 del tipo Laspeyres, usando como ponderaciones W los volúmenes de contratación de cada título en el año base, con lo que IB=å(Cit/Ci0)W i0/åW i0. Comenzamos introduciendo los datos en la hoja de cálculo creando las variables con los datos del problema. Para calcular el índice de cotizaciones en bolsa en el año 1986 con base en 1980, utilizamos la expresión definida mediante SUM((CO86/CO80)*W80)/SUM(W80)*100. Para facilitar los cálculos se introduce la abreviatura B=(CO86/CO80)*W80. La Figura 7-31 muestra todas las fórmulas para la generación de todas las series utilizadas durante el problema, y la Figura 7-32 presenta los resultados.

565

Figura 7-31 Figura 7-32 El resultado nos indica que desde el año 1980 al año 1986, el valor de la cartera de valores aumentó en un 238,175 por ciento. Ejercicio 12. Se consideran dos distribuciones de salarios en dos fábricas A y B por día y trabajador. Los datos son los siguientes: Fábrica A

Fábrica B

566

Salario Nº de trabajadores

Salario Nº de

800 1 000 1 200 1 500 7 500

800 1 000 1 200 1 500 7 500

trabajadores

1. 2.

20 10 10 10 50

10 30 30 20 10

Analizar ambas distribuciones de salarios mediante el índice de concentración de Gini. ¿Cuál de los dos salarios es más equitativo? Hallar los puntos de las curvas de Lorentz para analizar la concentración de las distribuciones de salarios en las dos fábricas y comentar los resultados.

Comenzamos creando una tabla con los datos de las dos distribuciones de salarios en sus columnas. Para calcular los índices de Gini relativos a ambas distribuciones, creamos las columnas de nombres pA, pB, pTnA y pTnB (sumas acumuladas de nA, nB, T*nA y T*nB respectivamente). Luego, creamos las columnas qA = pTnA)/å(TnA)*100 y qB = pTnB)/å(TnB)*100 respectivamente. Para calcular el índice de Gini de la distribución A, utilizamos la fórmula dada por å(pA-qA)/(å(pA) -100). Se obtiene el índice 0,778. Para calcular el índice de Gini de la distribución B, utilizaremos la fórmula dada por å(pB - qB)/(å(pB) -100). Se obtiene el índice 0,404. Dado que el índice de Gini de la empresa A es mayor que el de la empresa B, la concentración de salarios es mayor en la empresa A, luego la mejor distribución de salarios entre sus trabajadores la tiene la empresa B. La Figura 7-33 presenta las fórmulas para el cálculo de los índices de Gini de las empresas A y B, y la Figura 7-34 presenta los resultados.

567

Figura 7-33

Figura 7-34 Para representar las curvas de Lorentz de las empresas A y B, graficaremos los pares de puntos (pA,qA) y (pB, qB). Para representar la curva de Lorenz de la empresa A, seleccionamos las dos columnas pA y qA en la hoja de cálculo (Figura 7-35), hacemos clic en la

568

opción Dispersión con líneas suavizadas del grupo Gráficos de la ficha Insertar y obtenemos la curva de Lorenz de la empresa A (Figura 7-36). Realizando pasos similares para la empresa B, se obtiene su curva de Lorenz (Figura 7-37).

Figura 7-35

569

Figura 7-36 Figura 7-37 La curva de Lorentz de la empresa A está más alejada de la diagonal que la de la empresa B, luego la distribución de la renta es mejor en la empresa B, siendo la concentración menor en dicha empresa. No olvidemos que la curva de Lorentz es más curvada (se aleja más de la diagonal) cuanto más desigual sea la distribución y más fuerte la concentración.

570

571
Excel y la estadistica - P. Vidales

Related documents

571 Pages • 30,702 Words • PDF • 100.4 MB

2 Pages • 423 Words • PDF • 288.3 KB

5 Pages • 548 Words • PDF • 311.1 KB

33 Pages • 3,813 Words • PDF • 18.9 MB

1 Pages • 222 Words • PDF • 31.1 KB

14 Pages • 2,867 Words • PDF • 208.3 KB

35 Pages • 4,609 Words • PDF • 1.3 MB

6 Pages • 511 Words • PDF • 546.4 KB

9 Pages • 1,792 Words • PDF • 321 KB