Estadística, probabilidad e inferencia
Juan Jesús Cañas Escamilla
José Román Galo Sánchez


Estadística, probabilidad e inferencia
INTERACTIVO



Juan Jesús Cañas Escamilla
José Román Galo Sánchez

Red Educativa Digital Descartes


Fondo Editorial RED Descartes

Córdoba (España)
2022

Título de la obra:
Estadística, probabilidad e inferencia
Interactivo


Autores:
Juan Jesús Cañas Escamilla
José Román Galo Sánchez


Editor técnico:
Juan Guillermo Rivera Berrío


Código JavaScript para el libro: Joel Espinosa Longi, IMATE, UNAM.
Núcleo del libro interactivo: julio 2022.
Recursos interactivos: DescartesJS
Fuentes: Lato y UbuntuMono
Fórmulas matemáticas: $\KaTeX$


Red Educativa Digital Descartes
Córdoba (España)
descartes@proyectodescartes.org
https://proyectodescartes.org

Proyecto iCartesiLibri
https://proyectodescartes.org/iCartesiLibri/index.htm

ISBN: 978-84-18834-44-8


Esta obra está bajo una licencia Creative Commons 4.0 internacional: Reconocimiento-No Comercial-Compartir Igual.

Tabla de contenido


Pierre-Simon Laplace (Normandía, Francia, 23 de marzo de 17491​ - París, 5 de marzo de 1827) fue un astrónomo, físico y matemático francés, como estadístico sentó las bases de la teoría analítica de la probabilidad (Crédito: Jean-Baptiste Paulin Guérin - http://www.photo.rmn.fr/, Dominio público, https://es.wikipedia.org/)

Prefacio

Este libro digital interactivo se ha diseñado utilizando el editor de DescartesJS, de tal forma que se pueda leer en ordenadores y dispositivos móviles sin necesidad de instalar ningún programa o plugin.

La herramienta Descartes se caracteriza por una innata interactividad, por permitir realizar representaciones de objetos bi y tridimensionales, por gestionar expresiones de texto y de fórmulas, por integrar objetos multimedia como imágenes, audios y vídeos, por tener la posibilidad de reflejar casos concretos y también potenciar la conceptualización de tareas y procedimientos mediante la utilización de semillas aleatorias y controles numéricos, gráficos y de texto, y con ellos poder abordar la evaluación de manera automática, tanto la correctiva como la formativa. Con Descartes es posible el diseño y desarrollo de objetos educativos que promueven el aprendizaje significativo, posibilitando esa deseada construcción del conocimiento.Véase https://proyectodescartes.org/iCartesiLibri/descripcion.htm.


El libro es una tercera versión del publicado por los mismos autores en el proyecto iCartesiLibri (Estadistica Probabilidad e Inferencia).

Parte I

Estadística unidimensional

Juan Jesús Cañas Escamilla
José R. Galo Sánchez

Francis Galton (Birmingham, 16 de febrero de 1822 - Haslemere, Surrey, 17 de enero de 1911) fue un polímata, antropólogo, geógrafo, explorador, inventor, meteorólogo, estadístico, psicólogo y eugenista británico, creó el concepto estadístico de correlación y regresión hacia la media (Crédito: Eveleen Myers - http://www.npg.org.uk/collections/, Dominio público, https://es.wikipedia.org/).


Introducción

Vivimos en un mundo que cambia de forma acelerada. Todos formamos parte de una monumental gran base de datos a la que continuamente acceden y utilizan desde los estados y grandes multinacionales hasta el negocio más pequeño o el individuo más alejado de la última aldea de cualquier país. Ya nada es ajeno a nadie. Lo que ocurre en cualquier lugar del mundo es presentado por los medios de comunicación prácticamente en directo en los salones de las casas o en los teléfonos inteligentes de cada individuo, estableciéndose así multitud de interrelaciones que avivan la interdependencia de todos y todo termina por influir de un modo u otro en el resto. Esta nueva situación de aldea global proporciona a la estadística un nuevo y mayor protagonismo en prácticamente todos los aspectos de la vida.

Todas las ciencias, animadas por las nuevas posibilidades que permiten el manejo y la rápida transmisión de imponentes bases de datos utilizan a la estadística como herramienta básica de su espectacular desarrollo.
Este nuevo contexto nos sitúa en un punto de partida inicial motivante para iniciar nuestro curso.

Como ya se ha mencionado, el primer contacto que se suele tener con la Estadística suele ser a través de los medios de comunicación. La lectura rápida de cualquier periódico enfoca nuestra atención en los titulares y en la imagen de portada. Es aquí donde se suelen presentar las tablas y gráficos estadísticos que tienen la gran virtud de actuar como elemento acaparador de atención, aunando tanto una capacidad importante de información como una gran facilidad y sencillez a la hora del descifrado de la misma.

Esta primera idea que todos tenemos puede suponer un aceptable punto de partida inicial para comenzar nuestro curso.

La palabra Estadística etimológicamente deriva de la palabra "status", que significa estado o situación.



Vamos a reflejar algunas pinceladas rápidas sobre la aparición de la Estadística, o algo parecido a ella, en algunos momentos históricos.

Un poco de historia

Seguramente para encontrar pistas sobre el origen de la estadística, tendríamos que remontarnos a antes del comienzo mismo de la propia Historia. Restos arqueológicos y monumentos prehistóricos contienen signos y muescas que pueden interpretarse como referencias a posibles anotaciones sobre cantidades, probablemente de ganado y caza que pueden indicarnos un rudimentario sistema de control sobre determinados datos.

En muchos monumentos egipcios se encontraron interesantes estelas, jeroglíficos, en una palabra, "documentos" en los que se puede interpretar una gran organización y administración estatal en lo que se refiere a contabilización de riqueza agrícola, ganadera e industrial, así como a movimientos poblacionales, censos, etc.

En la cultura asiria o mesopotámica se conservan tablillas con inscripciones cuneiformes sobre importantes datos estadísticos referentes a producciones agrícolas, ganaderas, así como también datos sobre contabilidad, medicina, astronomía, etc.

En la Biblia también podemos encontrar referencias estadísticas. Así por ejemplo, en uno de los libros del Pentateuco, bajo el nombre de Números, puede leerse lo que podría interpretarse como el censo que realizó Moisés después de la salida de Egipto.
“Haz un censo general de toda la asamblea de los hijos de Israel, por familias y por linajes, describiendo por cabezas los nombres de todos los varones aptos para el servicio de armas en Israel”.

En China aparecen innumerables documentos con referencias a poblaciones, censos, recuentos bienes agrícolas, ganaderos, de origen militar. Por ejemplo, en uno de sus clásicos "Shu-King" escrito hacia el año 550 a.C., Cunfucio nos narra cómo el Rey Yao en el año 2238 mandó hacer una estadística agrícola, industrial y comercial en todos sus dominios.

Grecia, la cuna del pensamiento occidental, también tuvo importantes observaciones estadísticas en lo que refiere a distribución de terreno, servicio militar, etc.
Es en Roma donde puede decirse que la Estadística adquiere un gran desarrollo. La burocracia romana utiliza la Estadística como instrumento de apoyo a la gran capacidad organizativa política, jurídica y administrativa del imperio. Una muestra es el Census que se realizaba cada 5 años y que tenía por objeto no sólo saber el número de habitantes, sino también su cantidad de bienes. El propio origen de la cultura cristiana está ligado a uno de los censos romanos

La Iglesia, después del Concilio de Trento estableció la obligación de la inscripción de nacimientos, matrimonio y defunciones de la población cristiana, con lo que se erige como creadora y también custodia de una impresionante base de datos de los cuales se han servido posteriormente las ciencias sociales para la elaboración de multitud de estudios.

En la edad moderna se produce un gran desarrollo científico- matemático que enriquece mucho a la Estadística. Científicos importantes de esta época como Copérnico, Galileo, Bacon, Descartes…, contribuyen al desarrollo de lo que se conoce como el método científico donde la estadística tiene un papel fundamental.
Blaise Pascal y Christiaan Huygens, en el siglo XVII, realizan trabajos con bases de datos relativas a nacimientos y defunciones y la influencia de causas naturales y sociales en estas variables.

Detalle de mecanismo de calculadora de Pascal

En el siglo XIX la estadística entra en una nueva fase de su desarrollo con el auge y generalización del método científico en todas las ciencias, tanto naturales como sociales. Figuras muy relevantes de esta época serían Francis Galton (1822 - 1911) y Karl Pearson (1857 – 1936), verdaderos pioneros de la estadística moderna.

Siguiendo los pasos de Galton, Ronald Fisher (1890 – 1962), en su publicación Métodos estadísticos para investigadores establece los fundamentos de la metodología estadística actual.

Con la aparición de los ordenadores, en la segunda mitad del siglo XX, la estadística entra en una nueva era en la que metodología gira hacia técnicas de computación rápidas e iterativas que permiten actuar sobre grandes bases de datos en muy poco tiempo. Los paquetes estadísticos se popularizan y su aplicación en las distintas ciencias también.

Así pues, la estadística aparece a lo largo de la historia como un poderoso instrumento utilizado por gobiernos e instituciones así como tambien elemento auxiliar de las distintas ciencias, ayudando a estas a desentrañar las grandes preguntas que la curiosidad del ser humano siempre ha perseguido; es decir: qué variables intervienen en un fenómeno, que leyes permiten el comportamiento de las mismas y qué relación de dependencia hay entre ellas.


Video

En el siguiente vídeo, elaborado por la UNED, podemos ver una historia de la Estadística.

Vídeo enlazado desde YouTube, licencia de YouTube estándar

Definición de Estadística

La estadística, en general, es la ciencia que trata de la recopilación, organización presentación, análisis e interpretación de datos que intervienen en un fenómeno, con el fin de realizar una perfecta descripción y en gran parte inferir resultados o tomar decisiones.

Dentro de la estadística se distinguen dos ramas fundamentales,

  • Estadística Descriptiva: Puede decirse que la estadística descriptiva trata fundamentalmente la presentación de datos en forma de tablas y gráficas. El cálculo de parámetros definidores y transcriptores de muchas de las características de la población estudiada. Mediante la Estadística Descriptiva emprendemos actividades relacionadas con la presentación y diseño de gráficos que resumen e implementan la información pero sin factores adicionales que vayan más allá de la propia descripción
  • Estadística Inferencial: Teniendo como origen el estudio de las muestras, la estadística inferencial trata de deducir a partir de ellas aspectos generales de la población. Como consecuencia dedicará un énfasis especial al estudio de los métodos que permitirán la realización de dichas generalizaciones así como al grado de fiabilidad de las mismas.
Escena desarrollada por Héctor Javier Herrera Mejía y John Jairo García Mora.

En la anterior escena interactiva tienes una introducción a la Estadística.

Conceptos generales

A continuación recordamos algunos de los conceptos generales relacionados con la estadística.

Es obvio que todo estudio estadístico ha de estar referido a un conjunto o colección de objetos. Este conjunto de personas o cosas es lo que denominaremos población.
Cada uno de estos objetos que forman parte de la población se denominan elemento o individuo. En sentido estadístico un individuo puede ser algo con existencia real, como un automóvil o una casa, o algo mucho más abstracto como la temperatura, una opinión, un voto, un sentimiento o un intervalo de tiempo.

A su vez, cada elemento de la población tiene una serie de características que pueden ser objeto del estudio estadístico (carácter). Así, por ejemplo, si consideramos como elemento a una persona, podemos distinguir en ella multitud de caracteres como el sexo, la edad, estatura, peso, color de pelo, nivel de estudios, etc.

Normalmente en un estudio estadístico hay muchos condicionantes y de distinta naturaleza que impiden trabajar con todos los elementos de la población, por tanto, se suele recurrir a un subconjunto de la misma.

Una muestra es cualquier subconjunto de una población. Cuando los elementos que componen la muestra están escogidos aleatoriamente y todos los elementos tienen la misma probabilidad de ser elegidos diremos que la muestra es aleatoria simple.


  • Variables Cualitativas o Atributos. Los atributos son aquellos caracteres que no pueden ser descritos numéricamente, (al menos en principio). Para su descripción utilizamos la palabra, el sustantivo, adjetivo y adverbio fundamentalmente. Por ejemplo: Sexo profesión, estado civil, color de ojos, color de pelo, nacionalidad, etc.

    A su vez se pueden clasificar en:

    • Ordenables: Aquellas que sugieren una ordenación o son susceptibles de ella, por ejemplo la graduación militar, El nivel de estudios o grado de satisfacción.
    • No ordenables: Aquellas que sólo admiten una mera ordenación alfabética, pero no establece orden por su naturaleza, por ejemplo el color de pelo, sexo o estado civil.
  • Variables Cuantitativas. Son las que pueden ser descritas por medio de números.

    Dentro de éstas a su vez se pueden destacar:

    • Cuantitativas discretas. Aquellas a las que se les puede asociar un número entero, es decir, aquellas que por su naturaleza no admiten un fraccionamiento de la unidad, por ejemplo número de hermanos, páginas de un libro, etc.
    • Cuantitativas continuas. Aquellas que no se pueden expresar solamente mediante un número entero, es decir, aquellas que por su naturaleza admiten que entre dos valores cualesquiera la variable pueda tomar cualquier valor intermedio, por ejemplo peso, tiempo. etc…
    No obstante, en muchos casos el tratamiento estadístico hace que variables discretas sean tratadas como si fuesen continuas. Esto ocurre por ejemplo en casos en los que la variable toma un gran número distinto de valores enteros.

En las siguientes escenas del subproyecto ED@D (Educación Digital con Descartes) de la RED Descartes podrás practicar un poco con los conceptos anteriores.

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Tabulación y gráficos estadísticos

El paso siguiente a la recogida de datos en un trabajo de campo es una primera presentación de los mismos de manera que dicha representación sea fácil de visualizar, sencilla de interpretar y directa. Estas cualidades se reflejan bastante bien en las tablas estadísticas. Las listas, boletines y actas de notas, clasificación de equipos con puntuaciones, detalles de los goles, todo son en realidad tabulaciones de datos.

Con bastante frecuencia y como complemento a las tablas se recurre a los gráficos estadísticos. La mayor parte de la información que recibimos hoy en día proviene fundamentalmente de los medios de comunicación de masas.

En prensa, internet y televisión fundamentalmente, y también en las ciencias sociales, se recurre de manera muy habitual a los gráficos estadísticos (pictogramas, climogramas, pirámides de población, diagramas de barras, de sectores) como elementos aglutinadores de la información a la par que fáciles de descifrar. Los gráficos estadísticos por tanto, constituyen también una herramienta fundamental en lo que se refiere a una primera información sencilla y rápida de las características más elementales de una distribución estadística.




Tabulación de datos y gráficos estadísticos

Cualquier estudio estadístico comienza con la recogida de datos. Esta recogida puede ser física y directa o virtual mediante la importación de ficheros procedentes de distintas instituciones u organismos.

El segundo paso es la presentación de estos datos de forma sencilla, coherente y a ser posible atractiva para el lector. En este sentido, la estadística dispone los datos generalmente en tablas y se ayuda, a su vez, en muchas ocasiones de gráficos que resumen o aclaran aspectos reseñables de la distribución.

La forma más sencilla de tabular una variable estadística es mediante columnas. En la primera se proponen los distintos valores, generalmente ordenados, de la variable estadística o del correspondiente atributo. En la segunda, la cuantificación de esos valores en nuestro estudio, esto es las frecuencias absolutas. De esta forma efectuamos una tabulación mínima.

Desde el punto de vista didáctico, la tabulación se completa con varias columnas más en las que se anotan también las frecuencias relativas, y las acumuladas, tanto absolutas como relativas.

Generalmente las tablas que nos encontraremos reunirán la información mínima necesaria para la representación gráfica y el cálculo de parámetros estadísticos fundamentales en una distribución.

Para el caso de un carácter cualitativo:

  • En la primera columna aparecen las distintas modalidades del caracter.
  • En la segunda las correspondientes frecuencias absolutas.
  • Puede aparecer una tercera columna reservada para las frecuencias relativas o si se desea para los porcentajes.

Observa lo anterior en la siguiente imagen:

Y ahora realiza algunos ejercicios de tabulación en la siguiente escena interactiva.


Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Para el caso de una variable discreta

  • En la primera columna aparecen los valores de la variable
  • En la segunda columna las frecuencias absolutas.
  • En la tercera el producto de valores de la variable por sus correspondientes frecuencias absolutas. Esta columna sirve para el cálculo de la media aritmética.
  • En la cuarta columna el producto de los cuadrados de los valores de la variable por sus respectivas frecuencias. Esta columna nos permite calcular la varianza y desviación típica.
  • En la quinta columna aparecen los valores de las frecuencias acumuladas. Esta columna interviene en el cálculo de todas las medidas de posición; mediana, cuartiles, percentiles...

Observa una tabulación mínima en la siguiente imagen:

Y ahora realiza algunos ejercicios de tabulación en la escena interactiva presentada en la siguiente página.

Para el caso de una variable continua:

  • La tabla anterior de variable discreta se complementa con las columnas primera y segunda que corresponderán a los valores del límite inferior y límite superior de los intervalos.
  • Una cuarta columna en la que aparecen las marcas de clase, (puntos medios de cada intervalo), estos valores serán los que representen a cada intervalo en los cálculos de media aritmética, varianza y desviación típica.
  • Cuando la amplitud de los intervalos no es la misma, se añade una columna más en la que se representan las frecuencias absolutas normalizadas (división entre frecuencia absoluta y amplitud del intervalo). Esta columna es la que se utiliza para el cálculo de la moda en este caso especial de diferente amplitud de los intervalos.

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Observa una tabulación mínima en la siguiente imagen:

Y ahora realiza algunos ejercicios de tabulación en la siguiente escena interactiva.


Escena desarrollada por José Ireno Fernández Rubio, María José García Cebrian y Consolación Ruiz Gil(RED Descartes)

Gráficos estadísticos

Diagramas de barras

El diagrama de barras es, junto al de sectores, el gráfico más utilizado para variable cualitativa y cuantitativa discreta. Se utiliza como complemento a la tabla de frecuencias o incluso en algunos casos como sustitución de ésta.

En el eje de abscisas se sitúan a igual distancia los distintos atributos o bien los valores discretos de la variable y posteriormente a partir de cada atributo o valor discretos se levantan barras de igual grosor y cuya altura sea la de la correspondiente frecuencia absoluta observada.

En la siguiente escena puedes observar como se construyen diagramas de barras y practicar realizando algunos ejemplos.

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Y ahora practica en la escena interactiva de la siguiente página, realizando tú los gráficos.


Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Diagrama de sectores

Tiene la misma filosofía de construcción que el diagrama de barras pero la representación en sectores circulares, figuradamente trozos de tarta. Requiere previamente que mediante proporcionalidaad directa asignemos a cada fecuencia absoluta un determinado ángulo.

En las siguientes escenas puedes observar como se construyen diagramas de sectores (pasa el ratón por los recuadros de colores).


Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Y ahora practica realizando tú los gráficos.

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Histograma

Este tipo de gráfico es el que se utiliza con más frecuencia en el caso de variables cuantitativas continuas. Los datos se representan mediante rectángulos de base igual a la amplitud del intervalo y altura igual a la frecuencia absoluta si todos los intervalos tienen la misma amplitud.

Si no se cumple esta premisa de igualdad de amplitud, las alturas de los rectángulos serán calculadas de tal manera
que el área total de cada rectángulo
represente o sea proporcional a la
correspondiente frecuencia absoluta,
esto habitualmente se conoce con el
nombre de normalidar las frecuencias,
(dividir cada frecuencia entre la amplitud
del intervalo).

Si se unen los centros de los segmentos
superiores de cada rectángulo, se obtiene
una figura poligonal conocida como
Polígono de frecuencias.

Cuando realizamos los gráficos anteriores utilizando
las frecuencias acumuladas obtenemos el denominado
histograma de frecuencias acumuladas y el
polígono de fecuencias acumuladas.

En la escena de la siguiente página, puedes generar
datos, hacer el recuento y ver el histograma
correspondiente.





También se traza el histograma de las frecuencias acumuladas, en cada dato se acumula la frecuencia de los datos anteriores.

Escena desarrollada por José Ireno Fernández Rubio, María José García Cebrian y Consolación Ruiz Gil (RED Descartes)

Medidas de centralización y de posición

Todos sabemos lo que significa la nota media de los exámenes de un curso, o el hermano mediano en una familia o seguir la moda en cuanto a determinada tendencia. En estadística vamos a estudiar ciertos valores que resuman la tendencia habitual o central de los datos de una distribución. A los parámetros o medidas estadísticas que informan sobre la tendencia habitual o central de los datos de una distribución se les denomina en estadística medidas de tendencia central. Las más utilizadas son la media aritmética, la mediana y la moda.

Media aritmética

La palabra media, se ha incorporado al diccionario de cualquier persona. Continuamente nos estamos refiriendo a ella desde todos los órdenaes de la vida. hablamos de gasto medio, de sueldo medio, consumo eléctrico medio, notas medias, estar por encima de la media en consumo de tal cosa, inflacción media etc... En estadística la definición de media aritmética es muy sencilla. La media aritmética se define como la suma de todos los datos dividida entre el número total de los mismos. A veces no dispondremos de los valores concretos de los datos sino de una agrupación de los mismos en intervalos. En estos casos tendremos que elegir un valor de cada intervalo y que intervendrá en representación del mismo en el cálculo de la media. Como habitualmente dispondremos de una tabla de datos con sus correspondientes frecuencias absolutas, aplicaremos la siguiente fórmula:

$$\={X} = \frac{x_1\cdot f_1 + x_2\cdot f_2 + \cdots + x_n\cdot f_n}{N}$$

Abreviadamente:

$$\={X} = \frac{\sum_{i=1}^n x_i\cdot f_i}{N}$$

De la propia definición de media aritmética se desprenden algunas características y comentarios acerca de este parámetro, como por ejemplo:

  • El sumatorio de las restas de cada término respecto de la media es igual a cero.
  • Si todos los datos de una distribución son iguales, la media aritmética coincide con dicho dato.
    La media no tiene porqué ser un valor propio de la variable.
  • Es muy sensible a cambios y valores extremos en los datos.
  • Se comporta de forma natural en relación a las operaciones aritméticas suma y producto por un escalar; es decir si a todos los datos de una distribución se les suma una misma cantidad, la media resultante sería la anterior más dicha cantidad. Si multiplicamos (dividimos) todos los datos de una distribución por una cantidad distinta de cero, la media resultante sería la anterior multiplicada (dividida) por dicha cantidad. En resumen:
$$X' = a\cdot X \implies \={X}' = a\cdot \={X}\cdot b\\ a, b\in \Reals\\ a\ne 0$$

Para el caso de variable continua, sola- mente tenemos que sustituir $x_i$ por $c_i$, siendo ésta última la marca de clase de cada intervalo; es decir, el punto medio o valor central de cada intervalo. Por abuso de lenguaje se suele utilizar indistintamente también para variables continuas el símbolo $x_i$ para las marcas de clase $$\={X} = \frac{\sum_{i=1}^n c_i\cdot f_i}{N}$$

Practica con el cálculo de la media para variable discreta.

Escena desarrollada por José Ireno Fernández Rubio (RED Descartes)

Observa ejemplos para el cálculo de la media para variable discreta y continua.

Escena desarrollada por José Ireno Fernández Rubio (RED Descartes)

En esta otra escena puedes ver más ejemplos.

Escena desarrollada por José Ireno Fernández Rubio, María José García Cebrian y Consolación Ruiz Gil (RED Descartes)

Para completar el estudio sobre la media también puedes consultar más información sobre la Media ponderada pulsando sobre la imagen siguiente:

y sobre la Media geométrica y la Media armónica pulsando sobre esta otra imagen:

Mediana

Todo el mundo entiende cuál es el hijo mediano de un matrimonio o lo que significa tener una altura mediana.

Estamos ante un parámetro que prioriza más la posición que ocupa el dato en cuestión que el propio valor en sí mismo.

Supongamos tres hermanos de $2, 7$ y $10$ años respectivamente. La mediana en este caso es $7$. Si otra familia también tiene tres hijos de $6, 7$ y $15$ años, la mediana también es $7$. Hemos cambiado los datos extremos y sin embargo la mediana no ha variado. Se define la mediana como aquel valor de la variable estadística que deja el $50\%$ de observaciones inferiores a él; así pues, la mediana divide en dos partes iguales a la distribución estadística. A partir de la definición se pueden extraer unas primeras propiedades de la mediana:

  • Como medida descriptiva no se ve afectada tanto como la media por la presencia de valores extremos.
  • Es de cálculo rápido, al menos en el caso discreto, y de fácil interpretación.
  • Como inconveniente también hay que decir que tiene propiedades matemáticas complicadas que hacen que se utilice poco en inferencia estadística.

En el caso continuo se puede razonar exactamente igual identificando en este caso el intervalo mediana.

Si queremos asociar a la mediana un valor representativo del intervalo, muchos autores señalan simplemente la marca de clase de dicho intervalo y otros están de acuerdo en utilizar una fórmula que interpola linealmente el valor en el intervalo en el que se encuentre la mediana.


$$Me = L_{i-1} + \frac{\frac{N}{2} - F_{i-1}}{f_i}\cdot a$$

$$\begin{split} L_{i-1} &= \text{Límite inferior del intervalo mediana}\\ a &= \text{Amplitud del intervalo mediana}\\ F_{i-1} &= \text{Frecuencia acumulada anterior al intervalo mediana}\\ f_i &= \text{Frecuencia absoluta del intervalo mediana}\\ N &= \text{Total de datos} \end{split}$$

En la siguiente escena puedes practicar con el cálculo de la mediana en casos muy sencillos, (pocos datos) y en otros en los que es necesaria la tabulación de los datos.
Puedes también observar el polígono de frecuencias acumuladas y la interpretación gráfica de la mediana que se hace sobre este polígono en caso de variable discreta.
Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

En la siguiente escena puedes realizar ejercicios de cálculo de la mediana para caso discreto y del intervalo mediana para el caso continuo.


Escena desarrollada por José Ireno Fernández Rubio, María José García Cebrian y Consolación Ruiz Gil(RED Descartes)

Nota: Para realizar ejercicios con la calculadora pasa al apartado número 6 de este tema.

Moda

Cuando alguien nos dice que determinada cosa está de moda, por ejemplo un equipo de fútbol, una canción, una prenda de vestir, un oficio, una tendencia u opinión política, etc., entendemos que ese algo es muy frecuente en nuestro entorno y que por tanto nos lo vamos a encontrar con mucha frecuencia.

Se define la moda como el valor de la variable estadística que tiene la frecuencia absoluta más alta. Si existen varios valores con esta característica, entonces se dice que la distribución tiene varias modas (distribución plurimodal).

Esta medida de centralización se puede calcular también en el caso de un carácter cualitativo y es sin duda la de más fácil cálculo. Se suele utilizar como complemento a la media aritmética y mediana ya que por sí sola no aporta una información determinante de la distribución.

Como principales características de la moda se pueden mencionar:

  • Es el único parámetro que tiene sentido también para variables cualitativas.
  • No es tan sensible como la media aritmética a valores extremos.

En el caso de variable continua se puede hablar de intervalo modal. Si queremos asociar un valor concreto del intervalo, algunos autores acuerdan utilizar la marca de clase y otros, cuando la amplitud de los intervalos es la misma, una fórmula que interpola linealmente el valor en el intervalo a partir de los intervalos anterior y posterior.


$$Mo = L_{i-1} + a\cdot \frac{D_1}{D_1 + D_2}$$

$$\begin{split} L_{i-1} &= \text{Límite inferior del intervalo modal}\\ a &= \text{Amplitud de los intervalos}\\ D_1 &= \text{Diferencia de la frecuencia absoluta entre el intervalo modal}\\ & \;\;\;\;\;\;\;\text{y el anterior}\\ D_2 &= \text{Diferencia de la frecuencia absoluta entre el intervalo modal}\\ & \;\;\;\;\;\;\;\text{y el siguiente} \end{split}$$

En la siguiente escena puedes practicar con el cálculo de la moda para variable discreta. También puedes relacionar el valor modal con el diagrama de barras en cada ejercicio que realices.

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

En la siguiente escena puedes practicar con el cálculo del intervalo modal para variable continua en el caso en que los intervalos tengan la misma amplitud. También en la escena puedes relacionar el valor modal con el histograma de frecuencias absolutas.

Escena desarrollada por José Ireno Fernández Rubio(RED Descartes)

¿Cómo proceder cuando en una variable continua los intervalos de agrupación de los datos no son todos de la misma amplitud? Pulsa sobre la siguiente imagen y podrás verlo:

En las siguientes escenas puedes practicar con el cálculo de la moda y resto de parámetros para variables discretas, continuas y también continuas con intervalos de diferente amplitud. Es conveniente que realices algunos ejercicios de forma manual y que compruebes los resultados con los que se obtienen en la escena.

Variable discreta

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Variable continua

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Nota: Para realizar ejercicios con la calculadora pasa al apartado número 6 de este capítulo.

Cuartiles

Hay ciertos valores en una distribución estadística que si se sobrepasan por exceso o por defecto pueden ser signo de alguna disfunción. Pensemos en el caso de los controles de crecimiento del feto en el embarazo o en los valores de seguridad de azúcar o colesterol en sangre.


Estos valores en estadística están relacionados con los parámetros de posición.

Los cuartiles constituyen las más populares de las medidas de localización. Se utilizan continuamente en multitud de disciplinas y representan valores estratégicos en cualquier distribución estadística ya que siguiendo el mismo patrón que la mediana, dividen a dicha distribución de tal forma que:

  • El primer cuartil $Q_1$ es el valor de la variable que deja por debajo de ella al $25\%$ de los valores de la población.
  • El segundo cuartil $Q_2$ o $Me$ es el valor de la variable que deja por debajo al $50\%$ de la población. Coincide con la mediana.
  • El tercer cuartil $Q_3$ es el valor de la variable que deja por debajo de ella al $75\%$ de la población.

Para la variable continua, se puede razonar exactamente de la misma forma, identificando en este caso el intervalo cuartil primero o tercero. Si queremos asociar valores representativos del intervalo a los cuartiles, muchos autores señalan simplemente la marca de clase de dichos intervalos y otros están de acuerdo en utilizar una fórmula que interpola linealmente los valores en los correspondientes intervalos.

$$Q_1 = L_{i-1} + \frac{\frac{N}{4} - F_{i-1}}{f_i}\cdot a$$

$$\begin{split} L_{i-1} &= \text{Límite inferior del intervalo } Q_1\\ a &= \text{Amplitud del intervalo } Q_1\\ F_{i-1} &= \text{Frecuencia acumulada anterior a } Q_1\\ f_i &= \text{Frecuencia absoluta del intervalo } Q_1\\ N &= \text{Total de datos} \end{split}$$

$$Q_3 = L_{i-1} + \frac{3\cdot \frac{N}{4} - F_{i-1}}{f_i}\cdot a$$

$$\begin{split} L_{i-1} &= \text{Límite inferior del intervalo } Q_3\\ a &= \text{Amplitud del intervalo } Q_3\\ F_{i-1} &= \text{Frecuencia acumulada anterior a } Q_3\\ f_i &= \text{Frecuencia absoluta del intervalo } Q_3\\ N &= \text{Total de datos} \end{split}$$

En las escenas de cálculo de la moda, para variables discreta o continua, del apartado anterior, puedes introducir datos y calcular, además de los cuartiles y percentiles, los demás parámetros estadísticos.

En la siguiente escena puedes practicar con el cálculo de cuartiles para variable discreta y continua.

Escena desarrollada por José Ireno Fernández Rubio, María José García Cebrian y Consolación Ruiz Gil(RED Descartes)

Ahora puedes experimentar cómo los valores atípicos influyen sensiblemente en la media y en los cuartiles, y esa influencia es menor para la mediana.

Escena desarrollada por osé R. Galo Sánchez (RED Descartes)

Diagrama de caja y bigotes (Box-whisker)

Este tipo de diagramas lo han popularizado mucho los distintos paquetes estadísticos que circulan por el universo informático y algunas calculadoras científicas, que en su modo de estadística, son capaces de generarlos. Se trata de un dibujo muy sencillo que refleja también de forma muy simple muchas de las características de la distribución.

Se construyen fundamentalmente a partir de la información que ofrecen la mediana y los cuartiles primero y tercero. Son los denominados diagramas de caja y bigotes. Para la construcción del rectángulo, la caja, solamente necesitamos las cotas que serán los valores de $Q_1$ y $Q_3$ y para la longitud de los bigotes los valores mínimo y máximo de la distribución. Los segmentos se dibujaran de forma continua o no dependiendo de la presencia de lo que se denominarán valores atípicos.

Para empezar, en la escena de la siguiente página puedes construir el diagrama con unos pocos datos.


Escena desarrollada por Juan Guillermo Rivera Berrío (RED Descartes)






En la siguiente escena podemos ver con más detalle cómo
se construye este tipo de diagramas.

Escena desarrollada por María José García Cebrian (RED Descartes)

Ahora puedes practicar y comprobar si has comprendido el significado y los elementos de los diagramas de cajas y bigotes.

Escena desarrollada por María José García Cebrian (RED Descartes)

Valores atípicos

La representación gráfica de los datos de una distribución estadística mediante los box-whisker se ha popularizado mucho y ofrece una primera visión gráfica muy acertada de las características principales de los elementos de la distribución.

El diagrama de cajas y bigotes nos proporciona información de cómo se encuentran concentrados los datos.

Sin embargo para saber si hay algún valor más alejado o atípico que pueda influir distorsionando el estudio de los diferentes parámetros estadísticos, algunos autores consideran el siguiente criterio para distinguir y localizar a dichos posibles valores atípicos

$$x \text{ es valor atípico } \iff \begin{cases} x\gt Q_3 +1,5\cdot (Q_3 - Q_1) \\ \text{o}\\ x\lt Q_1 -1,5\cdot (Q_3 - Q_1) \end{cases} $$

Cuando existen estos valores, el convenio que existe es dibujarlos en el box-whisker como puntos aislados en lugar de unirlos de forma continua mediante un segmento.

En la animación de la siguiente página puedes observar cómo se detectan los valores atípicos aplicando el criterio anterior.

Animación desarrollada por (RED Descartes)

Veamos otro ejemplo:

Supongamos que en una clase se pregunta por el número de hermanos que tienen los alumnos y se distribuyen los datos en la siguiente tabla. Nos preguntamos si alguno de los datos de la tabla puede considerarse atípico o aislado.

No de hermanosFrecuenciaFrecuencia acumulada
022
1810
21525
3631
7132
9133

$\displaystyle\frac34 = 8,25 \implies Q_1=1$ $\displaystyle\frac{33\cdot 3}{4} = 24,75 \implies Q_3 = 2$

Valores aislados por la izquierda

$\displaystyle x\lt Q_1 -1,5\cdot(Q_3-Q_1) \implies x\lt 1-1,5\cdot (2-1) \implies x \lt -0,5$

No hay valores aislados por la izquierda

Valores aislados por la derecha

$\displaystyle x\gt Q_1 +1,5\cdot(Q_3-Q_1) \implies x\gt 2+1,5\cdot (2-1) \implies x \gt 3,5$

$x=7$ y $x=9$ serían valores aislados por la derecha.

Medidas de dispersión

Un alumno tiene tres exámenes con notas $6, 5$ y $4$ y otro alumno con notas $1, 5$ y $9$. Las notas medias de ambos es $5$ y la mediana también $5$, sin embargo estos parámetros no describen las características de ambas distribuciones puesto que se observa claramente que las notas del primer alumno son más homogéneas que las del segundo.

Por lo general, las medidas de centralización no detectan ciertas circunstancias de la distribución que son muy importantes y que deben tenerse en cuenta en lo que respecta a la descripción de dicha distribución. Las medidas de dispersión indican si los datos están más o menos agrupados respecto de las medidas de centralización. Fundamentalmente respecto a la media aritmética.

Rango y desviación media

En muchos procesos de fabricación se requiere mucha precisión en las medidas de determinadas piezas. Es extremadamente difícil conseguir medidas exactas puesto que toda máquina construida por el hombre es susceptible del error, no existe la máquina de precisión perfecta. Sin embargo, a pesar de estas mínimas diferencias, hay algunas piezas que deben rechazarse puesto que no cumplen con los criterios de medición que establecen. ¿Hasta qué punto las diferencias observadas son admisibles, pues no ocasionan ningún tipo de problema en el engranaje de dichas piezas? En estos criterios aparecen involucradas las medidas de dispersión, y entre ellas el rango y la desviación media.

Llamamos rango o recorrido, a la diferencia entre el mayor y el menor valor de la variable, indica la longitud del intervalo en el que se hallan todos los datos de la distribución. El rango es una medida de dispersión importante aunque insuficiente para valorar convenientemente la homogeneidad de los datos, de ahí que deba complementarse con otras medidas.

En este sentido encontramos la variación media que nos sirve para calcular cuánto se desvían en promedio los datos de la media aritmética. Se define como la media de los valores absolutos de las diferencias entre la media aritmética y los diferentes datos. No es una de las medidas de dispersión más usuales.

$$Dm = \frac{\sum_{i=1}^n \big| x_i - \={X} \big| \cdot f_i}{N}$$

En la siguiente escena puedes practicar con el cálculo del rango y la desviación media de variable tanto discreta como continua.

Escena desarrollada por José Ireno Fernández Rubio (RED Descartes)

Varianza

La medida de dispersión más popularizada es sin duda la varianza. La filosofía de esta medida es la misma que la de la desviación media; esto es, detectar las variaciones de cada valor respecto a la media aritmética. Sin embargo para ello en lugar de utilizar el valor absoluto, eleva esas diferencias al cuadrado, con ello evita posibles compensaciones, dado que todos los términos son positivos, y además al elevarlas al cuadrado amplifica estas diferencias si son mayores a uno en valor absoluto y las minora en caso de ser menores de uno (también en valor absoluto). Por último, considera el promedio de dichas diferencias al que denomina varianza.

Del mismo modo que ocurre para la media, la varianza es un parámetro muy sensible a las puntuaciones extremas. Ademas, las unidades en que se mide no son las mismas que las de los datos de la distribución.

Comparando con el mismo tipo de datos, una varianza elevada significa que los datos están más dispersos. Mientras que un valor de la varianza bajo indica que los valores están por lo general más próximos a la media.

Un valor de la varianza igual a cero implicaría que todos los valores son iguales, y por lo tanto también coinciden con la media aritmética.

$$S^2 = \sigma^2 = \frac{\sum_{i=1}^n \big( x_i - \={X} \big) \cdot f_i}{N}$$

Algunas propiedades de la varianza:

  • La varianza es un valor siempre positivo.
    $$Var(X) \gt 0$$
  • Si a todos los datos se les suma una constante, la varianza de esos datos sigue siendo la misma.
    $$Var(X+b) = V(X)$$
  • Si todos los datos se multiplican por una constante, la varianza queda multiplicada por el cuadrado de la constante.
    $$Var(a\cdot X) = a^2\cdot V(X)$$
  • Las dos propiedades anteriores suelen resumirse de la siguiente forma:
    $$Var(a\cdot X +b) = a^2\cdot V(X)$$
  • Si se disponen de dos variables independientes
    $$Var(X + Y) = Var(X) + Var(Y)$$ cuando $X$ e $Y$ son independientes

A partir de la definición de la varianza, si se desarrolla la expresión y simplificando los resultados se obtiene otra expresión para la misma que permite un cálculo más directo y sencillo.


$$S^2 = \sigma^2 = \frac{\sum_{i=1}^n x_i^2 \cdot f_i}{N} - \Big(\={X}\Big)^2$$

Suele recordarse diciendo:

"La varianza es igual a la media de los cuadrados menos el cuadrado de la media"

El principal inconveniente que presenta la varianza es que las unidades no son las mismas que las de los datos de la distribución (se ha elevado al cuadrado). Esto se solventa con la definición de un nuevo parámetro que se calculará a partir del anterior que es la desviación típica y que definimos en el siguiente apartado.

Desviación típica.

La estadística ha irrumpido en todas las facetas de la vida. En el mundo del deporte también desde hace tiempo. Los ojeadores y cazatalentos americanos fundamentalmente de baloncesto o de beisbol utilizan las estadísticas de los jugadores como elementos clave a la hora de negociar traspasos o contratos. Dentro de los parámetros que se estudian en cada jugador, la desviación típica en alguna de las facetas del juego pueden ser un magnífico elemento que defina un jugador como muy seguro o como irregular.

El término desviación típica fue incorporado a la estadística por Karl Pearson en 1894. La principal ventaja que representa la desviación típica respecto a la varianza es que su unidad de medida es la misma que la de los datos. Esto hace mucho más sencilla la posible interpretación.

La desviación típica es una medida del grado de dispersión de las observaciones alrededor de su valor medio, se define como la raíz cuadrada positiva de la varianza. Tiene el mismo cometido que ésta y además la ventaja de que las unidades en las que se mide son las mismas que las de los datos de la distribución. Puede considerarse la medida de dispersión por excelencia y aparece como tecla o función directa en cualquier calculadora o programa estadístico.

Si partimos de la definición de varianza, la fórmula para el cálculo de la desviación típica sería:

$$S = \sigma = \sqrt{\frac{\sum_{i=1}^n \Big( x_i - \={X}\Big)^2 \cdot f_i}{N}}$$

De la misma forma que en el apartado anterior, si desarrollamos y simplificamos la expresión anterior se llega a otra mucho más simple que es la que se utiliza en la práctica y cuya expresión es:

$$S=\sigma = \sqrt{\frac{\sum_{i=1}^n x_i^2 \cdot f_i}{N} - \Big(\={X}\Big)^2}$$

Obviamente, cuanto mayor sea la desviación típica, mayor será la dispersión de los valores de la distribución respecto a la media aritmética y, por tanto, bajará el nivel de representatividad de ésta con respecto a las observaciones.

Algunas propiedades de la desviación típica son las siguientes:

  • La desviación típica siempre es mayor o igual que cero.
    $$S(X)= S_x = \sqrt{Var(X)} \ge 0$$
  • La desviación típica no varía si a todos los datos le sumamos o restamos la misma cantidad
    $$S(X+b) = S(X)$$
  • Si multiplicamos todos los datos de la distribución por una cantidad, la desviación típica también queda multiplicada por dicha cantidad
    $$S(a\cdot X) = a\cdot S(X)$$
  • Las dos propiedades anteriores se suelen resumir en:
    $$S(a\cdot X + b) = a\cdot S(X)$$
  • En general, la desviación típica está menos influida por las fluctuaciones de los datos que las demás medidas de dispersión.

En la página siguiente presentamos dos escenas interactivas. En la primera, además de la desviación típica, puedes practicar calculando la varianza de distintas series de datos, tanto para variable discreta como continua. En la segunda escena puedes practicar con el cálculo de la desviación típica de variables discretas y continuas.




Escena desarrollada por José Ireno Fernández Rubio (RED Descartes)

Recuerda que puedes ampliar las escenas, para interactuar con ellas en una ventana aparte.



Escena desarrollada por José Ireno Fernández Rubio (RED Descartes)

Puedes practicar con el cálculo de parámetros de dispersión en ejercicios que tú mismo puedes plantear en el apartado sexto: "6. Manejo de Calculadora".

Coeficiente de variación de Pearson.

Qué es más homogénea, una población de perros con desviación típica $2 Kg$ u otra de vacas de desviación típica $5 Kg$?

Si se realiza un estudio estadístico en dos poblaciones diferentes, y queremos comparar resultados, no se puede acudir simplemente al valor de la desviación típica para ver la mayor o menor homogeneidad de los datos, es decir, el valor numérico por sí solo no nos indicará que distribución de datos está más o menos dispersa.

Recurrimos para ello a otro parámetro, llamado coeficiente de variación y que se define como el cociente entre la desviación típica y la media de una población. Es un coeficiente carente de unidades y sirve para comparar la dispersión de dos poblaciones distintas, correspondiendo a la población más homogénea un coeficiente de variación menor y a la menos homogénea un coeficiente de variación mayor.

$$CV = \frac{\sigma}{\={X}}$$

Practica con el cálculo del coeficiente de variación, en la siguiente escena.

Escena desarrollada por José Ireno Fernández Rubio (RED Descartes)

Puntuaciones típicas o normalizadas

Antonio obtuvo una nota en Matemáticas de $6,75$ en una clase en la que la media del examen fué $7,25$ y la desviación típica $1,75$. Alberto en cambio obtuvo una nota de $5,75$ en una clase en la que la media fue de $4,75$ y la desviación típica de $2$. Si suponemos que el profesor era el mismo, podríamos pensar comparativamente con su clase que nota es mejor, la de Antonio o la de Alberto. En este sentido, las puntuaciones típicas sirven para comparar datos correspondientes de distintas poblaciones.

Estas puntuaciones típicas son valores que resultan de dividir la diferencia de cada valor menos la media entre la desviación típica de la población. A este proceso también se le suele denominar tipificación. Una vez efectuada la tipificación obtendremos una variable estadística cuya media aritmética es cero y cuya desviación típica es uno.

Las puntuaciones típicas son el resultado de dividir las puntuaciones diferenciales entre la desviación típica. Este proceso se llama tipificación.

$$z = \frac{x-\={X}}{S_x}$$

Escena desarrollada por José R. Galo Sánchez (RED Descartes)

En la escena anterior, puedes observar, mediante la normalización de datos, la comparación de las notas dadas a $100$ alumnos por dos profesores. Se presentan cuatro situaciones.

¿Quieres efectuar la comparación de las notas de dos profesores tuyos? Puedes hacerlo en la siguiente escena, la cual también puedes utilizar como simulador de situaciones.

$$z = \frac{x-\={X}}{S_x}$$

Escena desarrollada por José R. Galo Sánchez (RED Descartes)

Manejo de calculadora.

La utilización de calculadoras en ejercicios de estadística es obviamente fundamental, tanto si se hacen manualmente (utilización de la calculadora para largas operaciones elementales habituales en este tipo de ejercicios), o si se quieren aprovechar otras ventajas directas del modo estadístico. Cualquier calculadora científica ofrece de forma directa el cálculo de los parámetros estadísticos más usuales.

Dependiendo del modelo, debes consultar el manual de uso para aprender a disponer la calculadora en modo ESTADISTICA UNIDIMENSIONAL y la forma en la que han de introducirse los datos. Este proceso de introducción de datos es el que suele variar de un modelo a otro, aunque en la mayoría el procedimiento es sencillo.

La calculadora de la RED DESCARTES, no tiene un condicionante material físico como las habituales del mercado, tiene un funcionamiento muy sencillo y alguna ventaja adicional con los modelos más simples que normalmente son de las que dispone el alumnado. Comentamos un poco la forma de trabajar con esta calculadora.

  • En primer lugar debemos acceder al MODO ESTADÍSTICA UNIDIMENSIONAL. Para ello simplemente pulsamos la tecla "STD".

  • Una vez pulsada esta tecla aparece otra pantalla con el título "Cálculos estadísticos".
  • Para la introducción de datos se procede insertando en la primera fila los valores de la variable separados por coma. Posteriormente en la segunda fila introduciremos sus respectivas frecuencias absolutas, también separadas por coma.
  • Una vez que compruebas que los datos son correctos, pulsando el botón "Calcula" y aparecerá la pantalla de resultados.

En la pantalla de resultados observarás:

  • Lista de datos ordenados.
  • Total de datos introducidos.
  • Media aritmética.
  • Mediana (discreta).
  • Moda (discreta).
  • Suma total de datos al cuadrado, (útil si quiero comprobar un ejercicio realizado manualmente construyendo una tabla).
  • Suma total de datos, (útil si quiero comprobar un ejercicio realizado manualmente construyendo una tabla).
  • Varianza poblacional.
  • Desviación típica poblacional.
  • Cuasi varianza, (útil en ejercicios de inferencia).
  • Cuasi desviación típica, (útil en ejercicios de inferencia).

En las siguientes escenas, diseñadas por Juan Jesús Cañas Escamilla, puedes plantear los ejercicios de variable discreta y continua con los datos que prefieras, inventados o procedentes de algún problema concreto. Las escenas admiten tabulaciones de hasta $36$ filas.

Una vez introducidos los datos al pulsar el control "Actualizar", se completa toda la tabla con todos los valores necesarios para el cálculo de los parámetros estadísticos. Si pulsas el control "Ver parámetros" puedes acceder al valor de dichos parámetros; media, mediana, moda, percentiles, desviación típica además de los diagramas de barras e histogramas de frecuencias relativas y relativas acumuladas.

Variable discreta

Variable continua

Problemas resueltos

A continuación tienes el enunciado de diferentes problemas. Trabájalos y una vez los hayas resuelto puedes hacer clic sobre el botón para ver la solución.

Créditos del capítulo

Parte II

Estadística bidimensional

Juan Jesús Cañas Escamilla
José R. Galo Sánchez

Karl Pearson (Londres, 27 de marzo de 1857, 27 de abril de 1936) fue un prominente científico, matemático y pensador socialista británico, que estableció la disciplina de la estadística matemática. Fue el fundador de la bioestadística, https://es.wikipedia.org/).

Introducción. Variable estadística bidimensional.

  • Los agricultores suelen anticipar como va a ir la cosecha teniendo en cuenta la evolución de las precipitaciones en determinados días del año, son las denominadas cabañuelas. Están analizando por tanto la aparente estrecha relación existente entre esas dos variables.
  • La nota de un alumno de segundo de bachillerato en una asignatura y la que obtiene después en selectividad en la misma materia también suelen guardar una “estrecha relación”.
  • La estatura y el peso de una población de individuos suelen estar bastante relacionadas.
  • Las horas de estudio y la nota final obtenida en un examen por supuesto suelen estar muy relacionadas de forma directa.
  • Lo que ocurre con las cotizaciones de ciertos valores en la bolsa de Tokio y lo que después pasa en las bolsas europeas.
  • Las horas de entrenamiento de un atleta y las marcas obtenidas también están muy relacionadas.
  • Los médicos están hartos de alertarnos de la altísima relación entre el consumo de tabaco y la incidencia del cáncer de pulmón.
  • Las notas obtenidas por un alumno en las materias de Matmáticas y Física, históricamente están muy relacionadas.
  • Una persona supersticiosa relaciona constantemente aunque de forma irracional variables causa efecto en muchas circunstancias de su vida.

En definitiva, el hombre siempre ha intentado buscar relaciones entre magnitudes de manera que conocida una de ellas, generalmente la menos “costosa”, le permita inferir lo más acertadamente posible los valores de la otra magnitud.

En este sentido la Estadística también ofrece su ayuda y aborda con bastante éxito esta empresa.

Así pues, en muchas ocasiones un trabajo estadístico necesita estudiar sobre cada individuo varias variables con el objeto de encontrar una posible relación entre las mismas.

Cuando sobre una población estudiamos simultáneamente dos variables estadísticas, al conjunto de los pares de valores correspondientes a cada individuo se denomina distribución bidimensional.

EJEMPLO 1

Las notas de $10$ alumnos en Matemáticas y en Lengua vienen dadas en la siguiente tabla:


MATEMÁTICAS2455667789
LENGUA22565758710

Los pares de valores {(2,2), (4,2), (5,5), ..., (8,7), (9,10)}, forman la distribución bidimensional.

EJEMPLO 2

Vamos a estudiar en los últimos doce años las precipitaciones medias en nuestro país, en litros por metro cuadrado y la producción de aceite en miles de toneladas métricas. Los datos aparecen reflejados en la siguiente tabla:

EJEMPLO 3

En una clase de $30$ alumnos y alumnas se ha realizado un estudio sobre el número de horas diarias de estudio X y el número de asignaturas suspensas al final de curso Se obtuvieron los siguientes datos:

$(2,0) , (2,2) , (0,5) , (2,1) , (1,2) , (2,1) , (3,1) , (4,0) ,(0,4) ,(2,2) ,\\ (2,1) , (2,1) , (4,0) , (3,1) , (2,4), (2,1) , (1,2) , (2,1) , (2,0) , (3,0) ,\\ (3,1) , (2,2) , (2,2) ,(2,1) ,(0,5) , (1,3) , (2,2) , (2,1) , (1,3) , (1,4)$

Tabulación de una variable bidimensional.

Una vez que hemos recogido todos los datos, la mejor forma de estudiarlos es disponerlos en una tabla estadística. Existen fundamentalmente dos tipos de tabulación para variables bidimensionales.

Tabla bidimensional simple. Está formada por tres filas o columnas en las que se representan ordenadamente los valores de las variables y sus frecuencias. La tabulación suele hacerse ordenando los datos de menor a mayor respecto a una de las variables. En caso de que todas las frecuencias sean iguales a uno, se puede omitir la fila o columna correspondiente a las mismas.

$X_1$$Y_1$$f_1$
$X_2$$Y_2$$f_2$
$\cdots$$\cdots$$\cdots$
$\cdots$$\cdots$$\cdots$
$X_m$$Y_m$$f_m$

Tabla de doble entrada. Está formada por tantas filas y columnas como valores tengamos de cada una de las variables, añadiendo una fila y una columna más para representar los totales. Está indicada para casos con bastantes datos, en los que para cada valor de una variable, existen varios valores de la otra.

Escogiendo la primera y la última fila, tenemos la tabla estadística correspondiente a la primera variable unidimensional. Con la primera y última columnas construimos la tabla correspondiente a la segunda variable unidimensional.

Estas dos distribuciones reciben el nombre de distribuciones marginales. En la última celda aparecerá el total de la última fila y de la última columna, es decir, el número total de elementos estudiados
($N$).

Además, en esta tabla puede resultar de interés estudiar distribuciones unidimensionales correspondientes a un valor determinado de alguna de las variables, llamadas distribuciones condicionadas.

Diagrama de dispersión.

En el caso en el que todas las frecuencias absolutas de cada valor $(x_i , y_i)$ sean unitarias, un diagrama de dispersión consiste en hacer corresponder de forma cartesiana los valores de la variable bidimensional con los puntos del plano. Para representar el dato correspondiente al par $(x_i, y_i)$, colocaremos un punto en esas mismas coordenadas.

En el caso en el que existan frecuencias absolutas distintas de uno. Se puede utilizar el denominado prismograma. Es similar a un diagrama de barras o de rectángulos, pero intentando darle un aspecto tridimensional.

Representamos tres ejes (igual que representamos los ejes $x, y, z$). En el eje vertical representamos las frecuencias y en los otros los valores de las variables $X$ e $Y$. Para cada par de valores $(x_i, y_j)$, representamos un prisma o una barra vertical de altura igual a su frecuencia. Este gráfico no se utiliza apenas porque su interpretación suele ser complicada.

Nota: Como alternativa al prismograma, se puede utilizar un diagrama de puntos en los que de forma “artesanal” se disponga en las coordenadas de cada valor, tantos puntos como indique su frecuencia absoluta.

O también un diagrama de puntos de mayor o menor grosor según sea la frecuencia absoluta.

Correlación.

El objetivo de cualquier estudio bidimensional es observar si existe algún tipo de relación entre las dos variables estudiadas. La relación entre las dos variables cuantitativas queda reflejada mediante la función a la que parece acercarse la nube de puntos representada en el diagrama de dispersión. Prestaremos una especial atención a relación lineal aunque puedan existir otras interesantes como la cuadrática, exponencial, etc.

  • Correlación curvilínea. La nube de puntos del diagrama de dispersión están situados alrededor de una línea curva.

  • Correlación lineal. La nube de puntos del diagrama de dispersión están situados alrededor de una línea recta.

  • Correlación lineal positiva. El caso especial de correlación lineal en el que al crecer una variable, crece también la otra.
  • Correlación lineal negativa. El caso especial de correlación lineal en el que al crecer una variable, la otra decrece.

  • Ausencia de correlación.. El caso en el que la nube de puntos del diagrama de dispersión, no se aproxima a ningún tipo de función.

Los principales componentes elementales de una línea de ajuste y, por lo tanto, de una correlación, son la forma, la fuerza y el sentido.

  • La forma establece el tipo de línea que que mejor adapta o ajusta la nube de puntos. La línea recta, la parábola, la función exponencial, etc.
  • La fuerza menor o mayor según los casos, mide el grado de bondad o grado en el que la función línea representa a la nube de puntos. En el caso de correlación lineal, si la nube es estrecha y alargada, esto indica que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o circular, la relación es débil.
  • El sentido mide la variación de los valores de una variable con respecto a la otra. En el caso de correlación lineal, si al crecer los valores de la primera, lo hacen también los de la segunda, la relación es directa (pendiente positiva); si al crecer los valores de $A$ disminuyen los de $B$, la relación es inversa (pendiente negativa).


Video

A continuación tenemos un vídeo que nos introduce en la idea general de relación entre variables o correlación.

Vídeo enlazado desde YouTube, licencia de YouTube estándar

Covarianza.

Hasta ahora hemos hablado de correlación entre variables y del caso particular que nos ocuparemos en este tema como es el de la correlación lineal en un sentido global y difuso. Hemos mencionado en algún momento que la correlación puede ser fuerte o débil, positiva o negativa, sin embargo ¿qué entenderemos por fuerte o débil?, ¿cómo mediremos esta correlación? Nos hace falta un indicador o medidor que nos permita condensar en un parámetro todas estas facetas de la correlación. En este sentido vamos a estudiar un parámetro que será crucial en la cuantificación de la correlación lineal. A este nuevo parámetro lo denominamos covarianza y se define como:

$$\sigma_{xy} = \frac{\sum_{i=1}^n \sum_{j=1}^m \Big(x_i - \={X}\Big)\cdot \Big(y_j - \={Y}\Big) \cdot f_{ij}}{N}$$

La fórmula anterior es de difícil cálculo. Como ocurría en el caso de la varianza, desarrollando y simplificando la expresión anterior se llega a otra mucho más sencilla en lo que respecta al cálculo práctico y que es la que se utiliza normalmente en cualquier tipo de problema.

$$\sigma_{xy} = \frac{\sum_{i=1}^n \sum_{j=1}^m x_i \cdot y_j \cdot f_{ij}}{N} - \={X} \cdot \={Y}$$

A pesar de disponer de las fórmulas anteriores, es muy importante que aprendas a utilizar tu calculadora para la realización de los problemas prácticos.

Lo más importante para la utilización de las calculadoras es la introducción de datos en el modo estadística, que todos los modelos de calculadora científica tienen.

En el caso de la calculadora Descartes, la introducción de datos es muy simple:

  • Teclea el botón "STD2"" y directamente te llevará a una pantalla con la opción de "INTRODUCIÓN DE DATOS".
  • Se abren tres espacios; uno para $X$, otro para $Y$ y otro para las frecuencias. Deberás introducir los datos correspondientes separados por una coma. Si no hay frecuencias es que todas valen uno.
  • Una vez introducidos los datos, elige la opción "ESCOGE TIPO DE AJUSTE". En nuestro caso el "Modelo lineal".
  • Ahora solamente tienenes que teclear "VER RESULTADOS". Aquí aparecerán todos los parámetros que necesitas, entre ellos la covarianza.

Puedes practicar con la calculadora de Descartes (haz clic en el icono de herramientas), aplicándola a ejemplos concretos.


Coeficiente de correlación lineal.

Se define este coeficiente como el cociente entre la covarianza y el producto de las desviaciones típicas de ambas variables, es decir:

$$r=\frac{\sigma_{xy}}{\sigma_x \cdot \sigma_y}$$ Karl Pearson

Este coeficiente tomará siempre valores comprendidos entre -1 y 1 y según sean estos, podremos deducir que:

  • Si $r = 1$, existe dependencia funcional, todos los puntos del diagrama de dispersión están situados en una línea recta creciente.
  • Si $0 \lt r \lt 1$, la correlación es positiva y será más fuerte según se aproxime a $1$
  • Si $r = 0$ o próximo a cero, no existe correlación lineal, pero puede existir correlación curvilínea.
    • Si $-1 \lt r \lt 0$, la correlación es negativa y será más fuerte según se aproxime a -1.
    • Si $r = -1$, existe dependencia funcional, todos los puntos del diagrama de dispersión están situados en una línea recta decreciente.

En la siguiente escena puedes observar y relacionar una nube de puntos con su correspondiente coeficiente de correlación lineal. La escena te permite tanto elegir el número de puntos con el que quieres trabajar como la modificación de la posición de dichos puntos ya que se trata de controles gráficos que se pueden mover simplemente pulsando y arrastrando. Puedes comprobar que determinadas formas curvilíneas (dependencia casi funcional), sin embargo toman como coeficiente de correlación lineal números próximos a cero. Es interesante que manipules la escena y observes qué ocurre con el coeficiente de correlación lineal. Extrae tus propias conclusiones.

A continuación de la escena, tenemos en un vídeo una clase de la Universidad de Salamanca sobre la correlación lineal.

Nube de puntos y valores del coeficiente de correlación lineal

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)


Video

Coeficiente de correlación de Pearson

Concepto de regresión. Método de los mínimos cuadrados.

Podemos decir que la regresión lineal es una técnica estadística que trata de estudiar la relación entre varias variables estadísticas. Cuando solamente tenemos dos variables diremos que estamos en regresión lineal simple. En investigación, el análisis de regresión se utiliza para predecir una de las variables a partir de la otra u otras.

Cuando la nube de puntos de un diagrama de dispersión nos informe de una posible correlación lineal, el análisis de regresión tendrá como gran objetivo la predicción de valores para la variable dependiente ($Y$) a partir de los valores de la variable independiente ($X$) utilizando para ello una función (una recta) que aproximará lo mejor posible a la nube de puntos.

El método que se utiliza para la localización de esta recta es el llamado de los mínimos cuadrados.

Para el caso anterior, el método consiste en considerar la función que determinaría la suma de todas las distancias verticales (coordenada $y_i$), elevadas al cuadrado para evitar que las positivas y negativas se contrarresten, entre cada punto y su proyección vertical sobre la hipotética recta. A esta función posteriormente se le calcula dónde alcanzaría el mínimo.

El método de mínimos cuadrados

El día de Año Nuevo de 1801, el astrónomo italiano Giuseppe Piazzi descubrió el planeta enano Ceres. Fue capaz de seguir su órbita durante $40$ días.

Durante el curso de ese año muchos científicos intentaron estimar su trayectoria con base en las observaciones de Piazzi, pero resolver las ecuaciones no lineales de Kepler de movimiento es muy difícil.

La mayoría de las evaluaciones fueron inútiles y el único cálculo suficientemente preciso que permitió a Franz Xaver von Zach, astrónomo alemán, reencontrar al final de ese año a Ceres fue el de Carl Friedrich Gauss. Gauss por entonces era un joven de 24 años, pero los fundamentos de su enfoque ya los había planteado en 1795, cuando tenía 18 años. Sin embargo, su método de mínimos cuadrados no se publicó sino hasta 1809 en el segundo volumen de su trabajo sobre mecánica celeste, "Theoria Motus Corporum Coelestium in sectionibus conicis solem ambientium"".

El francés Adrien-Marie Legendre desarrolló el mismo método de forma independiente en 1805.


Vídeo enlazado desde YouTube, licencia de YouTube estándar

Rectas de Regresión.

Como se ha mencionado anteriormente, en los casos en los que se observe cierto grado de correlación lineal, intentaremos aproximar la nube de puntos mediante una recta. A estas líneas se les llaman rectas de regresión. Dependiendo del procedimiento de minimización de distancias que se emplee, bien sean verticales u horizontales, y utilizando el procedimiento de mínimos cuadrados obtendremos dos tipos de recta:

  • Recta de regresión de $Y$ sobre $X$
    $$y - \={Y} = \frac{\sigma_{xy}}{\sigma_x^2} \cdot \Big( x- \={X}\Big)$$

  • Recta de regresión de $X$ sobre $Y$
    $$x - \={X} = \frac{\sigma_{xy}}{\sigma_y^2} \cdot \Big( y- \={Y}\Big)$$

Como puedes observar, se trata de las clásica expresión de una recta en su forma punto pendiente.

La obtención de las expresiones de las rectas anteriores no es sencilla. Como características fáciles de descubrir podemos señalar que el signo de la pendiente depende únicamente de la covarianza en ambas expresiones y que ambas pasan por el punto común: $$\big(\={X}, \={Y}\Big)$$

En la siguiente escena puedes practicar con el cálculo de todos los parámetros relacionados con la regresión en variables bidimensionales. Puedes introducir los datos que desees seleccionando previamente las filas que necesites (máximo de $36$). Sigue las instrucciones y podrás comprobar el valor de todos los parámetros y la representación gráfica de la nube de puntos y de las dos rectas de regresión.

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Es importante que practiques y construyas tablas tú mismo y que la escena te sirva de apoyo y comprobación de resultados. También convendría que supieras utilizar tu calculadora y usarla en los problemas prácticos. En este sentido, ten en cuenta que lo que puede variar en cada calculadora es la introducción de los datos.

Una vez que conozcas este procedimiento, el resto suele ser muy parecido. Como ejemplo, recordar el caso de la calculadora DESCARTES (ver el apartado 2.4.1). Realiza algún ejercicio de regresión utilizando la calculadora para variable bidimensional de DESCARTES.


Video

En el siguiente video puedes asistir a una clase sobre regresión lineal

Vídeo enlazado desde YouTube, licencia de YouTube estándar

En la siguiente escena puedes manipular la nube de puntos y observar como varía el ajuste por mínimos cuadrados y como cambian las rectas de regresión.

Escena desarrollada por Juan Jesús Cañas Escamilla y José R. Galo Sánchez (RED Descartes)

Una de las primeras acciones que se realizan en cualquier estudio estadístico es la depuración de los datos, localizando y decidiendo si los elementos anómalos que se denominan en la literatura científica como "outliers" o valores atípicos, deben tenerse en cuenta en la realización del estudio o no.

La siguiente escena sirve para analizar la influencia que puede tener la variación de un solo dato en un análisis estadístico, en concreto en la regresión lineal.

En la escena aparece una nube de puntos, el número de ellos se puede elegir mediante el control "número de puntos". A veces la nube aparece muy dispersa y aunque es posible realizar un ajuste lineal las conclusiones estadísticas serían muy poco o nada fiables, pero puede cambiarse sin más que pulsar el botón "Inicio". Uno de los puntos es un control gráfico que puede moverse y desplazarse a voluntad utilizando los dos controles situados abajo o directamente pulsando y arrastrando. Con el botón "ver rectas" se observa la solución global del problema. Mediante el botón "ver tabla" se pueden observar los datos reales del problema.

Con el botón "ver parámetros" puedes identificar todos los parámetros calculados y necesarios para el modelo de regresión. También se dispone de un botón para ver cómo varía el ángulo de las dos rectas y otro para un gráfico que relaciona el coeficiente de correlación y el ángulo al desplazar el punto variable. Haz clic en la imagen para abrir la escena.

Estimaciones.

Una vez que conocemos la mayor o menor relación entre las variables mediante el coeficiente de correlación lineal y que hemos calculado las rectas de regresión, podemos utilizarlas para predecir el valor de una de las variables a partir de la otra. La fiabilidad de la estimación depende fundamentalmente de dos consideraciones:

  • La primera que exista correlación lineal entre ambas variables. El dato será tanto más fiable cuanto más se aproxime el coeficiente de correlación lineal a $1$ o a $-1$.
  • La segunda que las rectas de regresión se han obtenido para unos valores concretos de $X$ y de $Y$. Aunque exista una correlación lineal fuerte, si intentamos hacer predicciones para valores de las variables lejanos a los estudiados, las estimaciones tampoco serán fiables y podemos llevarnos sorpresas.

    • Si se quiere estimar $Y$ para un determinado valor de $X$ emplearemos la recta de regresión de $Y$ sobre $X$.
    • Si se quiere estimar $X$ para un determinado valor de $Y$ emplearemos la recta de regresión de $X$ sobre $Y$.

En la siguiente escena puedes realizar estimaciones para ejercicios concretos. Puedes introducir los valores de $X$, de $Y$ y las frecuencias que desees. Una vez introducidos los datos sólo tienes que seguir las indicaciones que se dan en la escena y realizar las estimaciones que quieras, tanto para la variable $X$ como para la variable $Y$.

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Problemas resueltos

A continuación tienes el enunciado de diferentes problemas. Trabájalos y una vez los hayas resuelto puedes hacer clic sobre el botón para ver la solución.

Créditos del capítulo

Parte III

Combinatoria

Juan Jesús Cañas Escamilla
José R. Galo Sánchez

Percy Alexander MacMahon (26 de septiembre de 1854 - 25 de diciembre de 1929) fue un matemático que se destacó especialmente en el campo de las particiones de números y la combinatoria enumerativa, https://es.wikipedia.org/).

Introducción

En muchas ocasiones, en la vida real nos vemos en la necesidad de contar. Esta acción aparentemente sencilla puede llegar a ser muy complicada. El hecho de contar objetos presentes y observables directamente es muy simple, pero pensemos en situaciones donde la mera observación no basta. Imagina como contar todas las matrículas de automovil que pueden construirse con tres letras y cuatro números, imagina que necesitas conocer todos los signos de 5 elementos que se pueden formar con un punto y una raya, o todas las posibles banderas de tres franjas horizontales de distintos colores, ...

Como ves las situaciones son incontables y como ves también la expresión que continuamente aparece en este tipo de contexto es ¿CUÁNTOS...?

La parte de las matemáticas que se dedica al estudio de este tipo de situaciones es la Combinatoria. Esta teoría nos proporcionará las técnicas y fórmulas que permitan encontrar respuestas a muchos problemas como los anteriores. En combinatoria las cuestiones planteadas se analizan fundamentalmente atendiendo a las siguientes preguntas:

  • Elementos de que disponemos para formar los grupos.

  • Elementos que debe contener cada grupo.

  • Posibilidad de repetir elementos (o no) en los grupos.

  • La importancia o indiferencia en cuanto al orden en que aparecen los elementos en las agrupaciones.

Es evidente también que con un manejo aceptable de las técnicas de recuento que analizaremos en esta unidad; se pueden abordar de una forma más interesante problemas de probabilidad en los que el único enfoque posible sea el concepto de probabilidad en el sentido clásico de Laplace y nos veamos obligados a contar casos posibles y favorables.

A continuación tenemos tres vídeos que nos pueden ayudar a introducirnos en la combinatoria y su aplicación en la probabilidad.


Video

Vídeo enlazado desde YouTube, licencia de YouTube estándar


Videos

Vídeo enlazado desde YouTube, licencia de YouTube estándar
Vídeo enlazado desde YouTube, licencia de YouTube estándar

A continuación veamos una curiosidad que relaciona la combinatoria con la filosofía. Imaginemos que el libro definitivo, el que explica las verdades universales existe y que tiene por ejemplo 100 páginas. Con este simple supuesto, la combinatoria nos dice que dicho libro, en realidad es el fruto de una variación con repetición de 30 elementos ($26$ letras, el espacio entre palabras, el punto, la coma y los dos puntos) tomados de n en n (donde n es el total de signos que se podrían introducir en 100 páginas). En realidad las posibles agrupaciones son inimaginables , pero eso sí finitas.

Bueno ¡pues a trabajar! Pongamos a escribir a $1000, 10000, 1000000$ monos y tarde o temprano alguno de los monos será el autor de la obra definitiva. Será cuestion de descubrir la variación con repetición "ganadora". Esta anécdota es conocida como el teorema de los mil o de los infinitos monos y relaciona a estos monos con las obras de Shakespeare. Observa el siguiente vídeo:

Vídeo enlazado desde YouTube, licencia de YouTube estándar

Principio general de recuento

Las estafas piramidales, la extensión de rumores, las visitas a una página web,..., a menudo manejan o conducen a números escandalosamente grandes. Las circunstancias anteriores y muchas otras tienen como motor de transmisión algo tan simple como el "boca a boca", de manera que números pequeños conducen al final a situaciones inabarcables como resultado del principio general de recuento. También la base sobre la que se apoya el edificio de la teoría combinatoria es el principio general de recuento que a su vez es el mismo principio de cardinalidad del producto cartesiano en la teoría de conjuntos.

Si un experimento puede realizarse de $n$ formas diferentes y un segundo experimento puede hacerlo de $m$ formas diferentes; entonces los dos experimentos juntos se pueden realizar de $n\times m$ formas diferentes.

En el lenguaje de teoría de conjuntos se expresa como: $$\begin{rcases} Card(A) &= n \\ Card(B9 &= m \end{rcases}\implies Card(A\times B) = n\cdot m$$

  • $Card$ representa o significa cardinal, es decir, número de elementos del conjunto.
  • $A \times B$ significa producto cartesiano.
  • $Card(A)$ significa cardinal de $A$, es decir número de elementos de $A$.
  • $Card(B)$ significa cardinal de $B$, es decir número de elementos de $B$.

Veamos un par de ejemplos:

  • Ana tiene en su armario $6$ camisetas, $9$ pantalones de deporte y $8$ pares de zapatillas. Piensa si sería posible no repetir indumentaria durante todos los días del año.
    Aplicando el principio general de recuento: Identificamos indumentaria con $(C \times P \times Z)$; es decir el producto cartesiano de la terna de conjuntos $C$ (camisetas), $P$ (pantalones), y $Z$ (zapatillas).
    El número de indumentarias sería pués $6 \times 9 \times 8 = 432$ indumentarias diferentes.
  • Un conocido restaurante afirma que el cliente puede comer durante dos años sin repetir el menú. En la carta aparecen $8$ primeros platos, $15$ segundos y $8$ postres. Analiza si se trata de una propaganda cierta o no.
    Identificamos menú con $(PP \times SP \times P)$, es decir, el producto cartesiano de la terna de conjuntos $PP$ (primer plato), $SP$ (segundo plato), y $P$ (postre).
    El número de menús diferentes sería pués $8 \times 15 \times 8 = 960$, por tanto mucho más de dos años sin repetir menú.


Video

Observa el siguiente vídeo sobre el principio general de recuento:

Vídeo enlazado desde YouTube, licencia de YouTube estándar

Variaciones sin repetición

Supongamos que a un concurso literario en el que se conceden tres premios distintos, se presentan ocho escritores. Nos preguntamos por las distintas formas en las que se pueden conceder estos premios.
Este problema sin duda se puede resolver sin necesidad de conocimientos previos sobre combinatoria.

Pensemos que disponemos de tres puestos. Para el primero se puede elegir a cualquiera de los ocho participantes. Para el segundo, no puedo elegir al que ya está elegido para el primero, por tanto solamente podremos elegirlo entre los siete restantes. Para el tercero, siguiendo el mismo razonamiento nos quedarán seis participantes. Ahora aplicando el principio general de recuento al conjunto $(P1 \times P2 \times P3)$, el total de resultados posibles para el reparto de los tres premio sería: $8 \times 7 \times 6 = 336$.

En combinatoria, denominamos variaciones ordinarias o sin repetición de $n$ elementos tomados de $m$ en $m$ (siendo $m$ menor o igual que $n$) a cada uno de los distintos grupos de $m$ elementos escogidos de entre los $n$, de manera que:

  • En cada grupo, los $m$ elementos sean distintos.

  • Dos grupos son distintos, si difieren en algún elemento o en el orden de colocación.

El número de variaciones ordinarias lo representamos $V_{n,m}$ y se calcula:


$$V_{n,m} = n\cdot (n-1)\cdot (n-2)\cdot \cdots \cdot (n-m+1)$$

En la siguiente escena puedes practicar con la formación de algunas variaciones sin repetición. A medida que practicas irás descubriendo como se van construyendo, sus características y la idea que permite calcular el número total de variaciones sin repetición.

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Variaciones con repetición

Dentro de los juegos de apuestas más populares en España se encuentra sin duda la quiniela de fútbol. ¿Cuántos resultados posibles pueden darse en catorce encuentros entre equipos de primera y segunda división?. Este problema puede resolverse también sin conocimientos previos de combinatoria.

Imaginamos que cada resultado es un grupo de $14$ símbolos y que dichos símbolos solamente pueden ser $1, X$ o $2$. Así para el primer signo que pongamos tendremos $3$ posibilidades, para el segundo también otras $3$ y así sucesivamente hasta llegar al símbolo $14$. Ahora no tenemos más que aplicar otra vez el principio general de recuento al conjunto $(P_1\times P_2\times \cdots \times P_{14})$.

Piensa también por ejemplo en:

  • Un entrenador de fútbol dispone en la plantilla de su equipo de $7$ delanteros de la misma calidad y que pueden actuar indistintamente en los tres puestos de ataque del equipo. ¿Cuántas delanteras distintas podría confeccionar?
  • ¿De cuántas maneras diferentes se pueden repartir tres premios distintos entre Juan, Pedro, María, Alicia y Pilar?

En combinatoria denominamos variaciones con repetición de $n$ elementos tomados de $m$ en $m$, (obsérvese que no hay restricción alguna en cuanto a los valores de $n$ y $m$), a los distintos grupos de $m$ elementos, repetidos o no, que se pueden formar. Considerando:

  • En cada grupo hay $m$ elementos repetidos o no.
  • Dos agrupaciones son diferentes si difieren en algún elemento o en el orden de colocación.

Al número de variaciones con repetición lo denotaremos, $VR_{n,m}$ y se calcula:

$$VR_{n,m} = n^m$$

En la siguiente escena puedes practicar con la formación de algunas variaciones con repetición. A medida que practicas irás descubriendo cómo se van construyendo, sus características y la idea que permite calcular el número total de variaciones con repetición.


Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Observa que para $3$ elementos, tomados de $2$ en $2$, el número de variaciones es $3^2$:

Permutaciones sin repetición

Imaginemos cuatro amigos que deciden fotografiarse juntos en una fiesta para conservar el momento. Si deciden que la fotografía sea de los cuatros en línea. ¿De cuántas formas diferentes podrán realizar la fotografía?.

Un primer análisis de la situación nos sitúa el problema al mismo nivel del que se resolvió en el epígrafe correspondiente a las variaciones sin repetición. En realidad se trata del mismo razonamiento. La primera posición la pueden ocupar cualquiera de los cuatro amigos. La segunda la pueden ocupar cualquiera menos el que ocupó la primera, es decir tres posibilidades , y así seguiremos hasta la cuarta posición que podrá ser ocupada por una persona. Aplicando ahora el principio general de recuento al conjunto $(B_1\times B_2\times B_3\times B_4)$, el número de posibles agrupaciones sería $4 \times 3 \times 2 \times 1 = 24$ resultados distintos.

Existen muchas situaciones en las que se puede aplicar el mismo razonamiento.

  • ¿De cuántas formas diferentes se pueden sentar 5 amigos en una fila de cinco butacas en un cine?
  • Un técnico de sonido tiene que unir $10$ terminales en $10$ conexiones. Si lo hiciera al azar, ¿ de cuántas formas diferentes podría completar las conexiones?
  • ¿De cuántas formas diferentes se pueden introducir 4 cartas diferentes en 4 sobres distinto?


Video

Vídeo enlazado desde YouTube, licencia de YouTube estándar

Denominamos permutaciones ordinarias o sin repetición de $n$ elementos, a cada uno de los distintos grupos que pueden formarse de manera que:

  • En cada grupo entran todos los $n$ elementos.
  • Un grupo se diferencia de otro únicamente en el orden de colocación de los elementos.

Al número de permutaciones ordinarias de $n$ elementos lo representaremos por $P_n$ y se calcula:

$$P_n = n\cdot (n-1)\cdot (n-2)\cdot ... \cdot 3\cdot 2\cdot 1$$

a este número se le denomina factorial de $n$ y se representa como $n!$ Se utiliza tanto, que aparece como tecla directa en todas las calculadoras científicas.

$$n! = n\cdot (n-1)\cdot (n-2)\cdot ... \cdot 3\cdot 2\cdot 1\\ \text{Si } n=0 \implies 0! = 1\\ \text{Si } n=1 \implies 1! = 1$$

En la siguiente escena puedes practicar con la formación de algunas permutaciones sin repetición. A medida que practicas irás descubriendo como se van construyendo, sus características y la idea que permite calcular el número total de permutaciones sin repetición.


Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Permutaciones con repetición

Supongamos que disponemos de $3$ vasos azules iguales, $2$ vasos iguales amarillos y $1$ naranja. Si quisiéramos ponerlos en línea recta en una estantería. ¿De cuántas formas distintas lo podríamos hacer?

Para ayudar a contar todos los casos y ayudándonos de que conocemos las permutaciones sin repetición, vamos a pegar en la parte opuesta, la que vemos, etiquetas que identifiquen y distingan como distintos a todos los vasos. De esta forma disponemos de $6$ vasos distintos que se pueden ordenar de $6!$ formas distintas.



Es decir, que si giramos los vasos para que se vean las etiquetas distinquiríamos todas las permutaciones, pero si no vemos las etiquetas, ordenaciones que antes eran distintas las veríamos iguales.

Las permutaciones anteriores serían identificadas como:

La idea, por tanto, para contar las permutaciones con repetición es identificar como una sola agrupación las, en nuestro caso, $2!$ y $3!$ reordenaciones que no distinguiríamos. No se distinguirían por tanto $(2! \times 3! \times 1!)$ permutaciones

A continuación puedes observar como se irían confeccionando algunas de las permutaciones con repetición de 6 elementos de los que uno se repite tres veces, otro dos veces y otro una vez:

Denominamos permutaciones con repetición de $n$ elementos en los que uno de ellos se repite $a$ veces, otro $b$ veces y así hasta el último que se repite $k$ veces, donde $(a+b+c+\cdot k = n)$ a todas las ordenaciones posibles de estos $n$ elementos.

Consideramos dos ordenaciones distintas si difieren en el orden de colocación de algún elemento (distinguible).

Denotaremos a este tipo de permutación como: $$\LARGE P_n^{a,b,c, \cdot k}$$ y se calcula como:

$$P_n^{a,b,c, \cdot k} = \frac{n!}{a!\cdot b!\cdot c!\cdot ...\cdot k!}$$

En la siguiente escena puedes practicar con ejemplos de formación de algunas permutaciones con repetición.


Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Combinaciones sin repetición

Existen muchas situaciones en las que el orden deja de ser determinante. Pensemos en un pintor que dispone de cinco colores, rojo, azul, verde, negro y blanco. Desea conseguir nuevos colores mezclando cantidades iguales de tres colores diferentes de los cinco que dispone en su paleta. El orden en que mezcle los colores seleccionados no es significativo, es decir, el resultado de mezclar rojo, blanco y verde es exactamente el mismo que el de mezclar verde, blanco y rojo.


Así pues, todas las permutaciones de estos tres colores se deberían analizar como una sola agrupación. Por tanto, para localizar todos los posibles colores resultantes de la mezcla de tres de los cinco de que disponemos, $V_{5,3}$ entre las $P_3$.

A este tipo de agrupación la denominaremos Combinación sin repetición

Existen otras muchas situaciones parecidas en las que necesitamos conocer el número de agrupaciones en las que NO IMPORTA EL ORDEN. Por ejemplo:

  • Seleccionar cuatro alumnos de una clase que irán de excursión
  • Repartir cinco entradas entre diez amigos para ir a un concierto.
  • Juego de la lotería primitiva

entre otras muchas más.

Denominamos combinaciones ordinarias o sin repetición de $n$ elementos tomados de $m$ en $m$, (siendo $m$ menor o igual que $n$) a las distintas agrupaciones de $m$ elementos de manera que:

  • En cada grupo entren $\bold{m}$ elementos distintos
  • Dos grupos son distintos si difieren en algún elemento. El número de combinaciones ordinarias de $\bold{m}$ elementos tomados de $m$ en $m$ , lo denotaremos $\bold{C_{n,m}}$ y se calcula:
$$C_{n, m} = \dbinom{n}{m} = \frac{n!}{m!\cdot (n-m)!}$$

Se puede observar fácilmente que: las combinaciones sin repetición de $n$ elementos tomados de $m$ en $m$, podrían formarse a partir de considerar las variaciones sin repetición de $n$ elementos tomados de $m$ en $m$ y posteriormente identificar las posibles reordenaciones de una agrupación, (permutaciones de $m$ elementos), como una única ya que el orden no interviene en la agrupación que estamos considerando; esto es:

$$V_{n, m} = C_{n, m}\cdot P_m \implies C_{n, m} = \frac{V_{n, m}}{P_m}$$


Video

En el siguiente video podemos observar el planteamiento de un problema que requiere de la combinatoria y su solución.

Vídeo enlazado desde YouTube, licencia de YouTube estándar

En la siguiente escena puedes practicar con ejemplos de formación de algunas combinaciones sin repetición.


Escena desarrollada por Juan Jesús Cañas Escamilla Y Juan Guillermo Rivera Berrío(RED Descartes)

Propiedades de los números combinatorios

Los números combinatorios aparecen muy frecuentemente en multitud de situaciones en Matemáticas, Física, Biología, etc...Figuran como tecla directa en cualquier calculadora científica. Como propiedades más interesantes merecen destacarse:

$1. \dbinom{n}{0} = 1\\ 2. \dbinom{n}{n} = 1$

$3. \dbinom{n}{1} = n\\ 4. \dbinom{n}{m} = \dbinom{n}{n-m}\\ 5. \dbinom{n}{m} + \dbinom{n}{m+1} = \dbinom{n+1}{m+1}$

Cuando no existían calculadoras científicas, el cálculo de números combinatorios requería de un trabajo complicado. El triángulo de Pascal permitía de una forma recurrente y muy fácil calcular cualquier número combinatorio, aunque es verdad que para cantidades elevadas también era bastante engorroso.

En la siguiente escena puedes ver muchas líneas del triángulo de Pascal y unas propiedades curiosas.

Escena desarrollada por Miguel Ángel Cabezón Ochoa (RED Descartes)

Binomio de Newton

Una de las aplicaciones más interesantes desde el punto de vista algebraico para los matemáticos, constituye el desarrollo de las distintas potencias de un binomio. Conocido como binomio de Newton, utiliza los números combinatorios y sus propiedades para desarrollar de forma fácil y directa la potencia natural de cualquier expresión del tipo:

Combinaciones con repetición

Supongamos que un amigo nos invita a merendar a su casa. Como a las seis personas que estaremos en la merienda nos gustan los pasteles, quiero llevar media docena que compraré en la pastelería de la esquina. Al entrar en el establecimiento, la oferta es impresionante. Hay mucha variedad, piononos de Rute, piononos de Santa fé, milhojas, brazo de gitano, bizcotelas, borrachos, etc. En total la oferta es de $20$ variedades de pasteles diferentes. ¿De cuántas formas puedo hacer mi compra?

Analizando un poco el problema, en realidad no importa el orden en que aparezcan los pastelitos en mi bandeja. Observamos también que pueden repetirse pasteles, incluso se podría comprar una bandeja de seis dulces iguales.

Estamos por tanto ante una combinación (no importa el orden), y con posibilidad de repetición. Estamos ante una combinación con repetición de $20$ elementos tomados de $6$ en $6$: $CR_{20,6}$.

Denominamos combinaciones con repetición de $n$ elementos tomados de $m$ en $m$ (ninguna limitación con respecto a $n$ y $m$), a las distintas agrupaciones de $m$ elementos elegidos de entre los $n$ de manera que:

  • En cada grupo entren $\bold{m}$ elementos repetidos o no
  • Dos grupos son distintos si difieren en algún elemento.

El número de combinaciones ordinarias de $n$ elementos tomados de $m$ en $m$, lo denotaremos $CR_{n,m}$ y se calcula:

$$\Large CR_{n, m} = \large{\dbinom{n+m-1}{m}}$$

Para explicar la fórmula anterior vamos a desarrollar un método de codificación que nos ayude sobre un ejemplo concreto y que sea un poco más fácil que el del principio. Supongamos que en un restaurante se ofrecen cuatro posibilidades de menús; digamos $A, B, C$ y $D$. Si un grupo de $6$ amigos decide hacer un pedido, calculemos todos los casos distintos que podrían realizarse. Desde el punto de vista combinatorio, estamos ante combinaciones con repetición de cuatro elementos tomados de seis en seis.

En primer lugar utilizamos tres líneas (rayas) para separar las cuatro posibles opciones de los distintos menús. También utilizaremos el símbolo($\LARGE .$) (punto) para significar el pedido de cada persona. De esta forma, el pedido de por ejemplo cuatro menús $A$ y dos menús $B$ lo codificaríamos:

Es decir, el código del pedido sería:

Si por ejemplo quisiéramos expresar el pedido de seis menús $D$ su codificación sería la siguiente:

La posición inversa también se manifiesta asequible, es decir, descifrar cualquier código que se confeccione con tres rayas y seis puntos como un determinado y único pedido también sería sencillo. Por ejemplo si queremos descifrar el código $\LARGE ..|..||..$, lo podríamos interpretar como dos menús $A$, dos menús $B$, ningún menú $C$ y dos menús $D$.

Veamos algún ejemplo más de codificación:

Se ha establecido por tanto una correspondencia biunívoca entre las combinaciones con repetición de cuatro elementos tomados de seis en seis y las distintas agrupaciones de seis puntos y tres rayas; esto es, las permutaciones con repetición de 9 elementos donde uno se repite tres veces y otro seis. A su vez, este tipo de agrupación, podría ser considerada como una combinación de 9 elementos tomados de 6 en 6.

$$\large CR_{4,6} = PR_9^{6,3} = \frac{9!}{6!\cdot 3!} = \dbinom{9}{6} = \dbinom{4+6-1}{6}$$

En la siguiente escena puedes practicar con ejemplos de formación de algunas combinaciones con repetición.


Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

Resumen

En el siguiente video puedes observar de forma resumida todos los casos de agrupaciones enumerados en este tema.

Desde el punto de vista práctico, es muy importante tener las ideas muy claras sobre el tipo de conjunto al que nos estemos refiriendo en cualquier problema de combinatoria.


Video

Vídeo enlazado desde YouTube, licencia de YouTube estándar

También conviene saber que a menudo los problemas de este tipo no son puros, es decir no se trata de combinaciones puras o variaciones puras,sino que tendremos que aplicar las técnicas de recuento y también la lógica y la particular creatividad que requiera la situación. En este sentido la siguiente escena te ayudará a manejar estos contextos en los que está involucrada la combinatoria.


Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

El siguiente cuadro resumen con ejemplos también puede servirte de ayuda (haz clic en la imagen).



Video

Para empezar a hacer problemas, puedes ver el siguiente vídeo:

Vídeo enlazado desde YouTube, licencia de YouTube estándar

Problemas resueltos

A continuación tienes el enunciado de diferentes problemas. Trabájalos y una vez los hayas resuelto puedes hacer clic sobre el botón para ver la solución.

Créditos del capítulo

Parte IV

Probabilidad

Juan Jesús Cañas Escamilla
José R. Galo Sánchez

Christiaan Huygens (La Haya, 14 de abril de 1629 - ibídem, 8 de julio de 1695) fue un astrónomo, físico, matemático e inventor neerlandés. Hizo aportes importantes en la teoría de la probabilidad, fue miembro de la Royal Society (https://es.wikipedia.org/). Crédito imagen: Caspar Netscher , Dominio Púublico.

Introducción

La innata curiosidad del ser humano, ha hecho que desde siempre el hombre se haya interesado tanto por el motivo por el que ocurren los fenómenos como por adivinar lo que deparará el futuro. Para ello ha recurrido a todo, astrólogos, profetas, adivinadores, brujos…, utilizando los métodos más inverosímiles; desde la superstición, la observación e interpretación de los vuelos de aves, la lectura de vísceras de animales sacrificados, la magia y rituales sacerdotales hasta las más sofisticadas formulaciones en las teorías más recientes.

En muchas ocasiones el éxito ha sido completo de manera que ante unas determinadas condiciones iniciales se pueden concluir unos resultados determinados completos y precisos. Sin embargo existen experiencias que escapan al determinismo, es como si no se pudieran someter a las leyes que el hombre ha descubierto y que por tanto imposibilitan ante una determinada situación o experiencia concluir un resultado determinado. Estamos en un contexto tan difícil y extraño en el que las reglas dependen de tantos parámetros que hacen inviable la predicción o quizás ni siquiera existan estas reglas. Estamos en el territorio del azar Se dice que el origen de la probabilidad es un tanto accidental y fruto de las disquisiciones sobre una determinada jugada de dados que obsesionaba a un antiguo escritor y jugador francés del siglo XVII, Antoine Gombaud, conocido por Chevalier de Mère, amigo del matemático también francés Blaise Pascal al cuál pedía consejo respecto a las garantías de éxito que ofrecía dicha jugada. Chevalier de Mère
Blaise Pascal


Video

En el siguiente vídeo se plantea el denominado problema del caballero de Mére. Se inicia en el instante que comienza a plantearse el mismo, pero si quieres puedes verlo desde su inicio.

Vídeo enlazado desde YouTube, licencia de YouTube estándar

El problema de Mére

La historia se pone de acuerdo en que el cruce de correspondencia respecto a dicho problema que establecen Pascal y el genial abogado y matemático también francés Pierre de Fermat, puede considerarse como origen de esta teoría.

Posteriormente es el matemático Christian Huygens quien publica en 1656 el primer libro impreso sobre probabilidad, De ratiociniis in ludo aleae. Es sobre todo en el siglo siguiente cuando el matemático francés Abraham de Moivre profundiza e impulsa de forma más intensa el estudio de la probabilidad con la introducción de importantes conceptos como el de la normal.


Video

En el siguiente vídeo podemos ver una visión de la probabilidad en el programa REDES

Vídeo enlazado desde YouTube, licencia de YouTube estándar

Experimentos aleatorios y deterministas

Existen experimentos en los que conocidas las condiciones iniciales se pueden predecir los resultados finales. Por ejemplo:

  • Un móvil que realiza una trayectoria con una velocidad uniforme, emplea un determinado tiempo en recorrer un espacio. Si se repite la experiencia y se mantiene la velocidad tardará el mismo tiempo en recorrer dicho espacio.
  • Un objeto que se deja caer desde cierta altura, alcanza el suelo con una determinada velocidad final. Si repetimos el experimento en idénticas condiciones, se repetirán también los resultados.

Sin embargo, existen experiencias en las que no ocurre esto o por lo menos así lo parece:

  • Cuando lanzamos una moneda no trucada al aire, no sabemos si va a salir cara o cruz.
  • En el lanzamiento de un dado no podemos decidir cuál de las seis caras saldrá.
  • Multitud de juegos, como la lotería, la quiniela, los dados, la primitiva... tienen en común que el resultado final es impredecible.

A todos estos experimentos se les denomina aleatorios. ¿Y quién se atreve a estudiar concienzudamente este tipo de experimentos cuyos resultados parecen escapar de todo control y lógica? La respuesta la encontramos, evidentemente, en las Matemáticas y sobre todo y especialmente en algunos matemáticos. Es fundamentalmente a partir del siglo XVIII cuando se estructuran, proponen y desarrollan los conceptos relacionados con la probabilidad hasta cotas realmente prodigiosas.

En este tema vamos a utilizar un vocabulario bastante específico con

algunos conceptos que seguramente ya conoces de cursos anteriores pero que conviene recordar.

En el siguiente enlace puedes informarte sobre alguno de los más importantes matemáticos que trabajaron sobre el tema así como de sus contribuciones (haz clic sobre la imagen).

Espacio muestral

En cualquier experimento aleatorio la primera cosa que nos preguntamos es sobre lo que puede pasar. ¿Qué resultados puede ofrecer y cuáles no? Sería muy interesante disponer de todo el abanico de posibles resultados. En este sentido, al conjunto formado por todos los posibles resultados elementales de un experimento aleatorio se le denomina espacio muestral de dicho experimento. Dependiendo de como sea este conjunto, los espacios muestrales pueden ser:

  • Espacio muestral discreto finito. Consta de un número finito de elementos, por ejemplo lanzar un dado.
  • Espacio muestral discreto infinito. Consta de un número infinito numerable de elementos, por ejemplo lanzar un dado hasta que salga un cinco.
  • Espacio muestral continuo. Consta de un número infinito no numerable de elementos, por ejemplo todas las medidas posibles de espárragos extraidos aleatoriamente de una población.

Consideremos por ejemplo:

  1. El experimento consistente en el lanzamiento de un dado y anotar el resultado de la cara superior. El espacio muestral sería: $$E = \lbrace 1,2,3,4,5,6\rbrace$$
  2. El experimento consistente en el lanzamiento de dos monedas al aire. El espacio muestral o conjunto de todos los resultados elementales posibles sería: $$E = \lbrace CCC, CCF, CFC, FCC, CFF, FCF, FFC, FFF\rbrace$$
  3. El experimento consistente en elegir aleatoriamente cualquier número de tres cifras mediante la extracción con reemplazamiento de bolas de una urna en la que aparecen las diez cifras significativas. El espacio muestral sería: $$E = \lbrace 000, 001, ..................., 999\rbrace$$
  4. El experimento consistente en el lanzamiento de dos dados de los que después se escogera la mejor de las puntuaciones. El espacio muestral sería: $$E = \lbrace 1,2,3,4,5,6\rbrace$$
  5. El experimento consistente en abrir aleatoriamente un libro y anotar después la primera letra de la página de la izquierda. El espacio muestral en este caso sería: $$E = \lbrace A, B, ................., Z\rbrace$$

Los ejemplos que podrían exponerse son innumerables y seguro que ya estás pensando en diversas situaciones. No obstante, de partida, queremos que te fijes y pienses en lo que te vamos a exponer. Observa el ejemplo (1) y el (4), el espacio muestral es el mismo, pero ¿puede considerarse el mismo?, esto es, los sucesos que aparecen sí son los mismos pero la ocurrencia de cada suceso en el experimento (1) no tiene el mismo comportamiento que la ocurrencia de cada suceso en el experimento (4) ¿No te parece?

En la siguiente escena puedes observar algunos ejemplos de experimentos aleatorios, sus espacios muestrales y cómo construirlos.

Escena desarrollada por José R. Galo Sánchez (RED Descartes)

Sucesos y tipos de sucesos

En el contexto probabilístico, denominamos suceso a cualquier subconjunto de un espacio muestral; esto es, a cualquier posible resultado de un experimento aleatorio.

  • Suceso elemental. Un suceso se dice que es un suceso elemental si está formado por un único elemento del espacio muestral. Por ejemplo, al tirar un dado el suceso consistente en obtener un cinco.
  • Suceso compuesto. Un suceso se dice que es un suceso compuesto si está formado por más de un elemento del espacio muestral. En el mismo ejemplo anterior obtener un número par, es decir, que salga un $2$ o un $4$ o un $6$.

Entre los diferentes sucesos destacaremos los siguientes:

  • Suceso seguro. El suceso seguro es aquél que está formado por todos los resultados posibles del espacio muestral ($E$), es decir aquél que se cumple siempre. Por ejemplo al tirar un dado cúbico obtener un número del uno al seis.
  • Suceso imposible. El suceso imposible es aquél que no ocurre nunca. Se expresa con el símbolo $\empty$. Por ejemplo, obtener un ocho al tirar un dado cúbico.
  • Suceso contrario o complementario de otro suceso, Se define el suceso contrario a $A$ como el suceso que acontece cuando no ocurre $A$. El suceso contrario a obtener un número par es obtener uno impar. Suele denotarse como: $$A^C\;\text{ o }\; \={A}$$

En la escena siguiente puedes observar algunos ejemplos de un suceso y del suceso contrario o complementario.

Escena desarrollada por José R. Galo Sánchez (RED Descartes)

Operaciones con sucesos

Desde el punto de vista matemático es importantísimo definir en este conjunto de todos los sucesos asociados a un experimento aleatorio, operaciones matemáticas que permitan la manipulación e interacción entre ellos.

Así se pueden definir en el conjunto de todos los sucesos asociados a cualquier espacio muestral, fundamentalmente dos operaciones que dotarán a dicho conjunto de una sólida estructura matemática importante conocida con el nombre de Álgebra de Boole.

Unión de sucesos

Imaginemos que María y Luis celebran su cumpleaños el mismo día. María ha decidido invitar a sus amigos y Luis a los suyos. Cotejando las respectivas listas de invitados observaron que alguno de ellos estaba invitado a ambas fiestas. ¿A cuál de ellas asistirían?. Este problema puede resultar embarazoso hasta que a ambos cumpleañeros se les ocurre la solución mágica. ¿Y si UNIMOS ambas fiestas y la celebramos juntos. El suceso unión de $A$ y $B$ es el suceso que ocurre cuando ocurre $A,$ ocurre $B$ u ocurren ambos. Está formado por todos los elementos de $A$ y todos los de $B$. Lo indicamos así:

Intersección de sucesos

A Juan le gusta el fútbol, el baloncesto, las películas de aventuras, la música clásica y los documentales de viajes. A su amiga Irene le van las películas románticas, el tenis, la música disco y los documentales de viajes. ¡Qué pocas cosas tenemos en común! exclamó Irene. Sin embargo podríamos quedar para ver algún documental de viajes. Efectivamente es algo que ambos adoramos. Es nuestra INTERSECCIÓN agregó Juan.

El suceso intersección de $A$ y $B$, es el suceso que ocurre cuando ocurre $A$ y ocurre $B$. Está formado por los resultados comunes a los sucesos $A$ y $B$. Lo indicamos así:

Resta de sucesos

El lunes Manuel salió con sus amigos Miguel, Pablo, María , Laura y Sofía y se le ocurrió contar una ocurrencia muy graciosa que le paso en su último viaje. Fue muy divertido y a todos les entusiasmó.

El jueves siguiente Manuel volvió a salir con otro grupo de amigos entre los que también estaban Laura y Sofía. Manuel volvió a contar la misma anécdota pero antes se disculpó con Laura y Sofía diciéndoles que por favor no contaran el final. Por supuesto que al RESTO de el grupo les resutó igual de divertida.

En realidad no se trata de una nueva operación ya que se define a partir de las dos operaciones anteriores. Sin embargo dada la gran asiduidad y el carácter fundamentalmente práctico con el que aparece en muchas situaciones, merece la pena que hablemos de ella en un apartado propio.

La diferencia de dos sucesos($A-B$) es el suceso que ocurre cuando ocurren los elementos de $A$ que no están en $B$.

Representamos la resta de sucesos como:

En relación con las operaciones unión e intersección surgen también dos importantes tipos de sucesos.

  • Cuando se verifica que la intersección es vacía; ($= \empty$), se dice que los sucesos $A$ y $B$ son dos sucesos incompatibles.
  • Cuando se verifica que la intersección es distinta del vacío ($\ne \empty$), se dice que los sucesos $A$ y $B$ son dos sucesos compatibles.
Escena desarrollada por Juan Guillermo Rivera Berrío (RED Descartes)

Álgebra de Boole de sucesos

Consideremos un experimento aleatorio. Dicho experimento tendrá asociado un espacio muestral ($E$). Consideremos también en dicho espacio muestral el conjunto de todos los sucesos posibles de dicho experimento al que normalmente se le nota con la letra griega omega.

$$\Large \Omega$$

El conjunto de todos los sucesos de un espacio muestral, junto con las operaciones unión e intersección definidas anteriormente, cumple una serie de propiedades que lo dotan de una estructura matemática conocida como álgebra de Boole.

$$\large (\Omega, \cup, \cap)\;\;\text{ tiene estructura de álgebra de Boole}$$

En el siguiente cuadro se resumen las propiedades y consecuencias directas más importantes que se desprenden de dicha estructura.

Dos consecuencias que se derivan de estas propiedades, son:

$$A \cup \empty = A\;\;\text{ y }\;\; A\cap \empty = \empty\\ A \cup E = E\;\;\text{ y }\;\; A\cap E =A$$

Una tercera consecuencia son las leyes de De Morgan, que son muy útiles en la práctica, ya que en muchas situaciones se podrán calcular probabilidades de un suceso a partir de las probabilidades de otros más fáciles o bien que se den como datos. Recuerda por tanto:

$$\Large \overline{A\cup B } = \={A} \cap \={B}$$
El complementario de la unión es la intersección de los complementarios

$$\Large \overline{A\cap B} = \={A} \cup \={B}$$
El complementario de la intersección es la unión de los complementarios

Escena desarrollada por Juan Guillermo Rivera Berrío (RED Descartes)

Sistema completo de sucesos

En muchas ocasiones es muy útil considerar en el espacio muestral asociado a un experimento aleatorio una determinada partición de dicho conjunto que permita una mayor facilidad a la hora de abordar la probabilidad de cualquier suceso a partir de las probabilidades de sucesos más pequeños considerados a partir de dicha partición. En este sentido:

Se dice que los sucesos $A_1, A_2, A_3. \cdots, A_n$, constituyen un sistema completo de sucesos para un determinado experimento cuando se cumplen:

$$\large A_1\cup A_2\cup \cdots \cup A_n = E$$

$$\large A_i\cap A_j = \empty\;\;\text{ para cualquier }\;\; i,j$$

Así por ejemplo en el experimento aleatorio del lanzamiento de un dado pueden considerarse muchas situaciones que constituyan espacios completos de sucesos y que sean interesantes de tener en cuenta de acuerdo al problema en concreto que se nos presente.

Concepto de probabilidad

La idea de probabilidad es uno de esos conceptos que cualquier ser humano tiene preaprendido. Todos tenemos conocimiento intuitivo de lo que supone que una cosa sea muy difícil que ocurra (acertar en la lotería) o de algo que sea más fácil que ocurra (lanzar una moneda y que salga cara). Otra cosa es la definición matemática. Desde el punto de vista formal, el concepto de probabilidad se puede abordar desde tres puntos de vista diferentes.

Definición de Bernoulli

La probabilidad de un suceso $A$ de un experimento aleatorio se puede definir como el número al que se aproximan las frecuencias relativas de dicho suceso cuando el experimento se repite un número indefinido de veces.

$$\LARGE p(A) = \lim\limits_{n \to \infin} \frac{n_A}{n}$$

Definición de Laplace

Si un espacio muestral consta de un número finito de sucesos simples y todos ellos tienen la misma posibilidad de suceder (equiprobables). Se define la probabilidad de cualquier suceso $A$ como:

$$\large p(A) = \frac{\text{Número de casos favorables}}{\text{Número de casos posibles}}$$

Definición de Kolmogorov

Si un espacio muestral consta de un número finito de sucesos simples y todos ellos tienen la misma posibilidad de suceder (equiprobables). Se define la probabilidad de cualquier suceso $A$ como:

$\large 1) \;\;p(A) \ge 0\\ 2)\;\; p(E) = 1\\ 3)\;\; p(A\cup B) = p(A) + P(B),\\ \text{siendo}\;\;A \text{ y } B\;\;\;\text{incompatible}$

Como primeras consecuencias y propiedades de la definición axiomática tenemos:

i) $p(\={A}) = 1- p (A)$
ii) $p(\empty) =0$
iii) $p(A\cup B) = p(A) + p(B) - p(A\cap B)$

Generalización

$p(A\cup B\cup C) = p(A) +p(B) +P(C)\\ -p(A\cap B) - p(A\cap C) - p(B\cap C) \\+ p(A\cap B\cap C)$

Que se expresan como:

• La probabilidad del suceso contrario a $A$ es uno menos la probabilidad de $A$.

• La probabilidad del suceso imposible es cero.

• La probabilidad de dos sucesos compatibles es la suma de las probabilidades de cada uno menos la de la intersección. Esta propiedad se puede generalizar a más de dos sucesos.


Video

En el siguiente vídeo puedes recabar algunas ideas sobre la probabilidad.

Vídeo enlazado desde YouTube, licencia de YouTube estándar

En la siguiente escena puedes comprobar la probabilidad teórica con la experiencia práctica. La idea es ver como la repetición del juego se aproxima a la idealización teórica.


Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Probabilidad condicionada

- Entonces, ¿estas seguro de que vendrás?
- Te digo que sí, llueva o no llueva allí estaré.

Este final de conversación entre dos amigos nos indica que la cita se va a producir INDEPENDIENTEMENTE de lo que ocurra con las posibles inclemencias del tiempo. Sin embargo, existen muchas situaciones en las que la ocurrencia de un suceso influye en la ocurrencia o no de otro.

Así por ejemplo en medicina, el hecho de que una mujer sea portadora de cierta enfermedad influye en que el próximo hijo que tenga adquiera dicha enfermedad, o por ejemplo si una persona es fumadora el riesgo de padecer hipertensión es mucho mayor que en un no fumador.

En el siguiente esquema se ofrece una idea intuitiva del concepto de probabilidad condicionada

Y en la siguiente escena podrás experimentarla. En ella se juega con el juego de abrir y ganar o de Monty HallEl problema de Monty Hall o paradoja de Monty Hall es un problema matemático de probabilidad basado en el concurso televisivo estadounidense Trato hecho (Let's Make a Deal). El problema fue planteado y resuelto por el matématico Steve Selvin en la revista American Statistician en 1975 y posteriormente popularizado por Marilyn vos Savant en Parade Magazine en 1990. El problema fue bautizado con el nombre del presentador de dicho concurso, Monty Hall (https://es.wikipedia.org/).:


Escena desarrollada por Mª José García Cebrian (RED Descartes)

Concepto de probabilidad condicionada

El concepto de probabilidad condicionada va ligado siempre a sucesos compuestos, en el sentido de que la ocurrencia o no de uno de ellos influya o no en la ocurrencia o no del otro. Imagina que sabemos que en una urna hay sobres blancos y azules. Los sobres blancos, casi todos tienen premio. Los sobres azules casi ninguno tiene premio. Evidentemente si me dicen que el sobre que he elegido es blanco, eso aumentará mis expectativas de haber conseguido premio. Por el contrario si me dicen que el sobre elegido es azul, mis expectativas de premio serán mucho peores.

Siempre que tenga sentido, se denomina probabilidad condicionada del suceso $A$ respecto del suceso $B$, (probabilidad de $A$ condicionado a $B$) y se representa $p(A/B)$ al cociente:

$$\large p(A/B) = \frac{p(A\cap B)}{p(B)}\;\;\text{siempre que }\;\; p(B) \ne 0$$

De la misma forma se puede definir la probabilidad del suceso $B$ condicionado al suceso $A$ como:

$$\large p(B/A) = \frac{p(A\cap B)}{p(A)}\;\;\text{siempre que }\;\; p(A) \ne 0$$

De las definiciones anteriores se obtiene la fórmula general para la probabilidad de la intersección de sucesos. En realidad se trata de la formulación general para la probabilidad de la intersección de sucesos.

$$\Large p(A\cap B) = p(A)\cdot p(B/A)$$

En la siguiente escena podrás ver el cáculo de la probabilidad de sucesos compuestos:


Escena desarrollada por Mª José García Cebrian (RED Descartes)

La fórmula anterior se puede generalizar para cualquier número de sucesos:

$p(A_1\cap A_2\cap A_3\cdots \cap A_n)\\ = p(A_1)\cdot p(A_2/A_1)\cdot p(A_3/A_1\cap A_2)\cdots p(A_n/A_1\cap\cdots\cap A_{n-1})$

Criterio de independencia de sucesos

Imagina que vamos a sacar dos cartas de una baraja. Realizamos el experimento sacando en primer lugar una de las cartas, anotamos su valor, la devolvemos a la baraja, mezclamos bien y extraemos la segunda carta. ¿Influye lo que ocurrió en la primera extracción en lo que ocurirá en la segunda?

En muchas situaciones en la que la probabilidad aparece ligada a sucesos compuestos, la ocurrencia de un suceso no influye en nada en la ocurrencia o no del otro. Por así decirlo, no existe nada adicional que modifique las posibilidades de ocurrencia del segundo suceso cuando se sabe que ha ocurrido el primero; esto es, si el primero no hubiera ocurrido, las posibilidades del segundo seguirían siendo exactamente las mismas. En estos casos, se habla de Independencia de los sucesos.
Cuando se cumpla que $p(B/A)$ coincida con $p(B)$ se dice que los sucesos $A$ y $B$ son independientes. En este caso la probabilidad de la intersección obtenida en el epígrafe anterior quedaría simplemente como el producto de las probabilidades de cada suceso.

$$\Large p(A\cap B) = p(A)\cdot p(B)$$

La fórmula anterior se conoce con el nombre de criterio de independencia y es lo que en la práctica nos lleva a calificar sucesos como independientes.

En el siguiente vídeo puedes recabar algunas ideas sobre sucesos independientes y dependientes.


Videos

Vídeo enlazado desde YouTube, licencia de YouTube estándar

Y otro vídeo en el que se trata el tema de las predicciones.

Vídeo de Rtve.es

Teorema de la probabilidad total

Mediante este resultado, se hace presente la clásica afirmación "divide y vencerás". Nos preguntamos globalmente por la probabilidad de que ocurra un suceso y contestamos a partir del conocimiento que tenemos de las distintas probabilidades de que ocurra dicho suceso cuando han ocurrido otros que en realidad completan todo el espacio muestral.

Formalmente; supongamos que $A_1, A_2, A_3, \cdots A_n$, constituyen un sistema completo de sucesos para el espacio muestral $E$ asociado al experimento aleatorio considerado. Supongamos también que $B$ es un suceso cualquiera del espacio $E$, para el cuál se conocen las probabilidades $p(B/A_i)$.

En estas condiciones podemos deducir que:

$$\large p(B) = \sum_{i=1}^n p(A_i)\cdot p(B/A_i)$$

Demostración

$B=(B\cap A_i)\cup (B\cap A_2)\cup\cdots \cup (b\cap A_n)\;\;\text{unión disjunta}\;\;\\ \implies (B\cap A_i)\cap (B\cap A_i) = \empty$

En consecuencia

$p(B) = p(B\cap A_1) + p(B\cap A_2)+\cdots + p(B\cap A_n)\\ \implies p(B)= p(A_1)\cdot p(B/A_1) + p(B)= p(A_2)\cdot p(B/A_2) +\cdots + p(B)= p(A_n)\cdot p(B/A_n)\\ \implies \sum_{i=1}^n p(A_i)\cdot p(B/A_i)$

Por ejemplo, la clásica situación que se presenta en los centros de secundaria. Imagina un IES que dispone de tres modalidades mutuamente excluyentes de bachillerato y de dos idiomas, inglés y francés. La modalidad $A$ la cursa el $50\%$ de los alumnos, la $B$ el $35\%$ y la $C$ el $15\%$. Se sabe también que eligen francés el $60\%$ de los de la modalidad $A$, el $90\%$ de los de $B$ y el $70\%$ de los de $C$. ¿Cuál será la probabilidad de que elegido un alumno al azar estudie inglés.
$$p(I) = 0,5\cdot 0,4 + 0,35\cdot 0,1+0,15\cdot 0,3 = 0,28$$

En la siguiente escena puedes practicar con la probabilidad condicionada y aplicar el Teorema de la probabilidad total.

Escena desarrollada por José Ireno Fernández Rubio (RED Descartes)

Teorema de Bayes

¡Ha ocurrido el suceso $B$!, nos preguntamos cuál sería la probabilidad de que ocurra $A_i$ sabiendo de antemano que ha ocurrido $B$. Si nos fijamos lo directo es conocer lo contrario, es decir, las probabilidades de $B$ condicionadas a los diferentes $A_i$. Por ejemplo:

  • Se conoce, después de muchos estudios y durante muchos años, que la probabilidad de retraso de un avión en un día lluvioso es del $5\%$. Si se ha producido un retraso. ¿Cuál sería la probabilidad de que el día sea lluvioso?.
  • Se conoce que la probabilidad de tener cierta enfermedad si has dado positivo en un determinado test es del 99%. Si una persona ha dado positivo al test. ¿Cuál sería la probabilidad de no tener la enfermedad? (lo que se denomina un falso positivo)

Situaciones como las anteriores son las que se van a resolver con este segundo gran resultado relativo a la probabilidad condicionada. Formalmente; supongamos que $A_1, A_2, A_3, \cdots A_n$, constituyen un sistema completo de sucesos para el espacio muestral $E$ asociado al experimento aleatorio considerado. Supongamos también que $B$ es un suceso cualquiera del espacio $E$, para el cuál se conocen las probabilidades $p(B/A_i)$.

En estas condiciones podemos deducir que:

$$p(A_i/B) = \frac{p(A_i) p(B/A_i)}{p(A_1) p(B/A_1) + p(A_2) p(B/A_2)+\cdots +p(A_n) p(B/A_n)}$$

También puede expresarse:

$$p(A_i/B) = \frac{p(A_i) p(B/A_i)}{\sum_{i=1}^n p(A_i) p(B/A_i)}$$


Video

En el siguiente vídeo puedes recabar algunas ideas sobre el Teorema de Bayes.

Vídeo enlazado desde YouTube, licencia de YouTube estándar

Una situación clásica de aplicación del teorema de Bayes es la siguiente:

En un taller se produce la pieza $X$ de recambio para cierto producto. En dicho taller hay tres máquinas, $A, B$ y $C$ que producen el $45\%, 30\%$ y $25\%$, respectivamente, del total de las piezas producidas en él. Los porcentajes de producción defectuosa de estas máquinas son del $3\%, 4\%$ y $5\%$.

Seleccionamos una pieza al azar; calcula:

a) Probabilidad de que sea defectuosa.
b)Tomamos, al azar, una pieza y resulta ser defectuosa; calcula la probabilidad de haber sido producida por la máquina $B$.
c) ¿Qué máquina tiene la mayor probabilidad de haber producido la citada pieza defectuosa?

a) $p(Def) = p(A)\cdot p(Def/A) + p(B)\cdot p(Def/B) + p(C)\cdot p(Def/C) = 0,45\cdot 0,03 + 0,3\cdot 0,04 + 0,25\cdot 0,05 = 0,038$

b) $p(B/Def) = \frac{p(B)\cdot p(Def/B)}{p(Def)} = \frac{0,3\cdot 0,04}{0,45\cdot 0,03+0,3\cdot 0,04+ 0,25\cdot 0,05} = 0,3158$

c) $p(A/Def) = \frac{p(A)\cdot p(Def/A)}{p(Def)} = \frac{0,45\cdot 0,03}{0,45\cdot 0,03+0,3\cdot 0,04+ 0,25\cdot 0,05} = 0,3553$

d) $p(C/Def) = \frac{p(C)\cdot p(Def/C)}{p(Def)} = \frac{0,25\cdot 0,05}{0,45\cdot 0,03+0,3\cdot 0,04+ 0,25\cdot 0,05} = 0,32894$

En la siguiente escena interactiva puedes prácticar con el Teorema de Bayes.

Escena desarrollada por José Ireno Fernández Rubio (RED Descartes)

Problemas resueltos

A continuación tienes el enunciado de diferentes problemas. Trabájalos y una vez los hayas resuelto puedes hacer clic sobre el botón para ver la solución.

Créditos del capítulo

Parte V

Variable Estadística Discreta

Juan Jesús Cañas Escamilla
José R. Galo Sánchez

Jacob Bernoulli (Basilea, 27 de diciembre de 1654 - ibíd. 16 de agosto de 1705), también conocido como Jacob, Jacques o James Bernoulli, fue un destacado matemático y científico suizo; hermano mayor de Johann Bernoulli (miembro de la familia Bernoulli).Sus contribuciones a la geometría analítica, a la teoría de probabilidades y al cálculo de variaciones fueron de extraordinaria importancia. (https://es.wikipedia.org/). Crédito imagen: Niklaus Bernoulli (1662-1716) , Dominio Público.

Introducción

Concepto de variable aleatoria.

El concepto de variable aleatoria viene a dotar de una mayor potencia matemática y de un mejor manejo y utilización del heterodoxo mundo de los espacios muestrales ya que traslada el experimento a función y la ocurrencia o no de un suceso con la posibilidad de que la función tome o no unos determinados valores numéricos.

Como veremos más adelante existirán también modelos de variables aleatorias teóricos que podrán adaptarse perfectamente a multitud de problemas prácticos y que simplificarán mucho el tratamiento y solución de dichas situaciones. En este sentido veremos la importancia sobre todo de la distribución binomial.

Supongamos que lanzamos dos dados cúbicos. El espacio muestral formado por los posibles resultados estaría compuesto por:


Si consideramos una función que asocie a cada resultado posible del experimento la suma de los resultados de las caras superiores obtenidas; esta función podría tomar los valores desde $2$ hasta $12$.

$$\large \Omega \to \Reals\\ (1,1)\to 2\\ (1,2)\to 3\\ (2,1)\to 3\\ \cdots\\ \cdots$$

Además se puede asociar a cada valor de la variable la probabilidad de que tome dicho valor;

$p(X=2) =\frac{1}{36}, p(X=3) =\frac{2}{36}, p(X=4) =\frac{3}{36},\\ p(X=5)=\frac{4}{36}, p(X=6) =\frac{5}{36} p(X=7) =\frac{6}{36},\\ p(X=8) =\frac{5}{36}, p(X=9)=\frac{4}{36}, p(X=10) =\frac{3}{36},\\ p(X=11) =\frac{2}{36}, p(X=12) =\frac{1}{36}$

Se define una variable aleatoria como una función que asocia a cada suceso de un espacio muestral un número real. $$\begin{split} \Large X & : \Omega \to R\\ & \; A \to X(A) \end{split}$$ Según sean los valores del recorrido de esta función, ($X(A)$), podemos clasificar las variables aleatorias en:

  • DISCRETAS: Cuando el recorrido toma valores aislados.
  • CONTINUAS: Cuando el recorrido puede tomar al menos teóricamente cualquier valor de un intervalo de la recta real.

Una variable aleatoria continua es aquella que toma valores en un conjunto continuo (en toda la recta real, en un intervalo o en una unión de intervalos)

Si dado un gran número de observaciones se construye un histograma con intervalos de clase de longitud pequeña, se obtiene una gráfica que intuitivamente tiende a una curva cada vez que aumenta el número de observaciones, reduciendo la longitud de las clases del histograma.

  • Supongamos que se nos ocurre el experimento aleatorio consistente en preguntar a los alumnos de un determinado instituto por el tiempo que tardan en desplazarse desde su casa al centro. La variable aleatoria en este caso vendría determinada por un intervalo de tiempo en el que al menos teóricamente podría tomar cualquier valor entre $0$ y $25$ minutos aproximadamente.
  • Supongamos que se nos ocurre como experimento aleatorio salir a la calle y aleatoriamente preguntar a las personas el dinero que se han gastado en las últimas rebajas. La variable aleatoria en este caso vendría determinada por una gran diversidad de valores dentro de posiblemente también un intervalo bastante grande $(0, ...)$.

Función de probabilidad. Propiedades y parámetros asociados

En cualquier variable aleatoria discreta se puede definir una función particular denominada función de probabilidad que asocia a cada valor de la variable la probabilidad de que dicha variable tome ese valor.

$$\large f(x_i) = p(X= x_i) = p_i$$

De la propia definición se desprende que para que una función sea función de probabilidad se debe cumplir que:

  • $p(X=x_i) = p_i \gt 0$
  • $\sum_i p(X=x_i) = \sum_i p_i = 1$

A partir de la función de probabilidad se puede definir la denominada función de distribución como:

$$\Large F(x_i) = p(X \le x_i)$$

PARÁMETROS ASOCIADOS

  • Media aritmética o esperanza matemática
$$\large \overline{X} = \mu = \sum_{i=1}^n x_i\cdot p_i$$
  • Varianza
$$\large \sigma^2 = \sum_{i=1}^n (x_i - \mu)^2\cdot p_i$$

Para el cálculo práctico de la varianza en problemas concretos se suele recurrir a esta otra fórmula a la que se llega desarrollando el cuadrado de la anterior y que resulta mucho más sencilla para el cálculo directo.

$$\large \sigma^2 = \sum_{i=1}^n x_i^2 \cdot p_i - \mu^2$$
  • Desviación típica

A partir de la fórmula de la varianza y para solventar el problema de que el parámetro venga dado en las mismas unidades de medida que los datos de la variable se define la desviación típica como:

$$\large \sigma = \sqrt{\sum_{i=1}^n (x_i - \mu)^2\cdot p_i}$$

De la misma forma que antes, para el cálculo práctico directo se suele utilizar:

$$\large \sigma = \sqrt{\sum_{i=1}^n x_i^2\cdot p_i - \mu^2}$$

PROPIEDADES

Las propiedades más interesantes de la media o esperanza matemática y de la varianza son las que tienen relación con el comportamiento de estos parámetros con respecto a la suma y producto por un escalar de variables aleatorias.

  • Propiedades de la esperanza matemática

    $E[ a\cdot X + b] = a\cdot E[X] + b\;\;\text{ siendo }\;\; a,b \in \Reals$

    $E[X+Y] = E[X] + E[Y]$
  • Propiedades de la varianza

    $var[a\cdot X] = a^2\cdot var[X]\;\;\text{ siendo }\;\; a \in \Reals$

    $var[a\cdot X + b] = a^2\cdot var[X] \;\;\text{ siendo }\;\; a,b \in \Reals$

    $\text{si }\; X e Y\;\;\text{ son independientes }\;\; \\\to var[X+Y] = var[X]+ var[Y]$

EJEMPLO 1

Consideramos el experimento consistente en lanzar dos dados y observar las caras superiores. En este experimento la variable aleatoria que definimos sería la que asigna a cada suceso la suma de las puntuaciones de las caras superiores.

$$\overline{X} = \mu = \sum_{i=1}^n x_i\cdot p_i = 2\cdot \frac{1}{36} + 3\cdot \frac{2}{36}+ \cdots + 11\cdot \frac{2}{36} + 12\cdot \frac{1}{36} = 7$$

$$\sigma = \sqrt{\sum_{i=1}^n x_i^2\cdot p_i - \mu^2} = \sqrt{\sum_{i=1}^n x_i^2\cdot p_i - \mu^2}\implies$$ $$\sigma = \sqrt{2^2 \cdot \frac{1}{36} + 3^2\cdot \frac{2}{36}+ \cdots + 11^2 \cdot \frac{2}{36} + 12^2\cdot \frac{1}{36} - 7^2}=2,42$$

EJEMPLO 2

Consideramos el experimento consistente en el lanzamiento de tres monedas y la variable que asocia a cada suceso el número de cruces obtenidas.

$$\overline{X} = \mu = \sum_{i=1}^n x_i\cdot p_i = 0\cdot \frac{1}{8} + 1\cdot \frac{3}{8}+ 2\cdot \frac{3}{8} + 3\cdot \frac{1}{8} = 1,5$$

$$\sigma = \sqrt{\sum_{i=1}^n x_i^2\cdot p_i - \mu^2} = \sqrt{\sum_{i=1}^n x_i^2\cdot p_i - \mu^2}\implies$$ $$\sigma = \sqrt{0^2\cdot \frac{1}{8} + 1^2\cdot \frac{3}{8}+ 2^2\cdot \frac{3}{8} + 3^2\cdot \frac{1}{8} - 1,5^2}=0,8666$$

EJEMPLO 3

Consideramos el experimento consistente en lanzar dos dados y la variable que asigna a cada suceso la mayor de las puntuaciones obtenidas.

$$ \begin{split} \overline{X} &= \mu = \sum_{i=1}^n x_i\cdot p_i\\ &= 1\cdot \frac{1}{36} + 2\cdot \frac{3}{36}+ 3\cdot \frac{5}{36} + 4\cdot \frac{7}{36} + 5\cdot \frac{9}{36} + 6\cdot \frac{11}{36} = 4,47 \end{split}$$

$$\sigma = \sqrt{\sum_{i=1}^n x_i^2\cdot p_i - \mu^2} = \sqrt{\sum_{i=1}^n x_i^2\cdot p_i - \mu^2}\implies$$ $$\sigma = \sqrt{1^2\cdot \frac{1}{36} + 2^2\cdot \frac{3}{36}+ \cdots 5^2\cdot \frac{9}{36} + 6^2\cdot \frac{11}{36} - 4,47^2}=1,41$$

EJEMPLO 4

Extracción de tres bolas de una urna que contiene $6$ bolas blancas y $4$ negras. Si consideramos la variable aleatoria número de bolas negras extraídas.

$$ \overline{X} = \mu = \sum_{i=1}^n x_i\cdot p_i = 0\cdot \frac{12}{72} + 1\cdot \frac{36}{72}+ 2\cdot \frac{216}{720} + 3\cdot \frac{24}{720} = \frac{6}{5} = 1,2$$

$$\sigma = \sqrt{\sum_{i=1}^n x_i^2\cdot p_i - \mu^2} = \sqrt{\sum_{i=1}^n x_i^2\cdot p_i - \mu^2}\implies$$ $$\sigma = \sqrt{0^2\cdot \frac{12}{72} + 1^2\cdot \frac{36}{72}+ 2^2\cdot \frac{216}{720} + 3^2\cdot \frac{24}{720} - 1,2^2}=0,7483$$

En la siguiente escena aparecen el diagrama de barras para frecuencias relativas del lanzamiento de dos dados un total de veces que puedes modificar mediante el control "nº de veces".

Puedes manipular dicho control y observar qué ocurre cuando se aumenta o disminuye, además puedes hacer la comparación con el modelo teórico de su función de probabilidad, representada de forma gráfica. Intenta extraer tus propias conclusiones.


Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Distribución binomial

Un experimento aleatorio se conoce como de Bernoulli cuando solamente da lugar a dos resultados posibles complementarios entre sí: Éxito y fracaso.
  • Personal favorable o no a cierto candidato.
  • Pieza defectuosa o no en un control de calidad.
  • Infectado o no por Coronavirus.

Las características que debe reunir un experimento para considerarse una distribución binomial son:

  1. En cada prueba que se realice solamente son posibles dos resultados; Éxito y Fracaso.
  2. El resultado de cada prueba es independiente de las anteriores.
  3. La probabilidad de éxito se mantiene constante en cada prueba.

Si consideramos la variable $X$ que representa el número de éxitos obtenidos en n pruebas realizadas, se dice que esta variable sigue una distribución binomial de parámetros $n$ y $p$ $$\large (B(n,p))$$

Para la simulación de modelos de probabilidad como por ejemplo el modelo de una distribución binomial existe un artefacto muy simple y con bastantes aplicaciones didácticas como es el aparato de Galton.

Un aparato de Galton está constituido por un conjunto variable de pisos huecos con topes. En el primer piso hay un sólo tope, en el segundo dos, en el tercero tres y así sucesivamente. Si dejamos que una bola caiga desde el primer piso, al chocar con cada tope puede ir a la derecha o a la izquierda. En principio si no se hace nada especial en el tope, la probabilidad de ir a la izquierda es la misma que la de ir a la derecha.


Video

Observa el siguiente vídeo.

Vídeo de un tablero de GaltonVéase Caja de Galton.

En la simulación del aparato de Galton que aparece en la escena de la siguiente página, vemos que estas probabilidades las podemos cambiar con lo que en realidad en dicha escena simulamos toda una familia de aparatos de Galton (ventajas del mundo virtual). Al final de los pisos, cuyo número también es variable en la escena, aparecen una especie de canales contenedores para recoger las bolitas.

Mediante este sencillo aparato, Galton simulaba de forma práctica modelos teóricos de probabilidad. Si observamos el recorrido de una bola en el aparato de Galton.

En cada bifurcación la bola puede ir a la izquierda con probabilidad $p$ o a la derecha con probabilidad "$q=1-p$". La variable aleatoria que toma valor $0$ si cae a la izquierda o $1$ si cae a la derecha se llama de Bernoulli y la variable $X$ que da el número de unos al finalizar el experimento (lugares a la derecha) se denomina binomial.

Manipula la siguiente escena cambiando los controles, conjeturando y comprobando sobre los canales de más o menos probabilidad. Cambia también el control que en principio aparece con valor por defecto de $1/2$.

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Podrías simular modelos para el lanzamiento de dados, cartas, o cualquier otra experiencia en la que aparezcan solamente dos resultados posibles: éxito (bola que va a la derecha) y fracaso (bola que va a la izquierda).

Otra escena interactiva la hemos obtenido del proyecto Phet de la Universidad de ColoradoEscena descargada de Phet interactive solutions.. Ambas escenas, dan cuenta del concepto de distribución binomial, simulando el conocido aparato de Galton. En la versión original de Galton, la probabilidad de ir a la izquierda o la derecha en cada camino es $0.5$. En esta escena podemos elegir cualquier valor $p$ para la probabilidad de ir a la derecha:

Función de probabilidad de la distribución binomial

La distribución binomial constituye un modelo de probabilidad teórico al que se adaptan multitud de situaciones y problemas de la vida real. Conviene por tanto profundizar en este modelo teórico para así poder transferir los resultados a las distintas situaciones concretas.

En este sentido se puede deducir la función de probabilidad asociada a una distribución binomial. Si consideramos una distribución $\large B(n,p)$. En la que denominamos:

$$A = \text{Éxito}$$ $$\overline{A} = \text{Fracaso}$$

Uno de los casos en los que se obtienen "$r$" éxitos sería:

$$A\; A\; A\; A\; A \cdots \overline{A}\; \overline{A}\; \overline{A}\; \overline{A}$$

Es decir primero "$r$" éxitos y después "$n-r$" fracasos.

Particularizando a $4$ éxitos y $3$ fracasos, para ayudarnos en la deducción, existirían muchas situaciones en las que podría presentarse el suceso cuatro éxitos y tres fracasos, por ejemplo:

En realidad en las agrupaciones anteriores vemos dos elementos distintos, uno se repite $4$ veces y otro $3$. Esta situación es una vieja conocida en combinatoria. Hablamos de las agrupaciones de $7$ elemenos en los que uno se repite $4$ veces y otro $3$, esto es: Permutaciones con repetición de $7$ elementos en los que uno se repite $4$ veces y otro $3$. El número de permutaciones de este tipo vendría dado por:

$$P_7^{4,3} = \frac{7!}{4!\cdot 3!} = \frac{7!}{4!\cdot (7-4)!} = \dbinom{7}{4} = C_{7,4}$$

Es decir que todos los casos posibles en los que se presentan cuatro éxitos y tres fracasos sería el número combinatorio:

$$\dbinom{7}{4}$$

En general, la expresión para todos los casos en los que se pueden presentar "$r$" éxitos y "$n-r$" fracasos sería:

$$\large P_n^{r, n-r} = \frac{n!}{r!(n-r)!} = \dbinom{n}{r} = C_{n,r}$$

Teniendo en cuenta que la probabilidad de éxito es "$p$" y la de fracaso "$(1-p)$" y la independencia de cada prueba, deducimos que la función que nos permite calcular la probabilidad de que la variable aleatoria $X$ (número de éxitos obtenidos en $n$ pruebas), sería:

$$\large p(X=r) = \dbinom{n}{r}p^r(1-p)^{n-r}$$

En la siguiente escena puedes observar las representaciones gráficas de distintas distribuciones binomiales. Puedes cambiar los valores de la binomial que coinciden con los controles "$n$" y "$p$".

Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

Observa cómo cambia la forma de la gráfica y extrae tus propias conclusiones.

Parámetros de la distribución binomial

Esperanza matemática, varianza y desviación típica de la binomial

Consideramos la variable aleatoria $X$ que sigue una binomial $B(n,p).$ Recordamos que la variable aleatoria $X$ expresa el número de éxitos que se obtienen al realizar "n" pruebas o ensayos independientes de Bernoulli con probabilidad "$p$" de éxito y "$(1-p)$" de fracaso. Esta variable puede interpretarse perfectamente como suma de "n" variables de Bernoulli, una por cada uno de los ensayos realizados. En consecuencia, para deducir la esperanza matemática y la varianza de la binomial $B(n,p)$ podemos calcular la esperanza matemática y varianza de la variable correspondiente a un ensayo y después aplicar las propiedades generales de dichos parámetros con respecto a la suma de variables independientes. Para un ensayo:

$E[X] = 1\cdot p + 0\cdot (1-p) = p\\ var[X] = 1^2\cdot p + 0^2\cdot (1-p) - p^2 = p-p^2= p\cdot (1-p) = p\cdot q$ $$\Downarrow$$ $E[X + X + \cdots + X] = E[n\cdot X] = n\cdot E[X] 0 n\cdot p\\ var[X + X + \cdots + X] = \textcolor{brown}{var[X] + var[X] + \cdots + var[X] = n\cdot var[X] = n\cdot p\cdot q}\\ \text{al ser independientes los ensayos}$

Por tanto:

Media: $\mu = n\cdot p$

Varianza: $\sigma^2 = n\cdot p\cdot q$ siendo $q = 1-p$

Desviación típica: $\sigma = \sqrt{n\cdot p\cdot q}$

Tabulación de la binomial

Aunque las calculadoras científicas realizan sin ningún tipo de problema los cálculos que se derivan de la función de probabilidad de cualquier distribución binomial, hasta hace relativamente poco tiempo dichos cálculos resultaban muy largos y engorrosos, por este motivo se realizaron tabulaciones para las distribuciones binomiales más habituales y a ellas se recurría para determinar de la forma más aproximada posible los valores concretos del problema particular.

En dichas tablas se podía localizar la probabilidad de "$r$" éxitos de una varriable aleatoria $B(n,p)$, sin más que encuadrar la columna de la probabilidad y la fila relativa al número de pruebas.

Por ejemplo si quiero calcular para la $B(5,0.3)$ La probabilidad de $4$ éxitos. Miraré la tabla como se indica en la figura de la siguiente página:


Existen tablas muy extensas para las binomiales. La más popular era la que condensaba en una página todas las binomiales de hasta $n=10$ y distintas probabilidades comprendidas entre un valor mínimo $0,01$ y un máximo de 0,5 con paso de $0,05$.

A continuación puedes ver dicha tabla.


EJEMPLO:

Vamos a utilizar la tabla para resolver una situación sencilla.

Supongamos que Ramona realiza un examen tipo test de $10$ preguntas con cuatro opciones cada una de las que sólo una es correcta. Si responde de forma aleatoria a todas las preguntas. Calcula:

a) Probabilidad de contestar $5$ preguntas bien.
b) Probabilidad de contestar bien al menos $3$ preguntas.

El problema evidentemente se puede enmarcar en una binomial de parámetros $n=10$ y $p=0,25$


a) $p(x=5) = 0,0584$
b) $p(x\ge 3) = p(x=3)+p(x=4)+\cdots + p(x=10)\\ 0,2503+0,1460+0,0584+,0,0162+ 0,0031+0,0004+0,0+0,0 0 0 = 4744$

o también:

$p(x\ge 3) = 1 - p(\lt 3) = 1- [p(x=0) + p(x=1) +px(x=2)]\\ = 1 - (0,0563+0,1877+0,2816) = 0,4744$


Video

En el siguiente vídeo podemos asistir a una clase sobre la distribución binomial:

Vídeo enlazado desde YouTube, licencia de YouTube estándar

Ajuste de una serie de datos a una binomial

La distribución binomial es una distribución teórica que permite resolver de forma muy directa multitud de problemas prácticos. Algunas veces también es muy interesante observar si una serie de datos que provienen de alguna situación, en la que no es posible una intervención matemática deductiva concreta, son parecidos a los que se obtendrían de forma teórica mediante una binomial de ciertos parámetros. Si se comprueba que los valores teóricos y los reales son aceptablemente parecidos, no en una ocasión sino en varias, entonces parece plausible pensar que la experiencia que da lugar a los datos pueda imaginarse teóricamente como una binomial. Esto puede permitir inferir resultados de forma previa.

Por ejemplo:

  • En los grandes macroexámenes que se dan con cierta frecuencia en este país. Dichos eventos suelen constar de varias pruebas eliminatorias que se celebran en un cierto intervalo de tiempo. Si del histórico de otros años se conservan porcentajes de personas que se presentan al primero y de los que van "sobreviviendo" a las distintas pruebas, sería muy interesante observar si el comportamiento de este tipo de pruebas se parece al modelo teórico de una binomial de ciertos parámetros.
  • La asistencias a urgencias en un hospital a lo largo de las horas de una determinada noche.
  • Pensemos en las colas en las ventanillas de cierto ministerio a lo largo de las horas de una mañana.
  • Fallos en la manufactura de piezas en una cadena de montaje.
  • Gente en la parada de cierta estación de metro a lo largo de un intervalo horario.

Metro de Moscú Control de calidad
Urgencias Examen

En la siguiente escena puedes comprobar si una serie de datos se parece a los obtenidos en una binomial y como se calcularían los parámetros de esa binomial.

Puedes cambiar los valores del control "$n$" de la binomial hasta un máximo de $8$. En la escena puedes comprobar la diferencia entre los valores esperados y los reales de forma numérica y gráfica en los respectivos diagramas de barras.


Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Otras distribuciones discretas

La distribución binomial es sin duda la más importante de las distribuciones de probabilidad discretas. Sin embargo existen situaciones que no pueden ser interpretadas mediante está distribución. Imagina por ejemplo una población de 100 personas en las que hay por ejemplo 5 con cierta característica especial. Si se van escogiendo personas una tras otra sin reemplazamiento, considerando éxito si la persona tiene dicha característica y fracaso el que no la tenga. Esta experiencia no se ajusta a una binomial ya que la probabilidad de éxito no se mantiene constante en cada extracción.


Existen bastantes situaciones interesantes que no se pueden enfocar bajo la óptica directa de la binomial. En los siguientes epígrafes se estudiarán algunas distribuciones teóricas discretas clásicas con las que se pueden abordar un gran número de problemas concretos.
Familia UniformeFamilia uniforme
Familia HipergeométricaFamilia hipergeométrica
Familia PoissonFamilia de Poisson

Distribución hipergeométrica

Hasta ahora hemos analizado distribuciones que modelaban situaciones en las que se realizaban pruebas que entrañaban una dicotomía (proceso de Bernoulli) de manera que, en cada experiencia, la probabilidad de obtener cada uno de los dos posibles resultados se mantenía constante.

Si el proceso consistía en una serie de extracciones o selecciones ello implicaba la reposición de cada extracción o selección, o bien la consideración de una población muy grande (cartas en un casino). Sin embargo, si la población es pequeña y las extracciones no se remplazan, las probabilidades no se mantendrán constantes. La distribución hipergeométrica viene a cubrir esta necesidad de modelar procesos de Bernoulli con probabilidades no constantes (sin reemplazamiento).

Selección sin reemplazamiento

La distribución hipergeométrica es especialmente útil en todos aquellos casos en los que se extraigan muestras o se realicen experiencias repetidas sin devolución del elemento extraído o sin retornar a la situación experimental inicial.

Es una distribución fundamental en el estudio de muestras pequeñas de poblaciones pequeñas y en el cálculo de probabilidades de juegos de azar.

Tiene grandes aplicaciones en el control de calidad para procesos experimentales en los que no es posible retornar a la situación de partida.

Las consideraciones a tener en cuenta en una distribución hipergeométrica:

  • El proceso consta de "$n$" pruebas, separadas o separables de entre un conjunto de "$N$" pruebas posibles.
  • Cada una de las pruebas puede dar únicamente dos resultados mutuamente excluyentes.
  • El número de individuos que presentan la característica $A$ (éxito) es "$k$".
  • En la primera prueba las probabilidades son: $P(A)= p$ y $P(A)= q$; con $p+q=1$.

En estas condiciones, se define la variable aleatoria X = “nº de éxitos obtenidos”. La función de probabilidad de esta variable sería:

$$\large p(X=x) = \frac{\dbinom{k}{x}\cdot \dbinom{N-k}{n-x}}{\dbinom{N}{n}}$$ $N = \text{ tamaño de la población}\\ k = \text{Número de individuos que...}\\ n = \text{ tamaño de la muestra}\\ x = \text{ valor que toma la variable}$

La media, varianza y desviación típica de esta distribución vienen dadas por:


$$\large \mu = n\cdot p\\ \sigma^2 = n\cdot p\cdot q \cdot\frac{N-n}{N-1}\\ \sigma = \sqrt{n\cdot p\cdot q \cdot\frac{N-n}{N-1}}$$

EJEMPLO 1:

Supongamos la extracción aleatoria de $8$ elementos de un conjunto formado por $40$ elementos totales (cartas baraja española) de los cuales $10$ son del tipo $A$ (salir oro) y $30$ son del tipo complementario (no salir oro).

Si realizamos las extracciones sin devolver los elementos extraídos y llamamos X al número de elementos del tipo $A$ (oros obtenidos) que extraemos en las $8$ cartas; $X$ seguirá una distribución hipergeométrica de parámetros $40 , 8 , 10/40$. $H(40,8,0,25)$.

Para calcular la probabilidad de obtener $4$ oros:

$$p(X=4) = \frac{\dbinom{10}{4}\cdot \dbinom{30}{4}}{\dbinom{40}{8}} = 0,07$$

EJEMPLO 2:

De cada $20$ piezas fabricadas por una máquina, hay $2$ que son defectuosas.

Para realizar un control de calidad, se observan $15$ elementos y se rechaza el lote si hay alguna que sea defectuoso. Vamos a calcular la probabilidad de que el lote sea rechazado.

$N=20\\ n=15\\ X = \text{ número de piezas defectuosas de las 15 escogidas}\\ p(X\ge 1) = 1-p(X\lt 1= = 1- p(X=0)$

$$1 - \frac{\dbinom{2}{0}\cdot \dbinom{20-2}{15}}{\dbinom{20}{15}} = 1 - \frac{816}{15504} = \frac{18}{19} = 0,947$$

Cuando $N$ es muy grande, como criterio se suele considerar $N \gt 10n$, la distribución hipergeométrica se puede aproximar por la binomial $\bold{B( n, p )}$ con $\bold{p = k/N}$.

En la siguiente escena puedes observar la función de probabilidad de la distribución hipergeométrica. Puedes cambiar los diferentes parámetros que configuran dicha distribución y observar como cambia esta función a medida que se varía alguno de ellos.

Extrae tus propias conclusiones. Así mismo, puedes utilizar también la escena como calculadora directa que permite resolver situaciones concretas que se puedan plantear en problemas específicos.

Lógicamente hay un límite para los valores de la población de manera que la escena funcione con fluidez (valores menores de $200$).

Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

Distribución de Poisson

Poisson Hay ocasiones en las que un proceso que podría encuadrarse dentro de lo que conocemos como distribución binomial, ofrece dificultades que en ocasiones incluso hacen inviable la resolución de un problema.

En este sentido, pensemos el caso en que la constante “$p$”, probabilidad de éxito de un experimento de Bernoulli sea muy pequeña; (lo que habitualmente se denominan casos muy raros), o

bien el caso en que los cálculos que se derivan de la fórmula de la binomial sean tan farragosos que saquen de rango nuestra calculadora. Sería importante disponer de otra alternativa más interesante.

Por otro lado, pensemos también en situaciones en las que los elementos de la población pueden considerarse extraordinariamente numerosos, (coches que pasan durante un tiempo por una autopista, metros de tela de una producción en una fábrica, individuos de un país susceptibles de padecer cierta enfermedad, entre otros ejemplos posibles. Un proceso de Poisson se presenta en relación con un acontecimiento (éxito) durante un periodo de tiempo o espacio. Se conoce que el número de éxitos en la unidad de estudio, instante temporal o espacial determinado es

$$\Large \lambda$$

y a su vez este es independiente del número de éxitos en otro instante o espacio.

Si llamamos $X = \text{ nº de éxitos obtenidos en un determinado periodo}$. Diremos que $X$ sigue una distribución de Poisson.

La función de probabilidad de esta variable viene determinada por la fórmula:

$$\large f(k) = p(X=k) = e^{-\lambda}\cdot \frac{\lambda^k}{k!}$$

Los parámetros media, varianza y desviación típica de esta distribución vienen dados por

$$\large \mu = \lambda\\ \sigma^2 = \lambda\\ \sigma = \sqrt{\lambda}$$

EJEMPLO 1:

Cierta enfermedad tiene probabilidad de ocurrir $p=1/100000$, lo que en Medicina se denomina prevalencia. Calcula la probabilidad de que en una ciudad de $500000$ habitantes haya más de $3$ personas con dicha enfermedad. ¿Cuál sería en dicha ciudad el número de enfermos esperado?

Solución:

El problema se podría abordar mediante una $B( 500000, 0,00001 )$

En este caso aproximaremos por un modelo de Poisson de parámetro

$$\large \lambda = 500000\cdot 0,00001 = 5$$ $$\large p(X\gt 3) = 1-p(X\le 3)\\ 1-[p(X=0) + p(X=1) + p(X=2) + p(X=3)]\\ = 1 - \frac{e^{-5}\cdot 5^0}{0!} - \frac{e^{-5}\cdot 5^1}{1!} - \frac{e^{-5}\cdot 5^2}{2!} - \frac{e^{-5}\cdot 5^3}{3!} = 0,735$$

EJEMPLO 2:

En una carretera se producen un promedio de $2$ accidentes anuales. Calcula la probabilidad de que este año se produzcan más de $3$ accidentes.

$$\text{Poisson de parámetro }\; \lambda = 2\\ p(X\gt 3) = 1 - p(X\le 3)\\ 1 - [p(X=0) + p(X=1) + p(X=2) + p(X=3)]\\ 1 - \frac{e^{-2}\cdot 2^0}{0!} + \frac{e^{-2}\cdot 2^1}{1!} + \frac{e^{-2}\cdot 2^2}{2!} + \frac{e^{-2}\cdot 2^3}{3!} = 0,143$$


Video

En el siguiente vídeo podemos asistir a una clase sobre la distribución de Poisson:

Vídeo enlazado desde YouTube, licencia de YouTube estándar

En la siguiente escena puedes observar la función de probabilidad de la distribución de Poisson. Puedes cambiar los diferentes parámetros que configuran dicha distribución y observar como cambia esta función a medida que se varía alguno de ellos.

Extrae tus propias consecuencias. Así mismo puedes utilizar también la escena como calculadora directa que permite resolver situaciones particulares que se puedan plantear en problemas concretos.

Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

Distribución Geométrica

Consideramos una sucesión de variables aleatorias independientes de Bernoulli. Es decir una sucesión de pruebas independientes con dos posibles resultados y con probabilidad de éxito constante e idéntica en cada prueba.

$X_1, X_2, \cdots, Xi$, ... donde $X_i \to$ Bernoulli de probabilidad ($p$)

Esta sucesión como tal, al menos teóricamente, puede ser infinita.
Juego del parchís

Si consideramos la variable aleatoria $X = \text{nº de experiencias realizadas hasta obtener el primer éxito}$, diremos que sigue una distribución geométrica.

De acuerdo con la definición anterior, la variable $X$ puede tomar valores desde uno en adelante. De este modo tenemos que la función de probabilidad para X, que es fácil de deducir puesto que los primeros $k-1$ son fracasos y el $k$-ésimo éxito, sería:

$$f(k) = p(X= k) = (1-p)^{k-1}\cdot p$$

En algunos textos se considera la variable nº de fracasos obtenidos hasta el primer éxito. En este caso el valor más pequeño que puede tomar la variable es cero y la formulación cambia un poco.

$$\large f'(k') = p(X' = k') = (1-p)^{k'}\cdot p$$

Los parámetros media, varianza y desviación típica de esta distribución vienen dados por:

$$\large \mu = \frac{1}{p}; \;\;\; \sigma^2 = \frac{1-p}{p^2}\;\;\text{ y } \;\;\sigma = \sqrt{\frac{1-p}{p^2}}$$

EJEMPLO 1:

Supongamos que queremos hacer un estudio sobre la variable aleatoria referente al número de veces que un jugador necesita para poder efectuar la salida en el juego del parchís. Hay que recordar que, en este juego, un jugador no comienza el mismo hasta obtener un $5$ al lanzar el dado.

Podría ocurrir que solamente necesitara:

  • Una tirada $X = 1$; con probabilidad $1/6$
  • Dos tiradas $X = 2$ con probabilidad $(5/6)(1/6)$
  • Tres tiradas $X =3$ con probabilidad $(5/6)(5/6)(1/6)$
  • $\cdots$
  • "$k$" tiradas $X = k$ con probabilidad $\large (5/6)^{k-1}\cdot(1/6)$

La variable puede seguir tomando valores indefinidamente puesto que es posible encontrar a un jugador cuya “mala suerte“ haga que NUNCA obtenga el dichoso $5$. Estaríamos ante el caso de una distribución geométrica de parámetro $1/6$.

EJEMPLO 2:

Un matrimonio quiere tener una hija, y por ello deciden tener hijos hasta el nacimiento de la esperada hija.

Calcular el número esperado de hijos (entre varones y hembras) que tendrá el matrimonio.

Calcular la probabilidad de que la pareja acabe teniendo tres hijos o más.

$\large \mu = \frac{1}{0,5}=2$
$$\large \begin{split} p(X\ge 3) &= 1-p(X\lt 3)\\ &= 1 - [p(X=1) + p(X=2)]\\ &= 1- [0,5 + 0,5^2] = 1-(0,75)\\ &= 0,25 \end{split}$$

En la siguiente escena puedes observar la función de probabilidad de la distribución Geométrica.

Puedes cambiar los diferentes parámetros que configuran dicha distribución y observar como cambia esta función a medida que se varía alguno de ellos.

Extrae tus propias consecuencias. Así mismo puedes utilizar también la escena como calculadora directa que permite resolver situaciones particulares que se puedan plantear en problemas concretos.


Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

Distribución binomial negativa

Jugando al baloncestoImagina una persona que está jugando al baloncesto con sus amigos y que al finalizar el partido comienza a lanzar tiros libres.

A uno de ellos, especialmente desacertado, se le ocurre comentar: ¡No pienso irme de aquí hasta conseguir anotar cinco canastas!

Esta situación puede ilustrar bastante bien el problema que resuelve la distribución binomial negativa. Una distribución binomial negativa de parámetros "$r$" y "$p$" surge como una secuencia infinita de intentos de tipo Bernoulli en los que:

  • Cada secuencia es independiente de las otras.
  • En cada intento solamente son posibles dos resultados (éxito o fracaso).
  • La probabilidad de éxito es constante en cada secuencia.
  • Los intentos continúan hasta que se consigan $r$ éxitos.

Si llamamos $X =$ número de experimentos realizados hasta obtener el r-ésimo éxito, diremos que la variable $X$ sigue una distribución binomial negativa de parámetros $r, p$.

Es fácil deducir que la función de probabilidad de esta variable será:

$$f(k) = p(X=k) = \dbinom{k-1}{r-1}p^r\cdot (1-p)^{k-r}$$

La fórmula anterior no es difícil de deducir. Piensa que para esta situación estamos seguros de que el $k$-ésimo intento es un éxito y que en los $k-1$ intentos anteriores se deben redistribuir los anteriores $r-1$ éxitos. La distribución geométrica sería un caso particular de binomial negativa cuando $r = 1$. Los parámetros media, varianza y desviación típica asociados a esta distribución serían:

$$\large \mu = r\cdot\frac{1}{p}; \;\;\; \sigma^2 = r\cdot\frac{1-p}{p^2}\;\;\text{ y } \;\;\sigma = \sqrt{r\cdot\frac{1-p}{p^2}}$$

EJEMPLO 1:

Para tratar a un paciente de una afección de pulmón, han de ser operados en operaciones independientes sus $5$ lóbulos pulmonares. La técnica a utilizar es tal que si todo va bien, lo que ocurre con probabilidad de $7/11$, el lóbulo queda definitivamente sano, pero si no es así se deberá esperar el tiempo suficiente para intentarlo posteriormente de nuevo. Se practicará la cirugía hasta que $4$ de sus $5$ lóbulos funcionen correctamente. ¿Cuál es el valor de intervenciones que se espera que deba padecer el paciente? ¿Cuál es la probabilidad de que se necesiten $10$ intervenciones?

Este es un ejemplo claro de experimento aleatorio regido por una ley binomial negativa, ya que se realizan intervenciones hasta que se obtengan $4$ lóbulos sanos, y éste es el criterio que se utiliza para detener el proceso. Identificando los parámetros se tiene que si $X$ es Número de operaciones hasta obtener $r=4$ con resultado positivo,

$$\large p(X=10) = \dbinom{8}{3}\cdot \dbinom{7}{11}^4 \cdot \dbinom{4}{11}^6 = 0,03185$$ $$\large \mu= 4\cdot \frac{1}{7/11} = 6.25...$$

EJEMPLO 2:

Se sabe que la probabilidad de que un niño expuesto a una enfermedad contagiosa la contraiga es de $0,4$. Calcula la probabilidad de que el décimo niño estudiado sea el tercero en contraer la enfermedad.

Podemos enfocar el problema como una binomial negativa de parámetros $X = 10, k=3$ y $p=0,4$

$$p(X=10) = \dbinom{9}{2}\cdot 0,4^3\cdot 0,6^7 = 0,0645$$

En la siguiente escena puedes observar la función de probabilidad de la distribución Binomial negativa. Puedes cambiar los diferentes parámetros que configuran dicha distribución y observar como cambia esta función a medida que se varía alguno de ellos. Extrae tus propias conclusiones. Así mismo, puedes utilizar también la escena como calculadora directa que permite resolver situaciones particulares que se puedan plantear en problemas concretos.

Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

Distribución uniforme

Supongamos un experimento aleatorio en el que los resultados posibles pueden tomar un conjunto de “$n$” valores discretos y donde cualquiera de estos valores puede obtenerse con igual probabilidad. Ejemplos de distribución uniforme

Es una distribución muy sencilla que asigna probabilidades iguales a un conjunto finito de puntos del espacio. Modeliza fenómenos en los que tenemos un conjunto de n sucesos posibles, cada uno de los cuales con la misma probabilidad de ocurrir.

Si consideramos la variable aleatoria que hace corresponder cada uno de esos sucesos a un número natural desde $1$ a “$n$”, obtenemos lo que se denomina una distribución uniforme. El único parámetro de la distribución es “$n$” de ahí que se suela representar por:$$\large X \to U(n)$$

Por ejemplo el lanzamiento de un dado correspondería a una distribución uniforme con $n=6$. La función de probabilidad de una distribución uniforme viene dada por:

$$P(x) = \frac1n\;\;\;\text{para}\;\;\; x = \lbrace 1,2, 3 , \cdots, n\rbrace$$

Los parámetros media, varianza y desviación típica de una distribución uniforme no son difíciles de obtener:

$\mu = \displaystyle\sum_{i=1}^n i\cdot \frac1n = \frac1n \cdot(1+2+3+\cdots + n) = \frac1n \cdot (\frac{1+n}{2})\cdot n = \frac{1+n}{2}$
$\sigma^2 = \displaystyle\sum_{i=1}^n i^2\cdot \frac1n - \mu^2 = \frac1n\cdot (1^2+ 2^2+3^2+ \cdots + n^2) - \big(\frac{1+n}{2}\big)^2 = \frac{n^2-1}{12}$
$\displaystyle\sigma = \sqrt{\frac{n^2-1}{12}}$

En la siguiente escena puedes observar la función de probabilidad de la distribución Uniforme. Puedes cambiar los diferentes parámetros que configuran dicha distribución y observar como cambia esta función a medida que se varía alguno de ellos.

Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

Problemas resueltos

A continuación tienes el enunciado de diferentes problemas. Trabájalos y una vez los hayas resuelto puedes hacer clic sobre el botón para ver la solución.

Créditos del capítulo

Parte VI

Distribución Normal

Juan Jesús Cañas Escamilla
José R. Galo Sánchez

Johann Carl Friedrich Gauss (Braunschweig, 30 de abril de 1777-Gotinga, 23 de febrero de 1855)​ fue un matemático, astrónomo y físico alemán que contribuyó significativamente en muchos ámbitos, incluida la estadística. (https://es.wikipedia.org/). Crédito imagen: C. A. Jensen , Dominio Público.

Introducción

Idea intuitiva de función de densidad.

Las distribuciones de probabilidad de una variable aleatoria continua pueden imaginarse como idealizaciones del polígono de frecuencias, asociado al histograma de frecuencias relativas, cuando se aumenta indefinidamente el número de datos y se disminuye paulatinamente la amplitud de los intervalos. Este proceso “límite” proporciona una primera idea de función asociada a dicha variable continua.

Las distribuciones de probabilidad de una variable continua se definen a partir de una función particular a la que llamaremos función de densidad. Consideremos inicialmente un ejemplo:

En un instituto se decide estudiar el tiempo, llamémosle $X$, que emplean los alumnos en desplazarse desde su casa hasta el citado centro. Se trata de una variable estadística que al menos teóricamente puede tomar cualquier valor dentro de un determinado intervalo (entre $0$ y $20$ minutos por ejemplo).

Este tipo de variable se suele representar gráficamente mediante un histograma que consiste en levantar un rectángulo sobre cada uno de los intervalos (clases) donde toma sus valores. La base del rectángulo es la amplitud del intervalo. Si variamos las bases de los intervalos, evidentemente cambia la forma del histograma.

Si el número de alumnos a los que controlamos el tiempo fuese suficientemente grande y vamos aumentando el número de intervalos (o lo que es lo mismo, consideramos clases cada vez más pequeñas), la línea poligonal que forman los puntos medios de los lados superiores de los rectángulos, llamada poligonal de frecuencias. tiende a una curva que recibe el nombre de Función de Densidad de la variable $X$.

En la siguiente escena puedes observar el proceso límite que vislumbra la idea de función de densidad. Por motivos de agilidad en cuanto al funcionamiento de la escena se ha limitado los valores máximos para el control correspondiente al tamaño de la población y el de partición (límite de intervalos que se consideran).

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

En la siguiente imagen puedes observar el resultado que ofrece la escena anterior para el caso de una población de $50000$ elementos y una partición de $1000$ intervalos


Proceso límite de Histograma de frecuencias relativas

Definición de Función de densidad

Una función $f(x)$ se admite como función de densidad de una variable aleatoria continua $X$ si verifica:

  • La función $f(x)$ es positiva o nula en todo el dominio de definición
  • El área limitada por la gráfica de la función y el eje de abscisas
    ($OX$) es igual a la unidad.

Algunos ejemplos de función de densidad

Ejemplo de función de densidad $$f(x) = \begin{cases} 0 &\text{si } x\lt 1 \\ x-1 &\text{si } 1\le x\le 2\\ -x+3 &\text{si } 2\le x\le 3\\ 0 &\text{si } x\gt 3 \end{cases}$$
Representación gráfica de función de densidad $$g(x) = \begin{cases} 0 &\text{si } x\lt 0 \\ \frac12 x &\text{si } 0\le x\le 2\\ 0 &\text{si } x\gt 2 \end{cases}$$
Representación gráfica de función de densidad $$h(x) = \begin{cases} 0 &\text{si } x\lt 0 \\ \frac12 &\text{si } 0\le x\le 2\\ 0 &\text{si } x\gt 2 \end{cases}$$

Nota: En variable continua no tiene sentido el estudio de la probabilidad en un valor aislado (siempre sería cero), pero sí lo tiene el de considerar la probabilidad de que la variable tome valores comprendidos dentro de un intervalo.

Asociaremos la probabilidad de que una variable continua tome valores entre los puntos del intervalo $[a , b]$ como el área comprendida entre la curva, el eje $OX$ y las rectas $x = a$ y $x = b$.

La media o esperanza matemática es el valor más representativo de todos los que toma la variable continua $X$, puede imaginarse como el punto sobre el eje de abscisas en el cuál la superficie generada por la función y el eje permanecerían en equilibrio. El cálculo matemático se haría:

$$\large \int_{-\infin}^{\infin} x\cdot f(x)dx$$

La desviación típica se define como una medida de la dispersión de los valores de la variable $X$ con respecto a la media. Mientras más pequeña sea la desviación más estrecha será la gráfica de $f(x)$ respecto a la media. Su cálculo se haría:

$$\large \sqrt{\int_{-\infin}^{\infin} x^2\cdot f(x)dx- \mu^2}$$

La distribución normal

La distribución normal es sin duda la más importante de las distribuciones continuas tanto en la teoría como en la práctica estadística. Puede decirse que en este universo, la mayoría de los fenómenos naturales se comportan básicamente de forma normal o “gaussiana”. En estadística inferencial, el teorema central del límite y las pruebas de normalidad sobre una serie de datos, van a ser básicas en el desarrollo moderno de la estadística.

Aunque fue reconocida por primera vez por el francés Abraham de Moivre (1667-1754), posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más profundos y formuló la ecuación de la curva. Se suele conocer popularmente como la "campana de Gauss".

Gauss y la normal

La distribución de una variable normal está completamente determinada por el conocimiento de dos parámetros:

$$\text{Media }\mu\\ \text{Desviación típica }\sigma$$

La notación que emplearemos será:


$$N(\mu, \sigma)$$

Que llamaremos normal de media $\mu$ y desviación típica $\sigma$

La expresión de la función de densidad para la distribución normal viene dada por:

$$f(x)= \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac12 \big(\frac{x-\mu}{\sigma}\big)^2}$$

Las principales características (propiedades) de esta función son:

Propiedades de la normal mu sigma

En la siguiente escena puedes manipular los controles para observar el comportamiento de la gráfica de la distribución normal cuando cambias la media y la desviación típica de la misma.


Videos

Puedes observar dos clases sobre la distribución normal correspondientes a la Universidad Politécnica de Valencia.

La distribución normal cero uno

Entre la familia de las distribuciones normales, la que tiene por media cero y por desviación típica uno es sin duda la más importante de todas. Esta distribución aparece totalmente tabulada y como veremos más adelante permitirá el cálculo de cualquier tipo de probabilidad en cualquier tipo de distribución normal.

La notación que emplearemos para referirnos a esta normal será $N(0,1)$.

Su función de densidad viene dada por la fórmula:

$$\large f(x) = \frac{1}{\sqrt{2\pi}}\cdot e^{\frac{-x^2}{2}}$$

Como ya se ha mencionado al principio del tema, el cálculo de probabilidades en variable continua se asocia al cálculo de áreas. En el caso particular de la distribución $N(0,1)$

Si queremos calcular el valor de que la variable tome un valor menor o menor o igual que "$z$", tendríamos que calcular un área mediante el proceso de integración indefinida, con la dificultad añadida de que la función a integrar no admite una primitiva en términos de función elemental.

$$\large p(Z \le z) = \int_{-\infin}^z \frac{1}{\sqrt{2\pi}}\cdot e^{\frac{-x^2}{2}} dx$$

Afortunadamente no tendremos que realizar este tipo de ejercicio cada vez que queramos calcular una probabilidad ya que disponemos de una tabulación que permite calcular con bastante precisión el valor de que la variable tome valores menores o menores o iguales que cualquier valor "$z$" comprendido entre $0$ y $4$ con incrementos de una céntésima.

Esto será suficiente para localizar cualquier tipo de probabilidad como veremos más adelante.

En la siguiente imagen podemos ver la representación gráfica de la $N(0, 1)$

Detalle de la tabulación de la $N(0,1)$. Ejemplo de cálculo de una probabilidad (aréa correspondiente al barrido a la izquierda de la función):

Tipificación

La tipificación es el procedimiento que permite pasar de cualquier distribución normal a la distribución $N(0,1)$. En una distribución continua, si efectuamos el cambio de variable:

$$\large Z = \frac{x-\mu}{\sigma}$$

Siendo $\mu =$ media y $\sigma =$ desviación típica.

En la siguiente escena puedes comprobar como la gráfica de la función de densidad de cualquier distribución normal, mediante ese cambio de variable, se transforma en la gráfica de la función de densidad de la N(0,1). Para ello basta con que cambies los controles media y desviación típica de la escena.

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

En las siguientes escenas puedes observar lo que ocurre al tipificar una variable. Puedes calcular probabilidades de distribuciones normales distintas a la N(0,1), además puedes elegir entre cálculo de probabilidades a la izquierda, (barrido izquierda), cálculo de probabilidades a la derecha, (barrido derecha) o cálculo de probabilidades entre dos valores, (barrido de una franja).

Cálculo de probabilidades a la izquierda mediante tipificación


Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

Cálculo de probabilidades a la derecha mediante tipificación


Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

Manejo de la tabla de la N(0,1)

Los valores más importantes en cuanto al cálculo de probabilidades de la distribución normal $N(0, 1)$ aparecen tabulados en una tabla muy sencilla, que presenta una disposición en filas y columnas permitiendo una rápida localización del valor cuya área a la izquierda se asocia con $p(Z \lt z)$.

En la primera columnna aparece la parte entera y el primer decimal del valor desde el $0,0$ al $4.0$ (en algunas tablas no llega hasta el $4$ y suele terminar en $3,5$ ).

En la primera fila aparece la segunda cifra decimal, desde el $0,00$ al $0,09$. Para calcular la probabilidad de que la variable sea menor o menor o igual que, por ejemplo el valor $z = 1,23$, miramos la primera columna y nos situamos en $1,2$, (parte entera y primera cifra decimal). Después en la primera fila elegimos el valor $0,03$, (segunda cifra decimal). El valor que buscamos es la intersección de la fila en la que está situado el valor $1,2$ y la columna correspondiente a $0,03$.

Esta tabulación es muy simple. Ocupa apenas una página y se ha popularizado mucho. No obstante, es muy concisa y contiene la información mínima que se necesita para la localización de cualquier tipo de probabilidad. Para determinar probabilidades que no aparecen directas en la tabla se emplearán tácticas muy simples que abordaremos en los siguientes epígrafes.

Valor general directo de la N(0,1)

Ejemplo de tabulación de la $N(0,1)$

Tabla N(0,1)

Probabilidad $p (Z \lt a)$. Barrido a la izquierda

Como ya se ha dicho anteriormente, los valores de la tabla de la $N(0,1)$ se corresponden directamente a barridos a la izquierda. En consecuencia, si el valor en cuestión es uno de los que aparece deirectamente en la tabla, bastará proceder como se indicó en el epígrafe anterior.

Por el contrario, si el valor no es de los que aparece en la tabla ya que es negativo.

Ejemplo de barrido izquierda negativo

Probabilidad $p (Z \gt a)$. Barrido a la derecha

Como ya se ha dicho anteriormente los valores de la tabla de la $N(0,1)$ corresponden directamente a barridos a la izquierda. En consecuencia, no existen de forma directa valores que correspondan a barridos a la derecha. Vamos a distinguir entre valores positivos y negativos.

- Para el caso $p ( z \gt a )$ siendo "$a$" un valor positivo.

Ejemplo de barrido a la derecha de valores positivos

- Para el caso $p ( z \gt -a )$ siendo "$-a$" un valor negativo.

Ejemplo de barrido a la derecha para valor negativo

Franja entre dos valores

Como ya se ha dicho anteriormente los valores de la tabla de la $N(0,1)$ corresponden directamente a barridos a la izquierda. En consecuencia, no existen de forma directa valores que correspondan a la franja del área o barrido correspondiente a dos valores. Vamos a distinguir tres casos:

- Para el caso $p ( a \lt z \lt b )$, siendo "$a$" y "$b$" valores positivos.

Ejemplo  franja entre dos valores positivos

- Para el caso $p (- a \lt z \lt - b )$, siendo "$-a$" y "$-b$" valores negativos.

Ejemplo  barrido franja de valores negativos

- Para el caso $p (- a \lt z \lt b )$, siendo "$-a$" negativo y "$b$" positivo.

Ejemplo barrido franja valores de signo distinto

En la siguiente escena puedes practicar con el cálculo de probabilidades a la derecha (barrido a la derecha). Puedes elegir, en el primer control de menú, la opción $\lt\lt \text{mayor}\gt\gt$ y, en el segundo control, $\lt\lt \text{valor de z}\gt\gt$ puedes cambiarlo directamente. La escena resuelve directamente sin necesidad de realizar ninguna táctica. No obstante, es conveniente que practiques con la tabla y que compruebes tus resultados con los que se reflejan en la escena de forma directa.

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Manejo inverso de la tabla de la $N(0,1)$

Existen muchas ocasiones en las que nos interesa saber cuál es el valor de una determinada distribución que deja a su izquierda o derecha una probabilidad determinada. Pensemos por ejemplo en una nota de corte para acceso a una determinada titulación, o en los valores de perímetro craneal que determinan que un feto se encuentre entre los percentiles $25$ y $75$. También se verá en temas posteriores la importancia del cálculo de los denominados "zeta sub alfa medios y zeta sub alfa", tan importantes en intervalos de confianza y contraste de hipótesis. En definitiva, conviene tener cierta habilidad en la utilización de la tabla de la $N(0,1)$ en el sentido expuesto anteriormente. Recordemos también la propia limitación de la tabla en cuanto a que presenta únicamente valores entre $0$ y como mucho $4$ y, además, que las probabilidades correspondientes son únicamente de lo que denominamos barridos a la izquierda.

En la siguiente imagen se muestra la localización del valor de la variable en la $N(0,1)$ que deja a la izquierda una probabilidad de $0.776$ (haz clic sobre la imagen para ampliarla).

Calculo del valor $z_a$ tal que $p(z \lt z_a) = k$

Se trata de calcular el valor de la distribución $N(0,1)$ que llamaremos $z_a$ y que proporciona un barrido a la izquierda de valor "$k$", es decir, tal que $p( z \lt z_a) = k$.

Normalmente el valor de "$k$" no coincidirá exactamente con uno de los que aparece en la tabla, por tanto debemos considerar el más proximo. En el caso en el que haya dos o más que estén a la misma distancia de "$k$", lo habitual es considerar como valor de $z_a$ la media aritmética de los calculados.

Por ejemplo, supongamos que nos interesa conocer el valor de la distribución $N(0,1)$ que determine su percentil $70$; es decir, el valor $z_a$ tal que $p( z \lt z_a)= 0.7$.

  • El valor no coincide con ningún valor de la tabla, por tanto considero el más próximo. En este caso $0.6985$.
  • Extrapolamos el valor para localizar el $z_a$. En este caso $z_a= 0.52$.
Ejemplo de calculo de valor tal que p(z<a)=k

En la siguiente escena puedes calcular directamente, y sin necesidad de utilizar ninguna tabla, los valores que dejan una probabilidad a la izquierda de lo que quieras. Basta con que introduzcas el valor deseado en el control <<probabilidad>>. No obstante, puedes practicar el cálculo de este tipo de valores con la tabla de la $N(0,1)$. También, puedes utilizar la escena para comprobar el error que se comete al realizar los cálculos de forma manual (con la tabla), o de forma directa en la escena.

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Cálculo del valor $z_a$ tal que $p(z \gt z_a) = k$

Se trata de calcular el valor de la distribución $N(0,1)$ que llamaremos $z_a$ y que proporciona una probabilidad a la derecha o barrido a la derecha de valor "$k$", es decir, tal que $p( z \gt z_a )= k$. Teniendo en cuenta que en la tabla de la $N(0,1)$, los valores que aparecen corresponden a barridos a la izquierda, debemos realizar una táctica sencilla que permita localizar el valor $z_a$.

  • Si a la derecha deja una probabilidad de valor "$k$", eso significa que a la izquierda dejará un valor de "$1-k$", por tanto, $p( z \lt z_a )=1- k$.
  • Normalmente el valor de "$1-k$" no coincidirá exactamente con uno de los que aparece en la tabla, por tanto debemos considerar el más proximo. En el caso en el que haya dos o más que estén a la misma distancia de "$1-k$", lo habitual es considerar como valor de $z_a$ la media aritmética de los calculados.

Por ejemplo, supongamos que nos interesa conocer el valor de la distribución $N(0,1)$, tal que la probabilidad a la derecha de ese valor sea de $0.2$, es decir, el valor $z_a$ tal que $p( z \gt z_a) = 0.2$.

  • Si $p( z \gt z_a) = 0.2$, entonces $p( z \lt z_a) = 1-$, es decir, $p( z \lt z_a) = 0.80$.
  • El valor no coincide con ningún valor de la tabla, por tanto considero el más próximo. En este caso $0.7995$.
  • Extrapolamos el valor para localizar el $z_a$. En este caso $z_a = 0.84$

Calculo del valor tal que p(z>a)=k

En la siguiente escena puedes calcular directamente y sin necesidad de utilizar ninguna tabla los valores que dejan una probabilidad a la derecha de lo que quieras. Basta con que introduzcas el valor deseado en el control <<probabilidad>>.

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

No obstante, puedes practicar el cálculo de este tipo de valores con la tabla de la $N(0,1)$. También puedes utilizar la escena para comprobar el error que se comete al realizar los cálculos de forma manual, (con la tabla) o de forma directa en la escena.

Cálculo del valor $z_a$ tal que
$p(-z_a \lt z \lt z_a) = k$

Se trata de calcular el valor de la distribución $N(0,1)$que llamaremos $z_a$ y que proporciona una probabilidad central de valor "$k$", es decir, tal que $p(-z_a \lt z \lt z_a)= k$.

En este caso, teniendo en cuenta que los valores de la tabla de la Normal $N(0,1)$ corresponden únicamente a barridos de probabilidad a la izquierda, debemos razonar un poco más.

  • Si $p(-z_a \lt z \lt z_a )= k$, teniendo en cuenta que el área total es $1$ y la simetría de la distribución, se tiene que $p( z \lt z_a) = 0.5+ k/2$.
  • El valor "$0.5+ k/2$" habitualmente no coincidirá exactamente con uno de los que aparece en la tabla, por tanto debemos considerar el más proximo. En el caso en el que haya dos o más que estén a la misma distancia de "$k$", lo habitual es considerar como valor de $z_a$ la media aritmética de los calculados.

Por ejemplo, supongamos que nos interesa conocer los valores de la distribución $N(0,1)$ que encierren una probabilidad central del $0.9$; es decir, los valores $z_a$ y $-z_a$ tal que $p(-z_a \lt z \lt z_a )= 0.9$

  • Si $p(-z_a \lt z \lt z_a )= 0.9$, entonces $p( z \lt z_a)= 0.5+0.45 = 0.95$. El valor no coincide con ningún valor de la tabla, por tanto, consideramos el más próximo. En este caso, hay dos que están a la misma distancia: $0.9495$ y $0.9505$, extrapolando los dos valores corresponderían a $z_a = 1.64$ y $z_a = 1.65$.
  • Consideramos la media aritmética de los dos valores, por tanto $z_a = 1.645$.
Calculo del valor tal que p(z>a)=k

En la siguiente escena puedes calcular directamente y sin necesidad de utilizar ninguna tabla los valores que dejan una probabilidad central de lo que quieras. Basta con que introduzcas el valor deseado en el control <<probabilidad>>.

No obstante, puedes practicar el cálculo de este tipo de valores con la tabla de la $N(0,1)$. También puedes utilizar la escena para comprobar el error que se comete al realizar los cálculos de forma manual(con la tabla), o de forma directa en la escena.


Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Aproximación de una binomial por una normal

Partimos de un ejemplo:

Se sabe que la probabilidad de padecer cierta infección hospitalaria es de $0.005$. Sobre una población de $1000$ pacientes nos interesaría estudiar la probabilidad de que haya por ejemplo más de $10$ infecciones, o $10$ o menos de $10$.

Según los datos que se desprenden del problema, estamos ante una distribución binomial de parámetros $B(1000 , 0.005)$. Para responder a las preguntas que se plantearon anteriormente, nos podemos encontrar con algunos serios incovenientes, pues la calculadora científica clásica, evidentemente, no puede con la carga operacional y se sale de rango. En estos casos es muy útil el resultado que se estudiará en el siguiente epígrafe y que proporciona las condiciones en las que una distribución binomial puede aproximarse por una distribución normal transformando las situaciones anteriores en preguntas que se contestan muy fácilmente en el nuevo ambiente de la distribución normal. El planteamiento del problema si lo abordamos mediante una binomial sería:

Planteamiento según B(1000 , 0,005)

Teorema de Moivre

Abraham de Moivre Este resultado establece las condiciones en las que una distribución discreta como la binomial puede aproximarse por una distribución normal, proporcionando además los parámetros media o esperanza y desviación típica de dicha distribución normal.

La sencillez de las condiciones que establece el teorema, el ahorro operacional que proporciona y la calidad de la aproximación hace que sea uno de los resultados más utilizados en estadística.

Supongamos una distribución binomial $B( n , p )$ en la que se cumplan simultáneamente las condiciones:

$$n\cdot p \ge 5\;\;\;\;\; n\cdot (1-p)\ge 5$$

Entonces

$$B(n, p) \to N(n\cdot p, \sqrt{n\cdot p\cdot q})$$

En la siguiente escena puedes practicar un poco con las condiciones y tesis del teorema de Moivre. Si pulsas el botón de dibujar la normal, observarás la poca diferencia que ofrece la aproximación.

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

CORRECCIÓN POR CONTINUIDAD (Corrección de Yates)

La distribución binomial es una variable discreta y por tanto tiene sentido el preguntarnos tanto por probabilidades puntuales, como por probabilidades en las que sí tenga importancia saber si el primer o último valor entra o no entra en las posibilidades del problema. Sin embargo, cuando efectuamos la aproximación por una distribución normal, por tanto continua, las consideraciones anteriores dejan de ser determinantes, ya que la primera no tendría sentido y la segunda no ofrecería diferencia alguna.

Para aclarar y diferenciar este tipo de situaciones se ha adoptado, como norma general, realizar correcciones que vienen a solucionar ese matiz diferenciador en las distribuciones discretas, que se “difumina” en la aproximación mediante una distribución continua. En este sentido, convenimos efectuar las siguientes"correcciones" sobre los valores, conocida popularmente como correcciones de Yates

Corrección de Yates

Corrección de Yates
Corrección de Yates
Corrección de Yates

Corrección de Yates
Corrección de Yates

Veamos un ejemplo muy sencillo de aplicación del teorema de Moivre con la corrección de Yates. Supongamos que el $90\%$ de los miembros de un club pasan sus vacaciones en la playa. Calcula una aproximación, obtenida utilizando tablas de la normal, de la probabilidad de que, en un grupo de $6000$ miembros del club, $5450$ o menos vayan a ir a la playa a pasar sus vacaciones.

Solución del problema

Problemas resueltos

A continuación tienes el enunciado de diferentes problemas. Trabájalos y una vez los hayas resuelto puedes hacer clic sobre el botón para ver la solución.

Créditos del capítulo

Parte VII

Inferencia Estadística
Muestreo

Juan Jesús Cañas Escamilla
José R. Galo Sánchez

Abraham de Moivre (26 de mayo de 1667, Champagne - 27 de noviembre de 1754, Londres) fue un matemático francés, conocido por su fórmula epónima, por sus aportaciones a la teoría de la probabilidad y porque predijo la fecha de su muerte a través de un cálculo estadístico (https://es.wikipedia.org/).

Introducción

Hasta ahora, con la estadística descriptiva, se han ido estudiando las características de una población a partir de ciertos parámetros obtenidos de la misma, realizando una labor primoldialmente descriptiva de los aspectos principales de dicha población.

Diremos que se ha realizado un estudio exhaustivo o censo, cuando lo hayamos realizado sobre todos los elementos de una población. En el caso en el que la investigación se haga sobre una muestra, diremos que se ha realizado un estudio por muestreo.

A diferencia de la estadística descriptiva, la estadística inferencial tiene otros objetivos:

La Inferencia estadística persigue la obtención de conclusiones sobre distintos aspectos de una población, a partir de los datos obtenidos en una muestra de dicha población. También intenta medir su significación, es decir, la confianza que nos merecen dichas conclusiones.

Por ejemplo:

  • Inferir la altura media de los jóvenes cordobeses a partir de los datos obtenidos en una muestra de los mismos extraída en un centro de secundaria.
  • Inferir la proporción de personas favorables a cierto político a partir de los datos obtenidos en una muestra realizada telefónicamente.
  • Inferir el porcentaje de concentración de cierta sustancia en un lago a partir de los datos obtenidos con una pequeña muestra.

Llamaremos parámetro a cualquier valor representativo de una población; media, mediana, moda varianza…

Llamaremos estadístico a cualquiera de los valores representativos obtenidos en las diferentes muestras de la población; media muestral, varianza muestral, desviación típica muestral…

Inferencia estadística

Muestreo probabilístico. Tipos de muestreo.

El estudio de determinadas características de una población se efectúa a través de las diversas muestras que pueden extraerse de ella.

Los métodos de muestreo probabilístico son aquellos que se basan fundamentalmente en el principio de equiprobabilidad; es decir: aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra. Este aspecto es crucial con respecto a la representatividad de dichas muestras y debe tratarse con mucho cuidado ya que procedimientos que en principio parecen aleatorios muchas veces no lo son. Pensemos en una macroencuesta a nivel mudial. Imaginemos que deseamos realizar un estudio sobre hábitos alimenticios y para ello elegimos de forma aleatoria números de teléfono en los distintos países y realizamos llamadas para contactar con los individuos de nuestra muestra. ¿Estamos seguros de que todos los individuos de la población han tenido la misma probabilidad de ser elegidos? En principio el procedimiento es aleatorio pero todavía en algunos países el teléfono es un artículo de lujo al que una gran parte de la población aún no tiene acceso. En consecuencia esos individuos no tendrían ninguna posibilidad de ser elegidos con nuestro procedimiento.

Representatividad de las muestras - Muestreo aleatorio

La característica más importante de una muestra es su representatividad respecto al estudio estadístico que se esté haciendo. Si la muestra no es representativa diremos que está sesgada.

El proceso mediante el cual se elige una muestra se llama muestreo, y para que nos proporcione una muestra representativa debe ser aleatorio. Un muestreo es aleatorio cuando los individuos de la muestra se eligen al azar, de forma que todos tienen la misma probabilidad de ser elegidos.

Observa la siguiente escena interactiva:

Escena desarrollada por Mª José García Cebrian (RED Descartes)

En la escena cada uno de los $625$ cuadraditos representa un alumno de un instituto ficticio, se quiere estudiar el "número de hermanos", puedes animar una elección totalmente aleatoria o realizar tú el muestreo, simulando encuestas, haciendo clic.

Hazlo así: Decide primero el tamaño de la muestra, por ejemplo $62$ alumnos, sitúa el ratón sobre el recuadro y con los ojos cerrados selecciona un cuadrito (alumno), a partir de este cuenta y haz clic cada 10 cuadritos ($625/62\approx 10$), cuando llegues al final de la lista (cuadrado) sigue desde el principio. Este tipo de muestreo aleatorio se llama sistemático.

Dentro de los métodos de muestreo probabilísticos pueden destacarse los siguientes:

Muestreo aleatorio simple

Para la realización de este tipo de muestreo, se asigna un número a cada individuo de la población y a través de algún procedimiento aleatorio, con reemplazamiento, como sorteo, tabla de números aleatorios, función ran# de la calculadora, etc., y se eligen tantos sujetos como sea necesario para completar el tamaño de muestra.

Muestreo aleatorio simple Muestreo aleatorio simple Muestreo aleatorio simple

Muestreo aleatorio sistemático

Este tipo de procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer “n” números aleatorios sólo se extrae uno. Se parte de ese número aleatorio y a partir de él se seleccionan los lugares múltiplos de un número “$k$” obtenido previamente. Por ejemplo supongamos un control de tráfico en el que se decide parar a partir de un momento dado a los vehículos que ocupen el lugar $20, 40, 60,\cdots$.


Muestreo sistemático
Muestreo sistemático

EJEMPLO: Una ganadería tiene $3000$ vacas. Se quiere extraer una muestra de $120$. Explica cómo se debería obtener la muestra:
a) Mediante muestreo aleatorio simple
b) Mediante muestreo sistemático.

Solución:

a) En primer lugar se asignaría un número a cada vaca desde el $1$ al $3000$. Posteriormente se sortean $120$ números entre $1$ y $3000$ (se puede utilizar la función “ran” $\cdot 3000$.

b) En primer lugar el coeficiente de elevación $3000/120$ es decir $25$.
En segundo lugar sortear un número entre el $1$ y el $25$;“ran” $\cdot 25$, supongamos que se obtiene el nº $3$. Las vacas seleccionadas serán: $3, 28, 53,\cdots 2978$.

Muestreo aleatorio estratificado

Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna modalidad. Se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc. Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estén representados adecuadamente en la muestra.

La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser de diferentes tipos:

  • Afijación Simple: A cada estrato le corresponde igual número de elementos
  • Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la población en cada estrato.
Muestreo estratificado
Muestreo estratificado Muestreo estratificado

EJEMPLO: Supongamos que nos interesa estudiar el grado de aceptación que la implantación de la nueva ley educativa ha tenido entre los padres de alumnos de una provincia. Seleccionamos 600 individuos. Se conoce que los 10000 niños escolarizados se distribuyen: $6000$ en colegios públicos, $3000$ en colegios concertados y $1000$ en privados no concertados.

Queremos que los tres estratos estén representados de acuerdo a:

a) Afijación simple.

b) Afijación proporcional.

Solución:

a) Los tres estratos tendrán el mismo número de elementos ( en este caso $200$ )

b) Para realizar la afijación proporcional:

  • Colegios públicos: $6000/10000=0.60$
  • Colegios privados concertados: $3000/10000=0.30$
  • Colegios privados no concertados: $1000/10000=0.10$

Para conocer el tamaño de cada estrato en la muestra no tenemos más que multiplicar esa proporción por el tamaño muestral.

  • Colegios públicos: $0.60x600=360$ sujetos
  • Colegios privados concertados: $0.30x600=180$ sujetos
  • Colegios privados no concertados: $0.10x600= 60$ sujetos

Representatividad de las muestras - Muestreo estratificado

En ocasiones cuando la población objeto de estudio, pertenece a distintos grupos o estratos conviene elegir la muestra de forma que todos ellos queden representados.

Este tipo de muestreo, escogiendo un reparto proporcional a los estratos, se llama estratificado.

En este caso la variable a estudiar es el color preferido, y se ha decidido hacerlo por niveles: 1º-2º ESO, 3º-4º ESO y Bachillerato.


Escena desarrollada por Mª José García Cebrian (RED Descartes)

Practica en la siguiente escena:

Escena desarrollada por Mª José García Cebrian (RED Descartes)

Muestreo aleatorio por conglomerados

En el muestreo por conglomerados, la muestra seleccionada es todo un grupo de elementos de la población que forman en sí una unidad compacta, a esta unidad es a la que llamamos conglomerado. Este tipo de muestreo consiste en seleccionar aleatoriamente un cierto número de conglomerados y en investigar después todos los elementos de los mismos. Las unidades hospitalarias, los departamentos universitarios, una caja de determinado producto, etc., son conglomerados naturales. En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los conglomerados son áreas geográficas suele hablarse de "muestreo por áreas".

Muestreo por conglomerados
Muestreo por conglomerados Muestreo por conglomerados

EJEMPLO: Supongamos que interesara estudiar algún aspecto concerniente a los políticos que componen las corporaciones locales de municipios de aproximadamente 15000 habitantes. Sabemos que por término medio una corporación local en estos casos suele estar compuesta por 12 políticos de los distintos partidos. ¿Cómo realizar el muestreo si necesitáramos una muestra de tamaño 600?

Solución: En primer lugar elegiríamos aleatoriamente $50$ pueblos de alrededor de $15000$ habitantes. Una vez elegidos estudiamos a todos los elementos de estas corporaciones.

En la siguiente escena puedes trabajar con la idea fundamental del muestreo probabilístico:

Escena desarrollada por varios autores (RED Descartes)

Muestreo no aleatorio

En ocasiones la naturaleza del estudio, las necesidades económicas, las características de una determinada población u otra razón, obligan a recurrir a métodos de obtención de muestras que no son aleatorias. Este tipo de muestreo tienen como principal inconveniente su dificultad de representatividad respecto de la población de partida. Se pueden mencionar como algunos de los métodos de muestreo no aleatorio más utilizados:

  • Muestras erráticas o casuales. Por ejemplo encuestas a pie de urna o encuestas a la salida o entrada de un evento deportivo.
  • Muestras intencionadas o racionales. Selección consciente de los elementos de la muestra. Para un estudio académico el profesor elige intencionadamente a los alumnos con la información que ya tiene de ellos de forma que la muestra englobe las características de la población.
  • Muestras por cuotas. Criterios previos de selección como individuo de entre $30$ y $40$ con trabajo, divorciado y deportista.
  • Muestras bola de nieve. Colectivos difíciles de encontrar como, por ejemplo, un estudio sobre el perfil de personas aficionadas al comic antiguo en España. En este tipo de muestreo es dificil de conseguir a los individuos aunque sí es relativamente fácil que un individuo concreto conozca a otros de su perfil y que por tanto a partir de unos cuantos, se genere como una bola de nieve, una muestra aceptable.

finalmente, puedes profundizar un poco más con algunos vídeos, a los que puedes acceder haciendo clic en las imágenes de la siguiente página.




Distribución en el muestreo de la proporción

Supongamos una población de la que conocemos la proporción “p” de individuos que cumple cierta característica. Si de esta población extraemos muestras de tamaño “$n$”, y en cada muestra a su vez estudiamos la proporción de individuos que cumple la característica estudiada, obtendremos diferentes proporciones muestrales:

Variable estadística proporciones muestrales de tamaño n

De manera que si llamamos

$$\^P$$

a la variable aleatoria formada por los distintos valores que toman las proporciones muestrales.

Esta variable aleatoria como tal tiene las siguientes características:

  • La media o esperanza matemática de la variable "proporciones muestrales" es la proporción poblacional “$p$”

  • La desviación típica de la variable "proporciones muestrales" es:

    $$\large \sigma = \sqrt{\frac{p(1-p)}{n}}$$

Además, a medida que crece el tamaño $n$, la distribución de las proporciones muestrales se aproxima cada vez más a la DISTRIBUCIÓN NORMAL (siempre que "$p$" no esté muy próxima a $0$ ni a $1$)

$$\text{Para } n \text{ suficientemente grande } \implies \^p \to N\Big(p, \sqrt{\frac{p(1-p)}{n}}\Big)$$

EJEMPLO: En una población se conoce que un $2\%$ de la misma es favorable a la construcción de un centro de rehabilitación para toxicómanos. Si suponemos que en un barrio de la misma viven 500 personas. Calcula la probabilidad de encontrar en dicho barrio más de $9$ personas favorables a la construcción de dicho centro.

En la siguiente escena puedes observar el comportamiento de la distribución de las proporciones muestrales cuando cambias el tamaño de la población.

También puedes cambiar la proporción poblacional y el tamaño de la misma, observando la aproximación de la binomial a la normal cuando se cumplen las condiciones del teorema de Moivre.

Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

Distribución en el muestreo de las medias muestrales

Supongamos que tenemos una población de la que se conoce la media y la desviación típica, llamémoslas:

$$\large \text{Media } = \mu$$ $$\large \text{Desviación típica } = \sigma$$

Supongamos también que extraemos muestras de tamaño “$n$” de dicha población. Cada muestra proporcionará una determinada media (media muestral).

Si consideramos cada una de estas medias como valores de una variable aleatoria podemos estudiar su distribución, a lo que llamaremos distribución muestral de medias o distribución en el muestreo de las medias muestrales.

Variable aleatoria medias muestrales de tamaño n

Llamamos a la variable aleatoria que toma los distintos valores de las medias muestrales de tamaño "$n$"

$$\large \^X$$

Las características principales de esta variable aleatoria son:

  • La media es la misma que la de la población.
    $$\large \overline{\^X}=\mu$$
  • La desviación típica es la misma que la de la población dividida entre la raíz de $n$.
    $$\large \frac{\sigma}{\sqrt{n}}$$

Además, a medida que el tamaño de la muestra crece, la distribución de la variable medias muestrales de tamaño n, se aproxima cada vez más a la distribución normal, esto es:

$$\text{Para } n \text{ suficientemente grande } \implies \^X \to N\Big(\mu, \frac{\sigma}{\sqrt{n}}\Big)$$

En el siguiente vídeo podemos observar los conceptos generales de distribuciones en el muestreo.


Video

Vídeo enlazado desde YouTube, licencia de YouTube estándar

EJEMPLO : Las puntuaciones de un test de inteligencia para adultos siguen una distribución Normal de media $100$ y desviación típica $16$. Si extraemos una muestra aleatoria simple de 25 individuos:
a) Calcula la probabilidad de que la media muestral sea inferior a $95$
b) Probabilidad de que esté comprendida entre $98$ y $102$

Solución: Se dan las características en la población para poder asegurar que las medias muestrales siguen:

a) $(\^X \to N\big(100, \frac{16}{\sqrt{25}}\big) \implies \^X \to N(100, 3,2)\\ p\big(\^X \le 95\big) = p\big(z \le \frac{95-100}{3,2}\big) = p(z\le -1,56\big) = 0,0594$

b) $p\Big(98 \le \^X \le 102\Big) = p \Big( \frac{98-100}{3,2}\le z \le \frac{102-100}{3,2}\Big)\\ = 0(-0,62\le z \le 0,62)\\ p(z\le 0,62) - p(z\le -0,62) = 0,4648$

En la siguiente escena puedes observar como se distribuyen las medias muestrales. Puedes manipular el control <<Tamaño muestral>> y observar como influye en el reagrupamiento o dispersión de datos en la distribución normal. Para el caso en que la población de partida no sea normal, puedes observar las escenas finales del siguiente epígrafe, (Teorema central del límite).

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Teorema central del límite

El teorema central del límite es sin duda el resultado más importante relacionado con el muestreo y las distribuciones en el muestreo de las medias muestrales y de las proporciones muestrales. Este resultado tiene muchas versiones. Una de las más simples es la que sigue:

Si $X$ es una variable aleatoria de una población con media y desviación típica
$$\text{Media } = \mu\\ \text{Desviación típica } = \sigma$$

Entonces se verifica:

a) La distribución de las medias muestrales de tamaño “$n$” tiene:

$$\overline{\^X} =\mu$$

y por desviación típica

$$S_n = \frac{\sigma}{\sqrt{n}}$$

b) Además la distribución de las medias muestrales se aproxima cada vez más a la distribución normal.

Entendiendo por aproximarse a la normal que:

1) Si se sabe que la población de partida es normal entonces sea cual sea el tamaño de las muestras, la distribución de las medias muestrales será una distribución normal.

2) Si la población de partida no es normal, la distribución de las medias podrá aproximarse a la normal con ciertasgarantías para un tamaño muestral mayor o igual que $30$.


Video

En el siguiente vídeo podemos observar Una clase sobre teorema central del límite.

Vídeo enlazado desde YouTube, licencia de YouTube estándar

En las siguientes escenas puedes comprobar la tesis del teorema central del límite en tres casos de distribuciónes de partida. El primer caso sobre una población de partida normal, el segundo con una distribución de partida no normal sesgada a la derecha y en el tercer caso partiendo de una distribución uniforme.

Comprueba como a medida que se aumenta el control tamaño muestral y se afina la partición, la tendencia hacia la normalidad de la distribución de las medias muestrales.

Teorema central del límite para una población normal

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)



Teorema central del límite en una distribución de partida no normal, sesgada a la derecha

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)



Teorema central del límite en una distribución de partida uniforme

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Problemas resueltos

A continuación tienes el enunciado de diferentes problemas. Trabájalos y una vez los hayas resuelto puedes hacer clic sobre el botón para ver la solución.

Créditos del capítulo

Parte VIII

Inferencia estadística
Intervalos de confianza

Juan Jesús Cañas Escamilla
José R. Galo Sánchez

William Sealy Gosset (Canterbury 11 de junio de 1876 – 16 de octubre de 1937) fue un estadístico, conocido por su sobrenombre literario Student, contribuyó a crear un campo fundamental que hoy se conoce como “diseño de experimentos”, clave para la industria farmacéutica (https://es.wikipedia.org/). Crédito imagen: User Wujaszek, Dominio público.

Introducción

En la unidad anterior,(teoría del muestreo), se obtenía información de los estadísticos, (fundamentalmente media, proporcion y desviación típica), obtenidos en las muestras extraídas al azar de poblaciones cuyos parámetros eran conocidos considerando a equellos como variables aleatorias. En este sentido eran estudiadas las distribuciones en el muestreo de las medias muestrales o las proporciones muestrales a partir de la media poblacional y la proporción poblacional.

Sin embargo, lo realmente interesante es el proceso contrario; esto es, pretender conocer información, en la medida de lo posible, de ciertos parámetros de la población (desconocidos) a partir de la información que proporcionan los estadísticos de muestras extraídas de forma aleatoria.

Por ejemplo: deseamos conocer la proporción de personas de la ciudad de Barcelona ($6$ millones de habitantes) que utilizan habitualmente internet. Para ello realizamos una encuesta sobre $1200$ habitantes elegidos aleatoriamente en los que resultó que el $75\%$ de ellos sí usaban con frecuencia internet.

Podríamos inferir por tanto como una primera aproximación del parámetro poblacional buscado, el valor del estadístico que se ha obtenido en la muestra. Por tanto podemos decir que hemos estimado el parámetro proporción poblacional de manera puntual por el valor del estadístico proporción obtenido en la muestra.


Distribuciones en el muestreo y estimación

Estimación. Estimación puntual y estimación por intervalos

Al proceso mediante el cuál inferimos valores de parámetros poblacionales a partir de los resultados obtenidos en una muestra extraida aleatoriamente se denomina estimación.

Si realizamos dicha estimación asignando un valor muestral concreto al parámetro poblacional que se desea estimar, estaremos ante una estimación puntual. En general, se verifica que cualquier parámetro poblacional que se quiera estimar tiene siempre en la muestra su estadístico paralelo:

Media poblacional... Media muestral
Varianza poblacional... Varianza muestral

En los estudios estadísticos se pueden utilizar diferentes estimadores para un mismo parámetro. Dos de las características principales que poseen los estimadores son el sesgo y la eficiencia.

  • Un estimador se denomina insesgado o centrado, si su media coincide con el valor del parámetro poblacional que se va a estimar
  • Un estimador se dice eficiente cuando su varianza es mínima

Por ejemplo, para estimar una media poblacional se pueden elegir entre los estadísticos: media aritmética muestral, mediana muestral o moda muestral. La pregunta que nos haríamos es cuál de ellos sería el “mejor”. Tanto la media muestral como la mediana muestral son estimadores insesgados, sin embargo, la varianza de la media muestral es menor que la de la mediana muestral. Los estimadores centrados o insesgados más precisos son aquellos que tienen menor desviación típica.

Existe toda una teoría en estadística que aborda el tema de la estimación puntual y que excede los objetivos de este estudio. Nuestro principal trabajo se centra en otro tipo de estimación. La estimación por intervalos.

Supongamos que para realizar una estimación de un parámetro poblacional, un profesor encarga la tarea a un grupo de diez alumnos. Estos a su vez seleccionan diez muestras aleatorias sobre las que calculan los correspondientes estadísticos muestrales. Evidentemente estos estadísticos no tienen por qué coincidir. Nuestro problema consiste ahora en elegir de entre los diez el que “creamos” mejor como estimador del parámetro poblacional. ¿Cómo actuamos?¿Cuál elegimos?

La estimación puntual es poco útil como aproximación del parámetro poblacional que se desea estimar ya que solamente proporciona un valor concreto, el cual además varía con cada elección de la muestra. Desde el punto de vista estadístico, es mucho más interesante no concretar un valor sino obtener un intervalo dentro del cuál se tiene cierta confianza de que se encuentre el parámetro poblacional desconocido y objeto principal de nuestra estimación.

Estimación

En este sentido, definimos los siguientes conceptos:

  • Estimador por intervalo: Par de valores de estadísticos que se utilizan para estimar el parámetro poblacional. (como variables aleatorias que son tendrán su correspondiente distribución en el muestreo).
  • Estimación por intervalo: Valores numéricos concretos que toma el estimador por intervalo para una muestra determinada.
  • Coeficiente de confianza o nivel de confianza: Es la probabilidad de que un estimador por intervalo cubra el verdadero valor del parámetro poblacional que se estima. Generalmente se representa
$$\large (1-\alpha)$$
  • Nivel de significación o de riesgo: Es la diferencia entre la certeza y el nivel de confianza deseado, es decir
    $$\large \alpha$$
  • Valor crítico: Es el valor de la abscisa que deja a su derecha un área igual a la mitad del nivel de significación. Se representa habitualmente mediante
    $$\large Z_{\alpha /2}$$
  • Margen de error: Es la diferencia entre los extremos superior e inferior de un intervalo de confianza.
  • Error máximo admisible: Radio del intervalo de confianza.

Intervalos de confianza

La idea global de la estimación mediante un intervalo de confianza es la siguiente. Supongamos que quiero estimar un parámetro poblacional, generalmente la media poblacional o la proporción poblacional desconocidos ambos. La población global es inabordable por diversos motivos logísticos, por ejemplo puede ser muy numerosa o que económicamente el proceso sea muy caro. Consideramos por tanto la extracción de una muestra aleatoria, por ahora que creamos lo suficientemente grande como para que los parámetros obtenidos en dicha muestra sean parecidos a lo que debería ocurrir en la población. Un intervalo de confianza es considerar dos valores de manera que se tenga cierto nivel de certeza (confianza) de que el verdadero valor del parámetro poblacional se encuentre entre los que determinan nuestro intervalo.

Por ejemplo, cuando decimos que en un estudio hecho por una empresa se estimó que la estatura media de los jóvenes españoles oscila entre $172$ cm y $178$ cm, y que el trabajo se realizó con un nivel de confianza del $95\%$, entendemos que la verdadera estatura media poblacional será seguramente un valor comprendico entre los dos anteriores y que la probabilidad de que el intervalo $[172, 178]$ realmente cubra a la verdadera estatura media es de $0,95$. Entendiendo esto último como que si realizamos la estimación por ejemplo $100$ veces, con la elección de $100$ muestras aleatorias distintas, aproximadamente $95$ de nuestras respuestas en forma de intervalos de confianza cubriran al verdadero valor del parámetro estatura media poblacional. ¿Será nuestra respuesta $[172, 178]$ uno de estos intervalos, digamos buenos? Hay un $95\%$ de posibilidades de que sí.

Idea general de intervalo de confianza

Intervalo de confianza para la proporción poblacional

Supongamos una población en la que queremos estimar la proporción “$p$” desconocida (por ejemplo la proporción de personas que van al cine habitualmente en una determinada ciudad).

Supongamos también que extraemos una muestra aleatoria simple de tamaño “$n$” en la que obtenemos un valor concreto para la proporción, llamémosle

$$\large \^p$$

Sabemos que la distribución en el muestreo de las proporciones muestrales, sigue una normal de parámetros

$$\large N\bigg(p, \sqrt{\frac{p(1-p)}{n}}\bigg)$$

en los casos en que se cumplan las hipótesis sobre normalidad que estipula el teorema de Moivre. Esto quiere decir que si tipificamos

$$\large \frac{\^{\^p}-p}{\sqrt{\frac{p(1-p)}{n}}} =z \;\text{ seguirá una }\;N(0,1)$$

Si queremos calcular los valores

$$\Large \pm x_{\frac{\alpha}{2}}$$

tales que dejan una probabilidad central de

$$\large (1-\alpha)$$

bastaría con ir a la tabla de la normal y localizar el valor que deja un barrido a su izquierda de $$\large 1 -\frac{\alpha}{2}$$

De lo anterior, la notación empleada. Por ejemplo, para calcular los valores críticos asociados a un nivel de confianza del $95\%$ se razonaría:

Valores críticos para 0.95

De forma más o menos intuitiva podemos decir que:

Desarrollo intuitivo
$$\Large \^p \pm z_{\frac{\alpha}{2}}\cdot \sqrt{\frac{\^p (1- \^p)}{n}}$$

EJEMPLO: En una muestra de $100$ personas extraida de una población, $20$ de ellas son portadoras de cierta enfermedad. Estima un intervalo de confianza a un nivel del $95\%$ para la proporción de personas portadoras de la enfermedad.

$\large \^p = \frac{20} {100} = 0,2\\ \text{Para }\; 1 - \alpha = 0,95 \implies z_{\frac{\alpha}{2}} = 1,96\\ 0,2 - 1,96\cdot \sqrt{\frac{0,2\cdot 0,8}{100}} = 0,2-0,0784 = 0,1216\\ 0,2 + 1,96\cdot \sqrt{\frac{0,2\cdot 0,8}{100}} = 0,2+0,0784 = 0,2784\\ \text{Intervalo de confianza }\; \implies (0,1216, 0,2784)$

En la siguiente escena puedes observar como los intervalos de confianza que se calculan, van cubriendo o no a la verdadera proporción poblacional.

Puedes cambiar el tamaño de la muestra y el nivel de confianza modificando los respectivos controles.

Observa como al modificar estos controles, cambia la longitud del intervalo y el número de estos que cubren al parámetro poblacional. La escena tiene un límite de $100$ intervalos de confianza.

La escena permite también realizar todos los intervalos de forma continua si pulsas el control de <<animar>>

Intervalos de confianza, estimación de una proporción poblacional

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Intervalo de confianza para la media con desviación típica poblacional conocida

Supongamos una población en la que queremos estimar la media poblacional desconocida que denominaremos

$$\mu$$

por ejemplo la estatura media de los alumnos de primaria de una ciudad. Supongamos también que extraemos una muestra aleatoria simple de tamaño “$n$” en la que obtenemos un valor concreto para la media muestral. Sabemos que si la población de partida es normal o el tamaño de la muestra es mayor de $30$, la distribución en el muestreo de las medias muestrales sigue una normal de parámetros:

$$\^X \to N\Big(\mu, \frac{\sigma}{\sqrt{n}}\Big) \implies \text{Tipificando}\\ \implies \frac{\^X-\mu}{\frac{\sigma}{\sqrt{n}}}\;\;\text{sigue una }\;N(0,1)$$

En esta distribución pueden calcularse los valores, que encierran una probabilidad de

$$\large (1-\alpha)$$

Simplemente mirando y deduciendo en la tabla de la normal $N(0,1)$

$$\large p\Big(-z_{\frac{\alpha}{2}}\le z\le z_{\frac{\alpha}{2}}\Big)$$ $$\large = 1-\alpha \implies \begin{cases} \frac{\^X - \mu}{\frac{\sigma}{\sqrt{n}}} = -z_{\frac{\alpha}{2}} \implies \^X = \mu -z_{\frac{\alpha}{2}}\cdot \frac{\sigma}{\sqrt{n}}\\ \frac{\^X - \mu}{\frac{\sigma}{\sqrt{n}}} = +z_{\frac{\alpha}{2}} \implies \^X = \mu +z_{\frac{\alpha}{2}}\cdot \frac{\sigma}{\sqrt{n}} \end{cases}$$

Es decir que el intervalo cuya probabilidad de contener a la media poblacional es $(1-\alpha)$ sería: $\large \^X = \mu \pm z_{\frac{\alpha}{2}}\cdot \frac{\sigma}{\sqrt{n}}$. Teniendo en cuenta que no se conoce la media poblacional $\mu$; la sustituimos por la media muestral obtenida $\overline{X}$, llegando así a la siguiente expresión para determinar el intervalo de confianza:


$$\Large \overline{X} \pm z_{\frac{\alpha}{2}}\cdot \frac{\sigma}{\sqrt{n}}$$

EJEMPLO RESUELTO: En una muestra de $400$ bolsas de frutos secos de los que habitualmente se venden en el mercado, se obtuvo que el peso medio de las mismas fue de $102$ gramos.

Se sabe de otros estudios que la desviación típica poblacional del peso de este tipo de artículo es de 2 gramos.

Estima un intervalo de confianza a un nivel del $90\%$ para la media poblacional del peso de la bolsa de frutos secos.

$\text{La media muestral }\; \overline{X} = 102\\ \text{Para }\; 1- \alpha = 0,90 \implies z_{\frac{\alpha}{2}} = 1,64$

Aplicando la fórmula:

$102-1,64\cdot \frac{2}{\sqrt{400}} = 102-1,64\cdot\frac{2}{20} = 102 -0,164 = 101,836\\ 102+1,64\cdot \frac{2}{\sqrt{400}} = 102+1,64\cdot\frac{2}{20} = 102 +0,164 = 102,164$
$$\large \text{Intervalo de confianza }\; \implies (101,836,\hspace{5pt} 102,164)$$

En el siguiente vídeo podemos ver una clase sobre el intervalo de confianza para la media con desviación típica poblacional conocida.


Video

Vídeo enlazado desde YouTube, licencia de YouTube estándar

En la siguiente escena puedes observar cómo los intervalos de confianza que se calculan van cubriendo o no a la verdadera media poblacional.

Puedes cambiar el tamaño de la muestra y el nivel de confianza modificando los respectivos controles.

Intervalos de confianza, estimación de media poblacional

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Intervalo de confianza para la media con desviación típica desconocida

Supongamos una población en la que queremos estimar la media poblacional desconocida que denominaremos

$$\large \mu$$

Consideremos también que extraemos una muestra aleatoria simple de tamaño “$n$” en la que obtenemos un valor concreto para la media muestral. Sabemos que si la población de partida es normal o el tamaño de la muestra es mayor de $30$, la distribución en el muestreo de las medias muestrales sigue una normal de parámetros:

$$\large \^X \to N\Big(\mu, \frac{\sigma}{\sqrt{n}}\Big)\\ \implies \text{Tipificando }\\ \implies \frac{\^X-\mu}{\frac{\sigma}{\sqrt{n}}}\;\text{ sigue una }\;N(0,1)$$

Pero nos encontramos con el problema de que la desviación típica de la población también es desconocida. Algunos autores optan directamente por considerar como sustituto de la desviación típica de la población, la desviación típica muestral.

Nosotros optamos en este caso por otro procedimiento como es sustituir la desviación típica poblacional desconocida por la

cuasidesviación típica muestral

Otros autores optan por procedimientos más depurados y complicados como el que puedes ver en el siguiente vídeo.


Video

Vídeo enlazado desde YouTube, licencia de YouTube estándar

Razonando de la misma forma que en el caso anterior, una vez hecha la sustitución de:

$\text{Desviación típica poblaicional }\; = \sigma$

$\sigma \to \^S$

$\text{Cuasidesviación típica }\; \^S$

En esta distribución pueden calcularse los valores que encierran una probabilidad de

$$\large (1-\alpha)$$

Simplemente mirando y deduciendo en la tabla de la normal $N(0,1)$

$$\large p\Big(-z_{\frac{\alpha}{2}}\le z\le z_{\frac{\alpha}{2}}\Big)$$ $$\large = 1-\alpha \implies \begin{cases} \frac{\^X - \mu}{\frac{\^S}{\sqrt{n}}} = -z_{\frac{\alpha}{2}} \implies \^X = \mu -z_{\frac{\alpha}{2}}\cdot \frac{\^S}{\sqrt{n}}\\ \frac{\^X - \mu}{\frac{\^S}{\sqrt{n}}} = +z_{\frac{\alpha}{2}} \implies \^X = \mu +z_{\frac{\alpha}{2}}\cdot \frac{\^S}{\sqrt{n}} \end{cases}$$

Es decir que el intervalo cuya probabilidad de contener a la media poblacional es $(1-\alpha)$ sería: $\large \^X = \mu \pm z_{\frac{\alpha}{2}}\cdot \frac{\^S}{\sqrt{n}}$. Teniendo en cuenta que no se conoce la media poblacional $\mu$; la sustituimos por la media muestral obtenida $\overline{X}$, llegando así a la siguiente expresión para determinar el intervalo de confianza:

$$\large \overline{X} \pm z_{\alpha/2}\cdot \frac{\^S}{\sqrt{n}}$$

El cálculo de la cuasivarianza y cuasidesviación típica aparece como tecla directa en cualquier calculadora científica. La definición de estas medidas y su relación con la varianza y desviación típica habituales se especifican en el siguiente desarrollo:

$$\large \^S^2 = \sum_{i=1}^n \frac{(x_i - \mu)^2\cdot f_i}{n-1}$$
$$\begin{split} \^S &= \sqrt{\sum_{i=1}^n \frac{(x_i - \mu)^2\cdot f_i}{n-1}}\\ & \implies \sqrt{\sum_{i=1}^n \frac{(x_i - \mu)^2\cdot f_i}{n-1}\cdot \frac{n}{n}}\\ & \implies \sqrt{\frac{n}{n-1} \cdot \sum_{i=1}^n \frac{(x_i - \mu)^2\cdot f_i}{n}}\\ & \implies \sqrt{\frac{n}{n-1}} \cdot \sqrt{\sum_{i=1}^n \frac{(x_i - \mu)^2\cdot f_i}{n}}\\ &= \sqrt{\frac{n}{n-1}} S \end{split}$$

En consecuencia:

$$\large \^S = \sqrt{\frac{n}{n-1}} S$$

En la siguiente escena al pulsar <<genera muestra>> se selecciona una muestra aleatoria de la población tomando como parámetros el tamaño y nivel de confianza indicados en los campos de texto así etiquetados y se dibuja el intervalo de confianza indicando sus extremos. Si se cambia el tamaño de la muestra, ésta es completamente nueva y consecuentemente se observa como el intervalo cambia significativamente. Si lo que cambiamos es el nivel de confianza la muestra no varía y lo que acontece es una ligera variación en la longitud del intervalo, los cambios son menos significativos.

Intervalo de confianza para la media poblacional Desconocida la desviación típica de la población

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Error máximo admisible

Vamos a imaginarnos un juego. Supongamos que hay situada una linea en el suelo que se encuentra a cierta distancia de nosotros. El juego consiste en lanzar un palo que puede ser de disitintas longitudes y tratar de que alguna de las partes de nuestro palito toque a la línea dibujada en el suelo.

Por lógica mientras más pequeño sea el palo que lanzamos más difícil será tocar la línea y al contrario, con uno más largo la dificultad será menor. Evidentemente los jugadores mejores en este juego necesitarán un longitud de palo más pequeño que los peores. Las reglas del juego deben fijar por tanto una longitud máxima para los palitos, algo parecido a lo que en intervalos de confianza llamaremos error máximo admisible.

Idea sobre error máximo admisible

Un intervalo de confianza es siempre un entorno centrado en la media muestral y con un radio que depende fundamentalmente del nivel de confianza que se considere y también del tamaño de la muestra elegida.

Atendiendo a cómo calculamos los valores de dicho intervalo, nos podemos dar cuenta de que la amplitud de dicho intervalo depende fundamentalmente de dos elementos:

  • Nivel de confianza con el que se trabaja. A medida que se aumenta el nivel de confianza aumenta también el radio del intervalo, disminuye por tanto la precisión de nuestra estimación.
  • Tamaño de la muestra. A medida que aumenta el tamaño de la muestra disminuye el radio del intervalo. Por tanto aumenta la precisión de la estimación.

Error máximo admisible (proporción)

El intervalo de confianza para el caso de la estimación de una proporción poblacional es un entorno centrado en la proporción muestral y cuyo radio depende fundamentalmente de el valor crítico asociado al nivel de confianza y del tamaño de la muestra considerada.

Se denomina error máximo admisible al valor de este radio; esto es:

$$\large E = z_{\alpha/2}\cdot \sqrt{\frac{\^p\cdot (1-\^p)}{n}}$$

De la expresión anterior se deduce fácilmente que al aumentar el nivel de confianza, aumentan también los valores críticos asociados y por tanto el radio del intervalo. Por tanto puede decirse que perdemos precisión en la estimación cuando intentamos aumentar la fiabilidad.

Para el caso del tamaño muestral, al estar en un denominador, cuando aumenta disminuye el radio del intervalo. por tanto ganamos precisión.



Error máximo admisible para el caso de proporción




En la siguiente escena puedes observar como varía el error máximo admisible, es decir el radio del intervalo y por tanto la longitud del mismo cuando cambiamos los controles correspondientes al nivel de confianza y al tamaño de las muestras consideradas. Puedes plantearte varias situaciones y extraer tus propias conclusiones.

Intervalo de confianza para estimar una proporción poblacional desconocida





Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Error máximo admisible (media poblacional)

El intervalo de confianza para el caso de la estimación de una media poblacional es un entorno centrado en la media muestral y cuyo radio depende fundamentalmente del valor crítico asociado al nivel de confianza y del tamaño de la muestra considerada.

Se denomina error máximo admisible al valor de este radio; esto es:

  • Para el caso de desviación típica poblacional conocida:
    $$\Large E = z_{\frac{\alpha}{2}}\cdot \frac{\sigma}{\sqrt{n}}$$
  • Para el caso de desviación típica poblacional desconocida: $$\Large E z_{\frac{\alpha}{2}}\cdot \frac{\^S}{\sqrt{n}}$$

De la expresión anterior se deduce fácilmente que al aumentar el nivel de confianza, aumentan también los valores críticos asociados y por tanto el radio del intervalo. Por tanto puede decirse que perdemos precisión en la estimación cuando intentamos aumentar la fiabilidad.

Para el caso del tamaño muestral, al estar en un denominador, cuando aumenta disminuye el radio del intervalo. Por tanto ganamos precisión.



Error máximo admisible para el caso de la media



En las siguiente escena puedes observar cómo varía el error máximo admisible, es decir, el radio del intervalo y por tanto la longitud del mismo cuando cambiamos los controles correspondientes al nivel de confianza y al tamaño de las muestras consideradas.

Puedes plantearte varias situaciones y extraer tus propias conclusiones.

Intervalo de confianza para la media poblacional Conocida la desviación típica de la población

Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Tamaños muestrales

Todos los trabajos realizados en estadística van acompañados de un documento anexo muy importante que se denomina ficha técnica. En este documento se especifican algunas de las características más relevantes del trabajo realizado. Entre ellas, siempre nos vamos a encontrar con el método mediante el cuál se ha elegido la muestra y el número de elementos del que consta dicha muestra.

Este número debe cumplir cierto valor mínimo para que se garanticen premisas básicas exigibles al intervalo como el nivel de confianza o el margen de error de dicho intervalo.

Partiendo de las fórmulas que determinan el error máximo admisible de un intervalo de confianza para la proporción poblacional o para la media poblacional, y mediante procedimientos púramente algebraicos, se van a poder deducir fórmulas para la localización de tamaños muestrales mínimos.

Ficha técnica

Tamaño muestral para la proporción

Como ya se ha mencionado antes, una pregunta interesante de investigar sería cuál tiene que ser el tamaño de la muestra que se debería considerar para que el intervalo de confianza de una proporción cumpliera determinadas condiciones de amplitud.

Por ejemplo:

  • Supongamos que se quiere estimar la proporción de individuos de una ciudad que tienen más de $60$ años. Para realizar el trabajo debemos seleccionar de forma aleatoria una muestra de tamaño "$n$". La pregunta que nos hacemos es cuál debe ser el valor mínimo de muestra que debe considerarse para garantizar que con un nivel de con fianza del $95\%$ el error de estimación, radio de nuestro intervalo de confianza, no supere el $2\%$. Como en este caso no disponemos de información alguna sobre posibles valores aproximados de proporción, debemos suponer el caso más desfavorable que sería $p = 0,5$.
  • Supongamos que tenemos un dado ligeramente cargado del que sospechamos que la proporción de salir cinco es $2/6$. ¿Cuántas veces debemos lanzarlo y anotar el resultado para que con un nivel de confianza del $99\%$ el error de nuestra estimación no supere el $5\%$?

Existen otras muchas situaciones en las que es importante la localización de un tamaño muestral mínimo a partir del cual se cumplan determinadas condiciones en nuestra estimación.

De la propia formulación del intervalo se observa que el tamaño que debe exigirse para una muestra depende fundamentalmente del nivel de confianza que se desee para los resultados y de la amplitud del intervalo de confianza, (error máximo), que se esté dispuesto a admitir.

Fijados estos, y simplemente despejando algebraicamente en las fórmulas, podemos calcular el tamaño mínimo de la muestra que debe utilizarse para cumplir con las premisas estipuladas.

Para un nivel de confianza:

$$\large (1-\alpha)$$

Deduciendo de la fórmula correspondiente al error máximo admisible en el caso de la proporción:

Deducción tamaño mínimo de muestra en estimación de una proporción

Llegamos a la siguiente expresión para el tamaño mínimo de muestra en el caso de estimación de una proporción

$$\large n\ge \bigg( \frac{z_{\frac{\alpha}{2}}}{E}\bigg)\cdot p\cdot (1-p)$$

Por ejemplo, los dos ejemplos planteados al inicio de esta sección se resolverían directamente aplicando la fórmula anterior:

Solución ejemplo 1 Solución ejemplo 2

En la siguiente escena puedes calcular diversos tamaños muestrales variando los controles correspondientes al nivel de confianza, al error máximo admisible y se puede utilizar también en posibles ejercicios prácticos, para distintas proporciones.

La escena también dispone de la posibilidad de ver el cálculo de los valores críticos asociados al nivel de confianza y también del cálculo práctico de distintos casos de intervalos de confianza para que observes como en la práctica se cumple la acotación del error máximo admisible.






Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)

Tamaño muestral mínimo para la estimación de la media.

Consideremos dos nuevas situaciones:

  • Se conoce de estudios anteriores, que el tiempo de reacción de los conductores se distribuye de forma normal con una desviación típica de 0,045 segundos. Si se quiere estimar el tiempo de reacción medio con un error máximo admisible de $0,01$ segundos con un nivel de confianza del $90\%$. ¿Qué tamaño mínimo debería tener la muestra aleatoria sobre la que tendríamos que trabajar?
  • Las notas de selectividad de una signatura se distribuyen de forma normal con una desviación típica de $0,45$. Supongamos que después de realizar un intervalo de confianza para estimar la nota media en selectividad de los alumnos de una ciudad se obtuvo que este intervalo era $(6,975, \hspace{3pt} 7,875)$ con un nivel de confianza del $95\%$. Si consideramos que el margen de error del intervalo es demasiado grande y nos interesaría reducirlo a la mitad. ¿Cuántos individuos debería tener la nueva muestra aleatoria para reducir a la mitad el error máximo admisible manteniendo el mismo nivel de confianza?

Estas situaciones y otras muchas que se podrían plantear conducen al cálculo de un tamaño mínimo de muestra a partir del cual se cumplan determinadas condiciones en nuestra estimación de un parámetro poblacional como la media.

De la propia formulación del intervalo se observa que el tamaño que debe exigirse para una muestra depende fundamentalmente del nivel de confianza que se desee para los resultados, de la amplitud del intervalo de confianza o error máximo que se esté dispuesto a admitir y de la desviación típica poblacional o de la cuasi-desviación típica de la muestra en caso de que no se conozca aquella.

Fijados estos, simplemente despejando algebraicamente en las fórmulas, podemos calcular el tamaño mínimo de la muestra que debe utilizarse para cumplir con las premisas estipuladas.

Así pues para un nivel de confianza

$$\large (1-\alpha)$$

Deduciendo de la fórmula correspondiente al error máximo admisible en el caso de la estimación de media poblacional con deviación típica conocida:


$\large \text{Error máx admisible }\; = z_{\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}\\ z_{\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}\le E \implies \text{despejando }\;n\\ \implies \Big(z_{\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}} \Big)^2 \le E^2 \implies = z_{\frac{\alpha}{2}}^2 \cdot \frac{\sigma^2}{\sqrt{n}} \le E^2\\ \implies z_{\frac{\alpha}{2}}^2 \cdot \frac{\sigma^2}{E^2} \le n$

Llegamos a la siguiente expresión para el tamaño mínimo de muestra en el caso de estimación de una media poblacional con desviación típìca poblacional conocida

$$n \ge \bigg(z_{\frac{\alpha}{2}} \cdot \frac{\sigma}{E}\bigg)^2$$

Deduciendo de la fórmula correspondiente al error máximo admisible en el caso de la estimación de media poblacional con deviación típica poblacional desconocida:


$\large \text{Error máx admisible }\; = z_{\frac{\alpha}{2}} \cdot \frac{\^S}{\sqrt{n}}\\ z_{\frac{\alpha}{2}} \cdot \frac{\^S}{\sqrt{n}}\le E \implies \text{despejando }\;n\\ \implies \Big(z_{\frac{\alpha}{2}} \cdot \frac{\^S}{\sqrt{n}} \Big)^2 \le E^2 \implies = z_{\frac{\alpha}{2}}^2 \cdot \frac{\^S^2}{n} \le E^2\\ \implies z_{\frac{\alpha}{2}}^2 \cdot \frac{\^S^2}{E^2} \le n$

Llegamos a la siguiente expresión para el tamaño mínimo de muestra en el caso de estimación de una media poblacional con desviación típica poblacional desconocida

$$n \ge \bigg(z_{\frac{\alpha}{2}} \cdot \frac{\^S}{E}\bigg)^2$$

La solución a cada uno de los dos ejemplos planteados al inicio de esta sección sería:

Solución ejemplo 1 Solución ejemplo 2

En la siguiente escena puedes calcular diversos tamaños muestrales variando los controles correspondientes al nivel de confianza y al error máximo admisible.

La escena también dispone de la posibilidad de ver el cálculo de los valores críticos asociados al nivel de confianza y también del cálculo práctico de distintos casos de intervalos de confianza para estimación de la media poblacional en los que puedes observar como se cumple en la práctica la acotación del error máximo admisible.

Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

De la misma manera, puedes practicar en la siguiente escena en la que la desviación típica poblacional se sustituye por las cuasi-desviaciones típicas muestrales.

Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

Formulario resumen

El tema de la estimación mediante intervalos de confianza tiene un recorrido práctico muy diverso. Fundamentalmente se trata de ejercicios de carácter muy técnico y que en la mayoría de los casos pasa por la utilización de una fórmula concreta y directa.

Es bueno disponer por tanto de un formulario resumen y sencillo al que acudir cuando se tiene alguna duda en cuanto a la fórmula a utilizar o en la expresión de la misma.

El siguiente cuadro resume todo el tema. Se han sombreado en color rosa las dos fórmulas fundamentales y en verde las que se deducen de las fundamentales.

Formulario resumen

Problemas resueltos

A continuación tienes el enunciado de diferentes problemas. Trabájalos y una vez los hayas resuelto puedes hacer clic sobre el botón para ver la solución.

Créditos del capítulo

Parte IX

Contraste de Hipótesis

Juan Jesús Cañas Escamilla
José R. Galo Sánchez

Ronald Aylmer Fisher (Londres, Reino Unido, 17 de febrero de 1890 – Adelaida, Australia, 29 de julio de 1962) fue un estadístico y biólogo, responsable de la prueba exacta de Fisher y de la hipótesis nula presentado en su libro The Design of Experiments (1935) (https://es.wikipedia.org/). Crédito imagen: Desconocido, Dominio público.

Introducción

  • Hace ya algunos años, (década de los ochenta), se decía que la estatura media de los jóvenes españoles de entre $20$ y $21$ años era de $172$ cm. Los datos se extraían de las tallas que se obtenían de los entonces llamados “quintos”, jóvenes que ingresarían en el ejército para cumplir el servicio militar obligatorio. Sin embargo hoy en día, siglo XXI, se observa en cualquier muestra como en una cola de un cine, en un supermercado, en una clase de bachillerato o en una fiesta que los jóvenes parecen significativamente más altos, con lo que deberíamos revisar el parámetro media poblacional, ya que seguramente habrá cambiado. REVISAR LA HIPÓTESIS DE QUE LA MEDIA DE LOS JÓVENES ESPAÑOLES ES DE $172$ CM.
  • En cierta ciudad se observó que el $70\%$ de la población era favorable a que una determinada persona ejerciera como alcalde de la misma. Después de varios años de controvertida gestión el descontento es evidente y parece lógico revisar el porcentaje de aceptación. REVISAR LA HIPÓTESIS DE QUE LA PROPORCIÓN DE GENTE FAVORABLE AL ALCALDE SE MANTIENE EN EL $70\%$.

Para decidir si cierta información relativa a un parámetro poblacional se puede considerar como cierta, en estadística se suelen utilizar los contrastes de hipótesis. Un contraste de hipótesis proporcionará unos criterios universales para valorar si la hipótesis que planteamos es cierta.

IDEA SOBRE UNA REGLA DE DECISIÓN

Cualquier persona a lo largo de su vida utiliza reglas de decisión ante situaciones concretas. Incluso esas reglas a veces son irracionales e incluso disparatadas.

  • Para saber si me irá bien con la decisión tomada consulto con un adivino y su bola de cristal.
  • Los generales romanos ofrecían sacrificios y consultaban con los sacerdotes y magos para saber si les iría bien en la batalla.
  • Mi horóscopo dice que ahora no debo realizar ninguna inversión.
  • Si encesto la bola de papel en la papelera aprobaré el examen...¡vaya!..., bueno a la tercera...
Cartomancia Bola de cristal
Sacrificio Papelera

Otras veces también se recurre a procedimientos mucho más lógicos y científicos.

  • Antes de realizar un viaje consultar la previsión meteorológica.
  • Si hago bien las preguntas de autoevaluación del libro, posiblemente haré bien las del examen.

En estadística para decidir sobre dos situaciones competitivas, complementarias y excluyentes recurriremos al procedimiento conocido por el nombre de Contraste de Hipótesis.

Un ejemplo sencillo. Pensemos en una moneda de la que sospechamos sobre su autenticidad. A simple vista no se diferencia en nada de una auténtica. Podríamos realizar la experiencia de lanzar al aire dicha moneda y contabilizar el número de caras o cruces que se obtienen. Nuestra experiencia nos dice que la probabilidad de obtener cara en una moneda normal es $0,5$, pero, ¿y si sospechamos que no es así? Evidentemente en este caso la probabilidad de que salga cara deberá de ser muy diferente a 0,5. Al primer planteamiento, suponer que la probabilidad de que salga cara es $0,5$ , le llamamos hipótesis nula ($H_0$) y al segundo planteamiento, hipótesis alternativa ($H_1$).

Para aceptar o rechazar una de las hipótesis, necesitamos realizar un experimento y establecer unas reglas que nos ayuden a decidir si se acepta (H0 ) o no. En el ejemplo de la moneda, el experimento podría ser lanzar la moneda 15 veces y observar los resultados. Las reglas tendrán en cuenta el posible error asociado a cada decisión y dependerán de los riesgos que estemos dispuestos a asumir. Un ejemplo de regla de decisión conservadora:

Regla de decisión muy conservadora

Es decir, lanzamos una moneda al aire $15$ veces y aceptamos la hipótesis nula (la moneda no está trucada) si el número de caras obtenidas está entre 2 y 13. Si ($H_0$) es cierta y el resultado de nuestro experimento es $0$ o $1$ caras, o bien $14$ o $15$ caras, evidentemente nos equivocamos al rechazar la hipótesis nula. En estos casos decimos que cometemos un error de tipo I o error $\alpha$. Por el contrario, si el resultado obtenido está entre $2$ y $13$ caras y sin embargo, es cierta ($H_1$), también nos equivocamos y decimos que cometemos un error de tipo II o error $\beta$.

Hipótesis nula y alternativa. Tipos de contraste

Hipótesis nula e hipótesis alternativa

Una hipótesis estadística es una afirmación o proposición respecto a alguna característica de una población, generalmente fundamentada sobre un parámetro de la misma. Contrastar una hipótesis es comparar las predicciones con la realidad que observamos ocurrida en una muestra. Si dentro del margen de error que estamos dispuestos a admitir, hay coincidencia, aceptaremos la hipótesis y en caso contrario la rechazaremos.

  • La hipótesis emitida se suele designar por $H_0$ y se llama Hipótesis nula. Lo de “nula” viene de que partimos del supuesto de que las diferencias entre el valor verdadero del parámetro y su valor hipotético, en realidad no son tales sino debidas al azar, es decir no hay diferencia o dicho de otra forma la diferencia es nula.
  • La hipótesis contraria se designa por $H_1$ y se llama Hipótesis alternativa (en algunos textos también aparece la notación $H_a$.

Por ejemplo:

  • Sospechamos que las bolsas de frutos secos de $100$ gramos, realmente no pesan $100$ gramos. Para contrastar esta hipótesis planteariamos:
    $H_0 : \mu = 100\;\text{ gramos}\\ H_1 : \mu \ne 100\;\text{ gramos}$
  • Pensamos que la proporción de gente que votó al partido $A$ en las elecciones ($35\%$) ahora es inferior ya que no lo han hecho muy bien. Para contrastar esta hipótesis:
    $H_0 : p\ge 0,45\\ H_1 : p\lt 0,45$
  • Estaría contento de comprobar que no pueden demostrar que mi media de notas ha bajado de $7,785$ como parecen indicar los últimos exámenes. Para contrastar esta hipótesis:
    $H_0 : \mu\ge 7,785\\ H_1 : \mu\lt 7,785$

Normalmente cuando queremos plantear las hipótesis de una determinada situación debemos tener en cuenta que aquello que queramos demostrar irá siempre a la hipótesis alternativa ya que el error que cometemos cuando rechazamos $H_0$ lo podemos medir (está fijado de antemano por el nivel de significación).

Piensa en los ambientes judiciales. La labor del fiscal pasa por demostrar que alguien ha cometido un delito. Es decir que trabajaría como hipótesis alternativa.

Por el contrario, el abogado defensor no tiene que demostrar, su labor es más defensiva ya que si el fiscal no demuestra su acusación entonces el reo será declarado (no culpable), es decir, inocente. Evidentemente esto es un planteamiento muy simple de la situación ya que a menudo los abogados defensores van más allá de la pura estrategia defensiva y tratan de demostrar la inocencia, aunque siempre subyace el lema in dubio pro reo, (en caso de duda, a favor del reo) al que todos estamos acostumbrados o el de es preferible no condenar a $10$ culpables que condenar a un solo inocente.

Tipos de contraste

  • Bilaterales Llamamos contraste bilateral a aquél en el que la hipótesis nula se formula en términos de igual y la alternativa en términos de distinto. En estos casos la región de aceptación sería el área central determinada por los valores críticos que previamente son determinados por el nivel de significación.
Regiones de aceptación y rechazo en un contraste bilateral

  • Unilateral derecho: llamamos contraste unilateral derecho a aquél en el que la hipótesis nula se formula en términos de menor o igual y la alternativa en términos de mayor. En estos casos la región de aceptación sería el área que deja a su izquierda el valor crítico que previamente determina el nivel de significación.
    Región de aceptación y rechazo en un contraste unilateral derecho
  • Unilateral izquierdo: llamamos contraste unilateral izquierdo a aquél en el que la hipótesis nula se formula en términos de mayor o igual y la alternativa en términos de menor. En estos casos la región de aceptación sería el área que deja a su derecha el valor crítico que previamente determina el nivel de significación.
    Región de aceptación y rechazo en un contraste unilateral izquierdo

En los ejemplos planteados al principio, el primero sería un contraste bilateral, el segundo y tercero unilaterales izquierdos.

Planteamiento general de un problema de contraste

El planteamiento general de cualquier problema en el que se quiera contrastar una determinada hipótesis debe reunir siempre los siguientes puntos:

  1. Formulación de la hipótesis nula y de la hipótesis alternativa. Como norma general, se debe tener en cuenta que aquello que queramos demostrar debe ir siempre a la hipótesis alternativa.

    Por otra parte, si lo que queremos demostrar está en la hipótesis alternativa, el error de equivocarnos lo tendremos medido ya que sería el nivel de significación
    • Planteamiento de hipótesis de contraste para el caso de una proporción:

      Planteamiento hipótesis para el caso de proporción
    • Planteamiento de hipótesis de contraste para el caso de una media:

      Planteamiento de hipótesis para contraste de una media

  1. Elección del estadístico de contraste (en nuestro caso media o proporción muestral).

    Algunos autores prefieren considerar intervalos de confianza o semirectas de confianza para los parámetros a contrastar e investigar, es decir, si los valores obtenidos en las muestras están o no en dichos intervalos (semirectas), pero nosotros vamos a definir unos estadísticos que simplemente proceden de la tipificación de variables en el muestreo cuyas distribuciones son perfectamente conocidas y que por tanto al tipificarse seguirán una distribución normal de media cero y desviación típica uno.

    Una vez calculado el valor de estos estadísticos se observará si quedan dentro o fuera de las regiones determinadas (según sea el tipo de contraste) por el nivel de significación.

    • Estadístico de contraste para el caso de una proporción.
      $$\large Z = \frac{\^p - p_0}{\sqrt{\frac{p_0\cdot (1-p_0)}{n}}}$$
    • Estadístico de contraste para el caso de una media con desviación típica poblacional conocida.
      $$\large Z = \frac{\overline{X} - \mu_0}{\sigma/\sqrt{n}}$$

  • Estadístico de contraste para el caso de ua media con desviación típica poblacional desconocida.

    $$\large Z=\frac{\overline{X} - \mu_0}{\^S / \sqrt{n}}$$
  1. Determinación de la región de rechazo.

    A partir del nivel de significación previamente fijado se establece el intervalo o semirecta que constituirán la zona de aceptación y rechazo según si el estadístico de contraste esté dentro o fuera de dicha zona.
    • Región de aceptación y rechazo en un contraste bilateral.
      A partir del nivel de significación y haciendo uso de la tabla de la normal cero uno, a través de la estrategia conveniente se pueden localizar los valores críticos, tal como se hizo en el tema de intervalos de confianza.
      Región crítica en contraste bilateral

En la siguiente escena puedes practicar con la localización de la región crítica en contrastes bilaterales.

La escena te lo proporciona directamente aunque te recomendamos que utilices la tabla de la normal y después compares tus resultados con los que ofrece la escena.

Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)
  • Región de aceptación y rechazo en un contraste unilateral derecho

    A partir del nivel de significación y haciendo uso de la tabla de la normal cero uno, a través de la estrategia conveniente se puede localizar el valor crítico, que deja a su derecha una probabilidad igual al nivel de significación de la misma forma que se hizo en el tema de la distribución normal.

Región crítica contraste unilateral derecho

En la siguiente escena puedes practicar con la localización de la región crítica en contrastes bilaterales.

Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

  • Región de aceptación y rechazo en un contraste unilateral izquierdo.

    A partir del nivel de significación y haciendo uso de la tabla de la normal cero uno, a través de la estrategia conveniente se puede localizar el valor crítico, que deja a su izquierda una probabilidad igual al nivel de significación de la misma forma que se hizo en el tema de la distribución normal.

    Región crítica contraste unilateral izquierdo

    En la siguiente escena puedes practicar con la localización de la región crítica en contrastes bilaterales.

    La escena te lo proporciona directamente aunque te recomendamos que utilices la tabla de la normal y después compares tus resultados con los que ofrece la escena.


Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)
  1. Consideración de una muestra

    En esta muestra elegida de forma aleatoria se calculará el valor correspondiente (en nuestro caso media muestral o proporción) y que permiten localizar el valor del estadístico de contraste.

    Por ejemplo si se quiere contrastar que el peso medio de las tarrinas de helado de 100 gramos no tienen realmente ese peso. En primer lugar elegimos por ejemplo una muestra aleatoria de 40 tarrinas (para no tener problemas de normalidad) y calculamos la media muestral y la desviación típica muestral. Supongamos que la media muestral es $103,25$ gramos y la desviación típìca $5,345$ gramos.

El valor en este caso del estadístico de contraste sería:

$$\text{Cuasi } \^S =\sqrt{\frac{40}{39}}\cdot 5,345 \implies \^S = 5,413 \implies \frac{103,25 -100}{\frac{5,413}{\sqrt{4}}} = 3,797$$
  1. Aceptación o rechazo de la hipótesis nula

    La aceptación o rechazo de la hipótesis nula depende de si el valor del estadístico de contraste calculado en nuestra muestra está dento o fuera de la zona de aceptación.
Aceptación y rechazo de hipótesis nula
  1. Interpretación de la decisión tomada.

    Existen muchas formas de redactar las conclusiones a las que se llega cuando aceptamos o rechazamos la hipótesis nula en un contraste. Aquí sugerimos una muy sencilla.

    • Para el caso de aceptación de la hipótesis nula.
      Simplemente decir que: "A partir de los datos estadísticos obtenidos en la muestra, se acepta con un nivel de significación (...) aquello que diga la hipótesis nula" o también "A partir de los datos estadísticos obtenidos en la muestra no existen evidencias estadísticamente significativas a nivel (...) que permitan afirmar o demostrar aquello que diga la hipótesis alternativa".
  • Para el caso de rechazo de la hipótesis nula.

    "A partir de los datos estadísticos obtenidos en la muestra existen evidencias estadísticamente significativas a nivel (...) que permiten afirmar o demostrar aquello que dice la hipótesis alternativa, con riesgo de equivocarnos igual al nivel de significación".

Resumimos todo en el siguiente ejemplo:

Un informe de la Asociación de Compañías Aéreas (ACA) indica que el precio medio del billete de avión desde la ciudad A a la ciudad B es de $120$ euros. Para contrastar esta información se considera una muestra aleatoria de $100$ viajeros entre estas dos ciudades que volaron en distintas compañías, en la que se observó que la media del billete era de $128$ euros y una desviación típica de $40$ €.
¿Se puede considerar con un nivel de significación del $1\%$ que la información de la ACA es correcta?

$H_0 \implies \mu = 120\;\text{ euros}\\ H_1 \implies \mu \ne 120\;\text{ euros}$

El estadístico de contraste en este caso es la media muestral que tipificada quedaría:

$$Z= \frac{\overline{X}-\mu_0}{\frac{\^S}{\sqrt{n}}}$$

La región de aceptación es:

$$1-\alpha = 0,99 \implies \begin{cases} -Z_{\alpha /2} &= -2,575\\ Z_{\alpha /2} &= 2,575 \end{cases}$$
$$\overline{X_0} = 128$$

$\text{Valor particular de } S_0 = 40 \implies \^S = \sqrt{\frac{100}{99}} \cdot 40 = 1,005\cdot 40 = 40,2015$

$$Z = \frac{128-120}{40,2015/10} = 1,9899$$

El valor estadístico de contraste cae dentro de la región de aceptación $1,9899 \in (-2,575, 2,575)$, se acepta por tanto la hipótesis nula.

También podría razonarse teniendo en cuenta la región de aceptación como el intervalo de confianza para la media:

$$\Big(120-2,575\cdot \frac{40,2015}{10}, 120+2,575\cdot \frac{40,2015}{10}\Big)$$ $$= (109,648, 130,252)$$

El valor de la media muestral $128$ sí está dentro del intervalo (región de aceptación)

El aceptar la hipótesis nula significa que puede aceptarse que el precio medio de los billetes es de 120 euros. No hay indicios suficientes para decir que no sea cierto que la media de los billetes sea de $120$ euros y que las diferencias obtenidas con nuestra muestra pueden considerarse debidas al azar.

Para terminar este epígrafe, observa los siguientes vídeos.


Videos

En el primer vídeo puedes ver una clase resumen de planteamiento general de un problema de contraste de hipótesis. Y en el segundo otra clase de introducción al contraste de hipótesis.

Vídeos enlazados desde YouTube, licencia de YouTube estándar

Contraste de hipótesis para una proporción.

Vamos a partir de un ejemplo: Se conoce que el $75\%$ de los alumnos de un centro de enseñanza realizan correctamente un test psicotécnico que lleva utilizándose mucho tiempo. Para tratar de mejorar este resultado, se modificó la redacción del test, y se propuso para realizar el experimento a un grupo de $120$ alumnos de ese centro, elegidos al azar. De los $120$ alumnos a los que se le pasó el nuevo test, lo realizaron correctamente $107$. ¿Podemos afirmar que la nueva redacción del test ha aumentado la proporción de respuestas correctas, a un nivel de significación = $0,025$?

La pregunta que se hace en el problema anterior, está formulada en términos de se puede "afirmar o demostrar", por tanto esto lo llevaremos a la hipótesis alternativa. es decir el planteamiento de contraste que consideramos idóneo para esta situación sería:

Modelo de enunciados $$\begin{rcases} H_0 & : p\le 0,75 \\ H_1 & : p\gt 0,75 \end{rcases} \text{Ya que pretendemos demostrar que la}\\\text{proporción ha mejorado}$$

El valor de la proporción muestral $p_0 = \frac{107}{120} = 0,89166$. Al ser un constraste unilateral derecho. Determinamos la región de aceptación y rechazo para un nivel de significación de $\alpha = 0,025$.



Ejemplo resuelto

Calculamos ahora el estadístico de contraste:

$$Z = \frac{0,891666-0,75}{\sqrt{\frac{0,75\cdot (1-0,75)}{120}}} = \frac{0,141666}{0,03952847} = 3,5839$$ $$3,5839 \notin (-\infin, 1,96) \implies \text{ Rechazamos } H_0$$

Conclusión:

A partir de los datos estadísticos obtenidos en la muestra, podemos concluir que existen evidencias estadísticamente significativas
$(\alpha = 0,025)$, que permiten demostrar que la nueva redacción aumenta el porcentaje de alumnos que realizan correctamente el test.

En la siguiente tabla se resumen de forma muy concisa toda la formulación necesaria para la realización de un problema de contraste para una proporción.




Formulario resumen

En las siguientes escenas se ofrece una esquematización de los pasos a dar en un contraste de hipótesis para una proporción para los casos de contraste bilateral, unilateral derecho o unilateral izquierdo.

En dichas escenas se pueden variar si se quiere manualmente los controles correspondientes a la proporción y al nivel de significación.

Puedes practicar tanto como desees. Es recomendable observar lo que ocurre con un contraste de una proporción para distintos niveles de significación.

Contraste de hipótesis bilateral para una proporción




Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

Contraste de hipótesis unilateral derecho para una proporción




Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

Contraste de hipótesis unilateral izquierdo para una proporción

Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

Contraste de hipótesis de una media

Existen muchas situaciones en las que se pretende dilucidar si el parámetro media poblacional ha cambiado por algún motivo ocasional o inducido.

En estadística inferencial el barómetro universal que cuantifica si el cambio observado es fruto de las fluctuaciones propias del azar o bien se trata de un cambio mucho más importante o significativo es el contraste de hipótesis para la media. Partamos de un ejemplo:

Centro comercial Colombo en LisboaCon el fín de aumentar el consumo medio de los clientes, unos grandes almacenes deciden realizar una campaña de publicidad. La campaña consistirá en anuncios diarios en el periódico local y en la emisión de varias cuñas radiofónicas. Antes de la campaña, los datos de la gerencia del centro comercial reflejaban un consumo medio por cliente y día de $23,75$ euros con una desviación típica poblacional de $4,875$ euros. Después de la campaña se escogió una muestra aleatoria de $121$ clientes obteniéndose una media muestral de $25,34$ euros.

¿Puede afirmarse con un nivel de significación del $4,5\%$ que la campaña ha sido efectiva y que el consumo medio efectivamente ha aumentado?

De nuevo en la pregunta que se hace se menciona la palabra "afirmar o demostrar", por tanto, aquello que queremos demostrar lo llevamos a la hipótesis alternativa.

En este caso el planteamiento del contraste quedaría como sigue:

Ejemplo resuelto

Cálculo estadístico de contraste:

$$\begin{rcases} \mu_0 &= 23,75\\ \sigma &= 4,875\\ n &= 121\\ \overline{X} &= 25,34 \end{rcases} \implies z=\frac{25,34-23,75}{\Big(\frac{4,875}{\sqrt{121}} \Big)} = 3,58769$$ $$3,58769 \notin (-\infin, 1,751) \implies \text{Rechazamos } H_0$$

Conclusión:

A partir de los datos ofrecidos por la muestra, existen evidencias estadísticamente significativas (nivel de significación $0,04$) de que la media del consumo cliente/día es mayor de $23,75$ euros. Por tanto la campaña ha sido efectiva.

En la siguiente tabla se resumen de forma muy concisa toda la formulación necesaria para la realización de un problema de cualquier tipo de contraste para una media.

Tabla resumen del formulario de un contraste para la media

En las siguientes escenas se ofrece una esquematización de los pasos a dar en un contraste de hipótesis para una media en los casos de contraste bilateral, unilateral derecho o unilateral izquierdo.

En dichas escenas se pueden variar si se quiere manualmente los controles correspondientes a la media, al nivel de significación y también se puede elegir en el menú de opciones los casos de desviación típica poblacional conocida o desconocida.

Puedes practicar tanto como desees. Es recomendable observar lo que ocurre con un contraste de una media para distintos niveles de significación y también si varía mucho o poco la opción de desviación típica poblacional conocida o desconocida.

Contraste de hipótesis bilateral para la media


Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

Contraste de hipótesis unilateral derecho para la media




Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

Contraste de hipótesis unilateral izquierdo para la media


Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

Error en un contraste de hipótesis.

Todo lo que tiene relación con la Estadística Inferencial está acompañado de forma natural por el error. En los contrastes de hipótesis esto se pone mucho más de manifiesto ya que debemos elegir entre dos proposiciones antagónicas a partir de los datos que se reflejan en una determinada muestra aleatoria.

Asumiendo que la elección está en gran parte supeditada a estos valores concretos escogidos de una muestra específica, el error se antoja como algo natural y por tanto consustancial al propio proceso del contraste de hipótesis. Puesto que el error es protagonista irrenunciable, aprendamos a convivir con él, estudiarlo, acotarlo y por supuesto utilizarlo.

Lo primero de lo que podemos darnos cuenta es que existen dos tipos de errores que pueden ocurrir en el contraste y que uno de ellos es más fácil de manejar que el otro. Pensemos en el ejemplo de la moneda que no sabemos si está cargada o no. Si la prueba que realizamos para comprobar si esta moneda es buena o no es realizar por ejemplo $10$ lanzamientos y nuestra regla de decisión es que si salen entre 1 y 9 caras la consideramos buena y si por el contrario salen $0$ caras o $10$ caras la consideramos cargada. pensemos en lo que puede ocurrir.

  • Una moneda buena la lanzo $10$ veces y sí existe la posibilidad de que me salgan $0$ caras o $10$ caras. Por tanto hay posibilidad de considerar cargada una moneda buena. Ahora bien; la probabilidad de que eso ocurra se puede calcular perfectamente mediante un ejercicio muy simple con una binomial $B(10 , 0,5)$. Estamos controlando pues el error que se comete. Por cierto ¿cuál es la probabilidad de que al lanzar una moneda normal me salgan $0$ caras o $10$ caras?
  • Una moneda cargada que lanzamos al aire tiene bastante probabilidad de que los resultados obtenidos estén en el margen de $1$ y $9$ caras de nuestra regla de decisión y que por tanto nuestra prueba no la detecte como mala.

Ahora bien, la probabilidad de que una moneda cargada se lance $10$ veces y obtengamos entre $1$ y $9$ caras no puedo calcularla ya que no sé qué probabilidad de salir cara tienen las monedas cargadas. El error por tanto no puedo controlarlo como antes, no tiene la misma naturaleza que el primero.

Este ejemplo puede ilustrar los dos tipos de errores que se pueden cometer al realizar un contraste de hipótesis.

¿Moneda cargada?

Cuando se efectúa pues un contraste de hipótesis pueden ocurrir varias situaciones que conllevan a los denominados errores:

  1. Aceptar la hipótesis nula siendo cierta (CORRECTO).
  2. Aceptar la hipótesis alternativa siendo cierta (CORRECTO).
  3. Rechazar la hipótesis nula siendo cierta (ERROR TIPO I O ERROR ALFA) la probabilidad de cometer este error es el nivel de significación del contraste.
  4. Aceptar la hipótesis nula siendo falsa (ERROR TIPO II O ERROR BETA). No se conoce, al valor de uno menos beta se le denomina potencia del contraste.

En la siguiente tabla se resumen todas las situaciones y errores posibles al realizar una prueba de contraste de hipótesis.

Tipo de errores

Error tipo I. (error alfa)

Como ya se ha mencionado, el error tipo I se comete cuando rechazamos la hipótesis nula pero en realidad no tendríamos que haberlo hecho puesto que era cierta. La probabilidad de que esto ocurra es el nivel de significación, valor que podemos controlar de antemano puesto que aparece en las premisas del contraste. Es interesante que sea un valor pequeño y a su vez lleve a un equilibrio de todo el proceso, puesto que un valor exageradamente pequeño de este nivel de significación conducirá prácticamente siempre al mismo resultado de aceptación de hipótesis nula del contraste.

Situación general en errores tipo 1 y 2

Los valores más usados para el nivel de significación en los trabajos de inferencia suelen ser.

$$\alpha = 0,05\\ \alpha = 0,01\\ \alpha = 0,1$$

El hecho de que el error tipo I se pueda controlar da pie a que en muchos casos en los que no se observa bien lo que debe considerarse como hipótesis nula, incluso existen problemas en editoriales diferentes con el mismo enunciado y con dos versiones distintas.

En este sentido se pueden dar las siguientes sugerencias para el planteamiento adecuado de un contraste:

  • Cuando el problema de manera expresa pide que se contraste una hipótesis con determinado nivel de significación, la hipótesis que contrastamos es la hipótesis $H_o$
  • Cuando el problema pide explícitamente que seamos nosotros quienes planteemos las hipótesis, para decidir qué poner en $H_0$ y qué en $H_1$, se pueden tener en cuenta las siguientes indicaciones:
    • En $H_1$ siempre debemos colocar lo que realmente queremos investigar con seguridad o demostrar ya que, repetimos que el error α, el que fijamos de antemano se controla y se comete cuando optamos por $H_1$ y nos equivocamos.
    • También por convenio, en la hipótesis $H_0$ los signos siempre deben ser : = (igual) o $\le$ (menor o igual que) o $\ge$ (mayor o igual que).
  • En caso de duda, siempre elegir un test con dos colas, sólo cuando el planteamiento es muy claro se elige un test de una cola.

En las siguientes escenas puedes aclararte un poco con el concepto de error tipo I.

Hay una escena por cada tipo de contraste, bilateral, unilateral izquierdo y unilateral derecho.

Puedes cambiar los controles con los valores que desees. Trata de interpretar las distintas situaciones que van apareciendo. Quizás el control más determinante sea el de las "medias muestrales".

A medida que este control aumenta o disminuye, el valor del estadístico "$z$" sale o entra en la región crítica.

Observa también que la imagen que aparece pequeña en la parte superior derecha de la escena, cambia en el momento en el que "$z$" sale o entra en la región crítica. Intenta dar una explicación a dicho cambio.

Situación general de error tipo I en contraste bilateral


Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

Situación general de error tipo I en contraste unilateral izquierdo

Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

Situación general de error tipo I en contraste unilateral derecho

Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

Error tipo II. (error beta)

Cuando no se rechaza $H_0$, siendo falsa, se puede cometer el error denominado error tipo II. (también denominado error beta).

Pero ¿cuál es beta? De hecho, sería una información ciertamente relevante poder comunicar en un estudio de contraste el valor de este tipo de error. En los paquetes estadísticos no se da información de este error ya que sería necesario concretar el valor de $H_1$. Sin embargo si que se puede especular un poco con el error tipo II haciendo alguna suposición más o menos dirigida.

Supongamos que queremos demostrar que la edad media de los asistentes a cierto concierto es más de $18$ años con un nivel de significación del $4,5\%$.

Se sabe que la desviación típica poblacional es $3,6$ años. Para ello se consideró una muestra de $36$ individuos para la que se obtuvo una media de $19$.

Planteando el problema, se tendrá:

Ejemplo resuelto error beta

Estadístico de contraste:

$$z = \frac{19-18}{\Big(\frac{3,6}{\sqrt{36}}\Big)} = 1,666$$ $$1,666 \in (-\infin, 1,6957)$$

Aceptamos por tanto la hipótesis nula. La hubiéramos aceptado siempre que:

$$z = \frac{\overline{X} - 18}{\Big(\frac{3,6}{\sqrt{36}}\Big)} \lt 1,6957 \implies \overline{X} -18 \lt 1,01742\\ \implies \overline{X} \lt 19,01742$$

Es decir, hubiéramos aceptado la hipótesis nula para cualquier media muestral menor de $19,01742$.

Ahora y haciendo una suposición no estadística de que en realidad la media de edad de los asistentes era mayor de $18$ (nos quedamos con un valor cercano y redondo por ejemplo de $20$) ¿Cuál sería la probabilidad de que en la distribución de las medias muestrales de tamaño $36$ de una población en la que $\mu =20$ nos encontremos medias de menos de $19,01742$

$$\overline{X} \to N\Bigg(20, \frac{3,6}{\sqrt{26}}\Bigg) \implies p(\overline{X}\le 19,01742)\\ = \Bigg(z \le \frac{19,01742-20}{\frac{3,6}{\sqrt{26}}}\Bigg) = p(z \le -1,64) = 0,0505$$

Ejemplo resuelto error beta

La siguiente imagen ilustra la situación típica para el error de tipo II


Error beta

En las siguientes escenas se plantean las situaciones habituales de error tipo II para contraste unilateral izquierdo y unilateral derecho. En la escena se ha propuesto de antemano una $H_1$ más o menos alejada de la $H_0$ sin ningún criterio estadístico claro, salvo quizás el de que se aprecie claramente la situación que se produce en tanto al error tipo II.

En las escenas debes observar los controles y como influyen en el resultado del contraste. También es importante que aprecies que en el momento en que se acepta la hipótesis nula por estar el valor del estadístico "$z$" dentro de la zona de aceptación, en la parte inferior aparece el cálculo del posible error tipo II. Importante también es entender que en el momento en que se rechaza la hipótesis nula, desaparece la posibilidad de calibrar el error tipo II.

Situación general de error tipo II en contraste unilateral izquierdo

Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

Situación general de error tipo II en contraste unilateral derecho




Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)

Problemas resueltos

A continuación tienes el enunciado de diferentes problemas. Trabájalos y una vez los hayas resuelto puedes hacer clic sobre el botón para ver la solución.

Créditos del capítulo

Bibliografía


Barnett, V. & Lewis, T. (1994). Outliers in statistical data. Ed. Wiley.

Calot, G. (1974). Curso de Estadística Descriptiva. Madrid: Ed. Paraninfo.

García Pérez A. (1992). Estadística Aplicada: conceptos básicos. Madrid: Ed. Universidad Nacional de Educación a Distancia.

García Pérez A. (2000). Métodos avanzados de Estadística Aplicada. Madrid: Ed. Universidad Nacional de Educación a Distancia.

Quesada V., Isidro A. & López L.A. (1992). Curso y ejercicios de Estadística. Ciudad de Mexico: Ed. Alhambra Universidad.

Taylor, S.J. & Bogdan, R. (1987) Introducción a los métodos cualitativos de investigación. Barcelona: Ed. Paidós, SAICF.

Tucker, H. (1966) Introducción a la teoría matemática de las probabilidades y a la estadística. Ed. Vicens Vives.