HuGo

DIOS ES TODOPODEROSO

viernes, 4 de abril de 2014

calculo de media, mediana y moda, casio 82.wmv



INFERENCIA ESTADÍSTICA

INTRODUCCIÓN.

            El empleo de encuestas es uno de los métodos de investigación más utilizados en la actualidad. La realidad, en continuo cambio y con muchísimas opciones diferentes, es muy difícil de abarcar en su totalidad. Por este motivo se hace necesario seleccionar una parte lo más pequeña posible, pero representativa del total, en la que sea posible medir las características deseadas. Esta necesidad ha obligado a crear un instrumento matemático que llamamos muestreo.

            Las muestras que se elijan para hacer un estudio deben ser lo más pequeñas posible por exigencias de tiempo y coste. Además, el aumento del número de datos no siempre acarrea una mayor certeza, ya que más importante que escoger muchos datos es que los datos estén bien seleccionados, con el fin de que sean representativos de la población que se desea estudiar. Se verá como el azar juega un papel importante en la elección de la muestra para que ésta sea representativa.

En este tema estudiaremos dos parámetros de una población: la media de una determinada característica numérica y la proporción o porcentaje de la población que comparte un determinado rasgo común.

            La inferencia estadística se basa en resultados de la teoría de la probabilidad, los cuales nos aseguran, que al estudiar la media o la proporción de muestras, tomadas adecuadamente en la población, estas características serán muy similares a las de la población total.

            El método de inferencia estadística hace estimaciones de lo que ocurre en toda la población estudiando lo que ocurre en una parte de la misma (la muestra). Como se pretende sacar conclusiones sobre el total de la población a partir de una muestra de la misma, estas conclusiones estarán sujetas a error. La teoría de la probabilidad permite también acompañar a la estimación muestral de una media o de una proporción, en una población, de la probabilidad de que el error cometido no exceda de un determinado valor, o del riesgo (probabilidad de equivocación) que se corre al aceptar o al rechazar una hipótesis sobre los valores de la media o de la proporción de la población.

            Ahora bien, la inferencia se hace a partir de muestras que deben estar debidamente escogidas. Por esta razón trataremos previamente a los métodos de la inferencia, las técnicas de muestreo, es decir, las diversas formas de poder seleccionar una muestra que sea adecuada para realizar las inferencias, controlando el posible error.

            Para trabajar este tema se necesita el manejo de los números combinatorios como herramienta de cálculo y el conocimiento y uso de la distribución normal y sus propiedades.

            Finalmente, insistir en la importancia de la inferencia estadística como disciplina fundamental en todas las áreas científicas, tanto naturales como sociales.

POBLACIÓN Y MUESTRA.

            En el campo de la Estadística el concepto de población se encuentra próximo a la noción general de grupo o conjunto.

            Definición.

            POBLACIÓN.
            Se llama población o universo a cualquier conjunto, colectivo o colección finita o infinita de individuos o elementos.

Una población puede ser, no sólo un conjunto de personas, sino también un conjunto de animales, objetos, fenómenos, medidas, .....

Ejemplo:
Si pasamos un test a todos los alumnos españoles de una determinada edad, los resultados obtenidos constituyen una población de medidas de la capacidad a la que se derige el test.

Definición.

CENSO.
Se da el nombre de censo a la enumeración y anotación de ciertas características de todos los elementos de una población.

            Ejemplo:
            El profesor-tutor de un grupo de un instituto realiza un listado de los alumnos/as de su tutoría, en la incluye, nombre y apellidos, nombre de los padres, domicilio, teléfono, número de hermanos y  asignaturas pendientes del curso anterior. Este sería un ejemplo de censo de la población formada por el alumnado del grupo en cuestión.

            Las poblaciones en Estadística pueden ser finitas o infinitas. Una población es finita cuando consta de un número limitado de unidades, y una población es infinita cuando su tamaño es indefinidamente grande.

Ejemplo:
-          Si consideramos el número de hermanos que tienen los alumnos/as de un curso de un instituto determinado, estaríamos hablando de una población finita. Habría tantos valores como alumnos/as haya en dicho curso.
-          Si obtenemos una serie de medidas del tiempo que tarda un alumno en resolver una división de dos cifras, estas medidas pueden consideradas parte de un conjunto mucho mayor, de tamaño indefinidamente grande, constituido por todas las medidas que obtendríamos si repitiésemos la experiencia una y otra vez.
-          Supongamos que se lanza un dado en reiteradas ocasiones, y anotamos el valor de la cara superior. Tal experiencia puede ser repetidamente hasta el infinito, por lo que cualquier conjunto de resultados podría ser considerado una parte extraída de una población indefinidamente grande.
En definitiva, con frecuencia, las poblaciones en Estadística suelen ser consideradas infinitas.
El gran tamaño que presentan algunas poblaciones es precisamente la principal razón que hace recomendable reducir su estudio a muestras obtenidas de ellas.

Definición.

MUESTRA.
Se define muestra como una parte o subconjunto de una población, debidamente elegida, que se somete a observación científica en representación de la misma, con el propósito de obtener resultados válidos para el total de la población.

            Para que una muestra se considere válida debe cumplir que:

·         Su tamaño sea proporcional al tamaño de la población.
·         No haya distorsión en la elección de los elementos de la muestra.
·         Sea representativa.

Un estudio exhaustivo cuyos datos se utilizan para multitud de trabajos e investigaciones es el Censo de Población. Requiere un gran esfuerzo tanto económico como de medios y en él se recaba información de todos los habitantes de un país. Sin embargo, para el conocimiento de algunas características de la población, se utilizan métodos alternativos que reducen el costo y el tiempo. Los modelos reducidos de la población, constituidos por las muestras, tienen como finalidad obtener resultados que puedan ser aplicables (extrapolables) a la población.

            Las principales razones que inducen a tomar muestras son:

a)      El coste temporal. Estudiar una población de tamaño considerable exige una dedicación de tiempo que retrasaría enormemente las investigaciones en marcha y prolongaría en exceso la realización de los estudios. A veces, esto último podría entrar además en conflicto con el carácter vivo, cambiante, en continua evolución de las realidades que ocupan el interés de los investigadores en el campo de las ciencias sociales, cuyo estudio desde una perspectiva sincrónica, requiere la concreción en segmentos temporales limitados. Por ejemplo, si queremos saber cómo ha afectado a la intención de voto de los españoles determinadas declaraciones de un destacado líder político no disponemos de un tiempo indefinido, porque otros hechos o declaraciones posteriores influirían en las opiniones y tendencias de la población. En este caso, sería necesario recurrir a un muestreo que permita abordar el estudio con un bajo coste temporal.
b)      El coste económico.  La inversión en recursos temporales y humanos necesaria para abordar algunos problemas de investigación sería elevada si pretendiéramos abarcar a la población. La recogida de los datos que posteriormente van a ser analizados estadísticamente requiere desplegar estrategias que exigen disponer de recursos. El envío de cuestionarios por correo, la realización de entrevistas por parte de personas especializadas, el desplazamiento de observadores a los lugares estudiados, etc., suponen un coste económico que queda reducido si nos limitamos al estudio de una muestra extraída de la población.
c)      El impacto sobre la realidad estudiada. Cuando el estudio realizado pudiera provocar efectos en los sujetos, parece adecuado limitar la realización de experimentos a ámbitos reducidos. Por ejemplo, la medición de los resultados de un nuevo método de aprendizaje de la lectura habría de hacerse sobre un número reducido de alumnos, sin extender a toda la población la nueva metodología hasta no confirmar los resultados positivos de la misma.
d)     Una población homogénea. Si la población es homogénea se pueden obtener muy buenos resultados a partir de cualquier muestra.
e)      La falta de personal. Si no se dispone de suficiente personal preparado para llevar a cabo un estudio exhaustivo, también resulta aconsejables hacer un muestreo.

Por otro lado, el uso del muestreo presenta limitaciones, entre estas destacamos:

a)      El riesgo que supone la toma de una muestra que pueda no ser representativa.
b)      Cuando es necesaria información de todos los elementos de la población.
c)      Cuando no se domina bien la técnica de muestreo.
d)     Cuando la población esté formada por un número muy pequeño de elementos, ya que una ligera equivocación en la toma de la muestra puede originar grandes errores.

Para el investigador tienen especial interés las muestras en la medida en que permiten generalizar los resultados de un estudio a las poblaciones de las que fueron extraídas. Para que ello sea posible es necesario que el muestreo se realice siguiendo determinados procedimientos que garanticen la representatividad de la muestra y, por tanto, las posibilidades de generalización.


PARÁMETRO Y ESTIMADOR DE UN PARÁMETRO.

            La Estadística Descriptiva se ocupa del estudio de series de puntuaciones, para las cuales se calculan las medias, varianza, desviación típica, etc.

            Definición.

            PARÁMETRO.
Se denomina parámetro a todo valor que sirva para describir un conjunto de datos.

            Ejemplo:
            Supongamos que tenemos la estatura, medida en centímetros, de un grupo de diez jóvenes: {170, 172, 180, 175, 178, 194, 178, 165, 170, 178}. La estatura media es de 176 centímetros y la desviación típica es (aproximadamente) de 7.5 centímetros. La media y la desviación típica son valores que describen al conjunto de estaturas, y serían ejemplos de parámetros.
           
            En cambio, en la Estadística Inferencial se estudian conjuntos de puntuaciones, las muestras, con el fin de generalizar los resultados a conjuntos de puntuaciones más amplios, las poblaciones, de las que fueron extraídos.

            Definición.

            ESTADÍSTICO Y ESTIMADOR DE UN ESTADÍSTICO.
            Los valores que describen a las poblaciones recibirán el nombre de parámetros o estadísticos, mientras que las medidas que describen el comportamiento de una muestra se denomina estimador del parámetro o estimador del estadístico.

            Ejemplo:
            A partir del valor alcanzado por la media en una muestra podríamos intentar estimar el valor de la media de en la población. Así, si los diez jóvenes del ejemplo anterior son alumnos/as elegidos al azar de una escuela de baloncesto, intentaríamos deducir la estatura media de los integrantes de dicha escuela, tomando como referencia los 176 centímetros obtenidos.


TIPOS DE MUESTREO.

            Definición.

            MUESTREO.
            Se llama muestreo al procedimiento mediante el cual elegimos a las unidades estadísticas que forman la muestra, dentro del conjunto que constituye la población.

            Diremos que el muestreo es probabilístico cuando todos los elementos de la población poseen un probabilidad conocida (o calculada de antemano), no nula, de ser elegidos para formar parte de la muestra. Se contrapone al llamado muestreo no probabilístico, en el que, o bien no se conoce la probabilidad de que los elementos de la población sean seleccionados para la muestra, o bien para parte de ellos esta probabilidad es nula y, por tanto, no es posible llevar a cabo inferencias estadísticas.
           
            Lógicamente, el muestreo que se encuentra en la base de la mayoría de los métodos de la Estadística Inferencial es el muestreo probabilístico. Para llevarlo a cabo es necesario que la selección pueda considerarse como una prueba o experimento aleatorio o de azar, de los que constituyen la base de la teoría de la probabilidad en la cual se fundamenta la estadística matemática.

            Las generalizaciones de resultados, a partir del estudio de muestras extraídas mediante procedimientos de muestreo no probabilístico, nos impiden conocer el margen de error con el que hacemos las generalizaciones a la población. En cambio, el muestreo probabilítico permite hacer inferencias sobre la población, y gracias a los procedimientos de la Estadística Inferencial podemos conocer el error con el que se realizan las generalizaciones.
           
            En las páginas siguientes, se describen muestreos probabilísticos (muestreo aleatorio con y sin reposición, muestreo aleatorio sistemático, muestreo estratificado, muestreo por conglomerados, muestreo polietápico) y muestreos no probabilíticos (muestreo intencional, por cuotas, incidental y accidental), pero antes incluiremos dos conceptos que aparecen al referirnos al muestreo: factor o coeficiente de elevación y fracción de muestreo.

            Definiciones.

            FACTOR DE ELEVACIÓN.
            Se denomina factor o coeficiente de elevación al cociente entre el tamaño de la población y el tamaño de la muestra,  . Representa el número de elementos que hay en la población por cada elemento de la muestra.


FRACCIÓN DE MUESTREO.
            Se denomina fracción de muestreo al cociente entre el tamaño de la  muestra y el tamaño de la población, . Si se multiplica por 100, representa el porcentaje de la población que representa la muestra.


A)    MUESTREOS PROBABILÍSTICOS.

Muestreo aleatorio simple con y sin reposición. Se denomina muestreo aleatorio simple a aquel en que todos los elementos de la población tienen la misma probabilidad de formar parte de la muestra y ésta es determinada únicamente por el azar. Se trata de un tipo de muestreo probabilístico que permite con facilidad llevar a cabo inferencias estadísticas y calcular la probabilidad de error asociada a las mismas.

Concretando, el muestreo aleatorio simple consiste en seleccionar n elementos con o sin reemplazamiento de entre los N elementos que componen la población, de tal modo que todas las muestras de tamaño n que se puedan formar tengan la misma probabilidad de ser elegidas.

Si la muestra se selecciona sin reemplazamiento (es decir, cuando un elemento ha sido extraído queda descartado de cara a la siguiente extracción) se habla de muestreo aleatorio sin reposición, también llamado muestreo irrestrictamente aleatorio.

Si la muestra se selecciona con reemplazamiento (es decir, el elemento elegido en cada extracción vuelve a ser incluido en la población antes de extraer el siguiente elemento) se habla de muestreo aleatorio con reposición, también llamado generalmente muestreo aleatorio simple.

Si bien los dos métodos son distintos, cuando el tamaño de la población es infinito o tan grande que pueda considerarse como infinito, ambos métodos llegan a las mismas conclusiones. Si la fracción de muestreo  es mayor de 0.1 (se muestrea más del 10 % de la población) la diferencia entre ambos métodos puede ser apreciable, llegando a conclusiones contradictorias según se aplique un método u otro.

Ejemplo:
En el muestreo aleatorio sin reposición, el número de muestras de tamaño n que se pueden formar es: , y, por tanto, la probabilidad de elegir una muestra determinada es:  .

La probabilidad de que un elemento determinado de la población forme parte de la muestra viene dada por .

En la práctica el procedimiento de muestreo aleatorio consiste en extraer al azar los elementos que constituyen la muestra, obteniendo la muestra unidad a unidad. Para ello, si la población es finita, se enumeran los elementos de la población desde 1 hasta N, y se extraen a continuación n elementos usando una urna o un bombo. Este procedimiento, aunque sencillo, requiere tener unos medios materiales: un bombo o una urna, papeles numerados o bolas numeradas, etc., por lo que se suelen utilizar otras alternativas como las tablas de números aleatorios o la generación de números aleatorios con la calculadora.

Las tablas de números aleatorios son tablas de números colocados de tal forma que no exista ninguna relación entre ellos sea cual sea el sentido en que los leamos. Al final de los contenidos teóricos de este tema aparece una tabla de números aleatorios.

            Ejemplo:
            Si en una población de 834 individuos deseamos extraer una muestra de 42, asignaríamos un número a cada uno de los 834 elementos de la población. Para determinar los 42 elementos de la muestra, marcaríamos un número en la tabla de números aleatorios al azar y a partir de éste leeríamos en dicha tabla números de tres dígitos en cualquier dirección, desestimando los que superen 834.

            También podríamos encontrar estos 42 números generando números de forma aleatoria con la calculadora. Así:
-          Con la calculadora Texas Instruments TI-92, utilizando la orden “rand(834)”, obtendríamos números entre 1 y 834.
-          Con la calculadora CASIO fx-180P, debemos utilizar la sucesión de teclas, “INV” “(·) RAN”, y descartamos los números que superen 834.

Muestreo aleatorio sistemático. El muestreo aleatorio sistemático resulta ser un procedimiento más cómodo que el muestreo aleatorio, con o sin reposición, cuando la población o la muestra que vamos a extraer son grandes. En lugar de recurrir a papeletas, bolas, tablas de números aleatorios o calculadora, puede determinarse la muestra eligiendo sistemáticamente, en una relación ordenada de los individuos de la población, aquellos que se encuentren a una distancia determinada. Suponiendo que el tamaño de la muestra es N y que la muestra que queramos extraer constara de n individuos, procederíamos del siguiente modo:

a)      Calculamos el coeficiente de elevación, .
b)      Elegimos aleatoriamente un número m comprendido entre 1 y k.
c)      Determinamos la muestra sumándole repetidamente k al número, m, elegido.

La muestra estará constituida por los individuos:
           
                                  
            Para que la muestra conserve el carácter aleatorio, debemos procurar que la ordenación de los individuos de la población no presente tendencias que hagan recaer la elección sistemática sobre unidades que no sean representativas de la heterogeneidad de la población.

            Ejemplo:
Supongamos que queremos hacer una investigación en un instituto de 720 alumnos y alumnas, de los que queremos tomar una muestra de 80 individuos. En primer lugar, ordenar todos los alumnos y alumnas alfabéticamente sería un buen criterio de ordenación. Sin embargo, disponer los alumnos situando una tras otra las listas de los alumnos/as de cada clase, en las que estos aparezcan por orden de calificaciones, podría llevar a que se seleccionaran sistemáticamente los alumnos/as con calificaciones altas y no los de las calificaciones bajas, o viceversa.
Una vez ordenados adecuadamente, calculamos el coeficiente o factor de elevación . Elegimos aleatoriamente un número entre 1 y 9 (tabla de números aleatorios, calculadora, .....). Si el número obtenido fuese 6, los individuos seleccionados serían:
                        {6,  15 (= 6+9),  24 (= 6+2 · 9),  33 (=6+3 · 9),  ........,  717 (=6+79 · 9)}

            Evidentemente, k no suele ser un número entero. Si se desprecian los decimales ocurrirá que una parte de los sujetos que se encuentran al final de la ordenación pierden toda posibilidad de ser elegidos. Una solución podría consistir en mantener los decimales del coeficiente k y redondear el resultado de las sumas al número entero más próximo, una vez que se han realizado todas ellas. Otra sería, sumar alternativamente las cantidades Ent(k) y Ent(k) +1.

            Además del procedimiento que acabamos de exponer, existen otras formas de muestreo que también se consideran muestreos sistemáticos. Por ejemplo, para elegir una muestra de personas, podemos seleccionar una o varias letras del abecedario y tomar como muestra todos los sujetos cuyo apellido comience por esa(s) letra(s).
            Muestreo estratificado. El muestreo estratificado se realiza cuando queremos garantizar cierta representatividad de la muestra respecto de alguna característica. Para ello, en función de esa característica, dividimos la población de tamaño N en K estratos o subpoblaciones de tamaños respectivos  y elegimos de forma aleatoria (mediante sorteo, tablas, procedimientos sistemáticos, .....) submuestras de tamaños  en cada estrato, asegurándonos de este modo de que todas las subpoblaciones estarán representadas en la muestra. La muestra total será la suma de las submuestras elegidas en cada estrato, es decir, .

            Cabe diferenciar entre muestreo estratificado con asignación proporcional o de afijación proporcional, muestreo estratificado con asignación constante o de afijación igual y muestreo estratificado con asignación óptima.

            En el muestreo estratificado con asignación proporcional, o de afijación proporcional, se respeta la importancia cuantitativa de cada estrato, asignando en la muestra un número de individuos proporcional al tamaño del estrato en la población.

            En el muestreo estratificado con asignación constante, o de afijación igual, todos los estratos contribuyen a la muestra con idéntico número de individuos, con independencia de cual sea la importancia numérica de dicho estrato.

            Finalmente, se habla de muestreo estratificado con asignación óptima cuando la contribución de cada estrato se determina a partir de parámetros ya conocidos de la población.

            Ejemplo:
            Se desea extraer una muestra de 60 alumnos y alumnas de un centro escolar en el que hay 500 matriculados, de los que 300 son niños y 200 son niñas, para estimar la estatura media.
·         Si se utiliza un muestreo estratificado de afijación igual deberíamos seleccionar 30 niños y 30 niñas.
·         Si se utiliza un muestreo estratificado de asignación proporcional deberíamos escoger 36 niños y 24 niñas.
·         Si conocemos la variabilidad de la característica considerada, y sabemos que la varianza en el caso de los alumnos es de 15 cm y en las alumnas 5 cm, la proporción de alumnos a alumnas sería de 3 : 1, y usando un muestreo estratificado de asignación óptima, los tamaños de las submuestras deberían ser de 45 niños y 15 niñas.

Lógicamente, el menos recomendable de los tres tipos de muestreo estratificado es el de asignación constante, ya que asigna el mismo tamaño a cada estrato, y como consecuencia se favorece a los estratos de menor tamaño y perjudica a los grandes, en cuanto a la precisión de los resultados que obtengamos.
           

Muestreo por conglomerados. El muestreo por conglomerados se utiliza cuando las unidades de la población presentan alguna forma de agrupamiento, que permite elegir grupos en lugar de individuos. De esta forma, el acceso a la muestra queda facilitado considerablemente, al quedar reunidos en una serie de grupos los individuos que la constituyen. Al realizar el muestreo, seleccionaríamos aleatoriamente una serie de grupos o conglomerados, tratando de reunir el número total de individuos que pretendemos incluir en la muestra. Los conglomerados deben ser lo más representativos posible de la población, es decir, deben representar la heterogeneidad de la población del estudio y ser entre sí homogéneos.


           

            Este procedimiento no requiere construir censos o listados completos de los elementos de la población, que son sustituidos en este caso por los censos de conglomerados. En realidad, el muestreo por conglomerados no es más que la aplicación de los muestreos aleatorios con o sin reposición, sistemático o estratificado al caso en que la unidad de muestreo no son los individuos sino los grupos de individuos. Usando este procedimiento se evita la dispersión de unidades a la que conducen otros tipos de muestreo, y se reducen los costes y el tiempo de un trabajo de recogida de datos.



            Cuando los conglomerados se corresponden con zonas geográficas, y se define el conglomerado como un área o parte bien limitada del terreno, se denomina muestreo por áreas.

           

            Ejemplo:

            Si queremos hacer un estudio sobre la influencia de un determinado pienso en el engorde de cerdos criados en granjas, podemos seleccionar aleatoriamente las granjas y luego dentro de ellas estudiar los pesos de los cerdos, bien de todos los cerdos de cada granja o de una muestra representativa de la población de cerdos de la misma.





            Muestreo polietápico. En el muestreo polietápico las unidades que finalmente componen la muestra se determinan en etapas sucesivas. Se trata de un caso particular del muestreo por conglomerados, en el que la unidad final no son los conglomerados sino subdivisiones de éstos. Por tanto, será interesante aplicarlo cuando los conglomerados contengan un elevado número de individuos y resulte aconsejable hacer una selección entre ellos.



            Si únicamente desarrollamos dos etapas, muestreo bietápico, el procedimiento consistiría en la selección de los conglomerados en la primera etapa, y la selección de los individuos en la segunda.



            No obstante, el muestreo polietápico puede extenderse a más de dos etapas dando lugar a una selección sucesiva de unidades cada vez menores, que están jerarquizadas de tal modo que la unidades de la primera etapa son divisibles en unidades de la segunda etapa, éstas a su vez en unidades de la tercera etapa, y así hasta alcanzar las unidades que finalmente constituirán la muestra. Estas unidades finales no necesariamente han de ser los individuos.



            En cada etapa, la selección de las unidades podrá hacerse siguiendo procedimientos de muestreo aleatorio, sistemático o estratificado.

            Ejemplo:

            En el ejemplo anterior referido al estudio sobre la influencia de un determinado pienso en el engorde de cerdos, supongamos que el estudio se realiza a nivel de toda España. Entonces, en una primera etapa, podríamos seleccionar de forma aleatoria una serie de provincias; en segundo lugar, en cada una de las provincias seleccionar también aleatoriamente algunas comarcas (bien delimitadas); posteriormente, dentro de cada comarca elegir al azar un grupo de granjas; y finalmente, en cada una de ellas estudiar todos los cerdos o una muestra de ellos elegida adecuadamente. 





B)    MUESTREOS NO PROBABILÍSTICOS.



Muestreo intencional u opinático. En el muestreo intencional u opinático la representatividad depende de la intención u opinión de la persona que selecciona la muestra, y que, según su criterio, procura que sea representativa. Por tanto, la evaluación de la representatividad es subjetiva. En este caso, la composición de la muestra puede estar influida por las preferencias o tendencias, aun las inconscientes, del individuo que la obtiene, y no sólo por factores objetivos que son los que deben tenerse en cuenta de modo riguroso, como ocurre en el muestreo probabilístico.



Ejemplo:

Se pretende hacer una encuesta en un instituto, entre los alumnos de 4º de E.S.O.,  para saber la modalidad de Bachillerato que seguirán los que continúen estudiando. El Jefe de Estudios pregunta a unos cuantos alumnos de cada grupo de 4º de E.S.O., con el único criterio de que piensa que esos seguirán estudiando.



Este tipo de muestreo carece, pues, de una base teórica satisfactoria a pesar de lo cual su uso está bastante generalizado, especialmente el llamado muestreo por cuotas.





Muestreo por cuotas. En el muestreo por cuotas, el investigador establece estratos de la población, determina el número de individuos a seleccionar en cada uno de ellos y elige intencionadamente individuos para completar las cuotas establecidas. Se asemeja al muestreo por estratos en cuanto que supone un conocimiento previo de la población, que permite diferenciar segmentos o estratos dentro de la misma, pero se distancia de aquel por el hecho de que aquí los individuos que constituyen la cuota aportada a la muestra por cada estrato no son determinados aleatoriamente, sino en función de otros criterios (accesibilidad, comodidad, economía, etc.). La única condición impuesta es que los individuos cumplan los requisitos fijados en las cuotas.



Ejemplo:

El agente visitador o entrevistador recoge información de personas o familias en número proporcional al de las que cumplen determinadas condiciones en la población, y puede elegirlas a su arbitrio dentro de grupos establecidos por sexo, edad o ciertos niveles socioeconómicos. Así, se podría fijar que el 15 % de la muestra ha de constar de mujeres que tengan menos de 40 años, sean de clase media y habiten en determinado barrio, y esta sería la única condición para seleccionar este 15 % de la muestra.



El muestreo por cuotas no es un muestreo probabilístico, y por tanto, no permite llevar a cabo estimaciones rigurosas en las que podamos calibrar el error cometido.

            Muestreo incidental. En el muestreo incidental el investigador determina deliberadamente qué individuos formarán parte de la muestra, tratando de recoger a los casos considerados típicamente representativos de la población. Los criterios de elección suelen basarse generalmente en el conocimiento teórico sobre el tema de estudio. Pero, en definitiva, a pesar de la posible buena intención y conocimiento del tema y de la población que tenga el investigador, la muestra no servirá para hacer inferencias a toda la población ya que siempre cabe que pueda estar distorsionada por tendencias o preferencias subconscientes o inconscientes del investigador.



            Ejemplo:

            Para estimar el problema de absentismo escolar, un investigador puede seleccionar los alumnos de un centro situado en una zona de trabajadores agrícolas temporeros que han de desplazarse en determinadas épocas del año, los alumnos de un centro situado en una barriada marginal de una gran ciudad y los de un centro residencial, dado que por su conocimiento teórico del problema sabe que éstos representan los diferentes tipos de comportamientos en relación con la asistencia a clase.

INFERENCIA ESTADÍSTICA.



Llamamos inferencia al paso de lo particular a lo general, no en el sentido de la inducción completa utilizada en matemáticas, sino tal como se emplea en las ciencias de la naturaleza. Se podría decir que es una afirmación relativa a poblaciones estadísticas, efectuada a partir de ciertas observaciones con determinada medida de incertidumbre. Podemos considerar como un problema crucial de la Estadística el de “inferir la población” o afirmar algo sobre ella a partir de una muestra. Esto equivale a basar conclusiones y/o decisiones en la ignorancia o incertidumbre parciales.



            Para que la inferencia sea la más satisfactoria posible en una situación determinada se emplean técnicas estadístico-matemáticas, que permiten estimar, por medio de muestras, las características de una población, sustituyendo las conjeturas más o menos ingeniosas por procedimientos objetivos cuya representatividad puede medirse.



            En conclusión, el problema fundamental que trata de resolver la Inferencia estadística es obtener de las propiedades de la muestra las de la población en estudio.





DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO.



            Supongamos que en una población de tamaño N hemos atribuido a cada elemento de la población un valor de acuerdo con determinada característica X que hemos medido. Podemos seleccionar una muestra de tamaño n y calcular un estadístico, por ejemplo, la media, para los n valores seleccionados. Si volvemos a extraer muestras aleatorias y repetimos la operación sucesivamente, lograremos reunir un número elevado de medias.



            Con las medias obtenidas, podemos construir una distribución de frecuencias para los valores de las medias, . Pues bien, a medida que aumenta el número de muestras extraídas de tamaño n, esa distribución se aproxima a una distribución teórica que denominaremos distribución muestral del estadístico media.



            Definición.



            DISTRIBUCIÓN MUESTRAL DE UN  ESTADÍSTICO.


            La distribución muestral de un estadístico se define como la función de probabilidad (o función de densidad de probabilidad) del estimador de ese estadístico. Es decir, se trata de una función que expresa la probabilidad asociada a cada posible valor del estadístico obtenido a partir de una muestra aleatoria de tamaño n.



                Ejemplo:

                Para ilustrar este concepto, construiremos la distribución muestral del estadístico media, , cuando extraemos muestras aleatorias de tamaño 2 en una población constituida por los valores {1, 2, 3}. La muestra estará formada por los valores de las dos variables aleatorias:  (resultado de la primera selección) y  (resultado de la segunda elección). A su vez, la media muestral  es también una variable aleatoria, puesto que se obtiene por combinación lineal de las dos variables aleatorias  y .

Formaremos muestras de tamaño 2 recurriendo a dos vías diferentes:



a)      Procedimiento empírico.- Seleccionamos al azar una muestra con reposición de 2 elementos y calculamos su media. Repetimos el proceso hasta un total de 20 veces. Los resultados de este proceso podrían ser, por ejemplo:



1
1
2
2
2
1
2
3
3
1
2
3
1
3
2
3
1
1
3
1
1.5
2
1.5
2.5
2
2
1.5
2
3
1

           

1
2
3
3
2
1
1
3
3
1
2
3
3
2
1
2
2
2
1
3
1.5
2.5
3
2.5
1.5
1.5
1.5
2.5
2
2



La distribución de frecuencias para los valores de la media obtenidos quedaría tal y como muestra la siguiente tabla:

           

1
1
0.05
1.5
7
0.35
2
6
0.30
2.5
4
0.20
3
2
0.10



Así habremos construido una distribución muestral empírica.



b)      Procedimiento teórico.- Sin tener que extraer repetidas muestras para calcular la media de los valores que las componen, podemos construir una distribución muestral teórica, valiéndonos de conceptos probabilísticos. Así podemos determinar las 9 muestras aleatorias posibles con reposición a partir de la población considerada y calcular las respectivas medias.



1
1
1
2
2
2
3
3
3
1
2
3
1
2
3
1
2
3
1
1.5
2
1.5
2
2.5
2
2.5
3



            Teniendo en cuenta las medias de las nueve muestras posibles, todas ellas equiprobables, puedo construir la función de probabilidad para la variable aleatoria .

                                                                      

1
1
1/9 = 0.11
1.5
7
2/9 = 0.22
2
6
3/9 = 0.33
2.5
4
2/9 = 0.22
3
2
1/9 = 0.11

            Conociendo esta distribución muestral teórica, se tiene que la probabilidad de obtener el valor  para la media de una muestra extraída al azar de la población es , mientras que la probabilidad de obtener el valor  es . Es decir, en un 11 % de los casos, la muestra tendrá como media 1 y en un 33 % de los casos, el valor de la media de la muestra será 2.



            Como afirmábamos anteriormente, la distribución muestral empírica de un estadístico se aproxima a la distribución muestral teórica a medida que aumenta el número de muestras extraídas. Las frecuencias relativas obtenidas empíricamente llegan a coincidir con las probabilidades teóricas cuando el número de muestras crece indefinidamente.



            Veamos someramente otro ejemplo.



            Supongamos que la población es P = {1, 2, 3, 5} y que representa el tiempo (en horas diarias) que cada uno de un grupo de cuatro estudiantes de la universidad dedican al estudio.



            Siguiendo la misma técnica utilizada en ejemplo anterior tenemos:



a)      El conjunto de muestras de tamaño 2 de la población P tiene 16 elementos diferentes.



Medias de las muestras de tamaño 2.


1
2
3
5
1
1
1.5
2
3
2
1.5
2
2.5
3.5
3
2
2.5
3
4
5
3
3.5
4
5



                        La información que da la tabla anterior se puede organizar en una tabla de distribución de frecuencias del siguiente modo:



                                               Distribución de medias muestrales (n = 2)                           

1
1
1.5
2
2
3
2.5
2
3
3
3.5
2
4
2
5
1



Hemos construído la distribución muestral de medias de tamaño 2. Esa distribución, igual que toda distribución, tiene gráfica de una determinada forma, una media, una desviación típica, etc.



b)      El conjunto de muestras de tamaño 3 de la población P tiene 64 elementos diferentes. Y procediendo de un modo análogo podemos obtener la siguiente tabla:



                                               Distribución de medias muestrales (n = 3)                           

1
1
4/3
3
5/3
6
2
7
7/3
9
8/3
9
3
10
10/3
6
11/3
6
4
3
13/3
3
5
1



Así hemos construido la distribución muestral de medias de tamaño 3.



c)      Igual podemos hacer la distribución muestral de medias de tamaño 4. En este caso hay 256 muestras diferentes.



                                               Distribución de medias muestrales (n = 4)                           

1
1
5/4
4
6/4
10
7/4
16
2
23
9/4
28
10/4
34
11/4
32
3
31
13/4
24
14/4
22
15/4
12
4
10
17/4
4
18/4
4
5
1
T=
256







            En resumen, se han construido las tres distribuciones muestrales de medias, asociadas con la población P. Las características de la población P y de las tres distribuciones muestrales se exponen a continuación.




Tamaño
Media
Desviación Típica
Población
4
2.75
1.479016
Distribución muestral de medias, n = 2
16
2.75
1.045825
Distribución muestral de medias, n = 3
64
2.75
0.853912
Distribución muestral de medias, n = 4
256
2.75
0.73509









                     




                                   Distribución de las medias de las muestras de tamaño 2.




                                   Distribución de las medias de las muestras de tamaño 3.

                       

                        Distribución de las medias de las muestras de tamaño 4.



Al observar las gráficas anteriores se comprueba que la gráfica de la población es uniforme y los diagramas de las distribuciones muestrales van aproximándose a la curva normal a medida que el tamaño de las muestras se aumenta.



También vemos que las medias de las cuatro distribuciones coinciden, y en cambio, las desviaciones típicas disminuyen a medida que aumenta el tamaño de las muestras.



Veamos como se relacionan la desviación típica de la población con la desviación típica de la distribución muestral y con el tamaño de las muestras. 

                       

            Los tres productos dan, prácticamente, el mismo resultado que el valor de la desviación típica de la población. En realidad, el producto entre la desviación típica de la distribución muestral de las medias y la raíz cuadrada del tamaño de las muestras es igual a la desviación típica de la población (la inexactitud de los resultados anteriores se debe a las aproximaciones tomadas).



            Lo trabajado anteriormente nos conduce al enunciado de uno de los resultados más útiles en estadística: el conocido como TEOREMA DEL LÍMITE CENTRAL:



TEOREMA CENTRAL DEL LÍMITE.



            Existen muchos fenómenos que se pueden considerar como una suma de una serie de efectos parciales independientes. Y puede ocurrir que, aunque esos efectos no se ajusten a una normal, el fenómeno resultante tienda a la distribución normal. Este resultado conocido como Teorema central del límite, fue enunciado, por primera vez, por Pierre Simon de Laplace (1.749 – 1.827), y fue Liapunov (1.857 – 1.917) dio en 1.901 una demostración rigurosa del teorema.



            TEOREMA CENTRAL DEL LÍMITE.

            “Consideramos una población cuya medida es m y cuya desviación típica es s. Si de esa población se extraen, al azar, todas las muestras de tamaño n, obtenidas con reposición y con orden, se puede construir una distribución de medias muestrales, la cual tiene forma aproximadamente normal cuando n es suficientemente grande. Además, la media  y la desviación típica  de esa distribución muestral están relacionadas con la media y la desviación típica de la población del siguiente modo.


                                                          

No hay comentarios:

Publicar un comentario