miércoles, 26 de marzo de 2008

Conceptos de Conceptos sobre estadistica

1.2.-La Media Aritmética ():
La medida de tendencia central más ampliamente usada es la media aritmética, usualmente abreviada como la media y denotada por  (léase como "X barra").
La media aritmética para datos no agrupados
Si se dispone de un conjunto de n números, tales como X1, X2, X3,…,Xn, la media aritmética de este conjunto de datos se define como "la suma de los valores de los ni números , divididos entre n", lo que usando los símbolos explicados anteriormente , puede escribirse como:
Ejemplo:
Se tienen las edades de cinco estudiantes universitarios de Ier año, a saber: 18,23, 27,34 y 25., para calcular la media aritmética (promedio de las edades, se tiene que:
La media aritmética para datos agrupados
Si los datos se presentan en una tabla de distribución de frecuencias, no es posible conocer los valores individuales de cada una de las observaciones, pero si las categorías en las cuales se hallan. Para poder calcular la media, se supondrá que dentro de cada categoría, las observaciones se distribuyen uniformemente dentro alrededor del punto medio de la clase, por lo tanto puede considerarse que todas las observaciones dentro de la clase ocurren en el punto medio, por lo expuesto la media aritmética para datos agrupados puede definirse de la siguiente manera:
Si en una tabla de distribución de frecuencia, con r clases, los puntos medio son: X1, X2, X3,…,Xn; y las respectivas frecuencias son f1, f2, f3, … , fn, la media aritmética se calcula de la siguiente manera:
donde: N = número total de observaciones, por tanto Σfi puede simplificarse y escribirse como N ( N= Σfi )
Ejemplo:
Si se toman los datos del ejemplo resuelto al construir la tabla de distribución de frecuencia de las cuentas por cobrar de Cabrera’s y Asociados que fueron los siguientes:
Clases 1 2 3 4 5 6
Puntos Medios (Xi) 14,628 29,043 43.458 57,873 72.288 86.703
Frecuencias (fi) 10 4 5 3 3 5


1.3.- La Mediana (X0.5):
Cuando una serie de datos contiene uno o dos valores muy grandes o muy pequeños, la media aritmética no es representativa. El valor central en tales problemaspuede ser mejor descrito usando una medida de tendencia central llamada mediana., y denotada por X0.5
La mediana es una medida de posición y se define como la posición central en el arreglo ordenado de la siguiente manera:
Dado un conjunto de números agrupados en orden creciente de magnitud, la mediana es el número colocado en el centro del arreglo, de tal forma que una mitad de las observaciones está por encima y la otra por debajo de dicho valor. Si el número de observaciones es par, la mediana es la media de los dos valores que se hallan en el medio del arreglo, de donde se concluye en la siguiente definición:
Mediana. Es el punto medio de los valores de una serie de datos después de haber sido ordenados de acuerdo a su magnitud. Hay tantos valores antes que la mediana como posteriores en el arreglo de datos
La Mediana para datos no agrupados.
Sea X1, X2; X3; … ; Xn; una sucesión de datos, la mediana denotada por X0.5 se calcula de la siguiente manera:
X0.5 = X (n+1)/2 si n es par
Xn/2 + X(n/2)+1
X0.5= ---------------------- si n es impar
2
Nota: El resultado obtenido en la formula corresponde al número de la observación en el arreglo, por tanto debe reemplazarse por el valor de dicha variable en el arreglo.




1.3.- La Moda (Mo.):
A veces es importante conocer cuál es el valor que más prevalece en el conjunto de datos. El valor que ocurre con más frecuencia se le conoce como moda. La moda es la medida de tendencia central especialmente útil para describir mediciones de tipo ordinal, de intervalos y nominal.
En un conjunto de números la moda se define como el valor ó número que ocurre con más frecuencia
Ejemplo:
En el siguiente conjunto de números 1, 5, 5, 9, 12, 12, 12, 14. La moda es igual a 12, por cuanto que es el número que más se repite (tres veces)
La Moda para datos agrupados (Mo.):
La Moda puede deducirse de una distribución de frecuencia o de un histograma a partir de la fórmula.
Mo. = Li + [ ( ∆1 / ∆1+∆2 ) ] C
Donde;
Li = límite inferior de la clase modal (clase de mayor frecuencia absoluta (fa)
∆1 = diferencia de las frecuencias absolutas de la clase modal y premodal.
∆2 = diferencia de las frecuencias absolutas de la clase modal y postmodal
C = amplitud de la clase modal.


1.6.-La Media Geométrica(g):
Se define como la raíz de índice de la frecuencia total cuyo radicando es el producto de las potencias de cada valor de la variable elevado a sus respectivas frecuencias absolutas, se denota por g; suele utilizarse cuando los valores de la variable siguen una progresión geométrica. También para promediar porcentajes, tasas, nº índices, etc. siempre que nos vengan dados en porcentajes y se calcula mediante la siguiente fórmula
g = n√(X1 * X2 * … * Xn
Fórmula que algunas veces es conveniente expresarla en forma logarítmica. El logaritmo de la media geométrica es la media aritmética de los logaritmos de los valores de la variable. El problema se presenta cuando algún valor es 0 ó negativo y exponente de la raíz par ya que no exista raíz par de un número negativo, entonces la fórmula anterior se presenta de la siguiente manera:
log Xg = 1/N (log X1 + log X2 + … + log Xn)
Ejemplo;
Encontrar la media de los siguientes números 2, 4, 8. obsérvese que entre ellos existe una razón o proporción constante, cada uno de ellos es el doble del anterior, por tanto la media a utilizar es la media geométrica, de la siguiente manera
g = 3√ (2) (4) (8) = 3√ 64 = 4
Respuesta: la media geométrica de los datos es 4


Las medidas de dispersión muestran la variabilidad de una distribución, indicando por medio de un número si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.
Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma de las desviaciones es siempre cero, así que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (Desviación media) y otra es tomando las desviaciones al cuadrado (Varianza).


Rango [editar]
El rango estadístico es la diferencia entre el valor mínimo y el valor máximo en un grupo de números. Para averiguar el rango de un grupo de números:
Ordenamos los números según su tamaño.
Restamos el valor mínimo del valor máximo. ejemplo=
-->x= [7 10 12 4 8 7 3 8]x =
7. 10. 12. 4. 8. 7. 3. 8.
-->strange(x)ans =
9.
-->_
Primero hemos declarado un vector con nombre X, donde introduzco los números de la serie. Luego con el comando strange hallará el rango.
Varianza = La varianza es una variable estadística que mide la dispersión de los valores respecto a un valor central (media), es decir, la media de las diferencias cuadráticas del las puntuaciones respecto a su media aritmética.


Propiedades=
La varianza es siempre positiva o 0:
Si a los datos de la distribución les sumamos una cantidad constante la varianza no se modifica.
Yi = Xi + k
Si a los datos de la distribución les multiplicamos una constante, la varianza queda multiplicada por el cuadrado de esa constante.
Propiedad distributiva: V(X + Y) = V(X) + V(Y)
Las anteriores imágenes muestran como se puede utilizar un programa informático como Scilab para calcular la varianza.
Para comenzar hay que introducir los datos en un vector o matriz de la forma: Nombre_variable=[ datos separados por espacios ]. Una vez introducidos los datos, se calcula la varianza con el comando: variance(nombre_variable)

Desviación Típica [editar]
La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadráticas. Para evitar ese problema se define otra medida de dispersión, que es la desviación típica, que se halla como la raíz cuadrada positiva de la varianza. La desviación típica nos informa sobre la dispersión de los datos respecto al valor de la media; cuanto mayor sea su valor, más dispersos estarán los datos.
Desviación típica muestral:
Desviación típica poblacional:

Ejemplo [editar]
Con Scilab este calculo se hace de la siguiente manera:-->x= [17 14 2 5 8 7 6 8 5 4 3 15 9]
x =
17. 14. 2. 5. 8. 7. 6. 8. 5. 4. 3. 15. 9.
-->stdev(x)
ans =
4.716311
-->
Primero hemos declarado un vector con nombre X, donde introduzco los números de la serie. Luego con el comando stdev se hallará la desviación típica.

Covarianza [editar]
La covarianza entre dos variables es un estadístico resumen indicador de si las puntuaciones están relacionadas entre sí. La formulación clásica, se simboliza por la letra griega sigma (\sigma_{xy}) cuando ha sido calculada en la población. Si se obtiene sobre una muestra, se designa por la letra "s_{xy}".
La formula suele aparecer expresada como:
Este tipo de estadístico puede utilizarse para medir el grado de relación de dos variables si ambas utilizan una escala de medida a nivel de intervalo/razón (variables cuantitativas).
La expresión se resuelve promediando el producto de las puntuaciones diferenciales por su tamaño muestral (n pares de puntuaciones, n-1 en su forma insesgada). Este estadístico, refleja la relación lineal que existe entre dos variables. El resultado numérico fluctua entre los rangos de +infinito a -infinito. Al no tener unos límites establecidos no puede determinarse el grado de relación lineal que existe entre las dos variables, solo es posible ver la tendencia.

0, & \mbox{Correlaci}\acute{o}\mbox{n directa. Recta de regresi}\acute{o}\mbox{n creciente.} \\ = 0, & \mbox{No hay correlaci}\acute{o}\mbox{n.} \\

Ejemplo [editar]
Tenemos una tabla con dos datos (x y h), elaboramos su tabla de frecuencias (fre)-->x=[10 20 30 40] Vector de datos X
x =
10. 20. 30. 40.
-->y=[10 20 30 40] Vector de datos H
y =
10. 20. 30. 40.
-->fre=[.20 .04 .01 0; Matriz de frecuencias
--> .10 .36 .09 0;
--> 0 .05 .10 0;
--> 0 0 0 .05]
fre =
0.2 0.04 0.01 0.
0.1 0.36 0.09 0.
0. 0.05 0.1 0.
0. 0. 0. 0.05
-->s=covar(x,y,fre) Aplicación del Comando covar
s =
49.

Coeficiente de Correlación de Pearson [editar]
El coeficiente de correlación de Pearson, r, nos permite saber si el ajuste de la nube de puntos a la recta de regresión obtenida es satisfactorio. Se define como el cociente entre la covarianza y el producto de las desviaciones típicas (raíz cuadrada de las varianzas).

Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar mediante cualquiera de las dos expresiones siguientes:

Propìedades [editar]
El coeficiente de correlación, r, presenta valores entre –1 y +1.
Cuando r es próximo a 0, no hay correlación lineal entre las variables. La nube de puntos está muy dispersa o bien no forma una línea recta. No se puede trazar una recta de regresión.
Cuando r es cercano a +1, hay una buena correlación positiva entre las variables según un modelo lineal y la recta de regresión que se determine tendrá pendiente positiva, será creciente.
Cuando r es cercano a -1, hay una buena correlación negativa entre las variables según un modelo lineal y la recta de regresión que se determine tendrá pendiente negativa: es decreciente.





I. DIAGRAMA DE ARBOL.

Un diagrama de árbol es una representación gráfica de un experimento que consta de r pasos, donde cada uno de los pasos tiene un número finito de maneras de ser llevado a cabo.

Ejemplos:
1.Un médico general clasifica a sus pacientes de acuerdo a: su sexo (masculino o femenino), tipo de sangre (A, B, AB u O) y en cuanto a la presión sanguínea (Normal, Alta o Baja). Mediante un diagrama de árbol diga en cuantas clasificaciones pueden
estar los pacientes de este médico?

N
Solución: A
A B
N
B A
B
M AB N
A
O B


A
N
F B A
B
AB
B
O A

B



Si contamos todas las ramas terminales, nos damos cuenta que el número de clasificaciones son 2 x 4 x 3 = 24 mismas que podemos enumerar;
MAN, MAA, MAB, MBN, MBA, MBB, etc, etc.



1) Dos equipos denominados A y B se disputan la final de un partido de baloncesto, aquel equipo que gane dos juegos seguidos o complete un total de tres juegos ganados será el que gane el torneo. Mediante un diagrama de árbol diga de cuantas maneras puede ser ganado este torneo,



Solución:


A = gana el equipo A
B = gana el equipo B


A
A
A A
B A
B
B B


A
A A
A
B B B
B
B


En este diagrama se muestran que hay solo diez maneras de que se gane el torneo, que se obtienen contando las ramas terminales de este diagrama de árbol, las que es posible enumerar;
AA, ABB, ABAA, ABABA, ABABB, etc, etc.



2) Un hombre tiene tiempo de jugar ruleta cinco veces como máximo, él empieza a jugar con un dólar, apuesta cada vez un dólar y puede ganar o perder en cada juego un dólar, él se va a retirar de jugar si pierde todo su dinero, si gana tres dólares (esto es si completa un total de cuatro dólares) o si completa los cinco juegos, mediante un diagrama de árbol, diga cuántas maneras hay de que se efectué el juego de este hombre.



Solución:


$4 G $4
G $3
$3 G
G P $2
P G$3
$2 P
$1 P $0
$3 G $4
$2 G
$1 G $2
G P $2
G $2
P P
$1 P $1
P $0 P $0
$0



Si contamos las ramas terminales nos daremos cuenta que hay 11 maneras de que este hombre lleve a cabo sus apuestas, en este diagrama se han representado los cinco juegos o apuestas que este hombre tiene tiempo de jugar.



Diagrama de caja
De Wikipedia, la enciclopedia libre
Saltar a navegación, búsqueda

Diagrama de caja (Box-Plot)
Un diagrama de caja es un gráfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos.
En un gráfico que se suministra información sobre la mediana, El cuartil Q1 y Q3, sobre la existencia de atípicos y la simetría de la distribución.

Como dibujarlo [editar]
Ordenar los datos y obtener el valor mínimo, el máximo, y los cuartiles Q1, Q2 y Q3.
Dibujar un rectángulo con Q1 y Q3 como extremos e indicar la posición de la mediana (Q2) mediante una línea.
Calcular los límites superior e inferior, Li y Ls, que identifiquen a los valores atípicos.
Considerar como atípicos los puntos localizados fuera del intervalo (Li, Ls).
Dibujar las líneas que van desde cada extremo del rectángulo central hasta el valor más alejado no atípico.
Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).

Utilidades [editar]
Proporcionan una visión general de la simetría de la distribución de los datos, si la media no está en el centro del rectángulo, la distribución no es simétrica.
Son útiles para ver la presencia de valores atípicos.


Sumatorio
De Wikipedia, la enciclopedia libre
Saltar a navegación, búsqueda
Una sumatoria nos permite representar sumas muy grandes, de n sumandos o incluso sumas infinitas y se expresa con la letra griega sigma ( Σ ) .
Una sumatoria se define como:

La variable i es el índice de suma al que se le asigna un valor inicial llamado límite inferior, m. La variable i recorrerá los valores enteros hasta alcanzar el límite superior, n. Necesariamente ha de cumplirse:

Por ejemplo si queremos expresar la suma de los diez primeros números naturales podemos hacerlo así con una sumatoria:

Las sumatorias son útiles para expresar sumas arbitrarias de números, por ejemplo en fórmulas: así, si queremos representar la «fórmula» para hallar la media aritmética de n números:



Medidas de posición
Cuartiles, deciles y centiles

Un conjunto de puntajes o mediciones puede dividirse en un cierto número de partes iguales mediante la selección de valores que correspondan a una posición determinada en dicho conjunto. Por ejemplo, la mediana divide a un conjunto de valores dados en dos partes iguales, y su posición es, en consecuencia, a la mitad del mismo. De manera que 50% de los puntajes quedan a uno u otro lado valor estadístico.
En general, se llaman cuantiles (o "cuantilas") a estos valores con posición divisora determinada. Pueden considerarse los siguientes cuantiles, además de la mediana:
a) cuartil (o "cuartila")
b) decil (o "decila")
c) centil (o "centila")
que son respectivamente, los cuantiles que corresponden a la división en 4, 10, y 100 partes iguales del conjunto dado. A continuación se describen estos valores característicos.
Cuartiles. Son los puntos que dividen a una distribución de valores en cuatro porciones iguales o intervalos. Se representan por , , y se ilustran en el esquema siguiente:

Deciles. Son los cuantiles que dividen una distribución en 10 tantos o intervalos, por lo que se tienen 9 puntos de división, los deciles, que originan los 10 intervalos.
Los deciles, que se representan por pueden ser marcados en una gráfica como la siguiente:

Centiles o porcentiles. *Generalmente los puntajes no elaborados o burdos (los que se obtienen en forma directa al aplicar una prueba psicológica o, en general, cualquier medición), no indican nada en lo relativo al desempeño de las personas, y del lugar que ocupan con respecto al resultado de dicha prueba (o bien, de la medición de que se trate) con respecto al grupo al cual pertenecen. Por consiguiente, es necesario utilizar varios procedimientos estadísticos, los cuales serán útiles para describir el puntaje o calificación de un individuo particular en relación con otros valores.
Un procedimiento muy adecuado para la comprensión global de los datos obtenidos en un test psicológico o en una prueba de conocimientos, comprensión, etc., es determinar los denominados centiles. El centil de una distribución es el valor dado abajo del cual queda el porcentaje indicado de los valores del conjunto. Un centil indica, entonces, la posición de un puntaje en una distribución porcentual (o en términos de porcentajes). Por ejemplo, si un estudiante obtuvo una calificación que fue más alta que el 70% de los puntajes en la distribución de estas calificaciones, pero no superior al 71%, el centil correspondiente será entonces el de número 70. En otras palabras a tal estudiante le corresponde el "70º (septuagésimo) centil".
Cuando se emplea el término centil, se refiera siempre a un punto en una distribución de puntajes o valores, por abajo del cual queda un porcentaje dado en los casos; así, el centil 45 de un conjunto total de 100 puntos, es un valor o punto por debajo del cual quedan 45 calificaciones. Un centil se representa por (o por si se utiliza el término porcentil).
Para encontrar cuartiles y porcentiles puede emplearse el mismo razonamiento que se usa para la mediana. El primer cuartil (notación:) es el número mayor que 25 por 100 de las puntuaciones (y menor que 75 por 100 ). El segundo cuartil, , es la media. El tercer cuartil, , es mayor que 75 por 100 de las puntuaciones. El porcentil 60 (notación ) es mayor que 60 por de las puntuaciones (y menor que 40 por 100). Adviértase que
Los cuartiles y porcentiles se llaman también medidas de localización.
Si se ordenan por rango ocho resultados o números, será mayor que 2 y menor que 6; el primer cuartil estará a mitad de la distancia entre la segunda y la tercera puntuaciones. Si es entero, entonces está a mitad de la distancia entre esta puntuación y la inmediata superior. Si no es entero, se acostumbra redondearlo para encontrar . Por ejemplo: si n = 50, será el decimotercer número después de que se colocan en orden creciente, pues 50/4=12.5, que se redondea a 13. Doce números son menores y 37 son mayores. Sin embargo, si se imagina que el decimotercer número está por mitad en cada grupo, habrá 12.5 por debajo 37.5 por arriba de .
y se estiman de la misma manera: multiplíquese respectivamente. Si el resultado es entero, elíjase el número a mitad de la distancia entre esta cifra y la siguiente; de lo contrario, redondéese.
Ejemplo 1
Noventa cifras se disponen en orden creciente. Encontrar: (a), (b) (c) (d) .
(a) es la vigésima tercera cifra.
(b) es la cifra sexagésima octava.
(c) está a mitad de la distancia entre las cifras quincuagésima cuarta y quincuagésima quinta.
(d) es la decimoquinta cifra.
El rango porcentil de un conjunto de números es el porcentaje de números o puntuaciones que son menores. Si 75 es la puntuación 349 en una lista de 400 cifras dispuestas en orden creciente, habrá 348 cifras menores; por 100 son menores que 75; el rango porcentil de la puntuación de 75 es 87.
Ejemplo 2
Un estudiante de secundaria tiene calificación promedio de 92.5; ocupa el decimosexto lugar en un grupo de 300. ¿Cuál es el rango porcentil?
Tiene mejores calificaciones que 300 - 16 = 284 en todo el grupo. El rango porcentil es .

Tómese en cuenta la relación que existe entre los centiles, los deciles, los cuartiles, y la mediana; su relación se representa en forma sinóptica en la siguiente forma:
Cuartil 1: = = (porcentil 25 o 25º. centil).
Cuartil 2: = = = = Me (porcentil 50 o 50º, centil, decil 5, o mediana)
Cuartil 3: = = (porcentil 75 o 75º. centil).
La ojiva de Galton (el polígono de frecuencias relativas acumuladas) se puede utilizar, en un análisis exploratorio, para ubicar cualquier cuantil (cuartiles, deciles, centiles o la mediana) en una distribución dada.
Ejemplo: En el caso de la siguiente ojiva, encontrar:
(a) El centil del puntaje 49.5.
(b) El puntaje correspondiente a o .
(c) La mediana.



2.1.2 El área bajo una curva
Enseguida, graficaremos una función en un intervalo [a,b] y se mostrará el área contenida entre su gráfica y el eje x en el intervalo dado. Observa la siguiente gráfica.
f(x)= x2 + 1 en el intervalo cerrado [1,5]

Igual que con el problema de la tangente, empezaremos por hacer aproximaciones. Aproximaremos el área bajo la curva con el área de ciertos rectángulos.
Observa las siguientes gráficas:

Como pudiste ver en las gráficas anteriores, con los primeros rectángulos estamos sobreestimando el valor del área y con los segundos rectángulos la estamos subestimando.
A continuación calcularemos aproximaciones cada vez mejores, tomando cada vez más y más rectángulos.



Error, sesgo
TEMA
INSTRUMENTALESINTRODUCTORIOS
Medición de variables, error de medición y sesgoUn atributo impl�cito a toda variable es la susceptibilidad a ser medida. Revisaremos brevemente las dificultades que derivan de este requisito y que pueden determinar la ocurrencia de error en su medición.
Error de mediciónDefinición : Entenderemos por error de medición a la diferencia existente entre el valor obtenido al medir una variable con relación a su valor real y objetivo.
Se puede producir error de medición por causas que determinan su ocurrencia en forma aleatoria (error aleatorio) o bien ser efecto de un error que ocurre en forma sistem�tica (sesgo).
El concepto de error de medición se visualiza f�cilmente cuando el ejemplo se refiere a situaciones experimentales u otras condiciones de medición propias de las ciencias b�sicas.En salud pública la ocurrencia de error adopta caracter�sticas peculiares, desde el momento en que se miden variables en una dimensión poblacional, adem�s de la individual. Se�alaremos algunas de las fuentes m�s importantes de error de medición:
1) A partir de la variable en observación
Periodicidad (variabilidad en la observación): el suceso observado puede seguir un patrón irregular a lo largo del tiempo, sea distribuyéndose uniformemente en el tiempo o concentr�ndose en per�odos o ciclos. El conocimiento de esta caracter�stica es importante en sucesos biológicos que presentan ciclos conocidos (ritmo circadiano, ondas electroencefalogr�ficas, temperatura corporal, accidentes laborales, etc).
Naturaleza de la medición:Tanto para variables cuantitativas como cualitativas puede haber dificultad para medir la magnitud o valor de una variable, sea porque la magnitud de valores es peque�a (determinaciones hormonales) o por la naturaleza del fenómeno en observación (estado mental, satisfacción con la atención recibida).
Condiciones de la observación:determinados sucesos requieren de condiciones especiales para que su ocurrencia sea posible. Estas condiciones son bien conocidas en el terreno de las ciencias b�sicas, no as� al considerar grupos humanos y situaciones de no-experimentación (ej. Temperatura, humedad).
Errores en la clasificación de determinados eventos (por ejemplo, enfermedades), producto de modificaciones en la nomenclatura utilizada, situación que debe ser advertida por el investigador (ej.: diferentes definiciones operacionales de hipertensión arterial, diferentes códigos de clasificación de enfermedades o cambios en la clasificación de enfermedades).

No hay comentarios: