REGRESION Y CORRELACION
Este es un método por el cual nosotros podemos diferenciar o comparar un fenómeno con otro y tener una buena conclusión de lo que se esta tratando de estudiar.
Regresión: Realizar lo anterior para predecir el futuro.
Intercepto: Punto por el cual la grafica intercepta el eje Y.
Contradominio
Efecto
Dependiente
______________________
Independiente
Causa
Dominio
Ejemplos:
Altura = Dependiente
Edad = Independiente
Altura
Edad
Hora = Independiente
Temperatura = Dependiente
Hora
Temperatura
Estatura = Independiente
Calzado = Dependiente
Calzado
Estatura
Hijos = Dependiente
Padres = Independiente
Hijos
Padres
Salud = Dependiente Planta = Dependiente
Alimentación = Independiente Agua = Independiente
Salud Planta
Alimentación Agua
Automóvil = Dependiente
Gasolina = Independiente
Automóvil
Gasolina
Fuego = Dependiente
Fósforos = Independiente
Fuego
Fósforos
miércoles, 25 de junio de 2008
miércoles, 18 de junio de 2008
REGRESION Y CORRELACION
III BIMESTRE
REGRESION Y CORRELACION
Marco Teórico A fin de facilitar la comprensión del presente trabajo definiremos algunos conceptos basicos.Análisis de Correlación .- Es el conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables.El principal objetivo del análisis de correlación consiste en determinar que tan intensa es la relación entre dos variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersión.Diagrama de Dispersión.- es aquel grafico que representa la relación entre dos variables.Variable Dependiente.- es la variable que se predice o calcula. Cuya representación es "Y"Variable Independiente.- es la variable que proporciona las bases para el calculo. Cuya representación es: X1,X2,X3.......Coeficiente de Correlación.- Describe la intensidad de la relación entre dos conjuntos de variables de nivel de intervalo. Es la medida de la intensidad de la relación lineal entre dos variables.El valor del coeficiente de correlación puede tomar valores desde menos uno hasta uno, indicando que mientras más cercano a uno sea el valor del coeficiente de correlación, en cualquier dirección, más fuerte será la asociación lineal entre las dos variables. Mientras más cercano a cero sea el coeficiente de correlación indicará que más débil es la asociación entre ambas variables. Si es igual a cero se concluirá que no existe relación lineal alguna entre ambas variables. Análisis de regresión.- Es la técnica empleada para desarrollar la ecuación y dar las estimaciones.Ecuación de Regresión.- es una ecuación que define la relación lineal entre dos variables.Ecuación de regresión Lineal: Y’ = a + BxEcuación de regresión Lineal Múltiple: Y’ = a + b1X1 + b2X2 + b3X3...Principio de Mínimos Cuadrados.- Es la técnica empleada para obtener la ecuación de regresión, minimizando la suma de los cuadrados de las distancias verticales entre los valores verdaderos de "Y" y los valores pronosticados "Y".Análisis de regresión y Correlación Múltiple.- consiste en estimar una variable dependiente, utilizando dos o más variables independientes.
Ecuación de regresión Múltiple.- La forma general de la ecuación de regresión múltiple con dos variables independientes es:
Y' = a + b1X1 + b2X2
X1,X2 : Variables Independientes
a : es la ordenada del punto de intersección con el eje Y.b1 : Coeficiente de Regresión (es la variación neta en Y por cada unidad de
variación en X1.).b2 : Coeficiente de Regresión (es el cambio neto en Y para cada cambio
unitario en X2).Prueba Global.- esta prueba investiga básicamente si es posible que todas las variables independientes tengan coeficientes de regresión neta iguales a 0.
Desarrollo de un Caso.Una agencia de Viajes desea saber la relación que hay entre las ventas, el presupuesto destinado a publicidad, y las comisiones de los vendedores para esto presenta los siguientes datos. ANÁLISIS DE DATOS:Se van a utilizar las siguientes variables:Variables Independientes:1.- Gastos de Publicidad
2.- Comisión de vendedores
Variable dependiente:- Ventas Utilizando el Excel obtenemos los siguientes datos.
Estadísticas de la Regresión
Coeficiente de correlación múltiple
0.92092
Coeficiente de determinación R2
0.84810
R2 ajustado
0.69619
Error típico
54887.83156
Observaciones
5
De aquí se puede decir:- De acuerdo al valor del coeficiente de correlación múltiple, podemos afirmar que la variable X1 (Gastos de Publicidad) y X2 (Comisión de vendedores) se encuentran asociadas en forma directa de una manera muy fuerte con la variable dependiente Ventas, en un 92%.- De acuerdo al Coeficiente de determinación R2, podemos decir que el 85% de las ventas pueden ser explicadas por los gastos de publicidad y las comisiones de los vendedores.
A N Á L I S I S D E V A R I A N Z A
Grados de libertad
Suma de cuadrados
Prom. de los cuadrados
F
Valor crítico de F
Regresión
2
33640459893
16820229947
5.5832
0.15190282
Residuos
2
6025348107
3012674053
Total
4
39665808000
Coeficientes
Error típico
Estadístico t
Probab.
Inf. 95%
Sup. 95%
Inferior 95.0%
Sup. 95.0%
Intercepción
-289315.16
242459.39
-1.193
0.35513
-1332534.446
753904.118
-1332534.446
753904.118
GSTOS DE PUBLICID.
1123.49
336.22
3.342
0.07908
-323.1275965
2570.108
-323.128
2570.108
COM. DE VENDED.
-2.27
6.55
-0.346
0.76245
-30.45400257
25.922
-30.454
25.922
De aquí se desprende la ecuación de regresión múltiple:
Y = - 289315 + 1123 X1 - 2.27 X2
Prueba Global: Verificación de la validez del modelo de regresión Múltiple.Formulación de Hipótesis:Hp: B1 = B2 = 0Ha: B1 B2 0
Si se acepta la hipótesis planteada, significa que ninguno de los factores (X1,X2) son relevantes para explicar los cambios en Y.De acuerdo a la tabla de análisis de la varianza F calculado es 5.58 y el p-valor es 0.15, de lo cual podemos decir que La hipótesis planteada se rechaza y se acepta la hipótesis alternativa, por que el F calculado es mayor que el p-valor.Hasta ahora se ha demostrado que algunos, pero no necesariamente todos los coeficientes de regresión, no son iguales a cero y, por o tanto son útiles para las predicciones. El siguiente paso consiste en probar individualmente las variables para determinar cuales coeficientes de regresión pueden ser cero y cuales no.
Regresión y Correlación
La regresión y la correlación son dos técnicas estrechamente relacionadas y comprenden una forma de estimación.
En forma más especifica el análisis de correlación y regresión comprende el análisis de los datos muestrales para saber que es y como se relacionan entre si dos o mas variables en una población. El análisis de correlación produce un número que resume el grado de la correlación entre dos variables; y el análisis de regresión da lugar a una ecuación matemática que describe dicha relación.
El análisis de correlación generalmente resulta útil para un trabajo de exploración cuando un investigador o analista trata de determinar que variables son potenciales importantes, el interés radica básicamente en la fuerza de la relación. La correlación mide la fuerza de una entre variables; la regresión da lugar a una ecuación que describe dicha relación en términos matemáticos
Los datos necesarios para análisis de regresión y correlación provienen de observaciones de variables relacionadas.
Regresión lineal
La regresión lineal simple comprende el intento de desarrollar una línea recta o ecuación matemática lineal que describe la reacción entre dos variables.
La regresión puede utilizadas de diversas formas. Se emplean en situaciones en la que las dos variables miden aproximadamente lo mismo, pero en las que una variable es relativamente costosa, o, por el contrario, es poco interesante trabajar con ella, mientras que con la otra variable no ocurre lo mismo.
La finalidad de una ecuación de regresión seria estimar los valores de una variable con base en los valores conocidos de la otra.
Otra forma de emplear una ecuación de regresión es para explicar los valores de una variable en término de otra. Es decir se puede intuir una relación de causa y efecto entre dos variables. El análisis de regresión únicamente indica qué relación matemática podría haber, de existir una. Ni con regresión ni con la correlación se pude establecer si una variable tiene “causa “ciertos valores de otra variable.
Ecuación Lineal
Dos características importantes de una ecuación lineal
la independencia de la recta
la localización de la recta en algún punto. Una ecuación lineal tiene la forma
y = a + bx
En la que a y b son valores que se determina a partir de los datos de la muestra; a indica la altura de la recta en x= 0, y b señala su pendiente. La variable y es la que se habrá de predecir, y x es la variable predictora.
Determinación de la ecuación matemática
En la regresión, los valores de y son predichos a partir de valores de x dados o conocidos. La variable y recibe le nombre variable dependiente y la variable x, el de variable independiente.
Métodos de mínimos cuadrados
EL procedimiento mas utilizado por adaptar una recta aun conjunto de punto se le que conoce como método de mínimos cuadrados. La recta resultante presenta 2 característica importantes
es nula la suma desviaciones verticales en los puntos a partir de la recta
es mínima la suma de los cuadrados de dicha desviaciones
(yi - yc)2
En el cual
Yi = valor esperado de y
Yc= valor calculado de y utilizando la ecuación de mínimos cuadrados con el valor correspondientes x para yi
Los valores de a y b para la recta es Yc = a + bx que minimiza la suma de los cuadrados de la desviación “ecuaciones normales “
y = na + (x)
xy= a (x) +b (x2)
En las que n es el numero de pares de observaciones. Evaluando las cantidades x, y, etc. Se puede resolver estas dos ecuaciones simultáneamente para determinar a b. la ecuaciones puede despejarse. Se obtuvieron dos formulas aun para a y otra para b.
n(xy)- (x)(y)
b=
n(x2)-(x)2
y - b x
a=
n
Inferencia en el análisis de regresión
Los supuestos para el análisis de regresión son como:
Existen datos de medición para a x y z.
la variable dependiente es una variable aleatoria.
para cada valor de x, existe una distribución condicional de la qué es de naturaleza normal
la desviación estándar de toda las distribuciones condicionales son iguales
EL error estándar de estimación
La determinante primaria de la exactitud es el grado de dispersión de la población: cuanto mas dispersa este, menor será la exactitud de la estimación. El grado de dispersión en la población se puede estimar a partir del grado de dispersión en las observaciones de la muestra con respecto a la línea de regresión calculada, utilizando la formula.
Se = " (yi -yc)
n-2
en la cual:
yi = cada valor de y
yc = valor de línea de regresión correspondiente a partir de la ecuación de regresión.
n = números de observaciones.
La formula anterior no se utiliza por lo general para cálculos reales, es mas fácil trabajar con la formula simplificada
Se "y2 - a y - b xy
n - 2
Inferencia de acerca de la pendiente de una línea de regresión
Aun cuando es muy poca o nula relación entre dos variables de aun población, es posible obtener valores maestrales que hacen que parezca que la variables están relacionadas, es importantes probar los resultados tales de caculo, a fin determinar si son significativos (es decir si los parámetros verdaderos no son cero), Si no existe ninguna relación se esperaría obtener aun pendiente cero, se pone a prueba la hipótesis nula contra la hipótesis alternativa.
La significación del coeficiente de regresión se puede probar comparándolo con su desviación estándar
t = valor de la muestra - valor esperado
Desviación estándar
Análisis de regresión lineal múltiple
La regresión múltiple comprende tres o más variables. Existe solo una variable dependiente, pero hay dos o mas tipo independiente. Esta operación al desarrollo de una ecuación que se pede utilizar para predecir valore de y, respecto a valores dados de la diferencia variables independientes adicionales es incrementar la capacidad predicativa sobre la de la regresión lineal simple.
Las técnicas de los mínimos cuadrados se utilizan para obtener ecuaciones de regresión.
Yc= a +b1x1+b2x2+…bkxk
a = ordenada en el origen
b1= pendiente
k = numero de variables independientes
Un análisis de regresión simple de dos variable da lugar a la ecuación de una recta, un problema de tres variables produce un plano, y un problema de k variables implica un hiperplano de a
(k +1) dimensiones.
Análisis de Correlación
EL objetivo de un estudio de correlación es determinar la consistencia de una relación entre observaciones por partes. EL termino “correlación “significa relación mutua, ye que indica el grado en el que los valores de una variable se relacionan con los valores de otra. Se considera tres técnicas de correlación uno para datos de medición, otro para datos jerarquizados y el último para clasificaciones nominales.
Datos Continuos: r de Pearson
EL grado de relación entre dos variables continuas se resume mediante un coeficiente de correlación que se conoce como “r de Pearson “en honor del gran matemático Kart Pearson, quien ideo este método. Esta técnica es valida mientras si es posible establecer ciertos supuestos bastante estrictos. Tales supuestos son los siguientes:
Tanto x como y son variables continuas aleatorias. Es decir, a diferencia del análisis de referencia de regresión, no es aceptable seleccionar ciertos valores de x, y después medir y; tanto y como x deben de variar libremente.
La distribución conjunta de frecuencia es normal. Esto recibe el nombre de de distribución normal divariada.
Carácter de r
El coeficiente de relación presenta dos propiedades que establecen la naturaleza de una relación entre dos variables. Una es su signo (+ o -) y la otra, es su magnitud. El signo es igual al de la pendiente de una recta que podría “ajustarse” a los datos si estos se graficaran en un diagrama de dispersión, y la magnitud de r indica cuan cerca esta de la “recta” tales puntos.
Método practicar para calcular r
Dado que los cálculos necesarios pueden requerir mucho tiempo especialmente cuando se resta las medias del grupo de cada observación se elevan a cuadrado esas diferencias. Existe una versión, la cual simplifica los cálculos:
r= n ("xy)-("x)("y) _
"n("x2)-("x)2 ·"n("y2)("y)2
Existen 3 formas posibles para obtener el valor de r en el caso de datos de medición: estandarizar cada conjunto y hallar el producto medio, calcular el coeficiente de determinación r2 y obtener su raíz cuadrada como utilizar la formula. Para un conjunto de datos los tres métodos producirán el mismo valor para r no obstante cada método agrega algo a la comprensión del significado del termino “correlación”
Inferencia acerca del coeficiente de correlación
Intervalo de confianza para la correlación de la población
El valor del coeficiente de correlación de la muestra se puede utilizar como un estimado de la correlación verdadera de población existen varios métodos para obtener un método de confianza para pero quizás la forma mas directa es usar un diagrama.
Si se examinan el diagrama se observara que el intervalo de los valores potenciales (no conocidos) se indica a lo largo de la escala vertical los posibles valores r de la muestra se indica en la escala inferior una serie de curvas representan tamaño de muestras seleccionadas.
Prueba de significación de r
Puede ser necesario evaluar una aseveración con respecto al valor de . La forma mas sencilla es obtener un intervalo de confianza para r y observar si el valor propuesto esta incluido en el intervalo de ser así se rechaza a Ho y se acepta la alternativa.
Datos jerarquizados de: r Spearman
Es una técnica no paramétrica que utiliza para medir la fuerza de una relación por pares de 2 variables cuando los datos se encuentran en forma jerarquizados. El objeto de calcular un coeficiente de correlación estos ejemplos es determinar el grado en el que dos conjuntos de jerarquización concuerdan o no. Esta técnica también se puede extender a calificaciones u otro tipo de medición si estas se convierten a rangos.
Las medidas de l grado de concordancia son sol cuadrados de las diferencias entre los dos conjuntos de rangos: si la suma de éstos es pequeña, esto significa que hay acuerdo; si la suma es grande, esto indica lo contrario. EL calculo real de la correlación comprende la formula.
rsp = 1 - 6"d2
n(n2 -1)
SERIES DE TIEMPO
2. TEORIA
2.1 Series de Tiempo
Una serie temporal o cronologica es un conjunto e observaciones de una variable, ordenadas segu transcurre el tiempo.
En una serie de tiempo las observaciones no se deben ordenar de mayor a menor debidoa que se perderia el grueso de la informacion debido a que nos intersea detectar como se mueve la variable en el tiempo es muy importante respetar la secuencia temporal de las observaciones.
2.2 Representacion de una Serie Temporal
Par realizar la reprsenyacion de una serie ytemporal se debe realizae mediante una gráfica de disprsión x-y como se muestra en la fig.1
Fig.1. Representación de una serie temporal
2.3 Componetes de una serie temporal
2.3.1 Tendencia
La tendencia es un movimiento de larga duración que muestra la evolucion general de laserie en el tiempo.
La tedencia es un movimiento que puede ser estacionario o ascendente, y su recorrido, una linea recta o una curva. Algunas de la posibles formas son las que se muestran en la fig.2
Fig.2. Representación de la tendencia
La tendencia es un movimiento que puede ser estacionario o ascendente o descendete como se indica en la fig.3
Fig. 3 Tendencias ascendente, estacionaria y descendente
Tambien son posibles algunas formas para la tendencia, que no necesariamente tiene una distribución de puntos en forma aproximadamente lienal sino como las que se muestran en la fig. 4
Fig.4 Líneas de tendencia de otras posibles formas.
2.3.2 Variaciones estacionales.
Se habla de este tipo de variaciones usualmente cuando el comportamiento de la variable en el tiempo ennun periodo esta relacionado con la época o un periodo particular, por lo general en el espacio cronologico presente.
Fig. 5 Variaciones estacionales
2.3.3 Variaciones ciclicas
Se llama asi a las ocilaciones a lo largo de una tendencia con uneriodo superiro al año. El ciclo sugiere la idea de que este tipo de movimiento se repite cada cirto periosodo con caracterisitica parecidas. Los ejemplos mas frecuentes se encuentran en le campo de las variables economicas, en esto ca casos se deben principalmente a la alternancia de las etapas de prosperidad y depresioin en la actividad economica.
2.3.4 Variaciones residuales
Cuando a parecen hechos imprevistos, repentinos que afecten las variables en estudio acotamndo que no podemos preveer nos hallamos frenta a variaciones residuales provocadas poe r factore extermis a leatorios.
Por ejemplo un dia lluvioso y frio durante el veranos es dificil de predecir y aunque perturbaria cuertas acrividades diarias como la venta de helasod no afectaria en este caso significativamente la serie.
3. ANALISIS DE LA TENDENCIA
En la practica es difícil distinguir la tendencia del comportamiento cíclico. Por ejemplo la gráfica puede conducirnos a concluir que existe una tendencia ascendente en la parte de 1980 a 1982, pero esto es una parte de la serie de tiempo más grande.
Fig, 6 Tendencias cecrecientes, crecientes entre periodos de tiempo
3.1 Método Gráfico
Mediante este método muy elemental se detemina la tendencia a perttir de una representación grafica de la serie.la aplicaion de este metodo es como sigue
Se representa graficamente la serie cronologica
Se unen los extremos superiores de la serie, se hace los mismo con los inferiores
Se obtiee dos lineas que encierran ala serie original
Uniendo los punto medios de las distancias entre las dos dlineas o curvas se obtiene la tendencia. La linea o curva de rendencia obtenida tnedra un trazad mucho mas suave que la serie original.
Fig. 7 Representacion tendencia estacionaria
3.2 Método de las medias móviles
Para este método se deben de considear los siguientes pasos que se detallan
Observar con detenimieto la serie para determinar aproximadamente la fluctuacion con periodo mas largo y llamamos q al numero de observaciones que forman una oscilacion compleja.
Se procede a calcular una serie de medias. La primera de ellas secalcula aprtir de las q promeras observaciones de la serie pero elimiando la primera observacion y añadiendo al ainmediata posterior. Se prosigue asi hasta calcular la media de la ultimas q observaciones.
Cada una de las medias obtenidas en le paso anterior se asigna al instane o momento dentral del perios temporal que promedian.
Uniendo las medias se obtiene la tendencia.
4. APLICACIÓN
Caso 1: Producción de Motociletas en una empresa japonesa, periodo 1974 - 1990
En la siguiente tabla se tiene la producción de motocicletas de una empresa (en millones de motos) en un periodo de 17 años que se muestra en la tabla Nº 1
Tabla Nº1
Venta de Motocicletas en un periodo de 17 años
(Producción en millones de motocicletas)
Años
Producción
Años
Producción
Años
Producción
1974
2.1
1980
2.2
1986
2.1
1975
1.9
1981
2.0
1987
1.9
1976
1.7
1982
1.8
1988
1.5
1977
1.5
1983
1.7
1989
1.4
1978
1.6
1984
1.9
1990
2.5
1979
2.0
1985
2.4
----
-----
Se traslada los datos a Microsoft Excel, ordenados en dos columnas, luego se realiza la gráfica de los datos.
Se obtiene la gráfica mostrada en la fig.8
Fig. 8 Representación de la serie de tiempo para las motocicletas por año
En la grafica se observa que los años donde se registra mayor producción son 1974, 1980, 1985,1990
Entonces podemos tomar cada cinco años como la cantidad de años para la cual la empresa realiza su mayor producción.
Sin embargo es conveniente encontrar una linea de tendencia tal que se pueda hallar una ecuación ajustada para los pronósticos de la producción en el tiempo.
Utilizando el método de la media móvil
Seconstruye una nueva tabla con las medias móviles
Esto es para suavizar la distribución de puntos
Fig. 9 Serie original y serie suavizada por los promedios móviles
Hallando la linea de tendencia
En Microsoft Excel, la línea de tendencia para la curva suavizada se obtiene fácilmente y se nuestra en la fig 10
Fig. 10. Línea de tendencia con R2 = 0.4169
El coeficiente de determinación es muy pequeño por lo que no se puede asegurar categóricamente que la ecuación lineal hallada es la que pronostica la producción en los años posteriores.
Será necesario realizar un segundo arreglo con medias móviles
El problema ahora es que el periodo donde alcanza la mayor producción es un numero par de años, por lo que se hace difícil en la tabla hallar el año central, realizando el promedio de
Fig.11 Suavizando la línea de tendencia por segunda vez
La fig. 11 muestra la segunda suavizada de la línea de tendencia, no ha variado mucho con respecto a la primera,.
Caso 2: Temperatura en Lima – Aeropuerto Internacional Jorge Chávez, periodo 2000- 2004
En la ciudad de Lima (Perú) el el Aeropuerto Internacional Jorge Chávez, las tempraturas registradas durante los años 2000, 2001, 2002, 2003, 2004 consideramos en este caso solo los primeros cuatro meses de cada año, las temperaturas registradas por cada mes promediados son las que se muestran en la tabla Nº1
Tabla Nº 2
Temperaturas de Lima – Aeropuerto Internacional Jorge Chávez ( Lima –Perú) 2000 – 2004
2000
T ( º C )
2001
T ( º C )
2002
T ( º C )
2003
T ( º C )
2004
T ( º C )
Enero
21.835
21.694
21.132
22.257
20.443
Febrero
21.835
23.070
22.654
23.286
22.959
Marzo
21.113
22.181
22.654
22.053
21.887
Abril
21.113
20.440
21.270
19.340
20.443
REGRESION Y CORRELACION
Marco Teórico A fin de facilitar la comprensión del presente trabajo definiremos algunos conceptos basicos.Análisis de Correlación .- Es el conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables.El principal objetivo del análisis de correlación consiste en determinar que tan intensa es la relación entre dos variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersión.Diagrama de Dispersión.- es aquel grafico que representa la relación entre dos variables.Variable Dependiente.- es la variable que se predice o calcula. Cuya representación es "Y"Variable Independiente.- es la variable que proporciona las bases para el calculo. Cuya representación es: X1,X2,X3.......Coeficiente de Correlación.- Describe la intensidad de la relación entre dos conjuntos de variables de nivel de intervalo. Es la medida de la intensidad de la relación lineal entre dos variables.El valor del coeficiente de correlación puede tomar valores desde menos uno hasta uno, indicando que mientras más cercano a uno sea el valor del coeficiente de correlación, en cualquier dirección, más fuerte será la asociación lineal entre las dos variables. Mientras más cercano a cero sea el coeficiente de correlación indicará que más débil es la asociación entre ambas variables. Si es igual a cero se concluirá que no existe relación lineal alguna entre ambas variables. Análisis de regresión.- Es la técnica empleada para desarrollar la ecuación y dar las estimaciones.Ecuación de Regresión.- es una ecuación que define la relación lineal entre dos variables.Ecuación de regresión Lineal: Y’ = a + BxEcuación de regresión Lineal Múltiple: Y’ = a + b1X1 + b2X2 + b3X3...Principio de Mínimos Cuadrados.- Es la técnica empleada para obtener la ecuación de regresión, minimizando la suma de los cuadrados de las distancias verticales entre los valores verdaderos de "Y" y los valores pronosticados "Y".Análisis de regresión y Correlación Múltiple.- consiste en estimar una variable dependiente, utilizando dos o más variables independientes.
Ecuación de regresión Múltiple.- La forma general de la ecuación de regresión múltiple con dos variables independientes es:
Y' = a + b1X1 + b2X2
X1,X2 : Variables Independientes
a : es la ordenada del punto de intersección con el eje Y.b1 : Coeficiente de Regresión (es la variación neta en Y por cada unidad de
variación en X1.).b2 : Coeficiente de Regresión (es el cambio neto en Y para cada cambio
unitario en X2).Prueba Global.- esta prueba investiga básicamente si es posible que todas las variables independientes tengan coeficientes de regresión neta iguales a 0.
Desarrollo de un Caso.Una agencia de Viajes desea saber la relación que hay entre las ventas, el presupuesto destinado a publicidad, y las comisiones de los vendedores para esto presenta los siguientes datos. ANÁLISIS DE DATOS:Se van a utilizar las siguientes variables:Variables Independientes:1.- Gastos de Publicidad
2.- Comisión de vendedores
Variable dependiente:- Ventas Utilizando el Excel obtenemos los siguientes datos.
Estadísticas de la Regresión
Coeficiente de correlación múltiple
0.92092
Coeficiente de determinación R2
0.84810
R2 ajustado
0.69619
Error típico
54887.83156
Observaciones
5
De aquí se puede decir:- De acuerdo al valor del coeficiente de correlación múltiple, podemos afirmar que la variable X1 (Gastos de Publicidad) y X2 (Comisión de vendedores) se encuentran asociadas en forma directa de una manera muy fuerte con la variable dependiente Ventas, en un 92%.- De acuerdo al Coeficiente de determinación R2, podemos decir que el 85% de las ventas pueden ser explicadas por los gastos de publicidad y las comisiones de los vendedores.
A N Á L I S I S D E V A R I A N Z A
Grados de libertad
Suma de cuadrados
Prom. de los cuadrados
F
Valor crítico de F
Regresión
2
33640459893
16820229947
5.5832
0.15190282
Residuos
2
6025348107
3012674053
Total
4
39665808000
Coeficientes
Error típico
Estadístico t
Probab.
Inf. 95%
Sup. 95%
Inferior 95.0%
Sup. 95.0%
Intercepción
-289315.16
242459.39
-1.193
0.35513
-1332534.446
753904.118
-1332534.446
753904.118
GSTOS DE PUBLICID.
1123.49
336.22
3.342
0.07908
-323.1275965
2570.108
-323.128
2570.108
COM. DE VENDED.
-2.27
6.55
-0.346
0.76245
-30.45400257
25.922
-30.454
25.922
De aquí se desprende la ecuación de regresión múltiple:
Y = - 289315 + 1123 X1 - 2.27 X2
Prueba Global: Verificación de la validez del modelo de regresión Múltiple.Formulación de Hipótesis:Hp: B1 = B2 = 0Ha: B1 B2 0
Si se acepta la hipótesis planteada, significa que ninguno de los factores (X1,X2) son relevantes para explicar los cambios en Y.De acuerdo a la tabla de análisis de la varianza F calculado es 5.58 y el p-valor es 0.15, de lo cual podemos decir que La hipótesis planteada se rechaza y se acepta la hipótesis alternativa, por que el F calculado es mayor que el p-valor.Hasta ahora se ha demostrado que algunos, pero no necesariamente todos los coeficientes de regresión, no son iguales a cero y, por o tanto son útiles para las predicciones. El siguiente paso consiste en probar individualmente las variables para determinar cuales coeficientes de regresión pueden ser cero y cuales no.
Regresión y Correlación
La regresión y la correlación son dos técnicas estrechamente relacionadas y comprenden una forma de estimación.
En forma más especifica el análisis de correlación y regresión comprende el análisis de los datos muestrales para saber que es y como se relacionan entre si dos o mas variables en una población. El análisis de correlación produce un número que resume el grado de la correlación entre dos variables; y el análisis de regresión da lugar a una ecuación matemática que describe dicha relación.
El análisis de correlación generalmente resulta útil para un trabajo de exploración cuando un investigador o analista trata de determinar que variables son potenciales importantes, el interés radica básicamente en la fuerza de la relación. La correlación mide la fuerza de una entre variables; la regresión da lugar a una ecuación que describe dicha relación en términos matemáticos
Los datos necesarios para análisis de regresión y correlación provienen de observaciones de variables relacionadas.
Regresión lineal
La regresión lineal simple comprende el intento de desarrollar una línea recta o ecuación matemática lineal que describe la reacción entre dos variables.
La regresión puede utilizadas de diversas formas. Se emplean en situaciones en la que las dos variables miden aproximadamente lo mismo, pero en las que una variable es relativamente costosa, o, por el contrario, es poco interesante trabajar con ella, mientras que con la otra variable no ocurre lo mismo.
La finalidad de una ecuación de regresión seria estimar los valores de una variable con base en los valores conocidos de la otra.
Otra forma de emplear una ecuación de regresión es para explicar los valores de una variable en término de otra. Es decir se puede intuir una relación de causa y efecto entre dos variables. El análisis de regresión únicamente indica qué relación matemática podría haber, de existir una. Ni con regresión ni con la correlación se pude establecer si una variable tiene “causa “ciertos valores de otra variable.
Ecuación Lineal
Dos características importantes de una ecuación lineal
la independencia de la recta
la localización de la recta en algún punto. Una ecuación lineal tiene la forma
y = a + bx
En la que a y b son valores que se determina a partir de los datos de la muestra; a indica la altura de la recta en x= 0, y b señala su pendiente. La variable y es la que se habrá de predecir, y x es la variable predictora.
Determinación de la ecuación matemática
En la regresión, los valores de y son predichos a partir de valores de x dados o conocidos. La variable y recibe le nombre variable dependiente y la variable x, el de variable independiente.
Métodos de mínimos cuadrados
EL procedimiento mas utilizado por adaptar una recta aun conjunto de punto se le que conoce como método de mínimos cuadrados. La recta resultante presenta 2 característica importantes
es nula la suma desviaciones verticales en los puntos a partir de la recta
es mínima la suma de los cuadrados de dicha desviaciones
(yi - yc)2
En el cual
Yi = valor esperado de y
Yc= valor calculado de y utilizando la ecuación de mínimos cuadrados con el valor correspondientes x para yi
Los valores de a y b para la recta es Yc = a + bx que minimiza la suma de los cuadrados de la desviación “ecuaciones normales “
y = na + (x)
xy= a (x) +b (x2)
En las que n es el numero de pares de observaciones. Evaluando las cantidades x, y, etc. Se puede resolver estas dos ecuaciones simultáneamente para determinar a b. la ecuaciones puede despejarse. Se obtuvieron dos formulas aun para a y otra para b.
n(xy)- (x)(y)
b=
n(x2)-(x)2
y - b x
a=
n
Inferencia en el análisis de regresión
Los supuestos para el análisis de regresión son como:
Existen datos de medición para a x y z.
la variable dependiente es una variable aleatoria.
para cada valor de x, existe una distribución condicional de la qué es de naturaleza normal
la desviación estándar de toda las distribuciones condicionales son iguales
EL error estándar de estimación
La determinante primaria de la exactitud es el grado de dispersión de la población: cuanto mas dispersa este, menor será la exactitud de la estimación. El grado de dispersión en la población se puede estimar a partir del grado de dispersión en las observaciones de la muestra con respecto a la línea de regresión calculada, utilizando la formula.
Se = " (yi -yc)
n-2
en la cual:
yi = cada valor de y
yc = valor de línea de regresión correspondiente a partir de la ecuación de regresión.
n = números de observaciones.
La formula anterior no se utiliza por lo general para cálculos reales, es mas fácil trabajar con la formula simplificada
Se "y2 - a y - b xy
n - 2
Inferencia de acerca de la pendiente de una línea de regresión
Aun cuando es muy poca o nula relación entre dos variables de aun población, es posible obtener valores maestrales que hacen que parezca que la variables están relacionadas, es importantes probar los resultados tales de caculo, a fin determinar si son significativos (es decir si los parámetros verdaderos no son cero), Si no existe ninguna relación se esperaría obtener aun pendiente cero, se pone a prueba la hipótesis nula contra la hipótesis alternativa.
La significación del coeficiente de regresión se puede probar comparándolo con su desviación estándar
t = valor de la muestra - valor esperado
Desviación estándar
Análisis de regresión lineal múltiple
La regresión múltiple comprende tres o más variables. Existe solo una variable dependiente, pero hay dos o mas tipo independiente. Esta operación al desarrollo de una ecuación que se pede utilizar para predecir valore de y, respecto a valores dados de la diferencia variables independientes adicionales es incrementar la capacidad predicativa sobre la de la regresión lineal simple.
Las técnicas de los mínimos cuadrados se utilizan para obtener ecuaciones de regresión.
Yc= a +b1x1+b2x2+…bkxk
a = ordenada en el origen
b1= pendiente
k = numero de variables independientes
Un análisis de regresión simple de dos variable da lugar a la ecuación de una recta, un problema de tres variables produce un plano, y un problema de k variables implica un hiperplano de a
(k +1) dimensiones.
Análisis de Correlación
EL objetivo de un estudio de correlación es determinar la consistencia de una relación entre observaciones por partes. EL termino “correlación “significa relación mutua, ye que indica el grado en el que los valores de una variable se relacionan con los valores de otra. Se considera tres técnicas de correlación uno para datos de medición, otro para datos jerarquizados y el último para clasificaciones nominales.
Datos Continuos: r de Pearson
EL grado de relación entre dos variables continuas se resume mediante un coeficiente de correlación que se conoce como “r de Pearson “en honor del gran matemático Kart Pearson, quien ideo este método. Esta técnica es valida mientras si es posible establecer ciertos supuestos bastante estrictos. Tales supuestos son los siguientes:
Tanto x como y son variables continuas aleatorias. Es decir, a diferencia del análisis de referencia de regresión, no es aceptable seleccionar ciertos valores de x, y después medir y; tanto y como x deben de variar libremente.
La distribución conjunta de frecuencia es normal. Esto recibe el nombre de de distribución normal divariada.
Carácter de r
El coeficiente de relación presenta dos propiedades que establecen la naturaleza de una relación entre dos variables. Una es su signo (+ o -) y la otra, es su magnitud. El signo es igual al de la pendiente de una recta que podría “ajustarse” a los datos si estos se graficaran en un diagrama de dispersión, y la magnitud de r indica cuan cerca esta de la “recta” tales puntos.
Método practicar para calcular r
Dado que los cálculos necesarios pueden requerir mucho tiempo especialmente cuando se resta las medias del grupo de cada observación se elevan a cuadrado esas diferencias. Existe una versión, la cual simplifica los cálculos:
r= n ("xy)-("x)("y) _
"n("x2)-("x)2 ·"n("y2)("y)2
Existen 3 formas posibles para obtener el valor de r en el caso de datos de medición: estandarizar cada conjunto y hallar el producto medio, calcular el coeficiente de determinación r2 y obtener su raíz cuadrada como utilizar la formula. Para un conjunto de datos los tres métodos producirán el mismo valor para r no obstante cada método agrega algo a la comprensión del significado del termino “correlación”
Inferencia acerca del coeficiente de correlación
Intervalo de confianza para la correlación de la población
El valor del coeficiente de correlación de la muestra se puede utilizar como un estimado de la correlación verdadera de población existen varios métodos para obtener un método de confianza para pero quizás la forma mas directa es usar un diagrama.
Si se examinan el diagrama se observara que el intervalo de los valores potenciales (no conocidos) se indica a lo largo de la escala vertical los posibles valores r de la muestra se indica en la escala inferior una serie de curvas representan tamaño de muestras seleccionadas.
Prueba de significación de r
Puede ser necesario evaluar una aseveración con respecto al valor de . La forma mas sencilla es obtener un intervalo de confianza para r y observar si el valor propuesto esta incluido en el intervalo de ser así se rechaza a Ho y se acepta la alternativa.
Datos jerarquizados de: r Spearman
Es una técnica no paramétrica que utiliza para medir la fuerza de una relación por pares de 2 variables cuando los datos se encuentran en forma jerarquizados. El objeto de calcular un coeficiente de correlación estos ejemplos es determinar el grado en el que dos conjuntos de jerarquización concuerdan o no. Esta técnica también se puede extender a calificaciones u otro tipo de medición si estas se convierten a rangos.
Las medidas de l grado de concordancia son sol cuadrados de las diferencias entre los dos conjuntos de rangos: si la suma de éstos es pequeña, esto significa que hay acuerdo; si la suma es grande, esto indica lo contrario. EL calculo real de la correlación comprende la formula.
rsp = 1 - 6"d2
n(n2 -1)
SERIES DE TIEMPO
2. TEORIA
2.1 Series de Tiempo
Una serie temporal o cronologica es un conjunto e observaciones de una variable, ordenadas segu transcurre el tiempo.
En una serie de tiempo las observaciones no se deben ordenar de mayor a menor debidoa que se perderia el grueso de la informacion debido a que nos intersea detectar como se mueve la variable en el tiempo es muy importante respetar la secuencia temporal de las observaciones.
2.2 Representacion de una Serie Temporal
Par realizar la reprsenyacion de una serie ytemporal se debe realizae mediante una gráfica de disprsión x-y como se muestra en la fig.1
Fig.1. Representación de una serie temporal
2.3 Componetes de una serie temporal
2.3.1 Tendencia
La tendencia es un movimiento de larga duración que muestra la evolucion general de laserie en el tiempo.
La tedencia es un movimiento que puede ser estacionario o ascendente, y su recorrido, una linea recta o una curva. Algunas de la posibles formas son las que se muestran en la fig.2
Fig.2. Representación de la tendencia
La tendencia es un movimiento que puede ser estacionario o ascendente o descendete como se indica en la fig.3
Fig. 3 Tendencias ascendente, estacionaria y descendente
Tambien son posibles algunas formas para la tendencia, que no necesariamente tiene una distribución de puntos en forma aproximadamente lienal sino como las que se muestran en la fig. 4
Fig.4 Líneas de tendencia de otras posibles formas.
2.3.2 Variaciones estacionales.
Se habla de este tipo de variaciones usualmente cuando el comportamiento de la variable en el tiempo ennun periodo esta relacionado con la época o un periodo particular, por lo general en el espacio cronologico presente.
Fig. 5 Variaciones estacionales
2.3.3 Variaciones ciclicas
Se llama asi a las ocilaciones a lo largo de una tendencia con uneriodo superiro al año. El ciclo sugiere la idea de que este tipo de movimiento se repite cada cirto periosodo con caracterisitica parecidas. Los ejemplos mas frecuentes se encuentran en le campo de las variables economicas, en esto ca casos se deben principalmente a la alternancia de las etapas de prosperidad y depresioin en la actividad economica.
2.3.4 Variaciones residuales
Cuando a parecen hechos imprevistos, repentinos que afecten las variables en estudio acotamndo que no podemos preveer nos hallamos frenta a variaciones residuales provocadas poe r factore extermis a leatorios.
Por ejemplo un dia lluvioso y frio durante el veranos es dificil de predecir y aunque perturbaria cuertas acrividades diarias como la venta de helasod no afectaria en este caso significativamente la serie.
3. ANALISIS DE LA TENDENCIA
En la practica es difícil distinguir la tendencia del comportamiento cíclico. Por ejemplo la gráfica puede conducirnos a concluir que existe una tendencia ascendente en la parte de 1980 a 1982, pero esto es una parte de la serie de tiempo más grande.
Fig, 6 Tendencias cecrecientes, crecientes entre periodos de tiempo
3.1 Método Gráfico
Mediante este método muy elemental se detemina la tendencia a perttir de una representación grafica de la serie.la aplicaion de este metodo es como sigue
Se representa graficamente la serie cronologica
Se unen los extremos superiores de la serie, se hace los mismo con los inferiores
Se obtiee dos lineas que encierran ala serie original
Uniendo los punto medios de las distancias entre las dos dlineas o curvas se obtiene la tendencia. La linea o curva de rendencia obtenida tnedra un trazad mucho mas suave que la serie original.
Fig. 7 Representacion tendencia estacionaria
3.2 Método de las medias móviles
Para este método se deben de considear los siguientes pasos que se detallan
Observar con detenimieto la serie para determinar aproximadamente la fluctuacion con periodo mas largo y llamamos q al numero de observaciones que forman una oscilacion compleja.
Se procede a calcular una serie de medias. La primera de ellas secalcula aprtir de las q promeras observaciones de la serie pero elimiando la primera observacion y añadiendo al ainmediata posterior. Se prosigue asi hasta calcular la media de la ultimas q observaciones.
Cada una de las medias obtenidas en le paso anterior se asigna al instane o momento dentral del perios temporal que promedian.
Uniendo las medias se obtiene la tendencia.
4. APLICACIÓN
Caso 1: Producción de Motociletas en una empresa japonesa, periodo 1974 - 1990
En la siguiente tabla se tiene la producción de motocicletas de una empresa (en millones de motos) en un periodo de 17 años que se muestra en la tabla Nº 1
Tabla Nº1
Venta de Motocicletas en un periodo de 17 años
(Producción en millones de motocicletas)
Años
Producción
Años
Producción
Años
Producción
1974
2.1
1980
2.2
1986
2.1
1975
1.9
1981
2.0
1987
1.9
1976
1.7
1982
1.8
1988
1.5
1977
1.5
1983
1.7
1989
1.4
1978
1.6
1984
1.9
1990
2.5
1979
2.0
1985
2.4
----
-----
Se traslada los datos a Microsoft Excel, ordenados en dos columnas, luego se realiza la gráfica de los datos.
Se obtiene la gráfica mostrada en la fig.8
Fig. 8 Representación de la serie de tiempo para las motocicletas por año
En la grafica se observa que los años donde se registra mayor producción son 1974, 1980, 1985,1990
Entonces podemos tomar cada cinco años como la cantidad de años para la cual la empresa realiza su mayor producción.
Sin embargo es conveniente encontrar una linea de tendencia tal que se pueda hallar una ecuación ajustada para los pronósticos de la producción en el tiempo.
Utilizando el método de la media móvil
Seconstruye una nueva tabla con las medias móviles
Esto es para suavizar la distribución de puntos
Fig. 9 Serie original y serie suavizada por los promedios móviles
Hallando la linea de tendencia
En Microsoft Excel, la línea de tendencia para la curva suavizada se obtiene fácilmente y se nuestra en la fig 10
Fig. 10. Línea de tendencia con R2 = 0.4169
El coeficiente de determinación es muy pequeño por lo que no se puede asegurar categóricamente que la ecuación lineal hallada es la que pronostica la producción en los años posteriores.
Será necesario realizar un segundo arreglo con medias móviles
El problema ahora es que el periodo donde alcanza la mayor producción es un numero par de años, por lo que se hace difícil en la tabla hallar el año central, realizando el promedio de
Fig.11 Suavizando la línea de tendencia por segunda vez
La fig. 11 muestra la segunda suavizada de la línea de tendencia, no ha variado mucho con respecto a la primera,.
Caso 2: Temperatura en Lima – Aeropuerto Internacional Jorge Chávez, periodo 2000- 2004
En la ciudad de Lima (Perú) el el Aeropuerto Internacional Jorge Chávez, las tempraturas registradas durante los años 2000, 2001, 2002, 2003, 2004 consideramos en este caso solo los primeros cuatro meses de cada año, las temperaturas registradas por cada mes promediados son las que se muestran en la tabla Nº1
Tabla Nº 2
Temperaturas de Lima – Aeropuerto Internacional Jorge Chávez ( Lima –Perú) 2000 – 2004
2000
T ( º C )
2001
T ( º C )
2002
T ( º C )
2003
T ( º C )
2004
T ( º C )
Enero
21.835
21.694
21.132
22.257
20.443
Febrero
21.835
23.070
22.654
23.286
22.959
Marzo
21.113
22.181
22.654
22.053
21.887
Abril
21.113
20.440
21.270
19.340
20.443
miércoles, 26 de marzo de 2008
Conceptos de Conceptos sobre estadistica
1.2.-La Media Aritmética ():
La medida de tendencia central más ampliamente usada es la media aritmética, usualmente abreviada como la media y denotada por (léase como "X barra").
La media aritmética para datos no agrupados
Si se dispone de un conjunto de n números, tales como X1, X2, X3,…,Xn, la media aritmética de este conjunto de datos se define como "la suma de los valores de los ni números , divididos entre n", lo que usando los símbolos explicados anteriormente , puede escribirse como:
Ejemplo:
Se tienen las edades de cinco estudiantes universitarios de Ier año, a saber: 18,23, 27,34 y 25., para calcular la media aritmética (promedio de las edades, se tiene que:
La media aritmética para datos agrupados
Si los datos se presentan en una tabla de distribución de frecuencias, no es posible conocer los valores individuales de cada una de las observaciones, pero si las categorías en las cuales se hallan. Para poder calcular la media, se supondrá que dentro de cada categoría, las observaciones se distribuyen uniformemente dentro alrededor del punto medio de la clase, por lo tanto puede considerarse que todas las observaciones dentro de la clase ocurren en el punto medio, por lo expuesto la media aritmética para datos agrupados puede definirse de la siguiente manera:
Si en una tabla de distribución de frecuencia, con r clases, los puntos medio son: X1, X2, X3,…,Xn; y las respectivas frecuencias son f1, f2, f3, … , fn, la media aritmética se calcula de la siguiente manera:
donde: N = número total de observaciones, por tanto Σfi puede simplificarse y escribirse como N ( N= Σfi )
Ejemplo:
Si se toman los datos del ejemplo resuelto al construir la tabla de distribución de frecuencia de las cuentas por cobrar de Cabrera’s y Asociados que fueron los siguientes:
Clases 1 2 3 4 5 6
Puntos Medios (Xi) 14,628 29,043 43.458 57,873 72.288 86.703
Frecuencias (fi) 10 4 5 3 3 5
1.3.- La Mediana (X0.5):
Cuando una serie de datos contiene uno o dos valores muy grandes o muy pequeños, la media aritmética no es representativa. El valor central en tales problemaspuede ser mejor descrito usando una medida de tendencia central llamada mediana., y denotada por X0.5
La mediana es una medida de posición y se define como la posición central en el arreglo ordenado de la siguiente manera:
Dado un conjunto de números agrupados en orden creciente de magnitud, la mediana es el número colocado en el centro del arreglo, de tal forma que una mitad de las observaciones está por encima y la otra por debajo de dicho valor. Si el número de observaciones es par, la mediana es la media de los dos valores que se hallan en el medio del arreglo, de donde se concluye en la siguiente definición:
Mediana. Es el punto medio de los valores de una serie de datos después de haber sido ordenados de acuerdo a su magnitud. Hay tantos valores antes que la mediana como posteriores en el arreglo de datos
La Mediana para datos no agrupados.
Sea X1, X2; X3; … ; Xn; una sucesión de datos, la mediana denotada por X0.5 se calcula de la siguiente manera:
X0.5 = X (n+1)/2 si n es par
Xn/2 + X(n/2)+1
X0.5= ---------------------- si n es impar
2
Nota: El resultado obtenido en la formula corresponde al número de la observación en el arreglo, por tanto debe reemplazarse por el valor de dicha variable en el arreglo.
1.3.- La Moda (Mo.):
A veces es importante conocer cuál es el valor que más prevalece en el conjunto de datos. El valor que ocurre con más frecuencia se le conoce como moda. La moda es la medida de tendencia central especialmente útil para describir mediciones de tipo ordinal, de intervalos y nominal.
En un conjunto de números la moda se define como el valor ó número que ocurre con más frecuencia
Ejemplo:
En el siguiente conjunto de números 1, 5, 5, 9, 12, 12, 12, 14. La moda es igual a 12, por cuanto que es el número que más se repite (tres veces)
La Moda para datos agrupados (Mo.):
La Moda puede deducirse de una distribución de frecuencia o de un histograma a partir de la fórmula.
Mo. = Li + [ ( ∆1 / ∆1+∆2 ) ] C
Donde;
Li = límite inferior de la clase modal (clase de mayor frecuencia absoluta (fa)
∆1 = diferencia de las frecuencias absolutas de la clase modal y premodal.
∆2 = diferencia de las frecuencias absolutas de la clase modal y postmodal
C = amplitud de la clase modal.
1.6.-La Media Geométrica(g):
Se define como la raíz de índice de la frecuencia total cuyo radicando es el producto de las potencias de cada valor de la variable elevado a sus respectivas frecuencias absolutas, se denota por g; suele utilizarse cuando los valores de la variable siguen una progresión geométrica. También para promediar porcentajes, tasas, nº índices, etc. siempre que nos vengan dados en porcentajes y se calcula mediante la siguiente fórmula
g = n√(X1 * X2 * … * Xn
Fórmula que algunas veces es conveniente expresarla en forma logarítmica. El logaritmo de la media geométrica es la media aritmética de los logaritmos de los valores de la variable. El problema se presenta cuando algún valor es 0 ó negativo y exponente de la raíz par ya que no exista raíz par de un número negativo, entonces la fórmula anterior se presenta de la siguiente manera:
log Xg = 1/N (log X1 + log X2 + … + log Xn)
Ejemplo;
Encontrar la media de los siguientes números 2, 4, 8. obsérvese que entre ellos existe una razón o proporción constante, cada uno de ellos es el doble del anterior, por tanto la media a utilizar es la media geométrica, de la siguiente manera
g = 3√ (2) (4) (8) = 3√ 64 = 4
Respuesta: la media geométrica de los datos es 4
Las medidas de dispersión muestran la variabilidad de una distribución, indicando por medio de un número si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.
Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma de las desviaciones es siempre cero, así que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (Desviación media) y otra es tomando las desviaciones al cuadrado (Varianza).
Rango [editar]
El rango estadístico es la diferencia entre el valor mínimo y el valor máximo en un grupo de números. Para averiguar el rango de un grupo de números:
Ordenamos los números según su tamaño.
Restamos el valor mínimo del valor máximo. ejemplo=
-->x= [7 10 12 4 8 7 3 8]x =
7. 10. 12. 4. 8. 7. 3. 8.
-->strange(x)ans =
9.
-->_
Primero hemos declarado un vector con nombre X, donde introduzco los números de la serie. Luego con el comando strange hallará el rango.
Varianza = La varianza es una variable estadística que mide la dispersión de los valores respecto a un valor central (media), es decir, la media de las diferencias cuadráticas del las puntuaciones respecto a su media aritmética.
Propiedades=
La varianza es siempre positiva o 0:
Si a los datos de la distribución les sumamos una cantidad constante la varianza no se modifica.
Yi = Xi + k
Si a los datos de la distribución les multiplicamos una constante, la varianza queda multiplicada por el cuadrado de esa constante.
Propiedad distributiva: V(X + Y) = V(X) + V(Y)
Las anteriores imágenes muestran como se puede utilizar un programa informático como Scilab para calcular la varianza.
Para comenzar hay que introducir los datos en un vector o matriz de la forma: Nombre_variable=[ datos separados por espacios ]. Una vez introducidos los datos, se calcula la varianza con el comando: variance(nombre_variable)
Desviación Típica [editar]
La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadráticas. Para evitar ese problema se define otra medida de dispersión, que es la desviación típica, que se halla como la raíz cuadrada positiva de la varianza. La desviación típica nos informa sobre la dispersión de los datos respecto al valor de la media; cuanto mayor sea su valor, más dispersos estarán los datos.
Desviación típica muestral:
Desviación típica poblacional:
Ejemplo [editar]
Con Scilab este calculo se hace de la siguiente manera:-->x= [17 14 2 5 8 7 6 8 5 4 3 15 9]
x =
17. 14. 2. 5. 8. 7. 6. 8. 5. 4. 3. 15. 9.
-->stdev(x)
ans =
4.716311
-->
Primero hemos declarado un vector con nombre X, donde introduzco los números de la serie. Luego con el comando stdev se hallará la desviación típica.
Covarianza [editar]
La covarianza entre dos variables es un estadístico resumen indicador de si las puntuaciones están relacionadas entre sí. La formulación clásica, se simboliza por la letra griega sigma (\sigma_{xy}) cuando ha sido calculada en la población. Si se obtiene sobre una muestra, se designa por la letra "s_{xy}".
La formula suele aparecer expresada como:
Este tipo de estadístico puede utilizarse para medir el grado de relación de dos variables si ambas utilizan una escala de medida a nivel de intervalo/razón (variables cuantitativas).
La expresión se resuelve promediando el producto de las puntuaciones diferenciales por su tamaño muestral (n pares de puntuaciones, n-1 en su forma insesgada). Este estadístico, refleja la relación lineal que existe entre dos variables. El resultado numérico fluctua entre los rangos de +infinito a -infinito. Al no tener unos límites establecidos no puede determinarse el grado de relación lineal que existe entre las dos variables, solo es posible ver la tendencia.
0, & \mbox{Correlaci}\acute{o}\mbox{n directa. Recta de regresi}\acute{o}\mbox{n creciente.} \\ = 0, & \mbox{No hay correlaci}\acute{o}\mbox{n.} \\
Ejemplo [editar]
Tenemos una tabla con dos datos (x y h), elaboramos su tabla de frecuencias (fre)-->x=[10 20 30 40] Vector de datos X
x =
10. 20. 30. 40.
-->y=[10 20 30 40] Vector de datos H
y =
10. 20. 30. 40.
-->fre=[.20 .04 .01 0; Matriz de frecuencias
--> .10 .36 .09 0;
--> 0 .05 .10 0;
--> 0 0 0 .05]
fre =
0.2 0.04 0.01 0.
0.1 0.36 0.09 0.
0. 0.05 0.1 0.
0. 0. 0. 0.05
-->s=covar(x,y,fre) Aplicación del Comando covar
s =
49.
Coeficiente de Correlación de Pearson [editar]
El coeficiente de correlación de Pearson, r, nos permite saber si el ajuste de la nube de puntos a la recta de regresión obtenida es satisfactorio. Se define como el cociente entre la covarianza y el producto de las desviaciones típicas (raíz cuadrada de las varianzas).
Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar mediante cualquiera de las dos expresiones siguientes:
Propìedades [editar]
El coeficiente de correlación, r, presenta valores entre –1 y +1.
Cuando r es próximo a 0, no hay correlación lineal entre las variables. La nube de puntos está muy dispersa o bien no forma una línea recta. No se puede trazar una recta de regresión.
Cuando r es cercano a +1, hay una buena correlación positiva entre las variables según un modelo lineal y la recta de regresión que se determine tendrá pendiente positiva, será creciente.
Cuando r es cercano a -1, hay una buena correlación negativa entre las variables según un modelo lineal y la recta de regresión que se determine tendrá pendiente negativa: es decreciente.
I. DIAGRAMA DE ARBOL.
Un diagrama de árbol es una representación gráfica de un experimento que consta de r pasos, donde cada uno de los pasos tiene un número finito de maneras de ser llevado a cabo.
Ejemplos:
1.Un médico general clasifica a sus pacientes de acuerdo a: su sexo (masculino o femenino), tipo de sangre (A, B, AB u O) y en cuanto a la presión sanguínea (Normal, Alta o Baja). Mediante un diagrama de árbol diga en cuantas clasificaciones pueden
estar los pacientes de este médico?
N
Solución: A
A B
N
B A
B
M AB N
A
O B
A
N
F B A
B
AB
B
O A
B
Si contamos todas las ramas terminales, nos damos cuenta que el número de clasificaciones son 2 x 4 x 3 = 24 mismas que podemos enumerar;
MAN, MAA, MAB, MBN, MBA, MBB, etc, etc.
1) Dos equipos denominados A y B se disputan la final de un partido de baloncesto, aquel equipo que gane dos juegos seguidos o complete un total de tres juegos ganados será el que gane el torneo. Mediante un diagrama de árbol diga de cuantas maneras puede ser ganado este torneo,
Solución:
A = gana el equipo A
B = gana el equipo B
A
A
A A
B A
B
B B
A
A A
A
B B B
B
B
En este diagrama se muestran que hay solo diez maneras de que se gane el torneo, que se obtienen contando las ramas terminales de este diagrama de árbol, las que es posible enumerar;
AA, ABB, ABAA, ABABA, ABABB, etc, etc.
2) Un hombre tiene tiempo de jugar ruleta cinco veces como máximo, él empieza a jugar con un dólar, apuesta cada vez un dólar y puede ganar o perder en cada juego un dólar, él se va a retirar de jugar si pierde todo su dinero, si gana tres dólares (esto es si completa un total de cuatro dólares) o si completa los cinco juegos, mediante un diagrama de árbol, diga cuántas maneras hay de que se efectué el juego de este hombre.
Solución:
$4 G $4
G $3
$3 G
G P $2
P G$3
$2 P
$1 P $0
$3 G $4
$2 G
$1 G $2
G P $2
G $2
P P
$1 P $1
P $0 P $0
$0
Si contamos las ramas terminales nos daremos cuenta que hay 11 maneras de que este hombre lleve a cabo sus apuestas, en este diagrama se han representado los cinco juegos o apuestas que este hombre tiene tiempo de jugar.
Diagrama de caja
De Wikipedia, la enciclopedia libre
Saltar a navegación, búsqueda
Diagrama de caja (Box-Plot)
Un diagrama de caja es un gráfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos.
En un gráfico que se suministra información sobre la mediana, El cuartil Q1 y Q3, sobre la existencia de atípicos y la simetría de la distribución.
Como dibujarlo [editar]
Ordenar los datos y obtener el valor mínimo, el máximo, y los cuartiles Q1, Q2 y Q3.
Dibujar un rectángulo con Q1 y Q3 como extremos e indicar la posición de la mediana (Q2) mediante una línea.
Calcular los límites superior e inferior, Li y Ls, que identifiquen a los valores atípicos.
Considerar como atípicos los puntos localizados fuera del intervalo (Li, Ls).
Dibujar las líneas que van desde cada extremo del rectángulo central hasta el valor más alejado no atípico.
Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).
Utilidades [editar]
Proporcionan una visión general de la simetría de la distribución de los datos, si la media no está en el centro del rectángulo, la distribución no es simétrica.
Son útiles para ver la presencia de valores atípicos.
Sumatorio
De Wikipedia, la enciclopedia libre
Saltar a navegación, búsqueda
Una sumatoria nos permite representar sumas muy grandes, de n sumandos o incluso sumas infinitas y se expresa con la letra griega sigma ( Σ ) .
Una sumatoria se define como:
La variable i es el índice de suma al que se le asigna un valor inicial llamado límite inferior, m. La variable i recorrerá los valores enteros hasta alcanzar el límite superior, n. Necesariamente ha de cumplirse:
Por ejemplo si queremos expresar la suma de los diez primeros números naturales podemos hacerlo así con una sumatoria:
Las sumatorias son útiles para expresar sumas arbitrarias de números, por ejemplo en fórmulas: así, si queremos representar la «fórmula» para hallar la media aritmética de n números:
Medidas de posición
Cuartiles, deciles y centiles
Un conjunto de puntajes o mediciones puede dividirse en un cierto número de partes iguales mediante la selección de valores que correspondan a una posición determinada en dicho conjunto. Por ejemplo, la mediana divide a un conjunto de valores dados en dos partes iguales, y su posición es, en consecuencia, a la mitad del mismo. De manera que 50% de los puntajes quedan a uno u otro lado valor estadístico.
En general, se llaman cuantiles (o "cuantilas") a estos valores con posición divisora determinada. Pueden considerarse los siguientes cuantiles, además de la mediana:
a) cuartil (o "cuartila")
b) decil (o "decila")
c) centil (o "centila")
que son respectivamente, los cuantiles que corresponden a la división en 4, 10, y 100 partes iguales del conjunto dado. A continuación se describen estos valores característicos.
Cuartiles. Son los puntos que dividen a una distribución de valores en cuatro porciones iguales o intervalos. Se representan por , , y se ilustran en el esquema siguiente:
Deciles. Son los cuantiles que dividen una distribución en 10 tantos o intervalos, por lo que se tienen 9 puntos de división, los deciles, que originan los 10 intervalos.
Los deciles, que se representan por pueden ser marcados en una gráfica como la siguiente:
Centiles o porcentiles. *Generalmente los puntajes no elaborados o burdos (los que se obtienen en forma directa al aplicar una prueba psicológica o, en general, cualquier medición), no indican nada en lo relativo al desempeño de las personas, y del lugar que ocupan con respecto al resultado de dicha prueba (o bien, de la medición de que se trate) con respecto al grupo al cual pertenecen. Por consiguiente, es necesario utilizar varios procedimientos estadísticos, los cuales serán útiles para describir el puntaje o calificación de un individuo particular en relación con otros valores.
Un procedimiento muy adecuado para la comprensión global de los datos obtenidos en un test psicológico o en una prueba de conocimientos, comprensión, etc., es determinar los denominados centiles. El centil de una distribución es el valor dado abajo del cual queda el porcentaje indicado de los valores del conjunto. Un centil indica, entonces, la posición de un puntaje en una distribución porcentual (o en términos de porcentajes). Por ejemplo, si un estudiante obtuvo una calificación que fue más alta que el 70% de los puntajes en la distribución de estas calificaciones, pero no superior al 71%, el centil correspondiente será entonces el de número 70. En otras palabras a tal estudiante le corresponde el "70º (septuagésimo) centil".
Cuando se emplea el término centil, se refiera siempre a un punto en una distribución de puntajes o valores, por abajo del cual queda un porcentaje dado en los casos; así, el centil 45 de un conjunto total de 100 puntos, es un valor o punto por debajo del cual quedan 45 calificaciones. Un centil se representa por (o por si se utiliza el término porcentil).
Para encontrar cuartiles y porcentiles puede emplearse el mismo razonamiento que se usa para la mediana. El primer cuartil (notación:) es el número mayor que 25 por 100 de las puntuaciones (y menor que 75 por 100 ). El segundo cuartil, , es la media. El tercer cuartil, , es mayor que 75 por 100 de las puntuaciones. El porcentil 60 (notación ) es mayor que 60 por de las puntuaciones (y menor que 40 por 100). Adviértase que
Los cuartiles y porcentiles se llaman también medidas de localización.
Si se ordenan por rango ocho resultados o números, será mayor que 2 y menor que 6; el primer cuartil estará a mitad de la distancia entre la segunda y la tercera puntuaciones. Si es entero, entonces está a mitad de la distancia entre esta puntuación y la inmediata superior. Si no es entero, se acostumbra redondearlo para encontrar . Por ejemplo: si n = 50, será el decimotercer número después de que se colocan en orden creciente, pues 50/4=12.5, que se redondea a 13. Doce números son menores y 37 son mayores. Sin embargo, si se imagina que el decimotercer número está por mitad en cada grupo, habrá 12.5 por debajo 37.5 por arriba de .
y se estiman de la misma manera: multiplíquese respectivamente. Si el resultado es entero, elíjase el número a mitad de la distancia entre esta cifra y la siguiente; de lo contrario, redondéese.
Ejemplo 1
Noventa cifras se disponen en orden creciente. Encontrar: (a), (b) (c) (d) .
(a) es la vigésima tercera cifra.
(b) es la cifra sexagésima octava.
(c) está a mitad de la distancia entre las cifras quincuagésima cuarta y quincuagésima quinta.
(d) es la decimoquinta cifra.
El rango porcentil de un conjunto de números es el porcentaje de números o puntuaciones que son menores. Si 75 es la puntuación 349 en una lista de 400 cifras dispuestas en orden creciente, habrá 348 cifras menores; por 100 son menores que 75; el rango porcentil de la puntuación de 75 es 87.
Ejemplo 2
Un estudiante de secundaria tiene calificación promedio de 92.5; ocupa el decimosexto lugar en un grupo de 300. ¿Cuál es el rango porcentil?
Tiene mejores calificaciones que 300 - 16 = 284 en todo el grupo. El rango porcentil es .
Tómese en cuenta la relación que existe entre los centiles, los deciles, los cuartiles, y la mediana; su relación se representa en forma sinóptica en la siguiente forma:
Cuartil 1: = = (porcentil 25 o 25º. centil).
Cuartil 2: = = = = Me (porcentil 50 o 50º, centil, decil 5, o mediana)
Cuartil 3: = = (porcentil 75 o 75º. centil).
La ojiva de Galton (el polígono de frecuencias relativas acumuladas) se puede utilizar, en un análisis exploratorio, para ubicar cualquier cuantil (cuartiles, deciles, centiles o la mediana) en una distribución dada.
Ejemplo: En el caso de la siguiente ojiva, encontrar:
(a) El centil del puntaje 49.5.
(b) El puntaje correspondiente a o .
(c) La mediana.
2.1.2 El área bajo una curva
Enseguida, graficaremos una función en un intervalo [a,b] y se mostrará el área contenida entre su gráfica y el eje x en el intervalo dado. Observa la siguiente gráfica.
f(x)= x2 + 1 en el intervalo cerrado [1,5]
Igual que con el problema de la tangente, empezaremos por hacer aproximaciones. Aproximaremos el área bajo la curva con el área de ciertos rectángulos.
Observa las siguientes gráficas:
Como pudiste ver en las gráficas anteriores, con los primeros rectángulos estamos sobreestimando el valor del área y con los segundos rectángulos la estamos subestimando.
A continuación calcularemos aproximaciones cada vez mejores, tomando cada vez más y más rectángulos.
Error, sesgo
TEMA
INSTRUMENTALESINTRODUCTORIOS
Medición de variables, error de medición y sesgoUn atributo impl�cito a toda variable es la susceptibilidad a ser medida. Revisaremos brevemente las dificultades que derivan de este requisito y que pueden determinar la ocurrencia de error en su medición.
Error de mediciónDefinición : Entenderemos por error de medición a la diferencia existente entre el valor obtenido al medir una variable con relación a su valor real y objetivo.
Se puede producir error de medición por causas que determinan su ocurrencia en forma aleatoria (error aleatorio) o bien ser efecto de un error que ocurre en forma sistem�tica (sesgo).
El concepto de error de medición se visualiza f�cilmente cuando el ejemplo se refiere a situaciones experimentales u otras condiciones de medición propias de las ciencias b�sicas.En salud pública la ocurrencia de error adopta caracter�sticas peculiares, desde el momento en que se miden variables en una dimensión poblacional, adem�s de la individual. Se�alaremos algunas de las fuentes m�s importantes de error de medición:
1) A partir de la variable en observación
Periodicidad (variabilidad en la observación): el suceso observado puede seguir un patrón irregular a lo largo del tiempo, sea distribuyéndose uniformemente en el tiempo o concentr�ndose en per�odos o ciclos. El conocimiento de esta caracter�stica es importante en sucesos biológicos que presentan ciclos conocidos (ritmo circadiano, ondas electroencefalogr�ficas, temperatura corporal, accidentes laborales, etc).
Naturaleza de la medición:Tanto para variables cuantitativas como cualitativas puede haber dificultad para medir la magnitud o valor de una variable, sea porque la magnitud de valores es peque�a (determinaciones hormonales) o por la naturaleza del fenómeno en observación (estado mental, satisfacción con la atención recibida).
Condiciones de la observación:determinados sucesos requieren de condiciones especiales para que su ocurrencia sea posible. Estas condiciones son bien conocidas en el terreno de las ciencias b�sicas, no as� al considerar grupos humanos y situaciones de no-experimentación (ej. Temperatura, humedad).
Errores en la clasificación de determinados eventos (por ejemplo, enfermedades), producto de modificaciones en la nomenclatura utilizada, situación que debe ser advertida por el investigador (ej.: diferentes definiciones operacionales de hipertensión arterial, diferentes códigos de clasificación de enfermedades o cambios en la clasificación de enfermedades).
La medida de tendencia central más ampliamente usada es la media aritmética, usualmente abreviada como la media y denotada por (léase como "X barra").
La media aritmética para datos no agrupados
Si se dispone de un conjunto de n números, tales como X1, X2, X3,…,Xn, la media aritmética de este conjunto de datos se define como "la suma de los valores de los ni números , divididos entre n", lo que usando los símbolos explicados anteriormente , puede escribirse como:
Ejemplo:
Se tienen las edades de cinco estudiantes universitarios de Ier año, a saber: 18,23, 27,34 y 25., para calcular la media aritmética (promedio de las edades, se tiene que:
La media aritmética para datos agrupados
Si los datos se presentan en una tabla de distribución de frecuencias, no es posible conocer los valores individuales de cada una de las observaciones, pero si las categorías en las cuales se hallan. Para poder calcular la media, se supondrá que dentro de cada categoría, las observaciones se distribuyen uniformemente dentro alrededor del punto medio de la clase, por lo tanto puede considerarse que todas las observaciones dentro de la clase ocurren en el punto medio, por lo expuesto la media aritmética para datos agrupados puede definirse de la siguiente manera:
Si en una tabla de distribución de frecuencia, con r clases, los puntos medio son: X1, X2, X3,…,Xn; y las respectivas frecuencias son f1, f2, f3, … , fn, la media aritmética se calcula de la siguiente manera:
donde: N = número total de observaciones, por tanto Σfi puede simplificarse y escribirse como N ( N= Σfi )
Ejemplo:
Si se toman los datos del ejemplo resuelto al construir la tabla de distribución de frecuencia de las cuentas por cobrar de Cabrera’s y Asociados que fueron los siguientes:
Clases 1 2 3 4 5 6
Puntos Medios (Xi) 14,628 29,043 43.458 57,873 72.288 86.703
Frecuencias (fi) 10 4 5 3 3 5
1.3.- La Mediana (X0.5):
Cuando una serie de datos contiene uno o dos valores muy grandes o muy pequeños, la media aritmética no es representativa. El valor central en tales problemaspuede ser mejor descrito usando una medida de tendencia central llamada mediana., y denotada por X0.5
La mediana es una medida de posición y se define como la posición central en el arreglo ordenado de la siguiente manera:
Dado un conjunto de números agrupados en orden creciente de magnitud, la mediana es el número colocado en el centro del arreglo, de tal forma que una mitad de las observaciones está por encima y la otra por debajo de dicho valor. Si el número de observaciones es par, la mediana es la media de los dos valores que se hallan en el medio del arreglo, de donde se concluye en la siguiente definición:
Mediana. Es el punto medio de los valores de una serie de datos después de haber sido ordenados de acuerdo a su magnitud. Hay tantos valores antes que la mediana como posteriores en el arreglo de datos
La Mediana para datos no agrupados.
Sea X1, X2; X3; … ; Xn; una sucesión de datos, la mediana denotada por X0.5 se calcula de la siguiente manera:
X0.5 = X (n+1)/2 si n es par
Xn/2 + X(n/2)+1
X0.5= ---------------------- si n es impar
2
Nota: El resultado obtenido en la formula corresponde al número de la observación en el arreglo, por tanto debe reemplazarse por el valor de dicha variable en el arreglo.
1.3.- La Moda (Mo.):
A veces es importante conocer cuál es el valor que más prevalece en el conjunto de datos. El valor que ocurre con más frecuencia se le conoce como moda. La moda es la medida de tendencia central especialmente útil para describir mediciones de tipo ordinal, de intervalos y nominal.
En un conjunto de números la moda se define como el valor ó número que ocurre con más frecuencia
Ejemplo:
En el siguiente conjunto de números 1, 5, 5, 9, 12, 12, 12, 14. La moda es igual a 12, por cuanto que es el número que más se repite (tres veces)
La Moda para datos agrupados (Mo.):
La Moda puede deducirse de una distribución de frecuencia o de un histograma a partir de la fórmula.
Mo. = Li + [ ( ∆1 / ∆1+∆2 ) ] C
Donde;
Li = límite inferior de la clase modal (clase de mayor frecuencia absoluta (fa)
∆1 = diferencia de las frecuencias absolutas de la clase modal y premodal.
∆2 = diferencia de las frecuencias absolutas de la clase modal y postmodal
C = amplitud de la clase modal.
1.6.-La Media Geométrica(g):
Se define como la raíz de índice de la frecuencia total cuyo radicando es el producto de las potencias de cada valor de la variable elevado a sus respectivas frecuencias absolutas, se denota por g; suele utilizarse cuando los valores de la variable siguen una progresión geométrica. También para promediar porcentajes, tasas, nº índices, etc. siempre que nos vengan dados en porcentajes y se calcula mediante la siguiente fórmula
g = n√(X1 * X2 * … * Xn
Fórmula que algunas veces es conveniente expresarla en forma logarítmica. El logaritmo de la media geométrica es la media aritmética de los logaritmos de los valores de la variable. El problema se presenta cuando algún valor es 0 ó negativo y exponente de la raíz par ya que no exista raíz par de un número negativo, entonces la fórmula anterior se presenta de la siguiente manera:
log Xg = 1/N (log X1 + log X2 + … + log Xn)
Ejemplo;
Encontrar la media de los siguientes números 2, 4, 8. obsérvese que entre ellos existe una razón o proporción constante, cada uno de ellos es el doble del anterior, por tanto la media a utilizar es la media geométrica, de la siguiente manera
g = 3√ (2) (4) (8) = 3√ 64 = 4
Respuesta: la media geométrica de los datos es 4
Las medidas de dispersión muestran la variabilidad de una distribución, indicando por medio de un número si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.
Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma de las desviaciones es siempre cero, así que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (Desviación media) y otra es tomando las desviaciones al cuadrado (Varianza).
Rango [editar]
El rango estadístico es la diferencia entre el valor mínimo y el valor máximo en un grupo de números. Para averiguar el rango de un grupo de números:
Ordenamos los números según su tamaño.
Restamos el valor mínimo del valor máximo. ejemplo=
-->x= [7 10 12 4 8 7 3 8]x =
7. 10. 12. 4. 8. 7. 3. 8.
-->strange(x)ans =
9.
-->_
Primero hemos declarado un vector con nombre X, donde introduzco los números de la serie. Luego con el comando strange hallará el rango.
Varianza = La varianza es una variable estadística que mide la dispersión de los valores respecto a un valor central (media), es decir, la media de las diferencias cuadráticas del las puntuaciones respecto a su media aritmética.
Propiedades=
La varianza es siempre positiva o 0:
Si a los datos de la distribución les sumamos una cantidad constante la varianza no se modifica.
Yi = Xi + k
Si a los datos de la distribución les multiplicamos una constante, la varianza queda multiplicada por el cuadrado de esa constante.
Propiedad distributiva: V(X + Y) = V(X) + V(Y)
Las anteriores imágenes muestran como se puede utilizar un programa informático como Scilab para calcular la varianza.
Para comenzar hay que introducir los datos en un vector o matriz de la forma: Nombre_variable=[ datos separados por espacios ]. Una vez introducidos los datos, se calcula la varianza con el comando: variance(nombre_variable)
Desviación Típica [editar]
La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadráticas. Para evitar ese problema se define otra medida de dispersión, que es la desviación típica, que se halla como la raíz cuadrada positiva de la varianza. La desviación típica nos informa sobre la dispersión de los datos respecto al valor de la media; cuanto mayor sea su valor, más dispersos estarán los datos.
Desviación típica muestral:
Desviación típica poblacional:
Ejemplo [editar]
Con Scilab este calculo se hace de la siguiente manera:-->x= [17 14 2 5 8 7 6 8 5 4 3 15 9]
x =
17. 14. 2. 5. 8. 7. 6. 8. 5. 4. 3. 15. 9.
-->stdev(x)
ans =
4.716311
-->
Primero hemos declarado un vector con nombre X, donde introduzco los números de la serie. Luego con el comando stdev se hallará la desviación típica.
Covarianza [editar]
La covarianza entre dos variables es un estadístico resumen indicador de si las puntuaciones están relacionadas entre sí. La formulación clásica, se simboliza por la letra griega sigma (\sigma_{xy}) cuando ha sido calculada en la población. Si se obtiene sobre una muestra, se designa por la letra "s_{xy}".
La formula suele aparecer expresada como:
Este tipo de estadístico puede utilizarse para medir el grado de relación de dos variables si ambas utilizan una escala de medida a nivel de intervalo/razón (variables cuantitativas).
La expresión se resuelve promediando el producto de las puntuaciones diferenciales por su tamaño muestral (n pares de puntuaciones, n-1 en su forma insesgada). Este estadístico, refleja la relación lineal que existe entre dos variables. El resultado numérico fluctua entre los rangos de +infinito a -infinito. Al no tener unos límites establecidos no puede determinarse el grado de relación lineal que existe entre las dos variables, solo es posible ver la tendencia.
0, & \mbox{Correlaci}\acute{o}\mbox{n directa. Recta de regresi}\acute{o}\mbox{n creciente.} \\ = 0, & \mbox{No hay correlaci}\acute{o}\mbox{n.} \\
Ejemplo [editar]
Tenemos una tabla con dos datos (x y h), elaboramos su tabla de frecuencias (fre)-->x=[10 20 30 40] Vector de datos X
x =
10. 20. 30. 40.
-->y=[10 20 30 40] Vector de datos H
y =
10. 20. 30. 40.
-->fre=[.20 .04 .01 0; Matriz de frecuencias
--> .10 .36 .09 0;
--> 0 .05 .10 0;
--> 0 0 0 .05]
fre =
0.2 0.04 0.01 0.
0.1 0.36 0.09 0.
0. 0.05 0.1 0.
0. 0. 0. 0.05
-->s=covar(x,y,fre) Aplicación del Comando covar
s =
49.
Coeficiente de Correlación de Pearson [editar]
El coeficiente de correlación de Pearson, r, nos permite saber si el ajuste de la nube de puntos a la recta de regresión obtenida es satisfactorio. Se define como el cociente entre la covarianza y el producto de las desviaciones típicas (raíz cuadrada de las varianzas).
Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar mediante cualquiera de las dos expresiones siguientes:
Propìedades [editar]
El coeficiente de correlación, r, presenta valores entre –1 y +1.
Cuando r es próximo a 0, no hay correlación lineal entre las variables. La nube de puntos está muy dispersa o bien no forma una línea recta. No se puede trazar una recta de regresión.
Cuando r es cercano a +1, hay una buena correlación positiva entre las variables según un modelo lineal y la recta de regresión que se determine tendrá pendiente positiva, será creciente.
Cuando r es cercano a -1, hay una buena correlación negativa entre las variables según un modelo lineal y la recta de regresión que se determine tendrá pendiente negativa: es decreciente.
I. DIAGRAMA DE ARBOL.
Un diagrama de árbol es una representación gráfica de un experimento que consta de r pasos, donde cada uno de los pasos tiene un número finito de maneras de ser llevado a cabo.
Ejemplos:
1.Un médico general clasifica a sus pacientes de acuerdo a: su sexo (masculino o femenino), tipo de sangre (A, B, AB u O) y en cuanto a la presión sanguínea (Normal, Alta o Baja). Mediante un diagrama de árbol diga en cuantas clasificaciones pueden
estar los pacientes de este médico?
N
Solución: A
A B
N
B A
B
M AB N
A
O B
A
N
F B A
B
AB
B
O A
B
Si contamos todas las ramas terminales, nos damos cuenta que el número de clasificaciones son 2 x 4 x 3 = 24 mismas que podemos enumerar;
MAN, MAA, MAB, MBN, MBA, MBB, etc, etc.
1) Dos equipos denominados A y B se disputan la final de un partido de baloncesto, aquel equipo que gane dos juegos seguidos o complete un total de tres juegos ganados será el que gane el torneo. Mediante un diagrama de árbol diga de cuantas maneras puede ser ganado este torneo,
Solución:
A = gana el equipo A
B = gana el equipo B
A
A
A A
B A
B
B B
A
A A
A
B B B
B
B
En este diagrama se muestran que hay solo diez maneras de que se gane el torneo, que se obtienen contando las ramas terminales de este diagrama de árbol, las que es posible enumerar;
AA, ABB, ABAA, ABABA, ABABB, etc, etc.
2) Un hombre tiene tiempo de jugar ruleta cinco veces como máximo, él empieza a jugar con un dólar, apuesta cada vez un dólar y puede ganar o perder en cada juego un dólar, él se va a retirar de jugar si pierde todo su dinero, si gana tres dólares (esto es si completa un total de cuatro dólares) o si completa los cinco juegos, mediante un diagrama de árbol, diga cuántas maneras hay de que se efectué el juego de este hombre.
Solución:
$4 G $4
G $3
$3 G
G P $2
P G$3
$2 P
$1 P $0
$3 G $4
$2 G
$1 G $2
G P $2
G $2
P P
$1 P $1
P $0 P $0
$0
Si contamos las ramas terminales nos daremos cuenta que hay 11 maneras de que este hombre lleve a cabo sus apuestas, en este diagrama se han representado los cinco juegos o apuestas que este hombre tiene tiempo de jugar.
Diagrama de caja
De Wikipedia, la enciclopedia libre
Saltar a navegación, búsqueda
Diagrama de caja (Box-Plot)
Un diagrama de caja es un gráfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos.
En un gráfico que se suministra información sobre la mediana, El cuartil Q1 y Q3, sobre la existencia de atípicos y la simetría de la distribución.
Como dibujarlo [editar]
Ordenar los datos y obtener el valor mínimo, el máximo, y los cuartiles Q1, Q2 y Q3.
Dibujar un rectángulo con Q1 y Q3 como extremos e indicar la posición de la mediana (Q2) mediante una línea.
Calcular los límites superior e inferior, Li y Ls, que identifiquen a los valores atípicos.
Considerar como atípicos los puntos localizados fuera del intervalo (Li, Ls).
Dibujar las líneas que van desde cada extremo del rectángulo central hasta el valor más alejado no atípico.
Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).
Utilidades [editar]
Proporcionan una visión general de la simetría de la distribución de los datos, si la media no está en el centro del rectángulo, la distribución no es simétrica.
Son útiles para ver la presencia de valores atípicos.
Sumatorio
De Wikipedia, la enciclopedia libre
Saltar a navegación, búsqueda
Una sumatoria nos permite representar sumas muy grandes, de n sumandos o incluso sumas infinitas y se expresa con la letra griega sigma ( Σ ) .
Una sumatoria se define como:
La variable i es el índice de suma al que se le asigna un valor inicial llamado límite inferior, m. La variable i recorrerá los valores enteros hasta alcanzar el límite superior, n. Necesariamente ha de cumplirse:
Por ejemplo si queremos expresar la suma de los diez primeros números naturales podemos hacerlo así con una sumatoria:
Las sumatorias son útiles para expresar sumas arbitrarias de números, por ejemplo en fórmulas: así, si queremos representar la «fórmula» para hallar la media aritmética de n números:
Medidas de posición
Cuartiles, deciles y centiles
Un conjunto de puntajes o mediciones puede dividirse en un cierto número de partes iguales mediante la selección de valores que correspondan a una posición determinada en dicho conjunto. Por ejemplo, la mediana divide a un conjunto de valores dados en dos partes iguales, y su posición es, en consecuencia, a la mitad del mismo. De manera que 50% de los puntajes quedan a uno u otro lado valor estadístico.
En general, se llaman cuantiles (o "cuantilas") a estos valores con posición divisora determinada. Pueden considerarse los siguientes cuantiles, además de la mediana:
a) cuartil (o "cuartila")
b) decil (o "decila")
c) centil (o "centila")
que son respectivamente, los cuantiles que corresponden a la división en 4, 10, y 100 partes iguales del conjunto dado. A continuación se describen estos valores característicos.
Cuartiles. Son los puntos que dividen a una distribución de valores en cuatro porciones iguales o intervalos. Se representan por , , y se ilustran en el esquema siguiente:
Deciles. Son los cuantiles que dividen una distribución en 10 tantos o intervalos, por lo que se tienen 9 puntos de división, los deciles, que originan los 10 intervalos.
Los deciles, que se representan por pueden ser marcados en una gráfica como la siguiente:
Centiles o porcentiles. *Generalmente los puntajes no elaborados o burdos (los que se obtienen en forma directa al aplicar una prueba psicológica o, en general, cualquier medición), no indican nada en lo relativo al desempeño de las personas, y del lugar que ocupan con respecto al resultado de dicha prueba (o bien, de la medición de que se trate) con respecto al grupo al cual pertenecen. Por consiguiente, es necesario utilizar varios procedimientos estadísticos, los cuales serán útiles para describir el puntaje o calificación de un individuo particular en relación con otros valores.
Un procedimiento muy adecuado para la comprensión global de los datos obtenidos en un test psicológico o en una prueba de conocimientos, comprensión, etc., es determinar los denominados centiles. El centil de una distribución es el valor dado abajo del cual queda el porcentaje indicado de los valores del conjunto. Un centil indica, entonces, la posición de un puntaje en una distribución porcentual (o en términos de porcentajes). Por ejemplo, si un estudiante obtuvo una calificación que fue más alta que el 70% de los puntajes en la distribución de estas calificaciones, pero no superior al 71%, el centil correspondiente será entonces el de número 70. En otras palabras a tal estudiante le corresponde el "70º (septuagésimo) centil".
Cuando se emplea el término centil, se refiera siempre a un punto en una distribución de puntajes o valores, por abajo del cual queda un porcentaje dado en los casos; así, el centil 45 de un conjunto total de 100 puntos, es un valor o punto por debajo del cual quedan 45 calificaciones. Un centil se representa por (o por si se utiliza el término porcentil).
Para encontrar cuartiles y porcentiles puede emplearse el mismo razonamiento que se usa para la mediana. El primer cuartil (notación:) es el número mayor que 25 por 100 de las puntuaciones (y menor que 75 por 100 ). El segundo cuartil, , es la media. El tercer cuartil, , es mayor que 75 por 100 de las puntuaciones. El porcentil 60 (notación ) es mayor que 60 por de las puntuaciones (y menor que 40 por 100). Adviértase que
Los cuartiles y porcentiles se llaman también medidas de localización.
Si se ordenan por rango ocho resultados o números, será mayor que 2 y menor que 6; el primer cuartil estará a mitad de la distancia entre la segunda y la tercera puntuaciones. Si es entero, entonces está a mitad de la distancia entre esta puntuación y la inmediata superior. Si no es entero, se acostumbra redondearlo para encontrar . Por ejemplo: si n = 50, será el decimotercer número después de que se colocan en orden creciente, pues 50/4=12.5, que se redondea a 13. Doce números son menores y 37 son mayores. Sin embargo, si se imagina que el decimotercer número está por mitad en cada grupo, habrá 12.5 por debajo 37.5 por arriba de .
y se estiman de la misma manera: multiplíquese respectivamente. Si el resultado es entero, elíjase el número a mitad de la distancia entre esta cifra y la siguiente; de lo contrario, redondéese.
Ejemplo 1
Noventa cifras se disponen en orden creciente. Encontrar: (a), (b) (c) (d) .
(a) es la vigésima tercera cifra.
(b) es la cifra sexagésima octava.
(c) está a mitad de la distancia entre las cifras quincuagésima cuarta y quincuagésima quinta.
(d) es la decimoquinta cifra.
El rango porcentil de un conjunto de números es el porcentaje de números o puntuaciones que son menores. Si 75 es la puntuación 349 en una lista de 400 cifras dispuestas en orden creciente, habrá 348 cifras menores; por 100 son menores que 75; el rango porcentil de la puntuación de 75 es 87.
Ejemplo 2
Un estudiante de secundaria tiene calificación promedio de 92.5; ocupa el decimosexto lugar en un grupo de 300. ¿Cuál es el rango porcentil?
Tiene mejores calificaciones que 300 - 16 = 284 en todo el grupo. El rango porcentil es .
Tómese en cuenta la relación que existe entre los centiles, los deciles, los cuartiles, y la mediana; su relación se representa en forma sinóptica en la siguiente forma:
Cuartil 1: = = (porcentil 25 o 25º. centil).
Cuartil 2: = = = = Me (porcentil 50 o 50º, centil, decil 5, o mediana)
Cuartil 3: = = (porcentil 75 o 75º. centil).
La ojiva de Galton (el polígono de frecuencias relativas acumuladas) se puede utilizar, en un análisis exploratorio, para ubicar cualquier cuantil (cuartiles, deciles, centiles o la mediana) en una distribución dada.
Ejemplo: En el caso de la siguiente ojiva, encontrar:
(a) El centil del puntaje 49.5.
(b) El puntaje correspondiente a o .
(c) La mediana.
2.1.2 El área bajo una curva
Enseguida, graficaremos una función en un intervalo [a,b] y se mostrará el área contenida entre su gráfica y el eje x en el intervalo dado. Observa la siguiente gráfica.
f(x)= x2 + 1 en el intervalo cerrado [1,5]
Igual que con el problema de la tangente, empezaremos por hacer aproximaciones. Aproximaremos el área bajo la curva con el área de ciertos rectángulos.
Observa las siguientes gráficas:
Como pudiste ver en las gráficas anteriores, con los primeros rectángulos estamos sobreestimando el valor del área y con los segundos rectángulos la estamos subestimando.
A continuación calcularemos aproximaciones cada vez mejores, tomando cada vez más y más rectángulos.
Error, sesgo
TEMA
INSTRUMENTALESINTRODUCTORIOS
Medición de variables, error de medición y sesgoUn atributo impl�cito a toda variable es la susceptibilidad a ser medida. Revisaremos brevemente las dificultades que derivan de este requisito y que pueden determinar la ocurrencia de error en su medición.
Error de mediciónDefinición : Entenderemos por error de medición a la diferencia existente entre el valor obtenido al medir una variable con relación a su valor real y objetivo.
Se puede producir error de medición por causas que determinan su ocurrencia en forma aleatoria (error aleatorio) o bien ser efecto de un error que ocurre en forma sistem�tica (sesgo).
El concepto de error de medición se visualiza f�cilmente cuando el ejemplo se refiere a situaciones experimentales u otras condiciones de medición propias de las ciencias b�sicas.En salud pública la ocurrencia de error adopta caracter�sticas peculiares, desde el momento en que se miden variables en una dimensión poblacional, adem�s de la individual. Se�alaremos algunas de las fuentes m�s importantes de error de medición:
1) A partir de la variable en observación
Periodicidad (variabilidad en la observación): el suceso observado puede seguir un patrón irregular a lo largo del tiempo, sea distribuyéndose uniformemente en el tiempo o concentr�ndose en per�odos o ciclos. El conocimiento de esta caracter�stica es importante en sucesos biológicos que presentan ciclos conocidos (ritmo circadiano, ondas electroencefalogr�ficas, temperatura corporal, accidentes laborales, etc).
Naturaleza de la medición:Tanto para variables cuantitativas como cualitativas puede haber dificultad para medir la magnitud o valor de una variable, sea porque la magnitud de valores es peque�a (determinaciones hormonales) o por la naturaleza del fenómeno en observación (estado mental, satisfacción con la atención recibida).
Condiciones de la observación:determinados sucesos requieren de condiciones especiales para que su ocurrencia sea posible. Estas condiciones son bien conocidas en el terreno de las ciencias b�sicas, no as� al considerar grupos humanos y situaciones de no-experimentación (ej. Temperatura, humedad).
Errores en la clasificación de determinados eventos (por ejemplo, enfermedades), producto de modificaciones en la nomenclatura utilizada, situación que debe ser advertida por el investigador (ej.: diferentes definiciones operacionales de hipertensión arterial, diferentes códigos de clasificación de enfermedades o cambios en la clasificación de enfermedades).
Suscribirse a:
Entradas (Atom)