miércoles, 25 de junio de 2008

Concepto de regresion y correlacion y algunos ejemplos

REGRESION Y CORRELACION

Este es un método por el cual nosotros podemos diferenciar o comparar un fenómeno con otro y tener una buena conclusión de lo que se esta tratando de estudiar.

Regresión: Realizar lo anterior para predecir el futuro.

Intercepto: Punto por el cual la grafica intercepta el eje Y.


Contradominio
Efecto
Dependiente










______________________
Independiente
Causa
Dominio





Ejemplos:

Altura = Dependiente
Edad = Independiente


Altura







Edad



Hora = Independiente
Temperatura = Dependiente

Hora








Temperatura


Estatura = Independiente
Calzado = Dependiente

Calzado








Estatura



Hijos = Dependiente
Padres = Independiente

Hijos








Padres



Salud = Dependiente Planta = Dependiente
Alimentación = Independiente Agua = Independiente

Salud Planta








Alimentación Agua





Automóvil = Dependiente
Gasolina = Independiente

Automóvil







Gasolina


Fuego = Dependiente
Fósforos = Independiente

Fuego







Fósforos

miércoles, 18 de junio de 2008

REGRESION Y CORRELACION

III BIMESTRE

REGRESION Y CORRELACION

Marco Teórico A fin de facilitar la comprensión del presente trabajo definiremos algunos conceptos basicos.Análisis de Correlación .- Es el conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables.El principal objetivo del análisis de correlación consiste en determinar que tan intensa es la relación entre dos variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersión.Diagrama de Dispersión.- es aquel grafico que representa la relación entre dos variables.Variable Dependiente.- es la variable que se predice o calcula. Cuya representación es "Y"Variable Independiente.- es la variable que proporciona las bases para el calculo. Cuya representación es: X1,X2,X3.......Coeficiente de Correlación.- Describe la intensidad de la relación entre dos conjuntos de variables de nivel de intervalo. Es la medida de la intensidad de la relación lineal entre dos variables.El valor del coeficiente de correlación puede tomar valores desde menos uno hasta uno, indicando que mientras más cercano a uno sea el valor del coeficiente de correlación, en cualquier dirección, más fuerte será la asociación lineal entre las dos variables. Mientras más cercano a cero sea el coeficiente de correlación indicará que más débil es la asociación entre ambas variables. Si es igual a cero se concluirá que no existe relación lineal alguna entre ambas variables. Análisis de regresión.- Es la técnica empleada para desarrollar la ecuación y dar las estimaciones.Ecuación de Regresión.- es una ecuación que define la relación lineal entre dos variables.Ecuación de regresión Lineal: Y’ = a + BxEcuación de regresión Lineal Múltiple: Y’ = a + b1X1 + b2X2 + b3X3...Principio de Mínimos Cuadrados.- Es la técnica empleada para obtener la ecuación de regresión, minimizando la suma de los cuadrados de las distancias verticales entre los valores verdaderos de "Y" y los valores pronosticados "Y".Análisis de regresión y Correlación Múltiple.- consiste en estimar una variable dependiente, utilizando dos o más variables independientes.
Ecuación de regresión Múltiple.- La forma general de la ecuación de regresión múltiple con dos variables independientes es:

Y' = a + b1X1 + b2X2
X1,X2 : Variables Independientes
a : es la ordenada del punto de intersección con el eje Y.b1 : Coeficiente de Regresión (es la variación neta en Y por cada unidad de
variación en X1.).b2 : Coeficiente de Regresión (es el cambio neto en Y para cada cambio
unitario en X2).Prueba Global.- esta prueba investiga básicamente si es posible que todas las variables independientes tengan coeficientes de regresión neta iguales a 0.

Desarrollo de un Caso.Una agencia de Viajes desea saber la relación que hay entre las ventas, el presupuesto destinado a publicidad, y las comisiones de los vendedores para esto presenta los siguientes datos. ANÁLISIS DE DATOS:Se van a utilizar las siguientes variables:Variables Independientes:1.- Gastos de Publicidad
2.- Comisión de vendedores
Variable dependiente:- Ventas Utilizando el Excel obtenemos los siguientes datos.

Estadísticas de la Regresión
Coeficiente de correlación múltiple
0.92092
Coeficiente de determinación R2
0.84810
R2 ajustado
0.69619
Error típico
54887.83156
Observaciones
5
De aquí se puede decir:- De acuerdo al valor del coeficiente de correlación múltiple, podemos afirmar que la variable X1 (Gastos de Publicidad) y X2 (Comisión de vendedores) se encuentran asociadas en forma directa de una manera muy fuerte con la variable dependiente Ventas, en un 92%.- De acuerdo al Coeficiente de determinación R2, podemos decir que el 85% de las ventas pueden ser explicadas por los gastos de publicidad y las comisiones de los vendedores.

A N Á L I S I S D E V A R I A N Z A
Grados de libertad
Suma de cuadrados
Prom. de los cuadrados
F
Valor crítico de F
Regresión
2
33640459893
16820229947
5.5832
0.15190282
Residuos
2
6025348107
3012674053
Total
4
39665808000



Coeficientes
Error típico
Estadístico t
Probab.
Inf. 95%
Sup. 95%
Inferior 95.0%
Sup. 95.0%
Intercepción
-289315.16
242459.39
-1.193
0.35513
-1332534.446
753904.118
-1332534.446
753904.118
GSTOS DE PUBLICID.
1123.49
336.22
3.342
0.07908
-323.1275965
2570.108
-323.128
2570.108
COM. DE VENDED.
-2.27
6.55
-0.346
0.76245
-30.45400257
25.922
-30.454
25.922
De aquí se desprende la ecuación de regresión múltiple:

Y = - 289315 + 1123 X1 - 2.27 X2
Prueba Global: Verificación de la validez del modelo de regresión Múltiple.Formulación de Hipótesis:Hp: B1 = B2 = 0Ha: B1 B2 0
Si se acepta la hipótesis planteada, significa que ninguno de los factores (X1,X2) son relevantes para explicar los cambios en Y.De acuerdo a la tabla de análisis de la varianza F calculado es 5.58 y el p-valor es 0.15, de lo cual podemos decir que La hipótesis planteada se rechaza y se acepta la hipótesis alternativa, por que el F calculado es mayor que el p-valor.Hasta ahora se ha demostrado que algunos, pero no necesariamente todos los coeficientes de regresión, no son iguales a cero y, por o tanto son útiles para las predicciones. El siguiente paso consiste en probar individualmente las variables para determinar cuales coeficientes de regresión pueden ser cero y cuales no.


Regresión y Correlación
La regresión y la correlación son dos técnicas estrechamente relacionadas y comprenden una forma de estimación.
En forma más especifica el análisis de correlación y regresión comprende el análisis de los datos muestrales para saber que es y como se relacionan entre si dos o mas variables en una población. El análisis de correlación produce un número que resume el grado de la correlación entre dos variables; y el análisis de regresión da lugar a una ecuación matemática que describe dicha relación.
El análisis de correlación generalmente resulta útil para un trabajo de exploración cuando un investigador o analista trata de determinar que variables son potenciales importantes, el interés radica básicamente en la fuerza de la relación. La correlación mide la fuerza de una entre variables; la regresión da lugar a una ecuación que describe dicha relación en términos matemáticos
Los datos necesarios para análisis de regresión y correlación provienen de observaciones de variables relacionadas.
Regresión lineal
La regresión lineal simple comprende el intento de desarrollar una línea recta o ecuación matemática lineal que describe la reacción entre dos variables.
La regresión puede utilizadas de diversas formas. Se emplean en situaciones en la que las dos variables miden aproximadamente lo mismo, pero en las que una variable es relativamente costosa, o, por el contrario, es poco interesante trabajar con ella, mientras que con la otra variable no ocurre lo mismo.
La finalidad de una ecuación de regresión seria estimar los valores de una variable con base en los valores conocidos de la otra.
Otra forma de emplear una ecuación de regresión es para explicar los valores de una variable en término de otra. Es decir se puede intuir una relación de causa y efecto entre dos variables. El análisis de regresión únicamente indica qué relación matemática podría haber, de existir una. Ni con regresión ni con la correlación se pude establecer si una variable tiene “causa “ciertos valores de otra variable.
Ecuación Lineal
Dos características importantes de una ecuación lineal
la independencia de la recta
la localización de la recta en algún punto. Una ecuación lineal tiene la forma
y = a + bx
En la que a y b son valores que se determina a partir de los datos de la muestra; a indica la altura de la recta en x= 0, y b señala su pendiente. La variable y es la que se habrá de predecir, y x es la variable predictora.
Determinación de la ecuación matemática
En la regresión, los valores de y son predichos a partir de valores de x dados o conocidos. La variable y recibe le nombre variable dependiente y la variable x, el de variable independiente.
Métodos de mínimos cuadrados
EL procedimiento mas utilizado por adaptar una recta aun conjunto de punto se le que conoce como método de mínimos cuadrados. La recta resultante presenta 2 característica importantes
es nula la suma desviaciones verticales en los puntos a partir de la recta
es mínima la suma de los cuadrados de dicha desviaciones

(yi - yc)2
En el cual
Yi = valor esperado de y
Yc= valor calculado de y utilizando la ecuación de mínimos cuadrados con el valor correspondientes x para yi
Los valores de a y b para la recta es Yc = a + bx que minimiza la suma de los cuadrados de la desviación “ecuaciones normales “
y = na + (x)
xy= a (x) +b (x2)
En las que n es el numero de pares de observaciones. Evaluando las cantidades x, y, etc. Se puede resolver estas dos ecuaciones simultáneamente para determinar a b. la ecuaciones puede despejarse. Se obtuvieron dos formulas aun para a y otra para b.
n(xy)- (x)(y)
b=
n(x2)-(x)2
y - b x
a=
n
Inferencia en el análisis de regresión
Los supuestos para el análisis de regresión son como:
Existen datos de medición para a x y z.
la variable dependiente es una variable aleatoria.
para cada valor de x, existe una distribución condicional de la qué es de naturaleza normal
la desviación estándar de toda las distribuciones condicionales son iguales
EL error estándar de estimación
La determinante primaria de la exactitud es el grado de dispersión de la población: cuanto mas dispersa este, menor será la exactitud de la estimación. El grado de dispersión en la población se puede estimar a partir del grado de dispersión en las observaciones de la muestra con respecto a la línea de regresión calculada, utilizando la formula.
Se = " (yi -yc)
n-2
en la cual:
yi = cada valor de y
yc = valor de línea de regresión correspondiente a partir de la ecuación de regresión.
n = números de observaciones.
La formula anterior no se utiliza por lo general para cálculos reales, es mas fácil trabajar con la formula simplificada
Se "y2 - a y - b xy
n - 2
Inferencia de acerca de la pendiente de una línea de regresión
Aun cuando es muy poca o nula relación entre dos variables de aun población, es posible obtener valores maestrales que hacen que parezca que la variables están relacionadas, es importantes probar los resultados tales de caculo, a fin determinar si son significativos (es decir si los parámetros verdaderos no son cero), Si no existe ninguna relación se esperaría obtener aun pendiente cero, se pone a prueba la hipótesis nula contra la hipótesis alternativa.
La significación del coeficiente de regresión se puede probar comparándolo con su desviación estándar
t = valor de la muestra - valor esperado
Desviación estándar
Análisis de regresión lineal múltiple
La regresión múltiple comprende tres o más variables. Existe solo una variable dependiente, pero hay dos o mas tipo independiente. Esta operación al desarrollo de una ecuación que se pede utilizar para predecir valore de y, respecto a valores dados de la diferencia variables independientes adicionales es incrementar la capacidad predicativa sobre la de la regresión lineal simple.
Las técnicas de los mínimos cuadrados se utilizan para obtener ecuaciones de regresión.
Yc= a +b1x1+b2x2+…bkxk
a = ordenada en el origen
b1= pendiente
k = numero de variables independientes
Un análisis de regresión simple de dos variable da lugar a la ecuación de una recta, un problema de tres variables produce un plano, y un problema de k variables implica un hiperplano de a
(k +1) dimensiones.
Análisis de Correlación
EL objetivo de un estudio de correlación es determinar la consistencia de una relación entre observaciones por partes. EL termino “correlación “significa relación mutua, ye que indica el grado en el que los valores de una variable se relacionan con los valores de otra. Se considera tres técnicas de correlación uno para datos de medición, otro para datos jerarquizados y el último para clasificaciones nominales.
Datos Continuos: r de Pearson
EL grado de relación entre dos variables continuas se resume mediante un coeficiente de correlación que se conoce como “r de Pearson “en honor del gran matemático Kart Pearson, quien ideo este método. Esta técnica es valida mientras si es posible establecer ciertos supuestos bastante estrictos. Tales supuestos son los siguientes:
Tanto x como y son variables continuas aleatorias. Es decir, a diferencia del análisis de referencia de regresión, no es aceptable seleccionar ciertos valores de x, y después medir y; tanto y como x deben de variar libremente.
La distribución conjunta de frecuencia es normal. Esto recibe el nombre de de distribución normal divariada.
Carácter de r
El coeficiente de relación presenta dos propiedades que establecen la naturaleza de una relación entre dos variables. Una es su signo (+ o -) y la otra, es su magnitud. El signo es igual al de la pendiente de una recta que podría “ajustarse” a los datos si estos se graficaran en un diagrama de dispersión, y la magnitud de r indica cuan cerca esta de la “recta” tales puntos.
Método practicar para calcular r
Dado que los cálculos necesarios pueden requerir mucho tiempo especialmente cuando se resta las medias del grupo de cada observación se elevan a cuadrado esas diferencias. Existe una versión, la cual simplifica los cálculos:
r= n ("xy)-("x)("y) _
"n("x2)-("x)2 ·"n("y2)("y)2
Existen 3 formas posibles para obtener el valor de r en el caso de datos de medición: estandarizar cada conjunto y hallar el producto medio, calcular el coeficiente de determinación r2 y obtener su raíz cuadrada como utilizar la formula. Para un conjunto de datos los tres métodos producirán el mismo valor para r no obstante cada método agrega algo a la comprensión del significado del termino “correlación”
Inferencia acerca del coeficiente de correlación
Intervalo de confianza para la correlación de la población
El valor del coeficiente de correlación de la muestra se puede utilizar como un estimado de la correlación verdadera de población  existen varios métodos para obtener un método de confianza para  pero quizás la forma mas directa es usar un diagrama.
Si se examinan el diagrama se observara que el intervalo de los valores potenciales (no conocidos)  se indica a lo largo de la escala vertical los posibles valores r de la muestra se indica en la escala inferior una serie de curvas representan tamaño de muestras seleccionadas.
Prueba de significación de r
Puede ser necesario evaluar una aseveración con respecto al valor de . La forma mas sencilla es obtener un intervalo de confianza para r y observar si el valor propuesto esta incluido en el intervalo de ser así se rechaza a Ho y se acepta la alternativa.
Datos jerarquizados de: r Spearman
Es una técnica no paramétrica que utiliza para medir la fuerza de una relación por pares de 2 variables cuando los datos se encuentran en forma jerarquizados. El objeto de calcular un coeficiente de correlación estos ejemplos es determinar el grado en el que dos conjuntos de jerarquización concuerdan o no. Esta técnica también se puede extender a calificaciones u otro tipo de medición si estas se convierten a rangos.
Las medidas de l grado de concordancia son sol cuadrados de las diferencias entre los dos conjuntos de rangos: si la suma de éstos es pequeña, esto significa que hay acuerdo; si la suma es grande, esto indica lo contrario. EL calculo real de la correlación comprende la formula.
rsp = 1 - 6"d2
n(n2 -1)


SERIES DE TIEMPO


2. TEORIA
2.1 Series de Tiempo
Una serie temporal o cronologica es un conjunto e observaciones de una variable, ordenadas segu transcurre el tiempo.
En una serie de tiempo las observaciones no se deben ordenar de mayor a menor debidoa que se perderia el grueso de la informacion debido a que nos intersea detectar como se mueve la variable en el tiempo es muy importante respetar la secuencia temporal de las observaciones.
2.2 Representacion de una Serie Temporal
Par realizar la reprsenyacion de una serie ytemporal se debe realizae mediante una gráfica de disprsión x-y como se muestra en la fig.1

Fig.1. Representación de una serie temporal
2.3 Componetes de una serie temporal
2.3.1 Tendencia
La tendencia es un movimiento de larga duración que muestra la evolucion general de laserie en el tiempo.
La tedencia es un movimiento que puede ser estacionario o ascendente, y su recorrido, una linea recta o una curva. Algunas de la posibles formas son las que se muestran en la fig.2
Fig.2. Representación de la tendencia
La tendencia es un movimiento que puede ser estacionario o ascendente o descendete como se indica en la fig.3
Fig. 3 Tendencias ascendente, estacionaria y descendente
Tambien son posibles algunas formas para la tendencia, que no necesariamente tiene una distribución de puntos en forma aproximadamente lienal sino como las que se muestran en la fig. 4
Fig.4 Líneas de tendencia de otras posibles formas.
2.3.2 Variaciones estacionales.
Se habla de este tipo de variaciones usualmente cuando el comportamiento de la variable en el tiempo ennun periodo esta relacionado con la época o un periodo particular, por lo general en el espacio cronologico presente.
Fig. 5 Variaciones estacionales
2.3.3 Variaciones ciclicas
Se llama asi a las ocilaciones a lo largo de una tendencia con uneriodo superiro al año. El ciclo sugiere la idea de que este tipo de movimiento se repite cada cirto periosodo con caracterisitica parecidas. Los ejemplos mas frecuentes se encuentran en le campo de las variables economicas, en esto ca casos se deben principalmente a la alternancia de las etapas de prosperidad y depresioin en la actividad economica.
2.3.4 Variaciones residuales
Cuando a parecen hechos imprevistos, repentinos que afecten las variables en estudio acotamndo que no podemos preveer nos hallamos frenta a variaciones residuales provocadas poe r factore extermis a leatorios.
Por ejemplo un dia lluvioso y frio durante el veranos es dificil de predecir y aunque perturbaria cuertas acrividades diarias como la venta de helasod no afectaria en este caso significativamente la serie.
3. ANALISIS DE LA TENDENCIA
En la practica es difícil distinguir la tendencia del comportamiento cíclico. Por ejemplo la gráfica puede conducirnos a concluir que existe una tendencia ascendente en la parte de 1980 a 1982, pero esto es una parte de la serie de tiempo más grande.
Fig, 6 Tendencias cecrecientes, crecientes entre periodos de tiempo
3.1 Método Gráfico
Mediante este método muy elemental se detemina la tendencia a perttir de una representación grafica de la serie.la aplicaion de este metodo es como sigue
Se representa graficamente la serie cronologica
Se unen los extremos superiores de la serie, se hace los mismo con los inferiores
Se obtiee dos lineas que encierran ala serie original
Uniendo los punto medios de las distancias entre las dos dlineas o curvas se obtiene la tendencia. La linea o curva de rendencia obtenida tnedra un trazad mucho mas suave que la serie original.
Fig. 7 Representacion tendencia estacionaria
3.2 Método de las medias móviles
Para este método se deben de considear los siguientes pasos que se detallan
Observar con detenimieto la serie para determinar aproximadamente la fluctuacion con periodo mas largo y llamamos q al numero de observaciones que forman una oscilacion compleja.
Se procede a calcular una serie de medias. La primera de ellas secalcula aprtir de las q promeras observaciones de la serie pero elimiando la primera observacion y añadiendo al ainmediata posterior. Se prosigue asi hasta calcular la media de la ultimas q observaciones.
Cada una de las medias obtenidas en le paso anterior se asigna al instane o momento dentral del perios temporal que promedian.
Uniendo las medias se obtiene la tendencia.
4. APLICACIÓN
Caso 1: Producción de Motociletas en una empresa japonesa, periodo 1974 - 1990
En la siguiente tabla se tiene la producción de motocicletas de una empresa (en millones de motos) en un periodo de 17 años que se muestra en la tabla Nº 1
Tabla Nº1
Venta de Motocicletas en un periodo de 17 años
(Producción en millones de motocicletas)
Años
Producción
Años
Producción
Años
Producción
1974
2.1
1980
2.2
1986
2.1
1975
1.9
1981
2.0
1987
1.9
1976
1.7
1982
1.8
1988
1.5
1977
1.5
1983
1.7
1989
1.4
1978
1.6
1984
1.9
1990
2.5
1979
2.0
1985
2.4
----
-----
Se traslada los datos a Microsoft Excel, ordenados en dos columnas, luego se realiza la gráfica de los datos.
Se obtiene la gráfica mostrada en la fig.8
Fig. 8 Representación de la serie de tiempo para las motocicletas por año
En la grafica se observa que los años donde se registra mayor producción son 1974, 1980, 1985,1990
Entonces podemos tomar cada cinco años como la cantidad de años para la cual la empresa realiza su mayor producción.
Sin embargo es conveniente encontrar una linea de tendencia tal que se pueda hallar una ecuación ajustada para los pronósticos de la producción en el tiempo.
Utilizando el método de la media móvil
Seconstruye una nueva tabla con las medias móviles
Esto es para suavizar la distribución de puntos
Fig. 9 Serie original y serie suavizada por los promedios móviles
Hallando la linea de tendencia
En Microsoft Excel, la línea de tendencia para la curva suavizada se obtiene fácilmente y se nuestra en la fig 10
Fig. 10. Línea de tendencia con R2 = 0.4169
El coeficiente de determinación es muy pequeño por lo que no se puede asegurar categóricamente que la ecuación lineal hallada es la que pronostica la producción en los años posteriores.
Será necesario realizar un segundo arreglo con medias móviles
El problema ahora es que el periodo donde alcanza la mayor producción es un numero par de años, por lo que se hace difícil en la tabla hallar el año central, realizando el promedio de
Fig.11 Suavizando la línea de tendencia por segunda vez
La fig. 11 muestra la segunda suavizada de la línea de tendencia, no ha variado mucho con respecto a la primera,.
Caso 2: Temperatura en Lima – Aeropuerto Internacional Jorge Chávez, periodo 2000- 2004
En la ciudad de Lima (Perú) el el Aeropuerto Internacional Jorge Chávez, las tempraturas registradas durante los años 2000, 2001, 2002, 2003, 2004 consideramos en este caso solo los primeros cuatro meses de cada año, las temperaturas registradas por cada mes promediados son las que se muestran en la tabla Nº1
Tabla Nº 2
Temperaturas de Lima – Aeropuerto Internacional Jorge Chávez ( Lima –Perú) 2000 – 2004
2000
T ( º C )
2001
T ( º C )
2002
T ( º C )
2003
T ( º C )
2004
T ( º C )
Enero
21.835
21.694
21.132
22.257
20.443
Febrero
21.835
23.070
22.654
23.286
22.959
Marzo
21.113
22.181
22.654
22.053
21.887
Abril
21.113
20.440
21.270
19.340
20.443