sábado, 24 de agosto de 2013

ORDENAMIENTO DE DATOS




L
os datos son colecciones de cualquier cantidad de observaciones relacionadas. Una colección de datos se conoce como conjunto de datos y una sola observación es un punto de dato.
Para que los datos sean útiles, necesitamos organizar nuestras observaciones, de modo que podamos distinguir patrones y llegar a conclusiones lógicas. 

Recolección de datos

  Los especialistas en estadística seleccionan sus observaciones de manera que todos los grupos relevantes estén representados en los datos. Los datos pueden provenir de observaciones reales o de registros que se mantienen para otros propósitos. Los datos pueden ayudar a los responsables de tomar decisiones a hacer suposiciones bien pensadas acerca de las causas y, por tanto, de los efectos probables de ciertas características en situaciones dadas.También el conocimiento de tendencias adquirido de la experiencia previa puede permitir estar al tanto de posibles resultados y actuar en consecuencia. Cuando los datos son ordenados de manera compacta y útil, los responsables de tomar decisiones pueden obtener información confiable sobre el ambiente y usarla para tomar decisiones inteligentes. Los administradores deben tener mucho cuidado y asegurar que los datos utilizados están basados en suposiciones e interpretaciones correctas. Para ello, se utilizan las pruebas para datos.






L

a distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente.


Tipos de frecuencias

Frecuencia absoluta

  La frecuencia absoluta es el número de veces que aparece un determinado valor en un estudio estadístico. Se representa por Fabs.

  La suma de las frecuencias absolutas es igual al número total de datos, que se representa por N.


 fab1 + fab2 + fab3 +...+fabn =N


  Para indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma mayúscula) que se lee suma o sumatoria.


       Σfab=N


Veamos un ejemplo

En una Tabla de Distribución de Frecuencias, de 5 clases, se tienen los siguientes valores de frecuencias absolutas:

CLASES              Fab
Clase 1--------------10
Clase 2--------------20
Clase 3--------------25
Clase 4--------------08
Clase 5--------------02

el calculo de N( suma de frecuencias absolutas) es:

N=10+20+25+08+02

N=65

Frecuencia relativa

  La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos.





La suma de las frecuencias relativas es igual a 1.

Ejemplo

Si se desea calcular la frecuencia relativa de la Clase 1, de la Tabla de Distribución de Frecuencia anterior, esta se haría:





Frecuencia Relativa porcentual

Se puede expresar en tantos por ciento y se representa por %Fr
                 
   



En ambas formulas, N representa la suma de las frecuencias absolutas, tal como se planteo en párrafos anteriores.


Ejemplo

Si se desea calcular la la Frecuencia Relativa Porcentual para la Clase 1 anterior, esta se haría de la siguiente manera:




Frecuencia acumulada

  La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado.


Se representa por Fac.


Ejemplo

La frecuencia Acumulada de la Clase 2, para la Tabla anterior seria:

Fac. Clase 2=10+20
                     =30

y la Fac. de la Clase 3 seria:

Fac. Clase 3=10+20+25
                     =55

o mas bien

Fac. Clase 3=30 + 25
                    =55

Este ultimo procedimiento es el que realmente se emplea por ser mas practico

Frecuencia relativa acumulada

  La frecuencia relativa acumulada de cada clase, es la suma de las frecuencias relativas de la clase actual y las frecuencias relativas anteriores. Se puede expresar en tantos por ciento. Se representa por %Fracum.

  El intervalo, conocido también como rango, amplitud o ancho de clase, puede determinarse como la diferencia entre el limite inferior de la clase siguiente y el limite inferior de la clase actual. También puede determinarse como la diferencia entre el limite superior y el inferior de cada clase mas la unidad de variación de los datos.

Unidad de Variación

Un concepto muy importante en este punto es el de la Unidad de Variación. El cual se debe entender como la mínima diferencia que puede presentarse entre dos datos del conjunto que se analiza.
.



1.-Recopilación de los Datos a analizar
2.-Ordenamiento de los datos de menor a mayor o de mayor a menor.
3.-Se establece el numero de clases
4.-Se calcula el ancho de clase exacto de cada intervalo.
5.-Se ajusta el valor del ancho de clase.
6.-Identificación de los limites de clase o de  los intervalos de clase nominales.
7.-Se realiza el conteo de los datos.


  


  Desarrolle la tabla de Distribución de Frecuencia para la siguiente lista de datos.

                        Paso 1

Recopilación de los datos
782, 1333, 515, 1475, 696, 832, 1052, 700, 958, 542, 1296, 704, 814, 1482, 1023, 739, 643, 956, 1023, 784.

                        Paso 2

Se ordenan los datos de menor a mayor
515
700
784
987
1296
542
704
814
1023
1333
643
739
832
1023
1475
696
782
956
1052
1482

                                     Paso 3

Se determina el número de clases

Para esto se emplea la fórmula:




En la que N representa el total del número de datos que se van a ordenar y analizar.


                                               Numero de clases= 4.47

 Este valor se redondea al próximo número superior ya que aparece un valor decimal, sin importar que este sea menor a 0.5. De esta forma el número de clases se quedaría:
                           Numero de clases=5.

Antes de entrar  al paso 4, veamos



  Cabe mencionar que en este caso particular se aplica el método de la raíz cuadrada para determinar el numero de clases, pues el numero de datos que se desea analizar es pequeño. Sin embargo, para los casos en que la base de datos es grande, se sugiere aplicar el método de Sturges, quien presenta la siguiente formula para para calcular el numero de clases:

Numero de Clases=1 +3.32*log( N )


Se considera pequeña una base de datos cuando N<=30 datos. Cuando N excede de 30 datos, la muestra se considera grande, es entonces cuando se sugiere aplicar el Método de Sturges.

Otro método menos empleado es el que indica que el numero de clases de cualquier TDF debe oscilar entre 5 y 20 clases, a criterio de quien esta elaborando la referida TDF.

                      
                        Paso 4


Calculo del intervalo exacto  o ancho de Clase. Para esto, la fórmula empleada es:



Se observa que el valor mayor de la base de datos es 1482, y el valor mas pequeño es de 515, por ello;


                 Intervalo Exacto de Clase=193.4

                                   Paso 5
Se determina el Ancho de Clase ajustado según el valor de la unidad de variación.
En este ejemplo, la unidad de variación de los datos es igual a 1, por lo que el tamaño ajustado o ancho de clase debe ser por lo menos igual al siguiente valor entero incrementado en 1, o sea 194.
                         Paso 6
Se calculan los Limites Nominales Inferiores ( LNI ) y Superiores de cada clase ( LNS ).
Para ello se emplea la formula:
Limite inferior de la clase=Limite inferior de la clase anterior + Ancho de Clase
Este cálculo se inicia tomando en cuenta que el primer Limite Nominal Inferior de la primera clase es el valor menor de los datos que se desean ordenar, esto es 515.
Limite Nominal Inferior de la Primera Clase=515
Limite Nominal Inferior de la Segunda Clase=515+Ancho de Clase
                                 =    515+194=709

Limite Nominal Inferior de la Tercera Clase
                                 =709+194

                                 =903


Limite Nominal Inferior de la Cuarta Clase 

                                 =903+195

                                 =1097

Limite Nominal Inferior de la Quinta Clase

                                 =1097+194

                                 =1291

Aunque sabemos que solo son 5 clases las que compondrá la Tabla de Distribución de Frecuencias, calcularemos un Limite Nominal Inferior hipotético para apoyarnos en el y poder calcular el ultimo Limite Nominal Superior.
Limite Nominal Inferior Hipotético ( H )=1291+194

                                                                  =1485

Hasta ahora,  lo que hemos logrado, se puede observar de la siguiente manera en la Tabla de Distribución de Frecuencia 


CLASE
LNI
LNS
Fab
Facu
%Fr
%Fac
1
515





2
709





3
903





4
1097





5
1291





H
1485








En este mismo paso figura la necesidad de calcular los Limites Nominales Superiores, para ellos se emplea la siguiente formula

En donde

        n=numero de clase




Según esto, la formula, traducida a lenguaje común, se expresaría:

Limite Nominal Superior 1=(Limite Nominal Inferior de la clase 2) - (la Unidad de Variación)

De forma que


Recuerde que la unidad de variación (UV) es igual a 1, según lo expuesto anteriormente.

Los limites Nominales, ya completos se verían en la TDF asi

y ya habiendo calculado el ultimo Limite Nominal Superior(el de la quinta clase), se puede eliminar la clase hipotética que se introdujo solo como apoyo para poder calcular mencionado limite La TDF quedaría


PASO 7

En este paso iniciamos el conteo de los datos. Para ello procedemos de la manera que se explica; a partir de la base de datos que se ordeno de menor a mayor, se van contando los números que están comprendidos en cada intervalo de clase, de de preferencia, estos se van tachando en la misma base de datos. 

Observe que en la primera clase, cuyo intervalo va de 515 a 708, están los números 515, 542, 643, 696, 700 y 704, por lo que podemos decir que en este primer intervalo o Clase 1, tenemos una Frecuencia Absoluta de seis, ya que solo hay seis números que están dentro de el intervalo mencionado.

En la segunda clase ( intervalo que va de 709 a 902) están los números 739, 782, 784, 814 y 832. En esta Clase la Fab seria de 5.

En la Clase 3, los números que debemos buscar son los que sean iguales o mayores que 903 e iguales o menores de 1096. Los números que están comprendidos entre estos limites son el 956, 987, 1023, 1023 otra vez, y el 1052,   La frecuencia absoluta seria 5

Para la clase 4, los números deben ser iguales o mayores de 1097 pero iguales o menores de 1290. Véase que en este intervalo no hay ningún valor, por ello la Fab es igual a cero.

Para terminar,  la ultima clase exige que se busquen valores mayores o iguales a 1291 y menores o iguales a 1484. Se observa que los valores aquí cautivos son el 1296, 1333, 1475 y 1482, lo cual indica que la Fab es igual a 5.
 Con las frecuencias absolutas bien definidas para cada Clase, la TDF quedaría de la forma que se exhibe


  FRECUENCIA ACUMULADA
  La Frecuencia acumulada de cierta n clase, corresponde a la sumatoria de los valores de las Frecuencias Absolutas abajo del Limite Real superior de la clase n contemplada.

Nos disponemos ahora a calcular la Frecuencia Acumulada. Para esto se emplea la formula



  Con esta formula calculamos la Frecuencia acumulada de las 5 clases.
Incluyendo estos datos en la columna de la Frecuencia acumulada, la  TDF, quedaría
  La columna de el Porciento de la Frecuencia absoluta(%Fr, Frecuencia Relativa) se calcula fácilmente dividiendo cada valor de la Frecuencia absoluta entre el total de datos que en esta base de datos particular es igual a 20, a saber, para el primer caso


  Para lograr la Frecuencia Relativa acumulada se dividió la Frecuencia acumulada(Fac) entre el total de datos, el cual es igual a 20(N), según la ultima formula dada anteriormente.



Determinacion de los Limites Reales de Clase
  Los limites Reales de Clase son los que realmente se emplean para elaborar cualquier grafico que se desee utilizar para analizar los datos de una manera rapida y precisa. Para ello se emplea la formula que se muestra enseguida






  de forma que los Limites Reales para la primera clase se calcularían así



Incluyendo la nueva columna de estos limites en la TDF quedaría





Lo anterior se resume en el siguiente vídeo a manera de repaso. Haga click en la dirección que se da


http://www.youtube.com/watch?v=Bf9s_tM30rA      


EJERCICIOS
Estructure la Tabla de Distribución de Frecuencia para las bases de datos que se dan enseguida. No se olvide incluir los cálculos para el Numero de Clases, el Ancho de Clases, Limites Nominales, Limites Reales, etc. y reportar la Unidad de Variación ( UV ).


A)

B)

  
C)
                                                                    
D)


E)




Bibligrafia:
Libro: Probabilidad y Estadisticas
Autor:Octavio Sanchez
Editoria: McGraw Hill
: