...

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?

by user

on
Category: Documents
0

views

Report

Comments

Transcript

¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
¿
¿DE QUÉ HABLAMOS CUANDO
HABLAMOS DE ESTADÍSTICA?
TOMO I–Estadística Descriptiva
Alberto A. Alonso
¿DE QUÉ HABLAMOS
CUANDO HABLAMOS DE
ESTADÍSTICA?
“Hay tres tipos de mentiras: mentiras, malditas
mentiras, y estadísticas”
Frase atribuida por igual al ex primer ministro británico
Benjamín Disraelí y al escritor y humorista norteamericano Mark
Twain.
Toda obra grande, en arte como en ciencia,
es una gran pasión al servicio de una gran idea.
Santiago Ramón y Cajal
¿DE QUÉ HABLAMOS
CUANDO HABLAMOS DE
ESTADÍSTICA?
TOMO I
Estadística Descriptiva
Alberto A. Alonso
Buenos Aires - Argentina
Alberto A. Alonso es Ingeniero Químico por la Universidad Nacional de La Plata,
posee una certificación internacional en Administración de Riesgos por ALARYS
y un curso de especialización en Estadística Descriptiva por el CONICET. En su
vida profesional, ha sido declarado “Experto en Temas de Ingeniería por el
Ministerio de Educación y Justicia de la Nación –Resolución D.N.A.U. Nº 86
del año 1987. Actualmente, es Profesor titular de Estadística Aplicada en el
IUPFA, para las Licenciaturas en Seguridad, Accidentología y Prevención
Vial, Trabajo Social, e Ingeniería en Siniestros.
Ver CV completo en: http:// www.anticiparconsultoria.com
Alonso, Alberto A.
¿De qué hablamos cuando hablamos de estadística? : tomo I: estadística
descriptiva. 1ª. ed. - Ciudad Autónoma de Buenos Aires: Ediciones
Anticipar, 2013.
E-Book.
ISBN 978-987-45197-1-9
1. Estadísticas. I. Título
CDD 310.4
Fecha de catalogación: 14/11/2013
ISBN - Obra completa: 978-987-45197-0-2
ISBN - Primer tomo: 978-987-45197-1-9
Ediciones anticipar: http://www.anticiparconsultoria.com
Esmeralda 582 –Piso 8º Of. 30 – (C1007ABD) –Ciudad Autónoma de Buenos
Aires
Primera edición. Noviembre 2013.
© Alberto A. Alonso
Todos los derechos reservados.
Ninguna parte de esta obra puede ser reproducida o transmitida en cualquier
forma o por cualquier medio electrónico o físico, incluyendo fotocopiado, grabación, escaneado, o cualquier otro sistema de archivo y recuperación de información, sin el previo permiso por escrito del autor.
Queda hecho el depósito que prevé la ley 11.723
Corrección de estilo:
Trad. María Jimena Alonso
María Jimena Alonso es Traductora Pública Nacional y
Profesora en Lengua y Literatura Inglesas por la UNLP,
y Correctora de Estilo por Fundación LITTERAE. Actualmente dirige la firma Glôssa Soluciones Lingüísticas
(www.glossa.com.ar)
Si te atreves a enseñar,
no dejes de aprender.
John Cotton Dana
Prefacio
Como siempre ocurre con el viejo dicho ―cada maestrito con su librito‖, todo
aquel que ama la enseñanza termina teniendo la
necesidad de expresar lo que sueña y enseña,
con sus propias formas y palabras.
Cada tema, sin alejarse de la verdad científica,
puede presentarse, explicarse, graficarse de
muy diversas formas, y esas formas dependerán
del docente que desarrolla el tema y de los
alumnos que lo reciben. Hasta para explicar algo tan simple como que dos más dos es cuatro,
existen infinitas formas de hacerlo, todas ellas
valiosas y ciertas. Que dos más dos es cuatro, puede explicarse aplicando la lógica simple, métodos visuales, hasta el rigorismo científico, y ello dependerá del
tipo de alumno o de la carrera en la cual tal alumno está inserto.
Lo mismo pasa con la Estadística. Puede basase en las rigurosas matemáticas, el
cálculo numérico y la teoría de conjuntos, o en la lógica sustentada en los simples conceptos matemáticos y geométricos que se estudian en el colegio secundario, sin olvidarnos de la magnífica regla de tres simple, aprendida durante el primario. Con el título De qué Hablamos cuando Hablamos de Estadística, el libro
se propone dos cosas:
Que algunas personas se interesen en conocer qué es y para qué sirve la
Estadística.
Explicar, mediante un diálogo amigable y una estructura lógica y matemática sencilla, cómo se efectúa la recolección, ordenamiento, análisis
y representación de los datos, como herramienta fundamental de la Estadística Descriptiva.
El texto, obviamente, está dirigido a todos aquellos que no son hábiles manejadores de las matemáticas o, dicho en otros términos, a los que se sienten seducidos
por las ciencias del comportamiento y, repentinamente, en un momento de sus
carreras, se deben enfrentar al estudio de la Estadística. Y esto es así porque, en
la actualidad, la Estadística es parte integrante de un amplio espectro de especialidades del conocimiento. Explicarle y ejemplificarle al alumno que en algún
momento de su vida profesional deberá trabajar con datos es uno de los objetivo
de este libro.
Sin embargo, como docente, y ahora como autor, estoy convencido de que una
persona lee con atracción y desea comprender lo que lee solo si lo que lee le in-
teresa. Por eso, quizás, la función más importante de un docente es despertar la
inquietud en los alumnos de su materia mediante un lenguaje simple ya que, como decía Séneca ―.El lenguaje de la verdad debe ser simple y sin artificios‖.
De allí, aquello tan antiguo y por ello no menos cierto, de que el mejor maestro
no es el que más sabe sino quien mejor transmite y estimula. Por eso, sintiéndome del lado de los que no saben tanto pero le gusta transmitir y estimular, deseo
que este libro les guste, lo entiendan y lo puedan aplicar.
Si lo logro, me sentiré muy complacido por el tiempo que le he restado a otras
actividades para escribir este libro.
Finalmente, como hoy vivimos en la era de la comunicación y la edición virtual
lo permite, recibiré muy gustoso cualquier observación y sugerencia, la cual dará
lugar a conocer a un nuevo amigo/a y entablar un diálogo constructivo.
Cordialmente,
Alberto Adriano Alonso
La Plata, primavera del 2013
http://www.anticiparconsultoria.com
[email protected]
Agradecimiento
Les dedico esta obra a todos los que me quieren y confían en mí.
Reconocimiento
Aunque no lo conozca personalmente, deseo reconocer muy especialmente a
Adrian Paenza1, por coincidir totalmente con él, en el sentido de que las ciencias
deben enseñarse de manera sencilla con el fin que el estudiante las entienda y
también de una manera amena para que, además, comprenda su utilidad y aplicación.
1
Adrián Arnoldo Paenza (n. Buenos Aires, 9 de mayo de 1949) es un periodista y doctor en
ciencias matemáticas por la Facultad de Ciencias Exactas y Naturales (UBA). Así describe su carrera uno de sus últimos libros (2010. Matemática... ¿Estás ahí? La vuelta al mundo en 34 problemas y 8 historias): "Nació en Buenos Aires en 1949. Es doctor en Matemáticas por la Universidad de Buenos Aires, donde se desempeña actualmente como profesor asociado del Departamento de Matemática de la Facultad de Ciencias Exactas y Naturales. Es, además, periodista. Actualmente es columnista especial de Página/12. Publicó en esta misma colección [Ciencia que ladra] los cuatro tomos iniciales de la serie Matemática… ¿estás ahí?, que han sido un éxito de
ventas en la Argentina, en otros países de Latinoamérica y también en Alemania y España, donde
se han editado los dos primeros episodios. Asimismo, sus libros han sido publicados (o lo serán
próximamente) en Rusia, Italia, República Checa, Brasil y Portugal. En 2007 recibió el premio
Konex de platino en el rubro ―Divulgación científica‖." En 2014 recibió el Premio Lilavati del
ICM por su labor en la divulgación de las matemáticas. Fuente: extractado de:
http://es.wikipedia.org/wiki/Adri%C3%A1n_Paenza
CONTENIDO
Unidad
Título
¿De qué hablamos cuando hablamos de estadística?
0
Hablando de estadística
I
Conceptos básicos de medición y de matemáticas
II
Recogida de información, recolección de datos e investigaIII
ción estadística
Ordenamiento y organización de datos. La distribución de freIV
cuencias
Medidas descriptivas. Las medidas de posición
V
Indicadores de caracterización o descripción de muestras y
VI
distribuciones. Los indicadores de tendencia central
Indicadores de caracterización o descripción de muestras y
VII
distribuciones. Las medidas de variabilidad
VIII Medidas descriptivas. Las medidas de forma
La curva normal
IX
La graficación en estadística
X
Regresión lineal
XI
XII La correlación como medida de la relación
PROBLEMAS RESUELTOS
Unidad I
Unidad II
Unidad IV
Unidad V
Unidad VI
Unidad VII
Unidad VIII
Unidad IX
Unidad XI
Unidad XII
ANEXO DE TABLAS
Tabla I. Cuadrados; raíces cuadradas; inversos e inversos de la raíz
cuadrada para números del 1 al 200
Tabla II. Áreas bajo la curva normal
Tabla III. Funciones trigonométricas para ángulos comprendidos en el
primer cuadrante (entre 0º y 90º)
BIBLIOGRAFÍA
Pág.
1
11
35
57
89
117
137
165
185
197
229
261
281
315
317
319
321
327
335
343
351
355
363
375
383
391
403
407
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
El cero. Puede ser una suma de infinitos diferentes.
2
Valeriu Butulescu
UNIDAD 0
DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA
De qué Hablamos cuando Hablamos de Estadística pretende ser un libro que, a
través de un viaje ameno, cordial y amigable, nos lleve a recorrer las distintas estaciones de lo que se ha dado en llamar Estadística Descriptiva, una parte de la Estadística que es muy común en todas las carreras de las Ciencias Sociales o Ciencias del Comportamiento, dirigidas a aquellas personas que sienten una mayor predisposición por las ciencias blandas que por las denominadas ciencias duras.
Y fue por este motivo que buscamos, empedernidamente, que el libro no sea repulsivo hacia los números, ya que, si bien es imposible separar a la Estadística de las
Matemáticas, hay diversas maneras de enfocarlo. Los libros de Estadística dirigidos
a las ciencias duras están llenos de fórmulas, derivadas, integrales y matemática de
conjuntos. En este libro buscamos que el lector razone y descubra que, a partir del
razonamiento, puede reemplazar, a veces, esas fórmulas atroces. Y cuando no sea
posible y la fórmula irremediablemente deba estar presente, tratamos de presentarla
de la manera más amigable posible. Por eso queremos demostrar que la Estadística
no es una materia tan temible como muchos creen, pero, para que ello ocurra, necesitamos que el lector haga un esfuerzo y deje atrás ese trauma que lo inhibe, en ocasiones, a aceptar que las Matemáticas no son seres horrendos y que lo sencillo no
está reñido con la seriedad académica.
Y comenzamos este libro por la Unidad 0 con el convencimiento absoluto y positivo de que el cero, más que un concepto abstracto de nulidad y carencia de atributos, es sinónimo de punto de partida; de inicio y evolución. Se trata del cero
del cantautor español Ismael Serrano cuando, en su canción ―Kilómetro 0‖ nos
dice: ―…comienzo de los días que han de venir...‖ y se trata de un cero coordenado.
Todo se inicia en un cero... como nuestros días.
Porque con este libro queremos que el lector intente transitar el camino del conocimiento de la Estadística, pero mediante una nueva manera de verla y comprenderla. Una estadística que, a decir de Butulescu, bien podría ser entendida como
la suma de varios infinitos diferentes.
2
Valeriu Butulescu. Nacido el 9 de febrero 1953, en el pueblo de Preajba, condado Gorj, Rumanía, es un poeta, novelista, traductor y autor de aforismos. Es miembro de la Unión de Escritores
de Rumania. Fuente: http://ro.wikipedia.org/wiki/Valeriu_Butulescu
1|Página
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Porque la Estadística no es Matemáticas, aunque la utiliza. Si bien estudia el pasado, no es Paleontología. Aunque nos permite predecir el futuro, no es Futurología. Y, si bien, nos permite tomar mejores decisiones, no es Decision Making.
Es la suma de todo y la diferencia de nada.
¿De qué hablamos cuando hablamos de Estadística?
Ya dijimos lo que no era la Estadística. Entonces, debemos tratar de explicar qué
es, por qué existe y para qué.
Muchas ciencias utilizan las Matemáticas sin que ello signifique que sean Ciencias Matemáticas en un sentido estricto. Es más, de algún modo, la Matemática
es una constante en nuestras vidas. Tan importantes son que, de alguna manera,
sintetizan para el vulgo a las Ciencias Duras, y los estudiantes, en su etapa del
secundario, ya van inclinándose hacia estas o hacia las Ciencias del Comportamiento, o Ciencias Sociales.
De alguna manera, aquellos que se dedican a las Ciencias del Comportamiento lo
hacen porque sienten a la vez temor y ―odio‖ hacia las Matemáticas.
Un temor que surge de la creencia de la existencia de algo desagradable y que no
pueden manejar. Es un algo que nos coloca en una posición incómoda. Y un odio
en el sentido de antipatía o aversión sin que necesariamente signifique un deseo
de mal hacia esa cosa llamada Matemáticas. Es el odio cariñoso del estudiante
hacia los números y las operaciones matemáticas.
Nuestra experiencia en la docencia nos ha enseñado que muchos alumnos que se
dedican a las Ciencias del Comportamiento, ante la menor presencia de las Matemáticas se perturban de tal modo que cierran sus mentes. Se niegan a pensar.
Es como si produjeran en ellos una cierta repulsión.
Y es entonces allí donde debe emerger la figura del docente. Una función que,
como siempre le decimos a nuestros alumnos, no consiste en dar clases y calificar, sino en enseñar. En colocar todo el esfuerzo y empeño para lograr que el
alumno comprenda el por qué y el para qué de lo que se enseña. Porque solo en
ese momento la función del profesor se está realmente cumpliendo.
Estas cosas, de alguna manera, nos están explicando el motivo y la necesidad de
lograr una enseñanza de la Estadística que no produzca repudio en el estudiante
y, de alguna manera, están dando sentido a este libro. Y por eso debemos colocar
a la Estadística en primer lugar y a las Matemáticas en un segundo escalón, estas
últimas solo como herramienta de cálculo de los grandes conceptos de la Estadística.
La ciencia y las artes tienen sus ―materias primas‖ La Medicina tiene al hombre;
la Ingeniería, a los materiales; la Música, a los sonidos; la Pintura, a los colores;
la Poesía, a los bellos sueños y la Estadística, a los encantadores datos.
2|Página
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Por eso, la mayoría de los autores definen a la Estadística como la ciencia que se
ocupa de la recolección, análisis e interpretación de tales datos. A primera vista,
podríamos decir: qué pobre misión tiene la Estadística en este mundo. Pero la
misión no nace de la misión misma, sino en la utilización de la misión, en la utilización de los datos, datos que en sí mismos son casi nada y son, a la vez, un todo.
Los datos son símbolos que describen un objeto, condición o situación. Cinco kilogramos, 7 segundos ó 120 mm de presión arterial son solo datos. Pero la estructura de datos sirve de base para el desarrollo y medición de la información.
Cinco kilogramos es un dato, pero la cantidad de kilogramos que soporta el cable
que mueve a los ascensores es información.
Siete segundos es un dato temporal, pero la cantidad de tiempo que empleó el
maratonista en recorrer el circuito es información. Ciento veinte mm de presión
arterial es solo un dato, pero la presión arterial óptima de cada persona es información.
De alguna manera, la información es un conjunto organizado de datos, que constituye un mensaje sobre un cierto fenómeno o ente.
Y, en un paso posterior, podemos decir que el intercambio de información constituye la comunicación.
Entonces, la Estadística, que -a partir de esos diminutos y preciosos datos nos
permite describirlos, agruparlos, merituarlos y, posteriormente, efectuar predicciones -es una transformadora de datos en información, una información que en
un mundo global y comunicado nos permite tomar decisiones.
¡Vaya! Ya vamos entendiendo algo más de esta Estadística que de Matemáticas
tiene muy poco y de sentido común mucho.
Transformar datos en información es lo que le da sentido a esta disciplina. Es su
motivo de ser. Utilizar esa información en el marco del conocimiento para tomar
decisiones es su misión.
¿Para qué desea un ejecutivo saber el comportamiento de las ventas de un producto si no es para tomar alguna decisión? Decisión que tanto puede ser no hacer
nada como hacer algo. Ambas, decisiones al fin.
¿Para qué desea un turista saber el pronóstico del tiempo en un determinado lugar si no es para tomar una decisión? ¿Para qué desea un productor rural conocer
las predicciones climáticas y del mercado si no es para tomar una decisión?
Y todas esas decisiones se basan en la información y la información se basa en
los datos. La administración de los datos, que es la materia prima de la Estadística o su metier, muchas veces se basa en desarrollos matemáticos; de allí que algunos definan a la Estadística como una ciencia. Y esta interpretación es bastante
cierta, dado que la prueba de hipótesis dentro de la Inferencia Estadística se sus3|Página
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
tenta en el método científico.
Pero, muchos indicadores y muchos coeficientes que a menudo se utilizan con
fines de clasificación, tienen orígenes empíricos no demostrables matemáticamente, pero sustentados en la realidad. De allí que muchos hablen de la Estadística como un arte: El arte de administrar esos datos.
Ciencia y arte. Arte y ciencia. Dos conceptos que no solo subyacen en la Estadística, sino en muchísimas ramas del conocimiento.
¿Vamos entendiendo, entonces, de qué hablamos cuando hablamos de Estadística?
La Estadística y las Ciencias del Comportamiento
Cualquier estudiante, cuando se inicia en el estudio de alguna carrera del área social, biológica o médica, con algo de ingenuidad cree que nunca más se cruzará
con las Matemáticas. Es por eso que, cuando la Estadística aparece en su vida,
puede llegar a sentirse algo desanimado.
En Psicología, en Sociología, en Trabajo Social, en Ciencias de la Seguridad,
etc., la Estadística, si bien no forma parte del conjunto de materias clave, sí ocupa un lugar preponderante. Como los alumnos no saben a ciencia cierta cuál es el
campo de actuación de su carrera antes de recibirse, la mayoría cree que la Estadística es una materia de relleno dentro de su plan de estudio. Tampoco están
muy abiertos a escuchar opiniones en contrario, en el sentido de que el tiempo
les demostrará que están equivocados.
Un estudiante de Biología puede estar muy interesado en entender cómo funciona un organismo vivo, pero, si luego quiere comprender el comportamiento de
toda una especie, deberá realizar predicciones. Estas predicciones no se logran
estudiando el comportamiento de cientos o miles de esos organismos, sino de
unos pocos cuidadosamente seleccionados. Y es allí cuando el profesional se topa con la investigación experimental y comienza a reconocer la importancia, no
solo de la Estadística Descriptiva sino, también, de la Estadística Inferencial.
En el área de la Seguridad y, más precisamente, en la Administración de Riesgos,
sería imposible estudiar todos los cuándo, los cómo, los dónde y los por qué, relacionados con el evento siniestral. Por eso, más que datos aislados, necesitamos
estudiar estadísticas siniestrales para establecer medidas de tendencia central y
de dispersión con respecto a esa tendencia central. Y, nuevamente, la Estadística
se hace presente en la vida del administrador de riesgos.
Con el correr de los años, el profesional va aprendiendo que los datos aislados
como tales tienen poco valor. Primero, porque resultan difíciles de analizar y, segundo, porque a casi nadie le interesan como tales. La gente no necesita datos,
requiere información. Es decir, datos elaborados.
4|Página
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Otro ejemplo se da en el área de la Política. Muchas veces, los legisladores colocan un tema en la agenda social con el fin de ir recibiendo la opinión de los ciudadanos, pero, cuando más que datos necesitan información, solicitan la realización de encuestas que muestran con mayor rigor la opinión de la gente. Algo similar sucede en momentos electorales.
Vamos viendo cuán equivocados estaban los estudiantes cuando creían que nunca más se iban a topar con los benditos números dado que habían tomado la decisión de no estudiar carreras relacionadas con las ciencias duras.
César Vedani, en su admirable tango ―Adiós muchachos‖, refiriéndose a la fatalidad del destino, dice: ―…contra el destino nadie la talla‖.
Por eso, en el más allá de las Ciencias Sociales, nos guste o no, está la Estadística. Las enfermedades, la vida y la muerte, los accidentes, la producción, la comercialización, el delito, por nombrar solo algunos eventos, están regidos por la
aleatoriedad y descriptos por la Estadística. La aleatoriedad como cualidad de lo
aleatorio se refiere a todo aquello que no puede ser manejado por el hombre y
que depende de la suerte, del azar o de algún suceso fortuito e incierto.
El término aleatoriedad tiene dos orígenes:
En su origen latino, el término alea deriva de los antiguos juego de azar practicados desde siempre por el hombre o del azar como el hecho casual, el riesgo, la
suerte o la fortuna.
Desde un origen árabe, por azhar se entiende el dado para jugar.
Tampoco podemos dejar de recordar la vieja locución latina Alea jacta est o Alea
iacta est a la que el paso del tiempo no le ha hecho mella y que significa el dado
fue lanzado la suerte está echada, recordando, de algún modo, la fatalidad del
destino a la que se refería Vedani en su tango.
Azar, riesgo o incertidumbre son situaciones que, de algún modo, gobiernan
nuestras vidas y que influyen en el comportamiento de las sociedades, y que la
Estadística se ha encargado de analizar o, al menos, describir.
Del dato a la información y a la toma de decisiones
Pasar del dato a la información es como pasar de la Estadística Descriptiva a la
Inferencial. Paso a paso, iremos viendo estos conceptos en profundidad.
Por ahora, nos interesa analizar esta transición como la mayor utilidad de la Estadística.
Si el azar existe, si el riesgo existe y si el riesgo es incertidumbre, el tomador de
decisiones jamás conoce la verdad. A lo máximo, puede conocer la verdad estadística.
Continúa ....
5|Página
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
La Estadística es una ciencia que demuestra
que si mi vecino tiene dos coches y yo ninguno,
los dos tenemos uno.
3
George Bernard Shaw
UNIDAD I
HABLANDO DE ESTADÍSTICA
De la misma manera que para saber de carpintería es necesario conocer las maderas y sus orígenes, para ir entendiendo a la Estadística, también, debemos comenzar conociendo sus orígenes y a sus principales impulsores. Veremos a lo largo de
la unidad que esta especialidad nació como una necesidad de los Estados, pero que
rápidamente fue comprendida y abrazada por las tres áreas más importantes de la
actividad económica: el comercio, las finanzas y el seguro. Muy sucintamente veremos también las distintas escuelas que surgieron en el largo camino de la
búsqueda de la verdad estadística. Comenzaremos a conocer a hombres de la talla
de Pearson, Neyman y Fisher, quienes constantemente irán reapareciendo a lo largo de las páginas de este libro.
Los orígenes de la teoría de la probabilidad que nació de la mano de personalidades de la ciencia como Bernoulli, Pascal, De Moivre, Poisson, Gauss y Laplace no
podía falta en este resumen.
Como en toda ciencia o arte, el objetivo de esta unidad es estudiar el pasado.
Desde épocas muy lejanas, casi remotas, el hombre ha utilizado las herramientas
cuantitativas que tenía a su alcance para trabajar con los datos que eran importantes para él en el marco de su entorno y en el manejo de su precaria economía.
En sus orígenes, la Estadística se relacionó con las técnicas apropiadas para el
conteo, para lo cual se utilizaban como unidades trozos de ramas, piedras y cualquier elemento que asegurara la integridad temporal de la anotación. Con el inicio de las primeras pictografías, los pictogramas también resultaron de utilidad
para el conteo.
Numerosos autores, al hablar sobre el origen de la Estadística, recuerdan al histo3
George Bernard Shaw. (Dublín, 1856 - Ayot Saint Lawrence, Reino Unido, 1950) Dramaturgo
y periodista irlandés. Perteneciente a una familia de la burguesía protestante irlandesa, empezó a
trabajar a los dieciséis años, por lo que terminó su formación de modo autodidacto. Cuando sus
padres se separaron fue a vivir a Londres con sus hermanas y su madre, que era profesora de
música (1876). En los años siguientes trabajó como periodista y crítico teatral y de música para
diversos periódicos, al tiempo que publicaba novelas por entregas, si bien sin éxito; sus ingresos
eran muy parcos, por lo que vivió en una relativa penuria.
Fuente: http://www.biografiasyvidas.com/biografia/s/shaw.htm
6|Página
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
riador Tácito4, al cual el emperador Augusto5 le habría encomendado realizar una
encuesta completa sobre los bienes del imperio romano, incluyendo a su gente.
Así, la encuesta abarcaba a los soldados, armas, carros, embarcaciones y animales, además de la ―renta pública‖ del imperio.
LA ESTADÍSTICA Y SU SIGNIFICADO
La Estadística no tiene un único origen, se llega a ella por la confluencia de varios esfuerzos en el mismo sentido.
Primitivos trabajos en latín se referían a este término aunque con ciertas varianzas. En el latín moderno, se mencionaba al statisticum collegium como un ―consejo de estado‖ mientras que, en un latín más antiguo, se hablaba de status como
―posición‖ o ―forma de gobierno‖.
Para los italianos, la Estadística deriva del término moderno statista (―estadista‖,
―político‖) y del italiano antiguo stato (―estado‖).
En Alemania, el economista Gottfried Achenwall, a principios del siglo XVIII,
usa el término Statistik en su libro titulado ―Staatswissenschaft der vornehmen
Europäischen Reiche und Republiken‖ (La ciencia política para los reinos europeos y las repúblicas). Allí, utilizaba la palabra estadística para designar el análisis de los datos de un gobierno y de forma algo arrogante la definía como la
―ciencia del Estado‖.
En Escocia, también en el siglo XVIII, Sir John Sinclair utiliza el término estadística en su trabajo ―Statistical Account of Scotland‖ (Estadística del estado
de cuenta de Escocia). En su voluptuoso trabajo que consta de 21 volúmenes,
Sinclair revela que adoptó la palabra estadística a partir de investigaciones realizadas en Alemania, en el sentido que sería una palabra novedosa que deslumbraría a los ingleses. Sin embargo, el objetivo de Sinclair en la utilización del
término sería distinto y quizás aquí radique la novedad, ya que, mientras en
Alemania la estadística se utilizaba como un instrumento para medir la fortaleza
de un estado, el escocés entendía que podía ser utilizada como una herramienta
de revisión y control, ya que habría de generar un importante flujo de informa4
Tácito. (Roma?, h. 55-?, h. 117) Historiador romano. Los pocos datos que se conocen de su vida
indican que desarrolló una brillante carrera política, que le llevó al Senado, así como también a
ejercer el cargo de cónsul. Fuente:
http://www.biografiasyvidas.com/biografia/t/tacito.htm
5
Octavio Augusto (Cayo Julio César Octavio): primer emperador romano ( 63 a. C. - Nola,
Nápoles, 14 d. C.). Procedía de una rica familia del orden ecuestre de Veletri (su abuelo fue banquero y su padre, pretor de Macedonia). Por parte de madre, era sobrino-nieto de Julio César, el
cual lo adoptó en el año45 a. C. y lo designó su heredero.
Fuente: http://www.biografiasyvidas.com/biografia/a/augusto.htm
7|Página
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
ción interna que, a su vez, sería de mucho provecho para descubrir fallas o debilidades y proponer mejoras en su país.
Con el correr de los años, esta ciencia nueva y novedosa se va expandiendo y paralelamente su significación se va encaminando lentamente hacia la acepción
con que hoy se la conoce: la ciencia que se ocupa de la recolección y clasificación de cualquier tipo de datos cuantitativos.
Otro de los motivos de la rápida aceptación de la Estadística fue que esta joven
ciencia receptó y utilizó la idea de William Playfair acerca de que los gráficos
permiten una comunicación más eficiente que la información escrita en forma de
tablas. Playfair es considerado como el inventor de los gráficos lineales, de barras y de sectores, a partir de la publicación, en el año 1786, de su libro titulado
The Commercial and Political Atlas (Atlas comercial y político) y, en el año
1801, de Playfair’s Statistical (Breviario de Estadística de Breviary Playfair). En
la actualidad, no se concibe el análisis de datos sin su correspondiente ilustración.
De la primitiva idea de recolección y análisis de datos, se fue llegando a la idea
del tratamiento e integración de los datos. Fue Sir Francis Galton, un inglés curioso y estudioso por naturaleza, primo de Darwin y amigo de Karl Pearson,
quien introdujo el concepto estadístico de regresión lineal y correlación, que
permitió convertir conjuntos de datos apareados en relaciones matemáticas, lo
cual le dio a la Estadística un impulso impensado. A partir de allí, fue el primero
en aplicar métodos estadísticos para estudiar las diferencias humanas basados en
el uso de cuestionarios y entrevistas para la recogida de información.
Herman Hollerith, un estadounidense pionero de la computación, desarrolló la
primera máquina tabuladora basada en tarjetas perforadas y mecanismos eléctrico-mecánicos para el tratamiento veloz de cantidades enormes de datos. Con el
avance de la computación, la Estadística cobró un inusitado impulso, pues el manejo de datos que requería de enormes esfuerzos e ingentes cantidades de tiempo
se redujo a una tarea sencilla y rápida.
En la actualidad, no hay campo del conocimiento, se trate de ciencias duras o sociales, que no utilicen a la estadística como herramienta, no solo para el tratamiento de datos, sino para su logro más preciado, la inferencia estadística.
Así, por ejemplo, Major Greenwwod (1880-1949), quien investigó los problemas
de salud asociados al trabajo en fábricas, desarrolló la Epidemiología y en 1919
creó el Ministerio de la Salud en Inglaterra, responsable de datos estadísticos
médicos.
Investigadores como Karl y Egon Pearson, Gossett, Neyman y, especialmente,
Ronald Fisher, colaboraron con todo su empeño y tesón en el desarrollo de la Estadística en variados campos. En tal sentido, se le reconoce a Fisher sus logros en
8|Página
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
la aplicación de la Estadística en áreas relativamente nuevas, como la Genética,
la Biología y la Agronomía, lo que le valió ser considerados por algunos de sus
colegas como el padre de la Estadística moderna, aunque siempre tales denominaciones, si bien merecidas, pueden dejar afuera a otros valiosos impulsores de
esta ciencia.
Estadística: ¿ciencia o disciplina?
Más allá de si la Estadística es una ciencia o no, lo cual nos parece una cuestión menor y que podemos dejárselo para que lo resuelva la filosofía científica, lo que sí es
bastante cierto es que la Estadística es en sí misma una disciplina, por cuanto se trata
de un conocimiento riguroso y sistemático referido a una materia concreta. Como en
toda disciplina, hay quienes han trabajado en el desarrollo de principios y lineamientos metodológicos que forman parte de la teoría de la Estadística que, aunque utiliza
como soporte a las matemáticas, dista mucho de ser Matemática.
Otros han impulsado el desarrollo de esta disciplina a través de su inserción en
otras áreas del conocimiento a manera de herramienta. Así, podemos mencionar
su aporte a la sistematización del método científico, al diseño y análisis de experimentos, a estudios epidemiológicos, climatológicos, macroeconómicos, por
nombrar solo algunos, y, más recientemente, fundamentalmente a partir del desarrollo de las ciencias informáticas, al diseño de los sistemas de información, al
manejo de datos, censos y encuestas.
Por otro lado, el campo de sus aplicaciones es tan amplio que existe una tendencia incorrecta a incluirla parcialmente dentro de otras disciplinas. Además, las diferentes definiciones que de ella se efectúan, la ponen en contextos que van desde el propio al utilitario, pasando por el matemático y el social. Para Karl Pearson, la Estadística era una ciencia abstracta con derecho propio, relacionada con
todas las ciencias, más allá de los estudios sociales y actuariales a los cuales estaba restringida. Para Harald Cramer, la Estadística investiga la posibilidad de
extraer de datos estadísticos inferencias válidas, elaborando los métodos mediante los cuales se pueden obtener dichas inferencias 6.
Y hablando de taxonomía estadística, también nos encontramos con posiciones
bastante distantes. La UNESCO la clasifica dentro de las Ciencias Sociales, pero
algunas otras entidades, como por ejemplo FONDECYT 7, la incluyen dentro de
la Matemática y a esta dentro de las Ciencias Exactas y Naturales.
6
Fuente: Revista Universitaria Nº XXV, año 1988, Universidad Católica de Chile.
http://dta.utalca.cl/estadistica/documentos/articulo4.pdf
7
FONDECYT: Fondo Nacional de Desarrollo Científico y Tecnológico, Chile.
9|Página
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Como sea, estamos hablando de la ciencia de la recolección y análisis de datos
para la toma de decisiones, ya que, a partir de la inferencia estadística, transforma datos en información.
LA ESTADÍSTICA COMO BASE FUNDACIONAL DE LOS ESTADOS
La Estadística fue muy bien comprendida desde antiguo por los gobernantes como una forma de conocer los bienes de sus súbditos, con el fin de ser aplicada al
cobro de los impuestos, ya que, en los imperios, las ciudades y territorios conquistados estaban sujetos a impuestos cuyo pago era hecho, o bien con dinero, o
con productos, como por ejemplo parte de las cosechas.
No es difícil advertir, entonces, que uno de los deseos de la conquista por parte
de los antiguos emperadores no era solo adueñarse de las tierras, sino de la recaudación de los impuestos. Sin embargo, a medida que las extensiones de tierras
conquistadas crecían, la complejidad en la recaudación del impuesto marchaba
en el mismo sentido. Los campos se medían, los árboles se enumeraban y señalizaban, y las personas y los animales de todo tipo se registraban. Cada tanto se
obligaba a las familias enteras a concurrir a las plazas, donde se los invitaba a
denunciar sus bienes y, si se observaba cierta reticencia, se pasaba a la incitación
y también a la tortura, para que los ciudadanos declararan sus pertenencias.
Con el correr del tiempo y el consecuente avance social, los métodos también se
fueron perfeccionando.
En Roma, su inigualable organización política, jurídica y administrativa favoreció el desarrollo de la Estadística. Por ejemplo, ya cinco siglos a.C., se realizaba
el census, que consistía en una lista que Servio Tulio 8 ordenó practicar cada cinco años y en la que se incluían el nombre, edad, cualidad y profesión de los habitantes, sus mujeres e hijos. Posteriormente, se incluyeron los esclavos y una indicación sobre sus bienes, con el fin de conocer la riqueza de los ciudadanos.
Estos censos pasaron a ser base constitucional del gobierno. También, en un
Continúa...
8
Servio Tulio fue el sexto rey legendario de la Antigua Roma durante la Monarquia Romana y el
segundo rey de la dinastía Etrusca. Las fechas tradicionales de su reinado son de 578-535 antes
de Cristo. Según la tradición era originario de Vulci e hijo de una sierva llamada Ocresia (de ahí
Servius), se dice que se habría casado con una hija de Lucio Tarquinio Prisco, Y lo sucedió después de que éste fuera asesinado en el año 579 antes de Cristo. Él fue el primer rey de llegar al
poder sin consultar a la población conformada por los plebeyos, Habiendo ganado el trono por el
artificio de Tanaquil, esposa de Lucio Tarquinio Prisco.
Fuente: http://www.historialuniversal.com/2009/12/servio-tulio-rey-roma-monaquiareforma.html
10 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Si puedes medir aquello de lo que hablas,
y si puedes expresarlo mediante un número,
entonces puedes pensar que sabes algo;
pero si no lo puedes medir,
tu conocimiento será pobre e insatisfactorio.
9
Sir William Thomson (Lord Kelvin)
UNIDAD II
CONCEPTOS BÁSICOS DE MEDICIÓN Y DE MATEMÁTICAS
Medir, describir e inferir son las principales tareas de un profesional de la Estadística.
Medir, con la importancia que le daba Lord Kelvin. Conocer las distintas escalas de
medición. Entender que un número es más que una cifra, que él y su entorno nos van
introduciendo en las tranquilas aguas de las Matemáticas y del Cálculo Numérico
de un modo amigable y armonioso.
Veremos, también, en esta unidad, el concepto de notación matemática tan utilizado
en Estadística y algunas operaciones algo nuevas, pero no por ello complicadas, para finalizar con la ecuación de la recta. Una recta que no es un límite ni una muralla, sino una recta prodigiosa, porque nos permitirá efectuar predicciones que, a su
vez, nos permitirá tomar decisiones, es decir, nos permitirá cumplir con la finalidad
de la Estadística.
Rompemos con los mitos de la tenebrosa Matemática. Esas pocas operaciones novedosas más los conceptos básicos que el lector trae del colegio secundario es todo lo
que hay que saber para trabajar con las técnicas estadísticas. Nada más.
Queremos que el lector, al finalizar esta unidad diga: “Si esto es todo lo que tengo
que saber de Matemáticas… ¡Sigamos adelante!”
Dado que la Estadística se basa en el conteo y medición de los datos, repasaremos algunos conceptos básicos que utilizaremos a través de las distintas unidades.
9
WILLIAM THOMSON, PRIMER BARÓN KELVIN, OM, GCVO, PC, FRS (Belfast, Irlanda
del Norte, 26 de junio de 1824 - Largs, Ayrshire, Escocia, 17 de diciembre de 1907) fue un físico
y matemático británico. Kelvin se destacó por sus importantes trabajos en el campo de la termodinámica y la electrónica gracias a sus profundos conocimientos de análisis matemático. Es uno
de los científicos que más hizo por llevar a la física a su forma moderna. Es especialmente famoso por haber desarrollado la escala de temperatura Kelvin. Recibió el título de barón Kelvin en
honor a los logros alcanzados a lo largo de su carrera.
Fuente: http://es.wikipedia.org/wiki/William_Thomson
11 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
VARIABLES DISCRETAS Y CONTINUAS
Una variable que teóricamente puede tomar cualquier valor entre dos valores dados se llama variable continua. También podemos decir que una variable continua es aquella que, entre dos valores, siempre acepta uno intermedio y así sucesivamente.
Por el contrario, aquellas variables que no aceptan valores intermedios entre dos
variables se llaman discretas.
En general, las medidas dan origen a datos continuos, mientras que las enumeraciones o conteos originan datos discretos.
Son ejemplos de variables discretas:
La cantidad de hijos que tiene una familia.
La cantidad de bienes que poseemos.
La cantidad de días que tiene un determinado período.
La cantidad de miembros de un equipo.
Etc.
Son ejemplos de variables continuas:
La altura de las personas u objetos.
La producción agrícola.
Los gastos de una empresa.
El consumo de electricidad.
El peso de un objeto.
Etc.
Dependiendo del tipo de unidades de medida y de sus restricciones, las variables
pueden mutar. Por ejemplo, en la evaluación del aprendizaje, se puede tomar una
escala de valores cuantitativos entre 0 y10.
Si se trabaja con una posibilidad ilimitada de fracción de decimales, la calificación obtenida por cada participante se corresponderá con una variable continua.
Sin embargo, si se trabaja con evaluaciones en números estancos, la calificación
se transforma en una variable discreta. Pero, si el aprendizaje se evalúa mediante
una escala conceptual, la calificación se transforma en una variable cualitativa
nominal.
Valores de una variable
12 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Los valores de una variable pueden ser:
Valores cuantitativos: Estos valores representan cantidades numéricas y
pueden corresponder a una variable continua o discreta, según se admitan
o no fracciones decimales, sin o con restricción.
Valores cualitativos: Los valores cualitativos representan valores conceptuales que pueden ser ordenados en una escala convencional. Corresponden siempre a variables discretas porque los conceptos están representando valores estancos.
Por ejemplo, el color en el espectro solar es una variable que puede tomar los valores rojo, naranja, amarillo, verde, azul, índigo y violeta, es decir, valores cualitativos.
Lo mismo sucede con el tamaño de un objeto cuando se clasifica según rangos
como pequeño, mediano o grande. También puede suceder con la calidad de un
producto o servicio cuando se clasifica según rangos como malo, aceptable, bueno o muy bueno.
Muchas variables adoptan valores cuantitativos, como ser el peso, la longitud, el
tiempo, etc.
Por ejemplo, durante una prueba automovilística en una zona desértica se puede
leer el siguiente relato ―Para recorrer una distancia de 35,6 km, la camioneta de
Pedro Car, que pesaba 1.970 kg, demoró un tiempo de 75 minutos‖.
EJEMPLO DE VARIABLES
Descripción de la variable
Cantidad de prendas vendidas cada día en un local comercial.
Temperaturas registradas cada media hora en un observatorio.
Tiempo de duración de las cubiertas de un automóvil.
Cantidad de entradas vendidas para un clásico de futbol.
Cantidad de empleados de una firma.
Cantidad de alumnos inscriptos para la carrera de Estadística.
Duración de la pilas de un audífono.
Tipo
discreta
continua
continua
discreta
discreta
discreta
continua
LÍMITES REALES DE UNA VARIABLE CONTINUA
Como ya hemos visto, una variable continua es la que puede adoptar cualquier
valor dentro de un intervalo específico de valores. Veamos un ejemplo para lo
cual utilizaremos el peso de una señorita que cuida mucho su figura.
13 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Supongamos que la señorita se pesó el domingo anterior a su cumpleaños. La escala de la balanza electrónica es la que se muestra en la figura II.1 y tiene una
precisión de un kilogramo. El peso que la señorita registró cuando el fiel de la
balanza se encontraba en el punto B fue de 60 kg y así lo indicó el ticket correspondiente. Tres días después, la señorita se pesa
nuevamente y nota que el fiel se había corrido
hacia la derecha, a la posición C. Piensa que había
engordado pero cuando aprieta el botón de la balanza sale un ticket que nuevamente le indica que
pesa 60 kg.
Otro día el fiel estaba en la posición A y la balanza
informó 59 kg y el día en que el fiel estuvo en la
posición D, la balanza informó 61kg.
Pareciese que existe una diferencia entre el peso
real mostrado por el fiel de la balanza y el informado por la balanza en su ticket. Surgen de lo relatado, al menos, dos preguntas:
¿Por qué dos pesos diferentes son informados por la balanza como iguales?
¿Cuál es la posición del fiel que hace variar el peso informado por la balanza?
La respuesta está relacionada con la posición relativa del fiel con respecto al
punto medio entre dos unidades sucesivas. Entre 59 y 60 kg, el centro es 59,5 y,
entre 60 y 61 kg, el centro es 60,5 kg.
La respuesta a la primera de las pregunta es que la balanza electrónica está programada para emitir información del peso solo en números naturales.
La respuesta a la segunda pregunta está relacionada con la posición relativa del
fiel de la balanza. Cuando está a la derecha de un punto medio en la escala de
medición, el peso emitido es el correspondiente a la unidad superior; pero, cuando el fiel se encuentra a la izquierda del punto medio, el peso emitido corresponde a la unidad inferior.
Cuando el fiel se encuentra exactamente en el centro entre dos unidades sucesivas, la balanza emitirá un peso que se corresponderá con la unidad anterior o
posterior según las reglas de redondeo que veremos más adelante.
Así, cada vez que se registre el peso de 60 kg, esto no quiere decir que el peso de
la señorita sea exactamente de 60 kg, sino que el peso está entre 60 ± 0.5 kilo14 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
gramos. No conocemos el valor exacto del peso, pero estamos seguros de que se
encuentra en el rango de 59,5- 60,5. Este rango especifica los límites reales del
peso de 60 kilogramos. El valor 59,5 se denomina límite real inferior mientras
que el valor 60,5 es el límite real superior.
Los límites reales de una variable continua son aquellos valores que están por
arriba y por debajo de los valores registrados, a una distancia que es igual a la
mitad de la unidad de medida mínima en la escala.
Por ejemplo, si la variable es el peso de la señorita, la menor unidad es el kilogramo, y registramos 60 kilogramos cada vez que los límites reales estén arriba y
abajo de 60 kilogramos en medio kilogramo. A decir verdad, los límites reales
son 59,500000... y 60,499999..., pero no es necesario ser tan precisos. La Tabla
II.1 muestra algunos ejemplos.
Tabla II.1. Ejemplo de límites reales de una variable continua
Unidad mínima
de medición
0,01
0,1
1
10
100
Valor registrado
de la variable
60,00
60,0
60
60
600
Límite
real inferior
59,995
59,95
59,5
55
550
Límite
real superior
60,005
60,05
60,5
65
650
Cifras significativas de una variable
En Estadística descriptiva, principalmente trabajamos con gran cantidad de datos. Muchas veces, estos datos son números naturales, pero, cuando operamos
con ellos, por ejemplo, al realizar un cociente o una raíz cuadrada, el resultado es
un número fraccionario.
Dado que, en los cálculos estadísticos, si bien realizamos operaciones matemáticas, su objetivo es marcar una tendencia, la exactitud matemática no es tan necesaria. Qué diferencia conceptual existiría si dijésemos que después de realizar
una encuesta la tendencia de los encuestados indica que el candidato Juan Padrón
obtendría el 37,82% de los votos, o que dijéramos que obtendría el 37, 8 % de
los votos, o simplemente el 38% de los votos.
La gente, con cualquiera de las tendencias que le informemos, podrá tener una
noción bastante precisa de la intensión de voto de Padrón.
Continúa ...
15 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Resulta extraño que nadie quiera ver
en la observación el valor de servir de
fuerza -ya sea positiva o negativa- sobre
las opiniones, si acaso han de tener algún valor.
10
Charles Darwin
UNIDAD III
RECOGIDA DE INFORMACIÓN, RECOLECCIÓN DE DATOS
E INVESTIGACIÓN ESTADÍSTICA
En esta unidad, podemos decir: ¡Bienvenidos! Los invitamos a transitar el verdadero mundo de la Estadística.
Si, como veremos a lo largo del libro, la materia prima con la que trabaja la Estadística son los datos, el estudio de los datos debe ocupar un lugar preponderante
en un libro de Estadísticas. Sin embargo, pocos textos le abren sus páginas a esta
técnica universal que se llama Recogida de la Información.
Si un fabricante de dulces debe saber cuándo y cómo recoger los frutos, el estadístico debe saber, también, cuándo recoger los datos y cómo tratarlos.
Es, a nuestro entender, una unidad muy importante, porque nos introduce en un
mundo nuevo, el de la administración de la información. Veremos cómo se recogen
datos mediante entrevistas, encuestas, análisis de documentación o a través de la
no tan simple observación.
De la misma manera en que una fruta mal recogida derivará en una horrenda
mermelada, datos mal recogidos derivarán en mala información y en peores predicciones.
Una linda unidad, con la importancia de lo simple en la trascendente tarea del investigador.
Cuando vemos la definición de Estadística como la ciencia que tiene por objeto
la organización, presentación, descripción, resumen y comparación de datos
numéricos, inmediatamente inferimos que la ―materia prima‖ de la estadística
son los datos.
El profesional de la Estadística, en muchas ocasiones, ha de trabajar con datos
10
Charles Darwin. (Charles Robert Darwin; Shrewsbury, Reino Unido, 1809 - Down, id., 1882)
Naturalista británico. Era hijo de un médico de buena posición y nieto del famoso médico, filósofo, naturalista y poeta inglés Erasmus Darwin. A pesar de cursar estudios de medicina en Edimburgo y de teología en Cambridge, inducido al parecer por su padre, muy preocupado por su futuro, su interés principal, estimulado entre otros motivos por la lectura de las obras del alemán
Alexander von Humboldt, se centraba en las ciencias naturales. Fuente:
http://www.biografiasyvidas.com/biografia/d/darwin.htm
16 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
existentes, pero, en otras, especialmente cuando debe efectuar un trabajo de investigación estadístico, debe reunir los datos sobre los que ha de ocuparse.
Por eso, entendimos que el primer capítulo específico sobre la temática de este
libro debía estar referido a la recolección de datos, que no es otra cosa que la recogida de información.
La recogida de información es una práctica universalmente aceptada que se refiere al uso de un conjunto de técnicas o herramientas que pueden ser utilizadas por
el analista con la finalidad de buscar la información que será útil a una investigación en particular.
Por eso, en esta unidad veremos detalladamente los pasos que se debe seguir en
el proceso de recolección de datos, utilizando las técnicas mencionadas. Cada
una de estas técnicas tiene sus particularidades y cada una de ellas puede resultar
más acorde según los escenarios, y los espacios físicos y temporales involucrados.
Sin embargo, estas técnicas también pueden ser utilizadas en forma conjunta, ya
que cada una tiene sus ventajas y desventajas, por lo que la utilización individual
puede dejar espacios de información vacíos que es necesario llenar con el auxilio
de las otras.
En ocasiones, a la recopilación de datos se la llama compilación de datos.
LA IMPORTANCIA DE UNA BUENA INFORMACIÓN
Obtener información es investigar ciertos antecedentes con un fin determinado
como, por ejemplo, intentar comprender, describir o explorar un área nueva, verificar una hipótesis o ratificar una idea. Son acciones fundamentales cuyo éxito
está ligado, ante todo, a la calidad de la información.
En todas estas acciones, y en muchas otras también, resulta primordial plantearse
algunas cuestiones preliminares, por ejemplo:
Motivo que origina la recogida de información.
Calidad y verosimilitud de la información sobre la cual se ha de trabajar.
Suficiencia de la calidad de la información.
Finalidad que se le ha de dar a la información.
A menudo, la información sobre la que se trabaja es mala, insuficiente, deformada o mal procesada, por lo que, antes del comienzo de cualquier investigación,
resulta importante delimitar el rol de la recogida de información, las precauciones a adoptar y el uso que se le dará.
17 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
LA RECOGIDA DE INFORMACIÓN
La recogida de información se define como el proceso organizado que se efectúa
para obtener información, a partir de diversas fuentes, con el propósito de pasar
de un nivel de conocimiento a otro superior, en el marco de una acción deliberada, cuyo objetivo ha sido claramente definido y que proporciona garantías suficientes de validez.
En general, puede decirse que se está obligado a recoger información cuando se
desea acotar más de cerca una situación dada, sea para:
Detectar necesidades.
Tomar una decisión.
Mejorar el funcionamiento.
Resolver un problema.
Poner a prueba una hipótesis de trabajo.
Estas acciones se diferencian, principalmente, por el objetivo que se pretende lograr y por el contexto en que se desarrollan, por lo que una misma acción podría
ocultar realidades completamente diferentes.
LA RECOGIDA DE INFORMACIÓN Y EL ACTO DE INFORMARSE
Recoger información no es lo mismo que informarse, por lo que, para poder diferenciar un proceso científico de recogida de información del simple hecho de informarse, necesariamente, deben darse las siguientes cuatro condiciones:
El carácter deliberado de la acción, es decir, que esté orientada a la toma
de una decisión, al progreso del conocimiento en una determinada área o
a la confirmación de una hipótesis de trabajo.
El carácter multilateral de la acción.
El carácter organizado de la acción.
La condición de validez suficiente de la acción.
ESTRATEGIAS PARA LA RECOGIDA DE INFORMACIÓN
Una vez que se ha determinado qué es lo que se quiere recoger como información, es necesario elaborar una estrategia a tal fin. Las más usuales son:
La interviú.
La observación.
La encuesta.
18 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
El estudio de documentos.
LA INTERVIÚ
Utilizamos este término para designar, particularmente, el método, mientras que
se emplea el término entrevista para designar cada una de las unidades que lo
componen.
En el sentido común del término, la interviú adquiere un significado muy restrictivo y no unívoco. En general, se trata de efectuar una o más entrevistas, con una
persona, para interrogarla acerca de su experiencia o conocimiento del pasado,
con fines analíticos determinados.
Características de la interviú
Por constituir un método de obtención de información, debe poseer, ineludiblemente, un carácter multilateral, por lo que es necesario hablar de entrevistas, en
plural, siempre que nos refiramos a la interviú como método, por lo que la entrevista aislada, como regla general, no es un método, sino una simple conversación
sin fines analíticos.
La población se determinará, cuidadosamente, mediante una selección precisa de
las personas a entrevistar en función, obviamente, del objetivo que se pretende
alcanzar.
En un marco de recogida de información, la interviú, frecuentemente, se orienta
hacia los hechos objetivos y, en tal sentido, ciertas preguntas son clásicas:
¿Es cierto que tal acontecimiento sucedió?
¿En qué época sucedió tal cambio?
¿Debido a qué sucedió?
¿Cuál fue su efecto inmediato y mediato?
¿Qué medidas se tomaron?
Etc.
La entrevista
La entrevista puede ser considerada como el más antiguo método de recogida de
información y se basa en una antigua capacidad y adquisición evolutiva del
hombre: el lenguaje.
Asimismo, se instrumenta y desarrolla sobre una necesidad inevitable del hombre: la comunicación, materializada en el diálogo.
Desde que existe lenguaje hablado existe la conversación, la comunicación inter
subjetiva, el contacto cotidiano. Con la aparición y desarrollo de las Ciencias So19 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
ciales, se impuso la necesidad de crear instrumentos cada vez más precisos y
válidos para la obtención de información, con vista a obtener una apreciación
más completa de los hechos o fenómenos estudiados, lo que condujo a la creación de diversas técnicas y a la refinación de las ya existentes. Así, aparece la entrevista como técnica, como forma científica de acercamiento a un individuo, con
el fin de obtener de él determinada información, de acuerdo con elementos preestablecidos.
Definición de entrevista
Existen muchas, y hasta en demasía, definiciones de esta técnica. Elegimos estas
dos por ser muy simples y, a su vez, muy completas.
Kerlinger 11 (1985) la define como ―una confrontación interpersonal, en la cual
una persona (el entrevistador) formula a otra (el respondiente) preguntas cuyo fin
es conseguir contestaciones relacionadas con el problema de investigación‖.
Labov y Fanshel12 (1977) refiriéndose a los speech events o acontecimientos de
la palabra o acontecimientos de la oratoria, conceptualiza la entrevista del modo
siguiente: ―Una entrevista es un speech event en el que una persona A extrae una
información de una persona B, información que se hallaba contenida en la biografía de B, con el fin de incrementar el conocimiento de A‖.
Vemos, entonces, que todas las definiciones apuntan a los mismos aspectos: dos
o más personas, una de las cuales (y solo una) es el entrevistador, en tanto que la
otra u otras son el o los entrevistados, quienes se encuentran físicamente en un
mismo espacio para conversar en los términos establecidos por el entrevistador y
donde el entrevistador procurará obtener del entrevistado determinada información.
P
P
Tipos de entrevista
En primer término, señalemos que, en general, existen dos tipos básicos de entrevistas:
La entrevista estructurada o cerrada.
La entrevista no estructurada o abierta.
En la cerrada, el entrevistador dispone de un instrumento con las preguntas
Continúa...
11
12
KERLINGER, F. N. (1985). Investigación del comportamiento. México, Interamericana.
LABOV, W. y FANSHEL, D. (1977). Therapeutic Discourse. Londres, Academic Press.
20 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Dame datos y te devolveré información.
Alberto Alonso
UNIDAD IV
ORDENAMIENTO Y ORGANIZACIÓN DE DATOS
LA DISTRIBUCIÓN DE FRECUENCIAS
El fruticultor, cuando recoge los frutos, los acomoda en cajones y luego los agrupa
por tamaños o calidades, es decir, efectúa un acomodamiento que es previo a la fabricación de la mermelada.
Comenzamos en esta unidad a ver que el estadístico hace exactamente lo mismo.
Una vez que ha recogido sus datos en bruto, debe agruparlos en un cierto orden y
por tamaños. Solo que en vez de cajoncitos utiliza tablas.
Estudiaremos el proceso del conocimiento que, como en un recorrido imaginario del
ferrocarril de la comunicación, pasa por distintas estaciones llamadas Dato, Capta,
Información, Conocimiento y Toma de Decisiones.
Luego entramos de lleno en el arte de agrupar datos, partiendo del conteo, para lo
cual se utiliza un sencillo pero eficaz método: el de tallo-hoja.
Nuevos conceptos como el de frecuencia absoluta y relativa, intervalos de clase, anchos de clase y marcas de clase comienzan a formar parte de nuestros conocimientos
estadísticos a medida que vamos dando nuestros primeros pasos en el arte del ordenamiento y distribución de datos agrupados.
Tanta semejanza con el carpintero y el fruticultor no hacen más que abonar la idea
de que la Estadística no es Matemática, y que solo se sirve de ella cuando realmente
la necesita.
DATOS
La evolución del dato
Podríamos decir que los datos son la materia prima de la Estadística, datos que
son el resultado de la observación de la realidad y, por ende, que son obtenidos
de la misma.
En la actualidad, se sabe que los datos son potencialmente importantes. Es por
este motivo que, en cualquier empresa bien organizada, los datos se guardan,
aunque en un momento inicial no se sepa bien para qué. Podríamos decir que se
guardan por si en algún momento se necesitan.
Iremos viendo en este acápite la importancia del dato, no como dato en sí mismo,
sino como parte de un proceso de evolución del dato que termina, a través de una
variada combinación de procesos, transformándose en información. Una información cuya importancia radica en que constituye los cimientos de un proceso
posterior que es el de la toma de decisiones, pero, además, porque es el paso evo21 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
lutivo anterior al conocimiento.
El proceso evolutivo del dato responde al diagrama mostrado en la figura IV.1.
Figura IV.1. Proceso del conocimiento
A continuación, iremos viendo el significado de estos términos.
Concepto de datos
Entendemos por datos al resultado de nuestras observaciones sobre el estado del
universo. Podríamos decir que el dato es la valoración de alguna característica
medible de una entidad 13.
Generalmente, el dato es el resultado de una medición aplicada a hechos de existencia real o de alguna valoración aplicada a hechos de existencia ideal.
La cantidad de hojas de este libro, la temperatura y la hora que leemos en la pantalla de nuestro televisor en estos momentos, el número de teléfono de nuestro
amigo o amiga que tenemos en nuestra agenda, el resultado del partido de
básquet de nuestro equipo favorito, el resultado de las elecciones en nuestro país,
el resultado de las ventas del día de hoy en nuestro negocio, la cantidad de horas
dedicadas al estudio en esta semana o la cantidad de vueltas a la plaza que dimos
hoy son simplemente datos.
Pero también son datos ciertas valoraciones que podemos efectuar sobre temas más
abstractos como la bondad o la sabiduría, sobre el respeto o la dignidad, sobre nuestras emociones o depresiones, sobre la introversión o extroversión. Gracias a la existencia de varias escalas de medición (las que vimos en la segunda unidad de
este libro), todo es medible.
Los datos reflejan, entonces, las cosas de nuestro mundo. Para que un dato pueda
ser considerado como tal, debe cumplir al menos con dos condiciones:
Identificación: Los datos deben quedar identificados inequívocamente
13
En su sentido más general, una entidad o ente es todo aquello cuya existencia es reconocida
por algún sistema de ontología. Una entidad puede, por lo tanto, ser concreta, abstracta, particular
o universal. Es decir, las entidades no son solo objetos cotidianos como sillas o personas, sino
también propiedades, relaciones, eventos, números, conjuntos, proposiciones, mundos posibles,
creencias, pensamientos, etc. Fuente: Wikipedia.org
22 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
por un conjunto de símbolos o caracteres numéricos, alfabéticos o alfanuméricos: 9 metros, 5 litros, 3 segundos, sin depresión, depresión moderada, altamente introvertido o emoción violenta son simplemente ejemplos.
Contrastabilidad: Los datos deben ser contrastables, es decir, debe ser
posible determinar si el dato es cierto o no, de manera indiscutible. Por
ejemplo, debe haber formas indiscutibles de verificar cuál fue la temperatura máxima del día de ayer, cuál fue el resultado del triunfo de Racing
sobre Independiente en el partido de fútbol de la semana pasada o cuál
fue el resultado de la elección interna del pasado mes de agosto de 2011
en la Argentina. A tal fin, los datos deben ser también registrables.
El hecho de que cada dato forme parte de un registro, es como un desprendimiento lógico de la condición de contrastabilidad, pues para que algo sea contrastable debe existir una forma de comprobar la exactitud o autenticidad de ese
algo14, es decir, su registrabilidad.
CAPTA
Nos hemos cansado de escuchar que la información es el paso siguiente al dato.
Sin embargo, veremos que hay algo intermedio entre ellos.
Este algo es debido a la gran cantidad de datos que existen alrededor de nosotros
en este mundo interrelacionado y global en que vivimos. Y aquí surge inevitablemente una pregunta: ¿Son todos los datos necesarios? Una respuesta podría ser:
Un dato es necesario en tanto y en cuanto sea parte de la realidad
que queremos analizar o estudiar.
El motivo de estudio de alguna manera define el tipo de datos necesarios.
Según Chekland y Holwell 15 (1998): ―La gran cantidad de datos existentes a
nuestro alrededor, claramente en cantidad superior a la que podemos manejar,
nos lleva a seleccionar solo aquellos datos que son relevantes para las acciones
en las que estamos implicados en un determinado momento. Esta porción menor
del conjunto de datos existentes fue denominada por los autores antes mencionados como capta. Así, mientras la etimología de datos (del latín, dare: dar) nos
indica que son algo que se nos da, algo que existe y al que tenemos alcance, la
35 FP35F
P
14
Contrastar: Comprobar la exactitud o autenticidad de algo. Diccionario de la RAE.
CHECKLAND, P. y HOLWELL, S. (1998). Information, systems and information systems.
Chichester, UK, John Wiley & Sons.
15
23 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
noción de capta (del latín, capere: tomar), indica que, de todo lo existente, tomamos solo aquello que nos es de interés, que nos es relevante‖.
Podríamos decir que la gran cantidad de datos con los que podríamos trabajar
nos lleva automáticamente a rechazar parte de ellos para concentrarnos en los
que nos aportan más relevancia en el momento y en la situación concreta en la
que nos encontramos. Tal selección se hace de acuerdo con nuestras habilidades cognitivas, con nuestra capacidad para detectar qué es lo que nos interesa y
qué puede ser considerado accesorio para nuestro fin y en un determinado momento.
INFORMACIÓN
Y llegamos a la tan ansiada información. Con los datos que hemos seleccionado,
hemos construido nuestra capta. Esta primera selección ya ha añadido valor a los
datos accesibles. Pero el verdadero valor proviene de poner la capta en nuestro
contexto personal o colectivo, en el ámbito de lo que nos interesa en un determinado momento y situación, de lo que sabemos o de nuestro propósito. Este contexto nos permite dar sentido a los datos seleccionados, convirtiéndolos en información. En un determinado contexto, los datos nos servirán para algo; en otro
contexto, su significado o utilidad puede ser otro muy diferente, escaso o nulo.
Por ejemplo: 1dólar, o US$1, es un simple dato. ¿Qué nos dice? ¿Qué nos transmite? Nada, absolutamente nada.
Sin embargo, si leemos: “No escatimaremos esfuerzos para liberar a nuestros
semejantes, hombres, mujeres y niños, de las condiciones abyectas y deshumanizadoras de la extrema pobreza...Decidimos reducir a la mitad, para el año 2015,
el porcentaje de habitantes del planeta cuyos ingresos sean inferiores a US$1
por día16”.
Ahora, este dólar es información. Ese dólar ya ha tomado otra dimensión. Ese
dólar tiene sentido porque nos está describiendo la pobreza extrema.
Por lo tanto, somos las personas, en nuestro contexto concreto, las que damos
sentido a los datos y, también, somos las personas las que convertimos la capta
en información. Las máquinas manejan datos, pero no pueden crear información,
pues para que los datos se conviertan en información alguien debe interpretarlos
darles sentido, de acuerdo con su contexto.
Dice Drucker 17 (2000): ―La información es datos dotados de relevancia y propósito. Por ello, para transformar datos en información hacen falta conocimientos.
F
P
16
Declaración del Milenio de las Naciones Unidas (2000).
DRUCKER, P. (2000). ―Llega una nueva organización a la empresa‖. Harvard Business Review. Gestión del conocimiento. Bilbao, Ediciones Deusto.
17
24 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Y el conocimiento, por definición, es especializado‖. Sin embargo, la información por sí misma es una noción abstracta. La información tiene que estar dirigida a alguien porque, por definición, la información es la materia prima para la
toma de decisiones.
Por eso, en la declaración de las Naciones Unidas sobre pobreza, a partir de la información referida a que la pobreza en el mundo está representada por aquellos
habitantes que ganan menos de un dólar diario, las Naciones Unidas toman una
decisión: reducir la proporción de habitantes en nivel de pobreza a la mitad para
el año 2015.
Podríamos cerrar esta explicación sobre el concepto de información mediante la
diferencia e interrelación entre datos, capta e información, dada por Cornella
(2000)18:
Primero, porque la importancia del contexto de cada persona en el proceso de información hace que una misma capta tenga significados distintos para distintas personas.
Segundo, porque es información solo aquello que el usuario encuentra
in-formante. Los datos que, aunque relevantes, no le aportan nada nuevo
o nada que no podía predecir de lo que ya sabía no son considerados información por el usuario. En este punto, la edición de la información, o
sea, su presentación en un formato que sea de utilidad al usuario, tiene
cada vez más importancia.
Tercero, porque mientras que los datos son muy fácilmente manejables
por las tecnologías de la información, la conversión de datos en información es un proceso básicamente humano, aún no automatizable. Las tecnologías han resultado de gran utilidad para el manejo de datos, pero no
lo son tanto para manejar información. En consecuencia, para que una
organización tenga una buena gestión de la información, las personas son
aún más importantes que las tecnologías.
CONOCIMIENTO
El último estadio en este desarrollo conceptual corresponde al conocimiento.
Podríamos decir, a manera de símil con nuestro organismo, que la metaboliza
Continúa...
18
CORNELLA, A. (2000). ―La información no es necesariamente conocimiento". Universidad
Gastón Dachary (http://www.dachary.edu.ar).
25 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Cuando veas un gigante, examina antes la posición del sol;
no vaya a ser la sombra de un pigmeo.
Novalis19
UNIDAD V
MEDIDAS DESCRIPTIVAS
LAS MEDIDAS DE POSICIÓN
Ya tenemos los datos ordenaditos y ahora comienza nuestra tarea de marketing.
Igual que el fruticultor, él irá poniéndole cartelitos a sus cajones con frutos para
indicar qué son, para qué sirven, qué medidas y calidades posen, y hasta elaborará
un folleto para explicar esas características. De la misma manera que el escritor
le da vida a sus personajes, describiéndolos, también la Estadística necesita describir sus datos, que son como sus personajes, sus valiosos y queridos personajes.
Por eso, comenzamos ahora a estudiar las llamadas medidas descriptivas, es decir,
aquellas que describen a la distribución de datos agrupados para saber quiénes
son, cómo son y cómo los podemos caracterizar.
Nuevamente, le preguntamos al lector: ¿Ve en esto alguna semejanza con las queridas Matemáticas?
MEDIDAS DESCRIPTIVAS
En Estadística Descriptiva, cada unidad va dando apoyo a la siguiente. El programa de descripción de datos es así, muy apasionante y atrayente.
Vimos en la unidad IV cómo ordenar y agrupar datos con el fin de que el tomador de decisiones pudiese tener un mejor manejo de los mismos. En este contexto, utiliza varias medidas descriptivas.
Las medidas descriptivas son valores numéricos calculados a partir de la muestra
y que nos resumen la información contenida en ella. A estas medidas podemos
agruparlas dentro de cuatro grupos muy específicos:
Medidas de Posición: Estas medidas permiten dividir un conjunto ordenado de
datos en grupos más pequeños que contengan la misma cantidad de individuos.
Estas medidas de posición de una distribución de frecuencias han de cumplir determinadas condiciones para que sean verdaderamente representativas de la variable que resumen. Toda síntesis de una distribución se considerará operativa si
19
Novalis (Friedrich Freiherr von Hardenberg) (1772-1881): Poeta y escritor alemán. Uno de
los escritores que formuló la teoría del romanticismo literario. Fuente:
http://www.ecured.cu/index.php/Novalis
26 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
intervienen en su determinación todos y cada uno de los valores de la distribución, siendo única para cada distribución de frecuencias, y siendo siempre calculable y de fácil obtención.
Las medidas de posición más comunes utilizadas en Estadística son:
Cuartiles: Hay 3 cuartiles que dividen a una distribución en 4 partes iguales: primero, segundo y tercer cuartil.
Deciles: Hay 9 deciles que dividen a una distribución en 10 partes iguales
(Van del primero al noveno decil).
Percentiles: Hay 99 percentiles que dividen a una distribución en 100 partes iguales (Van desde el primero al noventa y nueve avo percentil).
Medidas de Centralización o de Tendencia Central: Al describir grupos de
observaciones, el tomador de decisiones, en ocasiones, requiere sintetizar la información en un único valor que sea representativo del grupo. Este grupo de medidas se denominan de centralización o de tendencia central porque, en general,
están bastante cercanas al centro de la distribución. Entre las más usuales tenemos la media, la mediana y la moda.
Medidas de dispersión. Si bien al tomador de decisiones le resulta útil trabajar
con un único valor que, de alguna manera, sea representativo del grupo, esto no
es suficiente. Es por eso que también requerirá saber cuán dispersos están los valores que integran el grupo con respecto al valor central. Entre las medidas de
dispersión más usuales tenemos el rango, la varianza, la desviación típica y el
coeficiente de variación.
Medidas de forma: Cuando el tomador de decisiones trabaja con curvas que representan gráficamente las distribuciones de frecuencias, necesita conocer la
proporcionalidad y la concentración de los valores dentro de tales curvas. Entre
las medidas de forma más utilizadas tenemos el coeficiente de proporcionalidad
y la curtosis.
MEDIDAS DE POSICIÓN
En muchas ocasiones necesitamos efectuar análisis posicionales de los datos que
manejamos en relación con la posición que ocupan dentro de la distribución.
Aquí se presentan dos alternativas, ambas muy valiosas para el tomador de decisiones.
Ellas son:
27 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Dado un valor, determinar cuál es la posición –en términos porcentualesque ocupa dentro de la distribución.
Dada una determinada posición porcentual dentro de una distribución de
frecuencias, determinar con qué valor se corresponde.
Las medidas de posición se denominan cuantiles. Wilk y Gnanadesikan (1968)
fueron pioneros en la promoción de la función cuantil muestral para el análisis
estadístico de datos, y en su artículo mencionan una larga lista de ventajas 20.
El cuantil, en sí, es un término genérico que hace referencia a los puntos de una
distribución o escala ordenada que la dividen en un determinado conjunto de partes iguales.
Dentro de ellos, los más importantes son:
CUARTILES: Es una forma de cuantil que divide a una distribución ordenada
en cuatro partes iguales. Cada parte agrupa al 25% de los datos. Los cuartiles son
tres y se representan con la letra Q. Ver figura V.1.
Fig. V.1. Distribución de los cuartiles
DECILES: Es una forma de cuantil que divide a una distribución ordenada en
diez partes iguales. Cada parte agrupa al 10% de los datos. Los deciles son nueve
y se representan con la letra D.
Ver figura V.2.
20
Wilk M. B. y Gnanadesikan R. Probability Plotting Methods for the Analysis of Data. Biometría. Vol. 55, No. 1 (Mar., 1968), pp. 1-17. Publicada por Biometrika Trust.
http://www.jstor.org/stable/2334448
28 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Figura V.2. Distribución de los deciles
PERCENTILES: Es una forma de cuantil que divide a una distribución ordenada en cien partes iguales. Cada parte agrupa al 1% de los datos. Los percentiles
son noventa y nueve, y se representan con la letra P.
QUINTILES: En ocasiones también se utiliza este sectorizador. Es una forma de
cuantil que divide a una distribución ordenada en cinco partes iguales. Cada parte agrupa al 20% de los datos. Los quintiles son cuatro. En la literatura no hay
una forma estandarizada para definirlos con alguna letra en particular.
En algunas ocasiones se utiliza la letra K.
Figura V.3. Distribución de los quintiles
MEDIANA: Una medida de posición que generalmente se estudia dentro de las
medidas de tendencia central es la mediana. La mediana es el punto medio o centro de una distribución de frecuencias acumuladas. Por definición, coincide con
el Q2, el D5 y el P50. La mediana es tanto una medida de posición como de tendencia central.
EQUIVALENCIAS ENTRE CUANTILES
Dado que los cuantiles son medidas de posición, algunos cuantiles pueden tener
la misma posición dentro de la distribución de frecuencias. Por ejemplo:
Q2 es equivalente al D5 y al P50.
D1 es equivalente al P10, D2 es equivalente al P20, y así sucesivamente.
29 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
K1es equivalente al D2 y al P20; K2 es equivalente al D4 y al P40, y así,
sucesivamente.
RANGO INTERCUARTIL (RI)
Un rango posicional que se utiliza asiduamente en Estadística es el rango intercuartil. Indica qué tan lejos de la mediana tenemos que ir en ambas direcciones
para recorrer la mitad de los valores del conjunto de datos.
Para su cálculo, simplemente efectuamos la diferencia entre el Q 3 y el Q1. Ver
Figura V.4
Figura V.4. Rango Intercuartil (RI) = Q3 – Q1
PERCENTILES
Una medida estadística, que se utiliza constantemente a la hora de analizar los
datos, es el percentil. El percentil es una medida de posición no central que nos
per-mite conocer cómo está posicionado un valor con respecto al total de una
muestra. Un concepto de percentil está referido al valor tal que deja por debajo
un determinado porcentaje de los miembros de la población.
Por ejemplo, el 50º punto percentil o P 50 es el valor de una distribución de frecuencias que deja por debajo de él al 50% de los datos de esa distribución.
De igual modo, el 75º punto percentil o P75 es el valor de una distribución de
frecuencias que deja por debajo de él al 75% de los datos de esa distribución.
DETERMINACIÓN DEL PERCENTIL EN UNA DISTRIBUCIÓN CONTINUA
Si una variable pudiese asumir infinitos valores (variable continua), la representación gráfica de sus porcentajes acumulados tendría una forma parecida a la que
se puede observar en la Figura V.5, conocida como Ojiva de Galton.
Continúa...
30 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
La moda es aquello merced a lo cual lo fantástico
se convierte por un momento en universal.
Oscar Wilde21
UNIDAD VI
INDICADORES DE CARACTERIZACIÓN O DESCRIPCIÓN
DE MUESTRAS Y DISTRIBUCIONES.
LOS INDICADORES DE TENDENCIA CENTRAL
Seguimos en esta unidad con las medidas descriptivas que están referidas a los indicadores de tendencia central.
Llegamos aquí por primera vez a tropezar con un viejo y querido amigo: el promedio. ¿Quién no ha trabajado con promedios? Recordemos cuando en el secundario
hacíamos decenas de quiméricos cálculos para saber si el promedio de nuestras
calificaciones nos alcanzaba para aprobar tal o cual materia, o qué calificación
deberíamos obtener para aumentar el tan mentado promedio. Un concepto que
aprendimos casi sin darnos cuenta y que es de capital importancia en la Estadística. Sin embargo, veremos que, además del promedio, hay otros indicadores del
centro de una distribución o muestra, y que son la mediana y la moda.
No, querida lectora, no es la moda que usted imagina, pero tampoco es tan diferente. Por algo se denominan de la misma manera.
Caminando por la Av. Pedro Goyena, en Caballito, Guillermo encuentra a Alberto, un viejo amigo al cual hacía tiempo que no veía ni del que tenía noticias.
Después del efusivo saludo, y las preguntas y respuestas de rigor, se entabla el
siguiente diálogo:
— Alberto, contame qué estás haciendo actualmente.
— Lo que me agrada. Sabes que siempre me gustó enseñar. Casualmente, acabo
de tomar un nuevo curso de Estadística en la Universidad.
— ¡Qué bueno! Seguramente estarás encantado.
— Sí, así es.
21
Oscar Fingal O'Flahertie Wills Wilde (Dublín, Irlanda, entonces perteneciente al Reino Unido,
16 de octubre de 1854 - París, Francia, 30 de noviembre de 1900) fue un escritor, poeta y dramaturgo irlandés. Wilde es considerado uno de los dramaturgos más destacados del Londres victoriano tardío; además, fue una celebridad de la época debido a su gran y aguzado ingenio. Hoy en
día, es recordado por sus epigramas, obras de teatro y la tragedia de su encarcelamiento, seguida
de su temprana muerte. Fuente: http://es.wikipedia.org/wiki/Oscar_Wilde
31 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
— ¿Y cómo es tu alumnado? Me refiero a sus características.
— Mirá, te diré que la media de sus edades ronda los 28 años.
Alberto iba a continuar su comentario cuando Guillermo recibe un llamado a su
teléfono celular y, luego de terminar la comunicación, le dice a su amigo: ―ha
surgido un inconveniente en el trabajo que requiere mi presencia inmediata. Seguimos charlando. Te llamo en estos días al celular‖
Por la noche, Guillermo le comenta a su esposa el encuentro con su viejo amigo
y también le cuenta que estaban hablando sobre el nuevo curso de Estadística
que Alberto estaba dictando, y que, cuando este le estaba comentando acerca de
las características de sus alumnos, tuvo que finalizar abruptamente la charla porque lo requirieron del trabajo.
Más tarde, Guillermo piensa en lo que su amigo le había empezado a contar sobre las características de su curso y recuerda sus últimas palabras: ―La media de
sus edades ronda los 28 años…‖
A partir de ese dato, Guillermo trata de imaginarse al alumnado de su amigo y
encuentra que bajo tal consigna cabía una gran cantidad de alternativas:
Alternativa 1: Todos sus alumnos tienen 28 años.
Alternativa 2: La mitad de sus alumnos tiene aproximadamente 27 años y la otra
mitad 29 años.
Alternativa 3: La mitad de sus alumnos tiene aproximadamente 26 años y la otra
mitad 30 años.
Alternativa 4: Un tercio de sus alumnos tiene 27 años, el otro tercio 28 y el tercio
restante 29 años.
Alternativa N-1: Aproximadamente 1/4 de los alumnos tiene 26 años, otro cuarto
27 años, otro cuarto 29 años y el cuarto restante 30 años.
Alternativa N: Aproximadamente la mitad tiene 23 años y la otra mitad tienen 33
años.
Fue entonces que Guillermo llamó a su amigo y le dijo: ―Sabes que me quedé
con una gran inquietud: ¿Cómo está constituido el alumnado de tu nuevo curso
de Estadística? Me contaste que en promedio tenían 28 años pero con eso no
puedo imaginarme como son ellos‖.
Entonces Alberto le contesta: ―Guillermo, tú sabes que para caracterizar a una
muestra se necesitan al menos dos indicadores: uno de tendencia central y otro
32 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
de dispersión. Te estaba contando cuál era el indicador de tendencia central y,
cuando iba a contarte cuál era el de dispersión, justo tuvimos que interrumpir
nuestra charla. Pero como hablar de indicadores de dispersión es algo más complejo que hablar de indicadores de tendencia central, te sigo contando acerca de
mis alumnos, cuando nos encontremos a tomar un café en A r á b i ca la próxima
semana.
Este diálogo imaginario entre Guillermo y su amigo Alberto es lo suficientemente elocuente para que, en principio, entendamos que para caracterizar una muestra necesitamos dos tipos de indicadores: los de tendencia central y los de dispersión.
La prensa y la televisión a menudo nos saturan con noticias referidas a promedios. Por ejemplo:
La cantidad de choques entre automóviles en el último mes alcanzó un
promedio de 13 accidentes diarios.
El ingreso promedio de una empleada de comercio es de 4.200 pesos.
La cantidad promedio de lluvia caída en la primavera fue de 175 mm.
La mayoría de la gente cree estar muy bien informada conociendo noticias como
las referidas. Sin embargo, tal nivel de información es muy vago e insuficiente
para ser considerado una buena información.
Esto, porque no sabemos entre qué valores varía el sueldo de la empleada de comercio, o la cantidad de choque diarios entre automóviles, o la cantidad de lluvia
caída. No sabemos si la brecha entre extremos es amplia o pequeña.
Podemos concluir entonces que toda noticia basada en promedios no es una buena información si no viene munida de algún sondeo adicional que nos informe
acabadamente sobre la variabilidad de las cifras a que se refiere el promedio.
INDICADORES DE TENDENCIA CENTRAL
Como hemos visto sucintamente hasta ahora, con el fin de caracterizar a una
muestra necesitamos dos tipos de indicadores.
Los de tendencia central, que son indicadores estadísticos que muestran hacia
qué valor se agrupan o convergen los datos que conforman una muestra y los de
dispersión, que nos indican o muestran cuán dispersos están los datos con respecto al indicador de tendencia central que los caracteriza.
La Figura VI.1, nos muestra tres distribuciones dibujadas en rojo, en verde y en
azul, todas con el mismo valor de su media (330).
Sin embargo, aunque estas distribuciones tengan la misma media, observamos
33 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
que representan tres escenarios bastante distintos originados en conjuntos de datos muy diferentes. Esto es lo que, en Estadística, llamamos dispersión de los datos.
Figura VI.1. Dispersión de los datos
Por esto, la tendencia central y la variabilidad son las dos características de las
distribuciones que se cuantifican más a menudo.
Dentro de este grupo de indicadores, los más habituales son la media aritmética,
la moda y la mediana.
Analizaremos a cada uno de ellos desde dos perspectivas, según sea que se trate
de una muestra o que se trate de una distribución de frecuencias.
MEDIA ARITMÉTICA
Media aritmética de una muestra
Este indicador es el más conocido y reconocido por los legos, pues se trata del
valor que se calcula habitualmente al promediar algún conjunto de datos, tales
como el promedio de edades, alturas, calificaciones, etc.
Por ejemplo, si queremos determinar la edad promedio de los alumnos de un determinado curso, solo debemos sumar las edades de cada uno de ellos y al resultado dividirlo por la cantidad de integrantes del curso.
Ese numerito tan simple que hemos obtenido se llama media aritmética.
La media aritmética de una muestra, es decir, de un conjunto de datos en bruto se
define como la suma de todos los datos de la muestra dividida por la cantidad total de los mismos. En forma de ecuación, se puede escribir de dos maneras:
34 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
n
Xi
i 1
X
n
(Media de una muestra)
[Fórmula VI.1]
N
Xi
i 1
N
(Media de una población)
[Fórmula VI.2]
donde:
: representa los datos en bruto de una muestra o población.
: (que se acostumbra a leer X barra) representa la media del conjunto de
datos de la muestra.
μ: representa la media de una población.
n: representa la cantidad total de datos de una muestra
N: representa la cantidad total de datos de una población.
Notación: En la simbología estadística, cuando un mismo valor puede estar referido tanto a una muestra como a una población, diferenciamos la situación mediante su notación. Empleamos letras del alfabeto español, para indicar que nos
estamos refiriendo a una muestra y letras del alfabeto griego, para indicar que
nos referimos a una población.
Al respecto, obsérvese que utilizamos dos símbolos para la media: si los datos
son de una muestra y μ si se trata de los datos de una población.
Sin embargo, los cálculos matemáticos son exactamente los mismos sin importar de dónde provienen los datos.
Ejemplo VI.1
Supongamos que queremos conocer el kilometraje anual promedio recorrido por
cuatro vehículos de una empresa de remisería.
Los datos figuran en la Tabla VI.1.
Continúa...
35 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
La variabilidad es lo que hace bella a la extensión,
el saber que en cada esquina puede aparecer
algo nuevo y deslumbrante,
ya que, si todo se redujese a lo central,
viviríamos un mundo monótono y neutral.
Alberto Alonso
UNIDAD VII
INDICADORES DE CARACTERIZACIÓN O DESCRIPCIÓN
DE MUESTRAS Y DISTRIBUCIONES.
LAS MEDIDAS DE VARIABILIDAD
Seguimos en esta unidad con la tercera de las medidas descriptivas que están referidas a los indicadores de dispersión.
¡Ah! ¿Ustedes creían que con el promedio alcanzaba?
Lamentamos decirles que la vida a veces nos brinda enseñanzas sesgadas. Promedios por aquí y promedios por allá, son cosas de todos los días. Pero, de información, muy poco.
Bueno, a no ponerse nerviosos. Al final de esta unidad, habrán entendido que al
promedio hay que acompañarlo con alguna medida de dispersión para poder decir
con orgullo: ¡Ahora poseemos información! ¡Ahora podemos comenzar a pensar
en tomar una buena decisión!
Y NOS ENCONTRAMOS CON GUILLERMO EN A r á b i c a
Unos días después Guillermo me habla por teléfono y quedamos en encontrarnos
a tomar un café en A r á b i c a. Siempre la puntualidad distinguió a Guillermo y a
las 10:30 exactas cruzó las puertas del café. Charlamos de muchas cosas pero, en
un momento, Guillermo me dijo:
— Alberto, me quedé pensando en el tema de los promedios de edad y debo confesarte que ahora me estoy dando cuenta de que el promedio en realidad no me
está brindando mucha información. No tengo ni idea cómo son tus alumnos.
— Querido Guillermo, siempre fuiste un muy buen alumno y la lógica fue uno
de tus fuertes. Vivimos inundados de una pseudo información basada en los
promedios, pero vos rápidamente te diste cuenta de que los promedios, en realidad, no nos dicen mucho, ya que, como información, son bastante pobres.
— Bueno, gracias por tu elogio. Pero es cierto, nunca antes lo había pensado.
— De acuerdo, te explicaré algo. Los promedios, que son solo una de las varias
formas de medir la tendencia central de un conjunto de datos, deben ser comple36 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
mentados con otros indicadores para que la información sea más confiable y predecible. Esos indicadores a los que me refiero son los llamados indicadores de
dispersión. Ellos me indican cuán dispersos están los datos que integran el grupo
alrededor de, digamos, la media.
— Claro, es como cuando me dicen que un paquete de harina de maíz pesa 500
gramos ± 20 gramos.
— Es algo similar. En verdad, a lo que vos te referís es al error de medición, pero
como concepto no está mal. Fue muy acertado. La dispersión es una especie de
error de medición del indicador de tendencia central.
— Ya voy entendiendo por qué no podía imaginarme cómo era el perfil de tu
alumnado.
— Obvio, cuando yo iba a mencionarte ese tema sonó tu celular y la conversación quedó trunca. Bueno, vayamos al grano. La desviación estándar de la edad
de mis alumnos es de 4 años.
— Claro ahora entiendo. Tus alumnos tienen edades comprendidas entre 24 y 32
años.
— No es tan así. Esa desviación no es tan directa. Es una desviación probabilística, por lo que sus límites no son tan fijos. Ese valor de 4 me indica que, con una
probabilidad del 68%, las edades estarán comprendidas entre 24 y 32 años. Pero
también podemos trabajar con una probabilidad mayor y los extremos se agrandarán.
— ¡Qué bueno! Ahora entiendo perfectamente este tema. Mi pregunta es: ¿Por
qué siempre en los medios de comunicación nos hablan de promedios y nunca
nos mencionan los indicadores de dispersión.
— La respuesta es muy sencilla. Creo que no tienen ni idea (risas). Hoy vivimos
un momento en que las noticias tienen que circular muy rápidamente, aunque la
información no sea de la mejor calidad. Obviamente, si la noticia proviniese de
un ámbito académico, seguramente nos darían datos de tendencia central y de
dispersión.
— Bueno, no solo vinimos a hablar de estadísticas, aunque es muy bueno entender que la Estadística es algo que forma parte constante de nuestras vidas y que
no es tan difícil entenderla, si te la explican bien. Sigamos recordando viejos
tiempos...
LOS INDICADORES DE DISPERSIÓN O VARIABILIDAD
El hipotético diálogo entre Alberto y Guillermo en el café A r á b i c a fue lo bastante claro para entender para qué sirven estos indicadores de dispersión a los que
nos referiremos en esta unidad.
37 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Los estadísticos de tendencia central nos indican dónde se sitúa un grupo de
puntuaciones. Los de variabilidad o dispersión nos indican si esas puntuaciones
o valores están próximos entre sí o, si por el contrario, están dispersos y, de ser
así, en qué medida lo están.
A estos últimos indicadores los reconocemos como medidas de dispersión y les
asignamos una gran importancia, por cuanto si no hubiere variabilidad o dispersión en los datos muestrales, la Estadística Descriptiva no tendría razón de ser.
Si las medidas de tendencia central tienen como objetivo sintetizar los datos en
un valor representativo, las medidas de dispersión nos permiten determinar hasta
qué punto esas medidas de tendencia central son representativas como síntesis de
la información.
Desde otra óptica, las medidas de variabilidad de alguna manera sirven para indicarnos cuál es el grado de confiabilidad de los parámetros de tendencia central
que deseamos utilizar como representativos de la muestra o población.
Las medidas de dispersión cuantifican la separación, la dispersión o la variabilidad de los valores de la distribución respecto al valor central.
Habíamos puesto especial empeño en la unidad anterior en remarcar que, al igual
que sucede con cualquier conjunto de datos, la media, la mediana y la moda solo
nos revelan una parte de la información que necesitamos acerca de las características de la muestra, pero que, para aumentar nuestro conocimiento acerca de tales
características, era imprescindible medir también su dispersión, extensión o variabilidad.
La dispersión es importante porque:
Proporciona información adicional que permite juzgar la confiabilidad de
las medidas de tendencia central. Cuando los datos se encuentran ampliamente dispersos, la posición central es menos representativa de los datos
de la cual deriva.
dado que existen problemas característicos para los datos ampliamente
dispersos, debemos ser capaces de inferir qué grado de dispersión presentan antes de abordar los problemas que surgen de la misma.
Proporciona información acerca del riesgo que supone escoger muestras
que presentan amplias dispersiones.
Supongamos que se realiza una experiencia para evaluar la comprensión de un
determinado texto por parte de alumnos de dos escuelas de teatro.
Supongamos, también, que en ambas escuelas el examen obtuvo la misma calificación promedio, pero que en la escuela Molière, las calificaciones estaban más
cercanas a la media, mientras que en la escuela Bertolt Brecht las calificaciones
38 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
estaban más dispersas. Esto se podría observar en la Figura VII.1 donde la curva
más empinada nos indica una menor variabilidad de los resultados, mientras que
la curva más achatada representa una dispersión de los valores respecto a la media bastante elevada.
Figura VII.1. Curvas de frecuencia para la comprensión de texto en dos colegios
A los fines de poder cuantificar estas desviaciones o dispersiones existen tres
medidas, las cuales son utilizadas de manera común en las Ciencias del Comportamiento. Ellas son: el rango, la desviación estándar y la varianza.
RANGO O RECORRIDO
Rango de una muestra
El rango o recorrido, una denominación indistinta, es un indicador muy simple
que nos mide la distancia entre los valores extremos de una muestra. Matemáticamente, se define como la diferencia entre el valor máximo y mínimo de un
grupo de datos o muestra.
Rango = valor del dato mayor – valor del dato menor [Fórmula VII.1]
Al rango lo podríamos considerar como una primera aproximación al análisis de
las variaciones, por cuanto solo nos da una idea de la dispersión entre los datos
extremos pero no nos da ninguna información acerca de lo que sucede con el resto de los datos.
Así todo es de gran utilidad, ya que nos permite apreciar la extensión de una
muestra, cuestión esta que los otros descriptores no permiten.
Aunque el rango es muy fácil de calcular, igualmente hemos incluido algunos
ejercicios que se muestran en la tabla VII.1.
39 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Tabla VII.1. Cálculo de algunos rangos muestrales
Muestra de datos en bruto
Rango
89 - 11=78
a 76 11 21 34 89 75 21 34 57 75 76 89
9
9
11
12
4 14
6
7
3
10
2
14 - 2 = 12
b 5
c 3,1 3,8 7,6 5,9 0,3 12,4 11 0,3 3,1 6,8 4,5 9,8 12,4 - 0,3 = 12,1
Rango de datos agrupados
Cuando trabajamos con datos agrupados, el rango es la diferencia entre el límite
aparente superior del intervalo mayor y el límite aparente inferior del intervalo
menor.
Rango = límite aparente superior del mayor intervalo – límite aparente inferior
del menor intervalo [Fórmula VII.2].
La Tabla VII.2 transcribe la Tabla IV.17 al solo efecto de poder calcular su rango.
Tabla VII.2. Límites reales de la distribución
correspondiente a los jugadores de fútbol
Posición
11º
10º
9º
8º
7º
6º
5º
4º
3º
2º
1º
Intervalo de
clase (i = 8)
88 - 95
80 - 87
72 - 79
64 - 71
56 – 63
48 – 55
40 – 47
32 – 39
24 – 31
16 -23
8 -15
Límites reales de clase
87,5 –96,5
79,5 –87,5
71,5 –79,5
63,5 –71,5
55,5 –63,5
47,5 –55,5
39,5 –47,5
31,5 –39,5
23,5 –31,5
15,5 –23,5
7,5 –15,5
Según la definición vista, el rango de la presente distribución es:
Rango = 95 – 8 = 87.
Continúa ...
40 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
El jarrón da forma al vacío y
la música al silencio.
Georges Braque22
UNIDAD VIII
MEDIDAS DESCRIPTIVAS
LAS MEDIDAS DE FORMA
Las últimas de las medidas de caracterización de una distribución son las medidas
de forma. Esas formas que en la sociedad son tan importantes. De la misma manera
en que tenemos amigos y amigas flacas y gorditas, altas y bajas, estas medidas de
forma nos permitirán caracterizar del mismo modo a las distribuciones. Términos
como curtosis y asimetría no son más que términos estadísticos que en buen lunfardo
nos indican si las distribuciones son altas o petizas y si tienen un cuerpo agraciado o
no. Ya sabemos. Usted se seguirá preguntando por qué creía que la Estadística era
como la Matemática, y ahora estamos estudiando estilismo, modelaje, etc. ¡Vio que
no le habíamos mentido!
Para hacer el análisis de la distribución de una variable en forma más completa
tenemos que complementar las medidas de posición y de dispersión con información sobre la forma de su representación gráfica.
Cuando el tomador de decisiones trabaja con curvas que representan gráficamente las distribuciones de frecuencias de los datos que está analizando, y que para
él son cruciales, necesita conocer la proporcionalidad y la concentración de los
valores dentro de tales curvas. Entre las medidas de forma más utilizadas, tenemos las medidas de asimetría y las de curtosis.
MEDIDAS DE ASIMETRÍA
Esta medida nos permite identificar si los datos se distribuyen de forma uniforme
alrededor del punto central o media aritmética. La asimetría presenta tres escenarios diferentes que se muestran en la Figura VIII.1, cada uno de los cuales define
de forma concisa la forma en que están distribuidos los datos respecto del eje de
simetría. Se dice que la curva presenta una asimetría positiva cuando la mayoría
de los datos se encuentran por encima del valor de la media aritmética.
Se dice que la curva es simétrica cuando los datos se distribuyen aproximadamente en la misma proporción a ambos lados de la media y a cada par de valores
22
Georges Braque (1882-1963): Pintor francés que, junto con Pablo Picasso, contribuyó al origen
y desarrollo del cubismo, del cual es una de las figuras más importantes. Fuente:
http://www.epdlp.com/pintor.php?id=200
41 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
equidistantes les corresponde la misma frecuencia absoluta.
Se dice que la curva presenta una asimetría negativa, cuando la mayor cantidad
de datos se reúnen por debajo del valor de la media aritmética y viceversa.
Figura VIII.1. Modelos de asimetría
SESGO. COEFICIENTES DE ASIMETRÍA DE PEARSON 23
Comencemos analizando qué es el sesgo en Estadística. Por sesgo se entiende la
propiedad de una muestra estadística que hace que los resultados no sean representativos de toda la población. Si, por ejemplo, hacemos una prueba en un solo
hospital, para tratar de obtener la habilidad clínica de sus pasantes sólo porque la
ubicación es conveniente, los resultados podrían no ser representativos de todos
los hospitales del país. Se dice, entonces, que los resultados están sesgados. En
sentido genérico, el sesgo es sinónimo de error pero un error no de medición sino
del procedimiento estadístico. Así podemos hablar de sesgo del entrevistador, del
experimentador, del cuestionario, etc.
Estos coeficientes de simetría se basan en el concepto de sesgo desarrollado por
Pearson. Él denomina con el término sesgo al grado de asimetría de una distribución, es decir, cuánto esta se aparta de la simetría. Si la curva de frecuencias,
que no es más que el polígono de frecuencias, pulido o suavizado de una distribución tiene a la derecha una cola más larga que a la izquierda, se dice que la
distribución está sesgada a la derecha o que tiene un sesgo positivo. En caso
contrario, se dice que está sesgada a la izquierda o que presenta un sesgo negativo.
Cuando las distribuciones están sesgadas, la media tiende a estar del mismo lado
que la cola larga. Teniendo en cuenta esta propiedad, una forma de medir el ses23
Karl Pearson (Londres, 27 de marzo de 1857- Londres, 27 de abril de 1936) fue un prominente
científico, matemático y pensador británico que estableció la disciplina de la estadística matemática. Desarrolló una intensa investigación sobre la aplicación de los métodos estadísticos en la
Biología y fue el fundador de la Bioestadística. Fuente: http://es.wikipedia.org/wiki/Karl_Pearson
42 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
go o asimetría de la distribución viene dada por la diferencia entre la media y la
moda. Con el fin de hacer adimensional esta cualidad, el resultado puede dividirse por una medida de dispersión, tal como la desviación estándar.
Trabajando sobre estas premisas, Pearson definió dos coeficientes de sesgo o
dispersión, llamados ―Sesgo1‖ y ―Sesgo2‖.
Primer coeficiente de sesgo de Pearson
Sesgo1=
=
X
Mo
S
[Fórmula VIII.1]
Las condiciones de asimetría según el coeficiente de Pearson se muestran en la
tabla VIII.1:
Tabla VIII.1. Coeficiente de sesgo1 de Pearson
Formato de la distribución
Distribución campaniforme
simétrica
Distribución campaniforme
asimétrica positiva
Distribución campaniforme
asimétrica negativa
Relación entre las
estadísticas
Valor del Coeficiente
de Pearson
= Mo = Md
=0
- Mo > 0
>0
- Mo < 0
<0
Para evitar el uso de la moda, que es un parámetro difícil de algebratizar 24, sobre
24
Es conocido por todos que a partir del siglo XVIII comenzó una tendencia clave en el pensamiento matemático, que algunos autores llamaron "la algebratización de las matemáticas". A lo
largo de la historia, el álgebra ha ido de la mano de la aritmética. Pero existen muchos matices
ya que la Aritmética es la ciencia que se ocupa de los objetos concretos, esto es, de los números.
En cambio el Álgebra es, en esencia, la doctrina de las operaciones matemáticas analizadas desde
un punto de vista abstracto y genérico, independientemente de los números u objetos concretos.
Es con autores como Euler que se generalizan las reglas de resolución de problemas aritméticos;
se desarrolla el aparato simbólico-literal del Álgebra; se aclaran las operaciones con números,
monomios, radicales y números complejos; se introducen los logaritmos; se dan las reglas de extracción de las raíces de números y de expresiones algebraicas polinomiales; se introducen la serie como medio de expresión de las funciones racionales fraccionarias y binomiales con exponentes fraccionarios y negativos de una potencia; se introducen los números poligonales, las proporciones y progresiones; las fracciones decimales periódicas y se estudian los métodos de resolución de ecuaciones algebraicas. Y con todos estos resultados se ve cómo el Álgebra es una dis-
43 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
todo cuando hay más de una, Pearson recurrió a una fórmula empírica en la que
no se utiliza la moda sino la mediana (Md).
Segundo coeficiente de sesgo de Pearson
3 X
Sesgo2=
Md
S
[Fórmula VIII.2]
OTRAS MEDIDAS DEL SESGO
Cuartiles y percentiles
Los cuartiles y percentiles han servido para dar indicaciones acerca del sesgo de
las distribuciones. Algunos de ellos son:
Coeficiente cuartil de sesgo (CCS)
Si recordamos que una distribución tiene solo tres cuartiles, Q1, Q2 y Q3, una
combinación de ellos puede denotar el grado de asimetría de una distribución. Su
fórmula es:
CCS
(Q3 Q2 ) Q2 Q1
Q3 Q1
Q3 2Q2 Q1
Q3 Q1
[Fórmula VIII.3]
Este coeficiente es conocido como coeficiente de asimetría de Bowley-Yule y en
ocasiones en su fórmula se reemplaza el valor de Q2 por la mediana (Md), dado
que estos parámetros son iguales.
Coeficiente percentil 10/90 de sesgo
A partir de los percentiles de una distribución, se puede lograr una indicación del
grado de sesgo de la misma trabajando sobre sus percentiles 10 y 90 (P 10 y P90)
en su relación con el percentil 50 (P50). Su fórmula es:
ciplina indispensable para el resto de las disciplinas matemáticas. Es por eso que se debe tener en
cuenta que sin el manejo del Álgebra tampoco se podrán lograr las competencias necesarias para
el Análisis, la Estadística, la Geometría además de otras áreas como las Ciencias Económicas,
etc. Fuente: Didáctica del Algebra.
http://www.csi-sif.es/andalucia/modules/mod_ense/revista/pdf/Numero_26/GUILLERMO
_SIERRA_TORTOSA.pdf
44 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Coeficiente percentil 10/90 de sesgo =
P90 P50
P50 P10
P90 P10
P90 2 P50 P10
P90 P10
Coeficiente de asimetría de Fisher
El Coeficiente de asimetría de Fisher 25 se representa mediante la siguiente ecuación:
3
1 n
Xi X
ni
N i1
g1
[Fórmula VIII.5]
3
n
2
2
1
Xi X
ni
N i1
donde:
g1 = Coeficiente de simetría de Fisher.
Xi = Cada uno de los valores de la muestra.
ni = La frecuencia absoluta de cada dato.
= La media de la muestra
El grado de asimetría de la distribución depende únicamente del valor que adopte
g1. Los valores posibles se muestran en la Tabla VIII.2.
Tabla VIII.2. Coeficiente de simetría de Fisher (gl)
Coeficiente de
simetría de
Fisher (gl)
=0
>0
<0
Tipo de distribución
Simétrica. Como el valor cero es muy difícil de lograr, ya que la
simetría perfecta casi no existe, se acepta que la distribución se
comporta como simétrica cuando -0,5 ≤ g1 ≤ +0,5.
Asimétrica positivamente. En la práctica, cuando es > de 0,5.
Asimétrica negativamente. En la práctica, cuando es < de -0,5.
Continúa ...
25
Ronald Aylmer Fisher (Londres, 17 de febrero de 1890 – Adelaida, 29 de julio de 1962):
científico, matemático, estadístico, biólogo evolutivo y genetista inglés. Fisher realizó muchos
avances en la Estadística, siendo una de sus más importantes contribuciones la inferencia estadística creada por él en 1920. Fuente: www.wikipedia.org.
45 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Está bien ser normal, cuando has decidido ser normal,
ahora, ¿está bien ser normal cuando soñaste con ser especial?
26
El Chojin
UNIDAD IX
LA CURVA NORMAL
Y llegamos a la unidad relativa a la curva normal, esa trascendental distribución
teórica de la Estadística que se caracteriza por su forma de campana. La célebre
campana de Gauss.
Y si creíamos que la campana servía para llamar a misa y para indicarnos la hora,
ahora aprenderemos que esta campana sirve para mucho más: nos permitirá calcular probabilidades.
¡Qué bueno! ¡Hagamos tañer las campanas para celebrarlo!
Al entrar a hablar de lo normal y, por ende, también de lo anormal, comenzamos
a sumergirnos en las agitadas aguas de lo opinable, porque la normalidad es uno
de esos conceptos difíciles de definir por ser, obviamente, un concepto subjetivo
que es visto y percibido de distintas maneras según los sentidos de cada persona.
Sin embargo, esta curva normal, tan útil en distintos ámbitos del conocimiento
como herramienta estadística, es bastante objetiva. Es como esos preceptos al
que tememos oponernos.
CONCEPTO DE NORMALIDAD
Nunca fue sencillo definir el concepto de normalidad o la cualidad de normal. En
términos generales, podemos decir que normal es todo aquello que se ajusta a los
parámetros establecidos por la sociedad para determinados eventos, personas o
estilos de vida. La normalidad, en este sentido, será la existencia de elementos
normales y ajustados a aquellos parámetros.
Habitualmente, el concepto de normalidad se aplica a situaciones, eventos o
fenómenos relacionados con la sociedad y, en este contexto, debemos reconocer
que es extremadamente difícil definir lo que es la normalidad y la anormalidad
máxime, en las sociedades actuales que son tan ricas y diversas en su interior.
Algo diferente es lo que sucede con la naturaleza o lo observable empíricamente,
26
Domingo Antonio Edjang Moreno, más conocido como El Chojin (nombre del dios de la saga
de animación japonesa Urotsukidōji, pronunciado en japonés como Chōjin, no con J española,
i.e. choyín), es un intérprete y compositor de rap, nacido el 28 de abril 1977 en Torrejón de Ardoz (Madrid, España). Es conocido por su estilo rap conciencia, donde entre otros, rechaza la violencia, el racismo, las drogas y el alcohol, evitando palabras malsonantes. Fuente:
ttp://es.wikipedia.org/wiki/El_Chojin
46 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
ya que cuando nos referimos a los fenómenos empíricos tales como los físicos,
los químicos, los biológicos, etc., los parámetros de normalidad son mucho más
―fáciles‖ de definir que en el primer caso. Así, para este tipo de fenómenos, las
ciencias establecen un número de elementos característicos que se observan en la
mayoría de los casos.
Una vez establecidos estos parámetros, cada futura observación podrá dar como
resultado elementos o variables de mayor o menor normalidad.
Los parámetros de normalidad son, sin duda alguna, una invención artificial del
ser humano para poner orden y organizar el mundo que lo rodea.
LA NORMALIDAD EN ESTADÍSTICA
Creemos, que pocas personas no estarán familiarizadas con la famosa curva
normal más conocida por los legos como la campana de Gauss.
Esa estupenda campanita nos indica que la mayoría de las características que medimos en las ciencias del comportamiento no se apartan en demasía de la media
poblacional y que en la medida en que algunos individuos se van alejando de la
misma, por defecto o por exceso, van siendo cada vez menos y los que más se
apartan son los denominados ―bichos raros‖.
En Estadística, el concepto de normal no se ajusta demasiado al significado lingüístico ni sociológico, donde normal de alguna manera deriva de norma. En Estadística, este término se refiere a lo más frecuente o habitual. Por ejemplo, vemos que:
La mayoría de la gente tiene una estatura normal, de acuerdo con la edad.
La mayoría de la gente tiene un peso normal, de acuerdo con la edad.
La mayoría de la gente tiene un desarrollo intelectual de acuerdo con su
entorno.
Etc.
En nuestra experiencia diaria, los términos normal y frecuente, aplicados a cualquier rasgo, son casi sinónimos.
Cuando, por ejemplo, decimos que alguien es muy inteligente, es porque se aparta de los cánones habituales, y cuando decimos que es muy cortés es por el mismo motivo. También nos podemos referirnos a quienes carecen de tales virtudes
en sentido inverso y tanto unos como otros van comenzando a formar parte de
los extremos de la normalidad.
La Figura IX.1 es simplemente un gráfico que nos muestra una cierta distribución normal, más conocida como curva normal o campana de Gauss.
47 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Figura IX.1. Curva normal
Podríamos decir, entonces, que la curva normal es una representación de nuestras
percepciones respecto de las características de la gente.
Estas características y esta distribución normal son relativas a cada población.
La altura de las casas de un pueblito como Villa Elisa 27 será muy cercana a la
media de ese pueblo pero, si las comparamos con los rascacielos de Dubái 28, seguramente parecerán insignificantes.
Sin embargo, esa casa pequeña de Villa Elisa tiene una altura normal para su entorno edilicio y los rascacielos de Dubái también tienen una altura normal para el
suyo.
En ambos entornos, el de los rascacielos de Dubái y el de las casitas de Villa Elisa, encontraremos una distribución normal de alturas, aunque sus medias serán
extremadamente diferentes. De aquí surge, casi intuitivamente, un concepto muy
importante: la normalidad es relativa a cada población.
La distribución normal, que representamos mediante la curva normal, es un modelo matemático teórico al que de hecho tienden a aproximarse las distribuciones
que encontramos en la práctica, sean estadísticas criminales, biológicas, educacionales, sociales, deportivas o económicas.
No debemos olvidar, tampoco, que la curva normal también es un modelo muy
útil por su relación con el cálculo de probabilidades que nos va a permitir hacer
inferencias y predicciones, y que la inferencia estadística en gran parte fue desarrollada sobre los cimientos de la distribución normal aportados por Carl Frie27
Villa Elisa. Partido de La Plata. Provincia de Buenos Aires. Argentina.
Dubái. Ciudad capital de Dubái, uno de los siete emiratos que conforman los Emiratos Árabes
Unidos.
28
48 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
drich Gauss.
Algo de historia
La distribución normal ha sido analizada por diferentes estudiosos y desde diversas perspectivas. Una reseña muy escueta es la siguiente:
El matemático francés Abraham De Moivre (1667-1754) es el primer autor en
publicar una explicación de la distribución normal, de manera similar a cómo la
entendemos actualmente, solo un año antes de morir.
Si bien el objetivo de los estudios fueron los juegos de azar, la preocupación de
De Moivre, al igual que la de muchos científicos de su época, superaba tales
mezquindades paganas y se sumergía en lo teológico. Decía De Moivre que el
aparente desorden del universo era consistente con un plan inteligente mientras
que el caos solo es aparente porque tiene sus normas.
El matemático y astrónomo alemán Carl Friedrich Gauss (1777-1855), considerado un prodigioso de las matemáticas, fue quien estudió y desarrolló la distribución normal, sobre todo aplicada a la observación astronómica. Gauss denominó
a esta distribución ―distribución de errores‖, dado que surgió de sus observaciones sobre la órbita de los asteroides. En honor a Gauss, la distribución normal
lleva su nombre.
El astrónomo belga Adolphe Quetelet (1796-1874) y el polímata29 inglés Francis
Galton (1822-1909), ambos ya en el siglo XIX, son los primeros en descubrir y
estudiar las aplicaciones de la distribución normal a las medidas de antropometría (altura, peso, etc.) y a los fenómenos sociales, y de ahí se pasó a utilizar en
otro tipo de medidas como la de inteligencia y a otras en el campo de la Psicología y la Educación.
Finalmente a Karl Pearson (1857-1936) se le atribuye haber acuñado el término
curva normal.
CONCEPTO DE FUNCIÓN DE DENSIDAD
Para poder entender el concepto de distribución normal, previamente debemos
observar cómo va cambiando la representación gráfica de cualquier característica
29
La polimatía (del griego πολυμαθία, el aprender mucho −de μανθάνω, aprender y πολύ mucho−) es la sabiduría sobre campos diversos. Así, un polímata (en griego: πολυμαθής ), que quiere decir «que conoce, comprende o sabe de muchos [campos]», sería un individuo que destaca en
diversas ramas del saber. El término se refiere a personas cuyos conocimientos no están restringidos a un área concreta, sino que dominan diferentes disciplinas, generalmente las artes y las
ciencias. La mayoría de los filósofos de la antigüedad eran polímatas, tal como entendemos el
término hoy en día. Fuente: http://es.wikipedia.org/wiki/Polimat%C3%ADa
49 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
de una población a medida que va aumentando el tamaño de la muestra.
Cuando las muestras son pequeñas, es decir que están compuestas por pocos individuos, los datos son bastante diversos y no siguen ninguna regla de comportamiento. Un ejemplo sería el que se muestra en la figura IX.2.
A medida que el tamaño de la muestra crece, los datos comienzan a ajustarse a la
normalidad.
Este concepto que tratamos de exponer gráficamente es una buena ilustración del
concepto de función de densidad.
Figura IX.2. Distribuciones de frecuencia
DEFINICIÓN DE FUNCIÓN DE DENSIDAD
La función de densidad de una variable continua X, es la curva teórica que se deduce al imaginar la representación de las frecuencias de los resultados ocurridos
tras la repetición del experimento aleatorio infinitas veces.
LA CURVA NORMAL
Como ya explicamos al inicio de esta unidad, la curva normal es una distribución
muy importante en las Ciencias del Comportamiento.
Esta curva normal es una distribución teórica de los datos de una población que
posee forma de campana y está descrita por la siguiente ecuación:
Y
N
.e
2
2
X
2
2
[Fórmula IX.1]
Continúa ...
50 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Crea tu propio estilo visual, que sea exclusivo
para ti y a la vez identificable para los demás.
30
Orson Welles
UNIDAD X
LA GRAFICACIÓN EN ESTADÍSTICA
Desde los primeros días de la humanidad, el ser humano tuvo la imperiosa necesidad de comunicarse con sus semejantes. Las primeras formas comunicativas fueron mediante elementos visuales. Anunciaban sus estados de ánimo, esperanzas y
miedos a través de movimientos, expresiones y signos. Fue así que, a partir del uso
de diversos materiales, el lenguaje visual adquirió mayor importancia. La representación de ideas mediante grafos experimentó un gran avance con la aparición
de los primeros lenguajes escritos introducidos por el hombre de Neandertal, los
cuales estaban basados en la representación de elementos de la naturaleza.
Entonces, si la gráfica fue y es tan importante para la comunicación y la expresión, cómo podría no estar presente y ser ajena al ámbito de la Estadística. La
gráfica es casi un arte y el arte es una parte de la Estadística: el arte de predecir y
comunicar tales predicciones. Entonces, hagamos blandir las trompetas, tomemos
los lápices de colores, las acuarelas y los óleos y comencemos a hacer gráficos y
diagramas para comunicarnos más eficazmente.
La Estadística trabaja con datos, los compila, los ordena y los elabora con el fin
de obtener parámetros y estadísticos que le sean de utilidad al hombre y a la sociedad en la interpretación de la realidad.
Sin embargo, esas largas listas de números a menudo producen, para el común de
la gente, un cierto rechazo hacia su lectura y, también, algún grado de incomprensión.
Así, la Estadística necesitó armar su propio marketing, necesitó transmitir su información de manera que llegara a la gente y esta la comprendiera fácilmente.
De este modo, siguiendo lo dicho por Welles, creó su propio estilo visual, y de
allí surgieron los gráficos que hoy inundan cuanto medio de información poda30
George Orson Welles (1915-1985): productor, director, guionista y actor estadounidense, pionero y genio del cine, maestro y profundo renovador de los recursos estéticos y narrativos del
lenguaje cinematográfico. Figura influyente por su estilosa e imaginativa estética, mezcla de influencias expresionistas con su gusto por la barroca elaboración visual.
Fuente: http://www.alohacriticon.com/elcriticon/article251.html
51 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
mos consultar, sean científicos, técnicos, o de simple divulgación. Como una excelente ciencia innovadora, percibidora del cambio, relegó en algunos aspectos
su lenguaje matemático para dar paso a un lenguaje gráfico y visual muy a tono
con la época en que vivimos.
La utilidad de los gráficos es doble, ya que pueden servir no solo como sustituto
de las tablas, sino que también constituyen por sí mismos una poderosa herramienta para el análisis de los datos, siendo, en ocasiones, el medio más efectivo
y eficaz para describir y resumir la información, así como también analizarla.
La aplicación del gráfico a la visualización de las distribuciones de frecuencias
ha logrado tanto su objetivo de mejorar la transmisión de la información como de
fijar conceptos por parte de los alumnos. La clara distinción visual entre un
gráfico de barras y un histograma permite, por ejemplo, que el alumno visualice
las nociones de límites muy fácilmente y distinga una variable nominal de una
cuantitativa.
¿CÓMO GRAFICAR?
Antes de describir los distintos tipos de gráficos que se utilizan en Estadística, es
importante recordar algunos conceptos básicos de la graficación:
La mayoría de los gráficos se realizan sobre un sistema de ejes cartesianos ortogonales formado por un eje vertical llamado eje de las ordenadas y otro horizontal llamado eje de las abscisas. Recordemos que la ordenada es la distancia vertical desde un punto hasta el eje horizontal, también llamado eje de las equis (X).
Por su parte, la abscisa es la medida horizontal desde un punto hasta el eje de la
íes (Y).
En general, y esto es una mera convención, los datos se agrupan sobre el eje
horizontal y sus características o atributos, sobre el eje vertical. Estos atributos
pueden ser simples unidades, porcentajes o frecuencias y, en ocasiones, descripciones subjetivas, tal como sucede con las escalas de orden y las nominales.
Los datos y sus características deben ser agrupados mediante escalas acordes a su
intensidad y frecuencia.
Tanto en los datos como en los atributos, se deben respetar los ceros respectivos.
El no respeto de esta condición trae aparejadas distorsiones visuales y, por ende,
interpretativas.
Para entender lo dicho en este punto, nada mejor que apoyarse en un ejemplo,
como el del ingreso promedio anual, en una moneda cualquiera, para los habitantes de un determinado país. Este puede observarse en la distribución de frecuencias de la Tabla X.1.
52 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Tabla X.1. Ingreso anual promedio durante los primeros 7 años
Año
0
1
2
3
4
5
6
Ingreso anual promedio
10.000
10.150
9.900
10.300
9.800
9.600
10.250
Las Figuras X.1 y X.2 son graficaciones de la distribución de frecuencias mostrada en la Tabla X.1. En la primera de ellas, es decir, en la Figura X.1, ambas
escalas tienen un cero absoluto.
Figura X.1. Representación de la distribución de frecuencias de la tabla X.1
con escalas que poseen cero absoluto
Por su parte, en la Figura X.2, la escala de ingresos anuales carece de tal cero absoluto. Ambas representaciones visuales de la misma distribución de frecuencias
son totalmente distintas. La primera refleja un panorama donde los ingresos
anuales durante los 7 primeros años son bastante constantes. La segunda, por su
parte, refleja un panorama donde los ingresos anuales durante los primeros 7
53 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
años sufren fuertes variaciones.
Figura X.2. Representación de la distribución de frecuencias
de la Tabla X.1, donde la escala vertical carece de cero absoluto.
Vemos entonces que una misma realidad tiene dos representaciones visuales y,
por ende, interpretaciones distintas, por no haberse cumplido la obligación de
mantener los ceros absolutos en ambas escalas.
Obviamente, la representación visual de la Figura X.1 es la correcta, mientras
que la segunda es perversa.
Muchas veces vemos en los medios de comunicación que se quiere resaltar un
determinado acontecimiento y se lo hace mediante un gráfico muy acotado y sin
respetar los ceros absolutos como el de la Figura X.2.
Con esta información visual, más que resaltar un acontecimiento, se lo torna difuso y confuso. Un gráfico, en Estadística, tiene que tener la misma objetividad
científica que la materia en que se basa.
Cuando, por algún motivo, no se pueden mantener las escalas con cero absoluto
en algún eje, en el eje que no lo posee se debe efectuar un zigzag que denota tal
situación. La Figura X.3 representa tal situación, donde el eje X carece de cero
absoluto, no así el Y.
54 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Figura X.3. Ejes ortogonales sin cero absoluto en el eje horizontal
Cuando corresponda, cada eje debe tener su etiqueta correspondiente.
GRAFICACIÓN DE VARIABLES CUALITATIVAS
En muchas ocasiones, estamos frente a casos donde las frecuencias están relacionadas con datos cualitativos. Sucede esta situación, por ejemplo, en la producción anual o mensual de un determinado tipo de vehículos, o en la cantidad de
habitantes de distintas ciudades, personas diferenciadas por género, cantidad de
profesionales diferenciados por título en una ciudad, etc.
Para graficar estos supuestos, podemos utilizar tanto diagramas sobre ejes cartesianos como diagramas circulares.
La condición, cuando se utilizan sistemas de graficación sobre ejes cartesianos,
es que el eje de los datos, en general el horizontal, no sea interpretado como representativo de valores cuantitativos, sino cualitativos, y, por ende, carente de
escala.
GRÁFICO CIRCULAR O DE SECTORES
Estos gráficos se denominan así debido a que utilizan el sector circular como
manera de mostrar un atributo.
Recordemos que, en Geometría, se definía al sector circular como la porción de
círculo comprendido entre un arco de circunferencia (L) y sus respectivos radios
delimitadores (r), los cuales deslindan un ángulo (θ). Lo expresado puede
0T
Continúa ...
55 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Evito siempre predecir de antemano,
porque es mucho más fácil
hacerlo a posteriori.
31
Winston Churchill
UNIDAD XI
REGRESIÓN LINEAL
El tren está llegando a destino y ya hemos aprendido mucho de Estadística.
En esta unidad, veremos la regresión lineal, un tema indisolublemente unido a la
correlación, que será la estación final de nuestro viaje por la ciencia de los datos.
Mediante la regresión lineal pasamos de tener un diagrama de conjuntos de datos
apareados a transformarlos en una recta que nos permite efectuar predicciones
sobre cómo se comportará una variable ante las variaciones de la otra.
El tener una recta es muy importante, pues elimina la necesidad de tener que efectuar innumerables análisis para medir el comportamiento de las variables.
Sin embargo, aún nos falta llegar a la última estación donde aprenderemos a reconocer cuán confiable es la recta que hemos diseñado mediante los cuadrados
mínimos. Seguimos con nuestro itinerario…
Bien, estimada lectora o lector, estamos llegando finalmente a esta unidad que
busca, a partir de la descripción de dos muestras, hallar una ecuación que las vincule, con el fin de poder predecir 32 el comportamiento de una variable según los
cambios que ocurren en la otra.
Más allá del significado lingüístico del término predecir, desde un punto de vista
estadístico, por predicción se entiende la determinación del valor que deben alcanzar, de acuerdo con las ecuaciones derivadas de datos empíricos recogidos
estadísticamente, ciertas variables en momentos futuros del tiempo.
Cuando una relación es perfecta, efectuar predicciones es de lo más sencillo,
pues a cada valor de X, la variable independiente, le corresponde un único valor
de Y, la variable dependiente. En otras palabras, si trazo una vertical por el punto
X1, esta vertical cortará a la recta a en un único punto y, si trazo por esa intersección otra recta paralela al eje X, esta interceptará al eje Y también en un único
punto Y1, que es la predicción buscada.
Esto lo muestra la figura XI.1.
31
Sir Winston Leonard Spencer Churchill (Palacio de Blenheim, 30 de noviembre de 1874 Londres, 24 de enero de 1965) fue un estadista, historiador, escritor, militar, orador y primer ministro británico. Fuente: http://es.wikiquote.org/wiki/Winston_Churchill.
32
Predecir. Anunciar por revelación, ciencia o conjetura algo que ha de suceder. RAE
56 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Figura XI.1
Pero cuando la relación es imperfecta, es decir, cuando no todos los puntos caen
sobre una recta, la situación se complica cuando queremos efectuar una predicción, pues puede darse el caso de que la recta trazada por un determinado valor
de X no corte a ningún punto o corte a más de uno.
Imaginemos el caso ilustrado en la Figura XI.2.
Figura XI.2
Vemos que una recta que pasa por el punto X1 interceptaría a dos puntos en su
camino, el A y el B, que a su vez generan dos predicciones, Y1 e Y2 ¿Cuál de
ellas sería la correcta? ¿Y si el punto elegido fuese el X2? Aquí la vertical trazada
por el mismo no encontraría ningún punto en su camino y, por ende, no se podría
realizar ninguna predicción.
Entonces, la única manera de poder realizar una predicción cuando estamos en
condiciones de imperfección es que a esa nube de puntos la transformemos en
57 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
una recta ideal, que nos permita realizar predicciones, pues, al existir tal recta
ideal, estaríamos en el caso de la Figura XI.1.
Y hablamos de una recta ideal, pues sería una recta que idealmente representará
óptimamente a toda la nube de puntos.
Esa recta ideal es la que obtendremos por un método que ya es un viejo conocido
nuestro: el de los cuadrados mínimos.
MÉTODO DE LOS CUADRADOS MÍNIMOS
El método de los cuadrados mínimos, que ya aplicamos cuando estudiamos la
varianza y la desviación estándar, es una técnica de análisis numérico en la que,
partiendo de un conjunto de pares de datos, se trata de encontrar la función que
mejor los represente.
Recordemos que cada par de datos (X, Y), está representado en el plano como un
punto. Esa función que mejor representará a las nubes de puntos es la que logrará
el mejor ajuste33 de acuerdo con un criterio de minimización del error cuadrático
o cuadrado del error.
En su forma más simple, tal como lo vimos al tratar la desviación estándar, el
método intenta minimizar la suma de los cuadrados de las diferencias entre los
puntos generados por la función y los correspondientes a los datos.
Desde un punto de vista estadístico, un requisito implícito para que el método de
los cuadrados mínimos sea aplicable, es que los errores de cada medida estén distribuidos de forma aleatoria. A los errores estadísticos, en Cálculo Numérico, se
los llama residuos.
Imaginemos que tenemos una nube de puntos que, de acuerdo con el factor r de
Pearson (que veremos en la unidad XII), posee una relación fuerte. Esto quiere
decir que esa nube de puntos tiene una tendencia a converger en una recta. Pero
si nosotros tratáramos de trazar rectas representativas de ese montón de puntos
dispersos, nos encontraríamos con que podríamos trazar muchas de ellas, como
nos muestra la Figura XI.3. ¿Y cuál de ellas elegiríamos? ¿Cuál de ellas representa idealmente a la nube de puntos? ¿Cuál de ellas nos parece que presenta un
mejor ajuste? La respuesta a esta sarta de cuestiones nos la brinda el método de
los cuadrados mínimos.
33
Ajuste: Es la serie de actuaciones orientadas a encontrar los elementos o representaciones estadísticas que se acomodan mejor a un conjunto dado de datos; por ejemplo, la ecuación y línea
que se adapta mejor a una nube de puntos. En cuanto a resultados, es el acoplamiento existente o
logrado entre una serie de datos y ciertos elementos estadísticos que los representan. SIERRA
BRAVO, Restituto (1991). óp. cit.
58 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Figura XI.3
LA RECTA POR REGRESIÓN
A los fines de ilustrar el método de los cuadrados mínimos, reemplazaremos la
nube de puntos por unos pocos puntos ejemplificativos, como nos muestra la Figura XI.4.
Figura XI.4. Recta por regresión, compensada verticalmente
Vemos en ella que cada punto real, que es el valor de la observación experimen59 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
tal, está desplazado verticalmente con respecto a la recta a, que es la recta ideal
que los ha de representar. Se trata de una recta de ajuste.
Si la recta a es ideal, ella debería estar trazada de tal modo que la suma de las diferencias positivas sea igual a la suma de las diferencias negativas. Las diferencias son las distancias entre el valor Y real del punto y el valor Y´, que es el valor
de Y proyectado sobre la recta ideal. A tales diferencias las denominamos errores
y una de ellas está ilustrada en la Figura XI.4.
Volviendo a lo dicho, si las diferencias positivas se compensasen exactamente
con las negativas, su sumatoria sería nula. Por eso, al igual de lo que sucedió con
la varianza, aquí se toman las diferencias cuadráticas, ya que, al estar elevadas al
cuadrado, siempre serán positivas y desaparece la nulidad de las diferencias.
La nulidad de las diferencias conceptualmente es buena, lo que sucede es que,
matemáticamente, es bastante difícil de interpretar, pues una diferencia nula indica que no hay dispersión, lo cual no es cierto. Ahora, al reemplazar las diferencias por las diferencias cuadráticas, ya no podemos tener un objetivo de nulidad,
sino que nuestro objetivo se transforma en una especie de objetivo de mínima.
Lo que buscamos ahora es la sumatoria de las diferencias cuadráticas que arroje
el mínimo valor.
Eso es lo que se logra aplicando el método de los cuadrados mínimos. Es decir
que la sumatoria de los errores cuadráticos sea mínima, de allí el nombre del
método.
Podemos decir, entonces, que la recta de regresión por mínimos cuadrados es la
2
recta de predicción que minimiza la
Y Y , y esta recta es única.
Construcción de la recta por regresión
En el ámbito excelso y riguroso del cálculo numérico, vamos a construir nuestras
rectas de regresión numéricamente.
Recordemos que a estas rectas las trazamos únicamente con la finalidad de poder
predecir, es decir, de conocer el comportamiento de la variable dependiente, sin
necesidad de efectuar un experimento cada vez que la variable independiente
cambia de valor. Es por eso que a estas rectas también las llamamos rectas de
predicción.
La ecuación de la recta de regresión por mínimos cuadrados está dada por la siguiente ecuación:
Y
ay X
by
[Fórmula XI.1]
Continúa...
60 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
De todos los problemas tratados por los estudiosos mayas,
el así llamado problema de la correlación es el más importante.
34
John Major Jenkins
UNIDAD XII
LA CORRELACIÓN COMO MEDIDA DE LA RELACIÓN
Y ya llegando al final queremos recordar que las dos últimas unidades que hemos
visto son dos temas sobre los cuales los autores no se ponen de acuerdo acerca
de si pertenecen a la Estadística Descriptiva o a la Inferencial. Pero estas dudas
no solo las tienen los estadísticos. Ya lo decía Facundo Cabral en su hermosa
canción “No soy de aquí ni soy de allá”. Y esto es así por cuanto la correlación y
la regresión lineal se pueden utilizar tanto con fines descriptivos como inductivos.
La cuestión que trataremos en esta unidad, es la referida a la correlación, una
herramienta muy simple que nos permite reconocer qué tan fuerte son las relaciones entre las distintas variables. Y, como no podría ser de otra manera, fue
Karl Pearson quien desarrolló un coeficiente para medir el grado de asociación
entre esas variables.
Un tema muy útil y atrapante, digno de la última estación en nuestro viaje por los
terrenos estadísticos. ¡Que la hayan pasado lindo y no duden en regresar cuando
lo deseen!
En los capítulos anteriores, nos interesaban las distribuciones individuales y la
mejor forma de caracterizarlas. Además de describir estas distribuciones, con
frecuencia, había que determinar si los datos de una distribución se relacionaban
con los datos de otra.
Esto es importante, pues, en caso de determinar la existencia de tal relación, se
podría tratar de encontrar algún tipo de ecuación que la describiese. La existencia
de una ecuación que describe el comportamiento de una relación entre dos distribuciones es, a su vez, importante, porque permite relacionar el comportamiento
de una con la otra para cualquier valor de esta, sin necesidad de lograr esas relaciones a partir de la experimentación.
Los investigadores en metalurgia desde hace tiempo han descubierto que existe
una relación entre el contenido de carbono de un acero y su dureza. Si no se pudiese encontrar una ecuación que vincule estas dos variables, para cada valor de
la variable independiente (contenido de carbono del acero) debería efectuar un
34
JENKINS, John Major (1994). Tzolkin: Visionary Perspectives and Calendar Studies. Bayside,
California, Bordeland Sciences Research Foundation.
61 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
experimento para encontrar el valor de la variable dependiente (dureza del acero).
Entonces, las ventajas de contar con una ecuación son innegables y el fin último
de todo investigador consiste en hallar tales ecuaciones, en caso de ser posible.
En esta unidad, nos detendremos en el estudio de la correlación, es decir, analizar
qué tipo de relación existe entre dos variables.
En la unidad anterior, vimos el concepto de regresión lineal. Es decir, habiendo
determinado que existe una relación aceptable entre las variables que representan
un determinado fenómeno, determinar la ecuación que las vincule.
Algunos ejemplos de relación se pueden dar entre las siguientes variables.
Temperatura de un metal vs. dilatación lineal del mismo.
Magnitud de una lesión de ligamentos vs. tiempo de recuperación del deportista.
Inversión en publicidad vs. variación en las ventas del producto publicitado.
Temperatura ambiente vs. consumo de energía.
Desigualdad social vs. salud
Tiempo de ejercitación vs. pérdida de agua corporal.
Altura vs. presión atmosférica.
Nivel de salud vs. vulnerabilidad
Inversión en seguridad vs. nivel criminal.
Calidad vs. precio.
Etcétera.
Vemos, en los ejemplos anteriores, que el conocimiento del comportamiento de
una variable nos sirve para predecir el comportamiento de la otra.
Además de la utilidad práctica que brinda el usar una relación para efectuar una
predicción, podemos preguntarnos: ¿Por qué nos interesaría establecer si dos variables están relacionadas entre sí?
Una razón importante que nos brinda la correlación entre dos variables es que, si
ellas están relacionadas, es posible que una de ellas sea la causa de la otra35.
35
Reconocemos que el tema de la causa y el efecto ha generado muchos debates filosóficos. Sin
embargo, no podemos analizar todos los aspectos relacionados con este tema. Al utilizar el
término causa, lo hacemos en la forma común, empleada por los que no son filósofos. Es decir,
cuando decimos que A causó B, queremos decir que una variación en A produjo una variación en
B, cuando las demás variables son controladas en forma adecuada.
62 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Como veremos más adelante en esta unidad, el hecho de que dos variables estén
relacionadas entre sí no es suficiente para probar la causalidad. Sin embargo,
como los estudios de correlación son sencillos, demostrar que existe una correlación entre las variables es con frecuencia el primer paso para demostrar que están
relacionadas en forma causal. Recíprocamente, si no existe una correlación entre
las dos variables, esta relación se puede descartar.
Otro uso muy importante de la correlación es la determinación de la confiabilidad test-retest36 de los instrumentos de evaluación. La confiabilidad test-retest
significa que existe consistencia en los puntajes obtenidos por los individuos en
administraciones repetidas de una prueba. Por ejemplo, suponiendo que el IQ de
un individuo permanece estable de un mes a otro, esperaríamos que una buena
prueba de IQ mostrara una relación fuerte entre los puntajes obtenidos por el
mismo individuo en dos administraciones de la prueba, realizadas con un mes de
diferencia. Las técnicas correlacionales nos permiten cuantificar la relación entre
los puntajes obtenidos en las dos administraciones y, de esta manera, medir la
confiabilidad test-retest del instrumento.
La correlación y la regresión están muy relacionadas entre sí. Ambas implican 1a
relación entre dos o más variables. La correlación se ocupa, principalmente, de
establecer si existe una relación, así como de determinar su magnitud o fuerza y
su dirección, mientras que la regresión se encarga, principalmente, de transformar la relación en una ecuación, con el fin de poder efectuar predicciones.
LA PREDICCIÓN
La predicción constituye una de las esencias clave de la ciencia, de una teoría
científica o de una hipótesis científica, donde su éxito se mide por el acierto o
desacierto que tengan sus predicciones.
La predicción en el contexto científico es una declaración precisa de lo que ocurrirá en determinadas condiciones especificadas. Se puede expresar mediante el
silogismo 37: Si A es cierto, entonces B también será cierto.
36
Test-retest: Se trata de pasar el mismo test dos veces. Se puede pasar inmediatamente, o dejando un intervalo de tiempo entre el test y el retest. Después se aplica la correlación de Pearson.
Las diferencias en los resultados se atribuyen al grado de consistencia interna o muestreo de los
ítems de la prueba en el caso de pasar el retest de forma inmediata, y se le suman las fluctuaciones en el tiempo en el caso del intervalo temporal. Fuente:
http://www.buenastareas.com/ensayos/Psicometria/1929875.html
37 El silogismo es una forma de razonamiento deductivo que consta de dos proposiciones como
premisas y otra como conclusión, siendo la última una inferencia necesariamente deductiva de las
otras dos. Fue formulado por primera vez por Aristóteles, en su obra lógica recopilada como El
Organon, de sus libros conocidos como Primeros Analíticos, (en griego, Proto Analytika; en latín
–idioma en el que se reconoció la obra en Europa Occidental−, Analytica Priora). Aristóteles
63 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
El método científico concluye con la prueba de afirmaciones que son consecuencias lógicas del corpus de las teorías científicas. Generalmente, esto se hace a
través de experimentos que deben poder repetirse o mediante estudios observacionales rigurosos.
Según esto, una teoría científica cuyas aseveraciones no son corroboradas por las
observaciones, por las pruebas o por los experimentos, probablemente será rechazada. El falsacionismo de Popper38 considera que todas las teorías deben ser
consideraba la lógica como lógica de relación de términos. Los términos se unen o separan en los
juicios. Los juicios aristotélicos son considerados, desde el punto de vista de unión o separación
de dos términos, un sujeto y un predicado. Hoy se hablaría de proposición. La diferencia entre
juicio y proposición es importante. La proposición afirma un hecho como un todo, que es o no es,
como contenido lógico del conocimiento. El juicio, en cambio, atribuye un predicado a un sujeto
lógico del conocimiento otorgando a los términos al mismo tiempo una función lingüística de
significado (semántica) y una función formal lógica (sintáctica). Esto tiene su importancia en el
concepto mismo del contenido de uno, el juicio, y la otra, la proposición, especialmente en los
casos de negación, como se ve en la problemática de la lógica silogística. Fuente:
http://es.wikipedia.org/wiki/Silogismo
38 El Falsacionismo, Refutacionismo o Principio de Falsabilidad es una corriente epistemológica
fundada por el filósofo austríaco Karl Popper. Para Popper, constatar una teoría significa intentar
refutarla mediante un contraejemplo. Si no es posible refutarla, dicha teoría queda corroborada,
pudiendo ser aceptada provisionalmente, pero nunca verificada. Dentro del Falsacionismo metodológico, se pueden diferenciar el Falsacionismo ingenuo inicial de Popper y el Falsacionismo
sofisticado de la obra tardía de Popper y la metodología de los programas de investigación de Imre Lakatos.
El problema de la inducción nace del hecho de que nunca podremos afirmar algo universal a partir de los datos particulares que nos ofrece la experiencia. Por muchos millones de cuervos negros
que veamos, nunca podremos afirmar que "todos los cuervos son negros". En cambio, si encontramos un solo cuervo que no sea negro, sí podremos afirmar: "No todos los cuervos son negros".
Por esa razón, Popper introduce como criterio de demarcación científica el falsacionismo.
Popper, en realidad, rechaza el Verificacionismo como método de validación de teorías. La tesis
central de Popper es que no puede haber enunciados científicos últimos, es decir, que no puedan
ser contrastados o refutados a partir de la experiencia. La experiencia sigue siendo el método distintivo que caracteriza a la ciencia empírica y la distingue de otros sistemas teóricos.
Para Popper, la racionalidad científica no requiere de puntos de partida incuestionables, pues no
los hay. El asunto es cuestión de método. Aunque la ciencia es inductiva, en primera instancia, el
aspecto más importante es la parte deductiva. La ciencia se caracteriza por ser racional, y la racionalidad reside en el proceso por el cual sometemos a la crítica y reemplazamos nuestras creencias. Frente al problema de la inducción, Popper propone una serie de reglas metodológicas que
nos permiten decidir cuándo debemos rechazar una hipótesis.
Popper propone un método científico de conjetura por el cual se deducen las consecuencias observables y se ponen a prueba. Si falla la consecuencia, la hipótesis queda refutada y debe entonces rechazarse. En caso contrario, si todo es comprobado, se repite el proceso considerando otras
consecuencias deducibles. Cuando una hipótesis ha sobrevivido a diversos intentos de refutación,
64 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
cuestionadas o refutadas para comprobar su rigor.
Las teorías que generan muchas predicciones (y estas resultan de gran valor, tanto por su interés científico, como por sus aplicaciones) son fácil y rápidamente
confirmadas o falsadas, siendo las más deseables, en muchos campos científicos,
aquellas que con una cantidad pequeña de principios básicos predicen una gran
cantidad de sucesos.
La dificultad de predicción en numerosos campos de la ciencia
Algunos campos de la ciencia tienen una gran dificultad para efectuar predicciones y pronósticos exactos.
En algunos campos, la complejidad de los datos lo hace difícil, tal el caso de
pandemias, demografía, dinámica poblacional, climatología, desastres naturales
y, en general, todo lo relacionado con la meteorología.
RELACIONES
El concepto de relación, que tiene su origen en el término latino relatio, tiene
muchos y variados usos. En su forma más sencilla, una relación es una correspondencia o conexión entre algo o alguien con otra cosa o persona.
Antes de profundizar en estos aspectos particulares de las relaciones, analizaremos algunas características generales de estas, a partir de las cuales podremos
comprender mejor el material específico acerca de la correlación.
Relaciones lineales
Para iniciar nuestro análisis de las relaciones, estudiaremos una relación lineal
entre dos variables. La Tabla XII.1 muestra la relación entre las cantidad de fertilizante fosfatado utilizado en la producción de soja, expresada en kilogramos de
fertilizante por hectárea de cultivo ( X) y la producción de la citada oleaginosa,
expresada en kilogramos de soja recogida por hectárea sembrada ( Y).
Podemos analizar mejor la relación entre estas variables si trazamos un gráfico
utilizando valores de X y de Y, para cada condición de siembra, como los puntos
de dicha gráfica. Esta es un gráfico llamado de dispersión o dispersigrama o nube de puntos. El método consiste en graficar por medio de puntos (intersección
de los pares de valores correspondientes) los valores de las variables X e Y, para
Continúa ...
se dice que está corroborada, pero esto no nos permite afirmar que ha quedado confirmada definitivamente, sino sólo provisionalmente, por la evidencia empírica. Fuente:
http://es.wikipedia.org/wiki/Falsacionismo
65 | P á g i n a
Fly UP