Estadística en Python: análisis de datos multidimensionales y regresión lineal (Parte IV)

Hasta ahora hemos tratado con una única variable por separado. Ahora vamos a ver qué podemos hacer con varias variables en la misma muestra (conjunto de datos). Nos interesará saber si están relacionadas o no (independencia o no). Si existe relación (estan correlacionadas) vamos a construir un modelo de regresión lineal.

Distribución conjunta de frecuencias

En el caso de dos variables, podemos construir una distribución conjunta de frecuencias. Se trata de una tabla de doble entrada donde cada dimensión corresponde a cada variable y el valor de las celdas representa la frecuencia del par. Para ello podemos usar crosstab también (de hecho, su uso original es este).

Ejemplo: En las votaciones a alcalde de la ciudad de Valladolid se presentaban Rafael, Silvia y Olga. Analiza los resultados e informa de quién fue el ganador de las elecciones. ¿Quién fue el candidato favorito en el barrio de La Rondilla?

Como podéis ver, un humando podría haber sacado estas conclusiones observando simplemente la tabla conjunta de frecuencias. ¿Quién tiene más votos en total? Rafael, con 6 en All (la suma de los distritos). ¿Quién ha sacado más votos en La Rondilla? Silvia, con 4 en la columna de La Rondilla. Por último, ¿votó más gente en el Centro o en La Rondilla? Votaron más en La Rondilla (8 votos), que en el Centro (7 votos).

A las frecuencias All se las llama comúnmente distribuciones marginales. Cuando discriminamos las frecuencias a un solo valor de una variable, se habla de distribuciones condicionadas, en este caso hemos usado la distribución de votos condicionada al distrito La Rondilla. Estas distribuciones son univariantes como habréis sospechado.

Gráfico XY o bivariante

Una manera muy útil de observar posibles correlaciones es con el gráfico XY, solamente disponible para distribuciones bivariantes. Cada observación se representa en el plano como un punto. En Matplotlib podemos dibujarlo con scatter.

Ejemplo: Represente el gráfico XY de las variables ingresos y gastos de las familias.

En la imagen podemos ver cada dato representado por un punto. En este ejemplo puede apreciarse como los puntos estan en torno a una línea recta invisible.

Covarianza

Para medir la relación entre dos variables podemos definir la covarianza:

\(
cov_{x,y}=\frac{\sum_{i=1}^{N}(x_{i}-\bar{x})(y_{i}-\bar{y})}{N}
\)

Pandas trae el método cov para calcular la matriz de covarianzas. De esta matriz, obtendremos el valor que nos interesa.

¿Y la covarianza qué nos dice? Por si mismo, bastante poco. Como mucho, si es positivo nos dice que se relacionarían de forma directa y si es negativa de forma inversa. Pero la covarianza está presente en muchas fórmulas.

Coeficiente de correlación lineal de Pearson

\(
r_{x,y}=\frac{cov_{x,y}}{s_{x}s_{y}}
\)

Uno de los métodos que usa la covarianza (aunque Pandas lo va a hacer solo) es el coeficiente de correlación lineal de Pearson. Cuanto más se acerque a 1 o -1 más correlacionadas están las variables. Su uso en Pandas es muy similar a la covarianza.

En este ejemplo concreto, el coeficiente de correlación de Pearson nos da 0.976175. Se trata de un valor lo suficientemente alto como para plantearnos una correlación lineal. Es decir, que pueda ser aproximado por una recta. Si este coeficiente es igual a 1 o -1, se puede decir que una variable es fruto de una transformación lineal de la otra.

Ajuste lineal

Vamos a intentar encontrar un modelo lineal que se ajuste a nuestras observaciones y nos permita hacer predicciones. Esta recta se llamará recta de regresión y se calcula de la siguiente forma:

\(
\hat{y}-\bar{y}=\frac{cov_{x,y}}{s_{x}^2}(x-\bar{x})
\)

Usando las funciones de varianza, media y covarianza Pandas no es muy complicado hacer una recta de regresión:

Que podemos probar visualmente:

Sin embargo SciPy ya nos trae un método que calcula la pendiente, la ordenada en el origen, el coeficiente de correlación lineal de Pearson y mucho más en un solo lugar. Es mucho más eficiente, se trata de linregress.

Además, para calcular los valores del gráfico, he usado vectorize de NumPy, que permite mapear los arrays nativos de NumPy. Más eficiente. Mismo resultado.

La ley de Ohm

¿Quién no ha oído hablar de la Ley de Ohm? Se trata de una ley que relaciona la diferencia de potencial con el amperaje dando lugar a la resistencia. La ley fue enunciada por George Simon Ohm, aunque no exactamente como la conocemos hoy en día. En este ejemplo vamos a deducir de cero la ley de Ohm. Este ejercicio se puede hacer en casa con datos reales si se dispone de un polímetro (dos mejor) y una fuente de alimentación con tensión regulable. Este ejercicio pueden hacerlo niños sin problema.

Olvida todo lo que sepas de la ley de Ohm

Es posible apreciar que en un circuito con una bombilla, si introducimos una pieza cerámica, la intensidad de la bombilla disminuye.

Cuando la corriente no atraviesa la resistencia
Cuando la corriente atraviesa la resistencia

¿Qué ocurre exactamente? ¿Por qué la bombilla tiene menos intensidad en el segundo caso?

Vamos a aislar la resistencia. Ponemos un voltímetro y un amperímetro y vamos cambiando la tensión de entrada. Anotamos la corriente medida en cada caso.

Podemos intentar hacer un ajuste lineal a estos datos. De modo, que una vez sepamos la intensidad, podamos predecir el voltaje.

Como Pearson nos da un número muy próximo a 1, podemos definir un modelo matemático siguiendo la regresión lineal.

Este modelo matemático se define así:

Y es lo que se conoce como la Ley de Ohm. En realidad, la ordenada en el origen tiene un valor muy cercano a cero, podemos quitarlo.

Así nos queda un modelo capaz de predecir lel voltaje en base a la intensidad y la pendiente de la recta. Ahora puedes probar cambiando la resistencia y observando que siempre ocurre lo mismo. Tenemos el voltaje por la pendiente del modelo. Este valor de la pendiente es lo que en física se llama resistencia y se mide en ohmios. Así se nos queda entonces la ley de Ohm que todos conocemos:

\(
V= IR
\)

En este caso la pendiente equivalía a 4.94 Ω, valor muy cercano a los 5 Ω que dice el fabricante.

¿Está usted de broma Sr. Feynman?

Acabo de leer un libro, un señor libro, uno de los que más me han gustado recientemente. Y ha sido un placer leerlo.

Se trata de ¿Está usted de broma Sr. Feynman? y es una especie de autobiografía de la vida del físico Richard Feynman. El libro se estructura en anécdotas que va contando que si bien suelen tener un elemento de inicio cronologicamente ordenado con el resto, cada anécdota puede estructurarse de forma diferente.

El libro es muy divertido y derrocha originalidad. Es un claro ejemplo de por qué prefiero los libros de no ficción, ya que superan a la ficción y por mucho.

La vida de Richard Feynman, uno de los grandes físicos del siglo XX, es una completa inspiración. Una invitación a ser curioso, a no tener miedo al qué dirán, a dejar de preocuparse y a disfrutar de las cosas de la vida.

Algunas anécdotas interesantes:

  • La apertura de cajas fuertes en Los Alamos
  • Cabrear a la censura de Los Alamos
  • Introducirse en el mundo de la pintura y llegar a realizar un cuadro para un burdel
  • Tocar la frigideira en una banda de Río de Janeiro
  • Recibir un premio Nobel
  • Dar un seminario de biología en Harvard (acabando justo él de terminar física)
  • Hablar en un idioma inventado en una actuación de scouts
  • Ligar en un local de carretera
  • Y muchas más

Mi más sincera recomendación. Yo ahora empiezo con la segunda parte ¿Qué te importa lo que piensen los demás?

 

El Universo Mecánico

Hoy voy a recomendaros una excelente serie documental sobre física. El Universo Mecánico.

eluniversomecanico

La serie se organiza en 52 episodios, todos ellos muy interesantes, con una misma estructura. El profesor de CalTech (doctor David L. Goodstein) desde su clase con alumnos hará una introducción al tema en cuestión. Puede que haga un experimento, cuente una historia o incluso lea un poema. Después un narrador nos explicará la teoría, apoyándose de ejemplos, ecuaciones en pantalla y gráficos 3D (revolucionarios para la época).

El Universo Mecánico no es una serie superificial, no incide mucho en las ecuaciones, pero los conceptos pueden ser algo avanzados, dependiendo del nivel que tenga el espectador. De todos modos, la serie cuenta con un par de capítulos instrumentales donde se explican los conceptos de vector, derivada e integral, que pueden servir al espectador que no domine estos conceptos matemáticos.

movingcircles

La serie no se deja prácticamente nada de la física, veremos desde partículas elementales hasta las ecuaciones de Maxwell pasando por óptica, temperatura, magnetismo, electricidad, gravitación, conservación del momento, ondas, movimiento armónico simple, …

Aprenderemos no solo fórmulas y ecuaciones con sentido (o sin él) sino que comprenderemos la genialidad intrínseca de cada teoría. Veremos que no hay verdades inamovibles, que nunca podemos olvidar la historia y que aunque al final del día esa magnífica ecuación nos sirva para mandar esa nave a la luna, lo subyacente, lo real en sí, no es eso. La realidad es la realidad y nosotros nos intentamos acercar a ella con modelos matemáticos. Y como muchas veces hemos visto que dos cosas bien distintas (aparentemente) en realidad son el mismo efecto de la realidad. ¿Qué es una fuerza? Solamente un concepto teórico, que no existe en la realidad, para explicar algo que sucede en nuestro universo.

Pero aprenderemos además que todo está relacionado con todo, el arte, la poesía, la política, la filosofía y la física no son más que divisiones, en cierto modo arbitrarias que hacemos los humanos dentro de una realidad que no tiene divisiones, que no “colecciona sellos”.

Para mí, una de las mejores series documentales de ciencia.

Sobre la Física – Parte 2 – ¿Qué es la luz?

Respuesta corta: dualidad onda-pratícula Respuesta larga: la pregunta no tiene sentido y sigue leyendo

Antes de nada, puede que en algún sitio haya cometido un error garrafal de terminología o de concepto, en ese caso indicádmelo

Contexto

La dualidad onda-partícula hace referencia a la naturaleza de la luz. ¿Qué es la luz? ¿De qué está formada? Para explicarlo, tenemos que remontarnos al siglo XVII, tiempo de Newton y Huygens.

En esta época, la física despega y cada vez se proponen nuevas leyes para explicar fenómenos observados desde la antigüedad, pero que en la cultura clásica grecorromana y posteriormente en filosofía escolástica se trataban sin referencia a las matemáticas. Este concepto actual de relacionar y aplicar las matemáticas a la naturaleza es un pensamiento que nace en el renacimiento.

Al tratar el tema de la luz se realizan experimentos con conclusiones muy dispares, lo que genera gran controversia entre los pocos científicos que había en la época. Básicamente distinguimos dos teorías, no voy a explicar sus experimentos, solo el concepto.

Por un lado, Isaac Newton, propone que la luz es una partícula (una especie de pelotita) y actúa como tal. Tiene experimentos que lo corroboran.

Por otro lado, Huygens propone que la luz es una onda y actúa como tal. Tiene experimentos que lo corroboran.

Sin embargo los modelos de partícula y onda son imcompatibles entre sí y lo que explica una teoría no puede ser explicado por la otra y viceversa. Gran problema.

Maxwell

Entonces llega Maxwell, ya en el siglo XIX y en un atisbo de genialidad, saca a relucir sus ecuaciones electromagnéticas. Estas ecuaciones son un punto de inflexión en la física, unifican mucho contenido disperso de un asunto que traía de cabeza a los físicos como era la electricidad y el magnetismo. Demuestra que estan relacionadas estas propiedades (o que realmente son lo mismo, según la interpretación) y realiza un curioso hallazgo y es que la relación entre campo eléctrico y campo magnético es… la velocidad de la luz. Esto servirá de punto de partida para que Einstein para su teoría de la relatividad, en la cual la velocidad de la luz es constante y no puede ser superada. Volvemos a Maxwell. Esa relación parece indicar que la luz es en realidad una onda electromagnética. ¿Parece que Huygens tenía razón, no?

maxwell

maxwell-god

Efecto Fotoeléctrico

Pues tampoco, porque a principios de siglo XX se observa el efecto fotoeléctrico. Este efecto no se puede explicar de ninguna manera por la teoría electromagnética y Einstein en 1905 revoluciona el campo de la concepción materia-energía con una teoría cuantificada. Volvamos atrás al concepto de cuantificado.

FotoElectrico

Max Planck propone un modelo cuántico, el primero, para tratar de explicar comportamientos relacionados con el cuerpo negro. La teoría supone un cambio drástico porque supone admitir que no existen todos los valores de una variable, sino que las magnitudes físicas van a saltos. Estos saltos son los cuantos, de ahí el nombre de la física cuántica.

Einstein toma el concepto de los cuantos y los usa para explicar la naturaleza de la luz en el efecto fotoeléctrico. Para él la luz sigue siendo una onda pero a la vez se transmite en una especie de paquetes. Esos paquetes los llama fotones. Entonces llega el Efecto Compton, que a nivel de electrones demuestra que el fotón tiene comportamiento de partícula. Pero esto ya se vuelve difícil de explicar.

Las teorías de Maxwell funcionaban muy bien y habían sido puestas en práctica con una asombrosa precisión. Ahora estos nuevos experimentos contradecían la teoría de Maxwell. Y lo peor es que aunque se ha definido un comportamiento de partícula, resulta imposible tratar de encontrar la masa de la luz. ¿Cuántos gramos tiene la luz?

Desde entonces se habla de dualidad onda-partícula, la luz es partícula y onda a la vez.

Conclusión

La conclusión a la que podemos llegar (seguro que hay más) es que la física no explica como ES la realidad, sino que planeta modelos que se ajustan a la realidad, pero el universo no es un ordenador o una calculadora. No es una gran ecuación. El universo es el universo, el universo no entiende de la razón y de lógica. Simplemente ES. Y nosotros podemos aplicar modelos, pero esos modelos no SON la realidad.

Así pues la luz es la luz y se manifiesta de formas distintas en nuestros modelos simplificados, reduccionistas. La pregunta entonces no tiene sentido. En general dudo que podamos llegar hasta el “final de la física” puesto que no tendremos nunca la certeza de que el universo se comporta de forma lógica y racional o se comporta de manera irracional, aunque tengamos modelos matemáticos que puedan predecir la realidad con una asombrosa precisión. No caigamos en el dogma del empirismo. No sobrepasemos los límites de la razón.

Sobre la Física – Parte 1

La filosofía de la ciencia. ¿Qué es la realidad? ¿Qué es la física? Es algo que me apasiona. Como es un tema denso serán escritos cortos.

¿Qué es la física? No es algo sencillo. Realmente no hay una respuesta universal. ¿Qué es la naturaleza, qué es la realidad? No son preguntas fáciles. La mayoría de la gente hoy día es empirista, de un grado u otro, una posición correcta, pero no es la única válida. Platón, aún cuando ha pasado mucho tiempo, sigue teniendo una teoría válida para explicar la realidad, alejada totalmente del empirismo. Y el empirismo radical conlleva al escepticismo como avisaba Kant. No poder estar seguros de nada, ¡terminamos en un punto peor que el de partida! Tenemos que asumir que la naturaleza es uniforme en sus comportamientos, pero eso es algo que nunca podrá ser demostrado. Dudas, dudas.

Ajedrezado

¿Y las matemáticas? ¿Fueron descubiertas o fueron inventadas? Ahora mi opinión. La física no es la realidad. La física es un modelo matemático, muy preciso, pero alejado de lo real. “El Universo se puede expresar en una ecuación” es falso. La física no es más que una interpretación humana usando matemáticas. La física entonces no es más que una invención humana, no nos dice porque la realidad es tal como es. Dudas, dudas.

Lo más triste de todo es que hay gente que cree en la ciencia como un dogma, ajena a cualquier objeción. Pasamos del dogma bíblico al dogma de “El Método Científico”. Salimos de una cueva y entramos en otra. Muy poca gente, muy pocos científicos pueden estar realmente fuera de la caverna. Dudas, dudas.

Y en estos temas la gente obvia el asunto de Dios. Asunto para nada cerrado. No como un Dios personalista, que juzga a la gente, pero ¿y como un estado ideal de perfección? Pero antes tenemos que definir la perfección. ¿O es Dios acaso otra cosa? Dudas, dudas.

¿Qué opináis? Me encantará oír vuestras opiniones al respecto y por supuesto, sois libres de criticarme. Intentaré desarrollar cada punto por separado, porque es extenso, de momento dejamos el asunto planteado.