sábado, 5 de octubre de 2019

¿Son las PASO una "gran encuesta"?





Se ha instalado bastante la idea de que las elecciones primarias, simultáneas y obligatorias son “una gran encuesta”. En las recientes PASO presidenciales participaron 25.861.050 electores, un 76,35% del total empadronado, lo que indica que, si se la toma como encuesta, el margen de error fue de 0,0197%, algo impensado para cualquier encuesta ad hoc. Si bien podemos decir que las PASO son una medición sumamente precisa de las intenciones de voto de cara a las generales, no podemos, sin embargo, afirmar del mismo modo que sea exacta. Recordemos ambas definiciones: la exactitud es qué tan centrada es la medición con respecto al valor “verdadero”, la precisión es qué tan disperso puede ser el resultado de una medición cuando se mide repetidas veces la misma cantidad. Dicho de otra manera, las PASO son una excelente medición pero de algo que no es exactamente lo que necesitamos medir para predecir el resultado de las Generales.

Decir que las PASO no es una encuesta exacta en este sentido es reconocer que muy probablemente no sucederá exactamente lo mismo en las Generales. El resultado del 27 de octubre no será una mera proyección de los votantes que no participaron o que votaron a algunas de las cuatro listas que no pasaron el filtro del 1.5%. El mero hecho de que no estén presentes estas cuatro listas y que, además, el resultado de la misma sea, ahora sí, “vinculante”, en el sentido de definitorio de los cargos a elegir, hacen a las Elecciones Generales de naturaleza diferente. Esto lo sabemos también a fuerza de experiencia: entre las PASO 2011 y las Generales 2011 se movieron 21 puntos (CFK creció 6 puntos, Binner 7 puntos y Duhalde decreció 6 puntos), y entre las PASO 2015 y las generales 2015 se movieron 8 puntos (Macri creció 4 puntos, Scioli decreció 1 punto y Massa creció 1 punto). Pero fueron tan pocas las ocasiones hasta el momento que las especulaciones acerca de cuánto se moverán los guarismos el 27O en relación a las PASO difícilmente puedan basarse únicamente en resultados anteriores.

Algunos investigadores, generalmente afines a las ciencias de los datos, argumentan esta inexactitud reforzando la idea de volatilidad en las intenciones de voto, como si hubiera una suerte de inconmensurabilidad en las preferencias electorales. Para ellos, el resultado de las Generales es diferente al de las PASO sobre todo porque la postura de la gente cambia semana a semana, incluso día a día. Esto conlleva una concepción fragmentaria del comportamiento electoral sesgada al plano de las decisiones, como si se tratara de una mera sumatoria de individuos, excluyendo o relativizando la noción de ideología en el análisis. De todas maneras, consideramos cierto que es importante comprender que el electorado es dinámico y que esa dinámica se explica mejor en términos de un rango de resultados posibles que de números cerrados.

Pero, además, esa dinámica también se explica mejor si se piensa más en un sujeto colectivo que en una sumatoria de individuos, o en un contexto más que en un cúmulo de preferencias. Las Generales arrojan resultados diferentes a las PASO porque el contexto se modifica de una elección a otra, y no sólo porque los candidatos que pierden protagonismo empiezan a generar posiciones favorables en uno u otro sentido, lo que facilita la migración de electores en busca del “voto útil”, sino también porque se suman nuevas variables a considerar en el momento del voto. La búsqueda de consensos tiene para las Generales una mayor incidencia. Aquí es importante destacar que si no logramos discernir con precisión cuáles son las variables que inducen estos procesos y transformaciones es porque las herramientas disponibles para estudiarlos son, justamente, inexactas.

En este sentido, la sistematización de mediciones hechas con la misma metodología que arrojen, mas allá del margen de error, un rango de resultados con su evolución en el tiempo a medida que se acercan las Generales, es de alguna manera la mejor de las estrategias para entender esta dinámica. A eso, es importante sumar la interpretación del contexto que hacen los diferentes sectores del electorado, para lo cual el complemento con mediciones cualitativas es imprescindible, no sólo porque nos permite atribuirle un sentido más eficiente en términos analíticos que simplemente decir que son los “caprichos” (estado de ánimo, preferencias, etc.) de los electores, sino también porque nos permiten acercarnos a la opinión de sectores usualmente deficientemente alcanzados por las encuestas.

Respecto a este último punto es importante destacar que el alcance deficitario que tienen las encuestas, sobre todo en lo que refiere a alcanzar a perfiles sociales y económicos ubicados en los extremos de la pirámide social, en parte responden a la naturaleza obligatoria del voto. Siendo entonces este un problema que mengua en los lugares donde el voto no es obligatorio. En esos casos (ejemplos clásicos son Chile y EEUU) la capacidad predictiva de las herramientas de medición, incluyendo las mediciones en redes sociales, suele ser bastante más aceptable porque votan “los politizados”. No como sucede aquí, donde también participan los supuestos desinteresados en la política.

Es por todo eso que las PASO tienen una enorme utilidad para la trazabilidad electoral, constituyen una herramienta para conocer cómo votan aquellos que no responden encuestas. Pero, como discutimos en los párrafos anteriores, esto no quiere decir que podamos anticiparnos al resultado de las Generales sólo con un análisis de las mismas. Es necesario un complemento cualitativo y seguimientos cuantitativos acotados pero constantes para desentrañar información sobre segmentos clave del electorado, y así construir un panorama sólido sobre qué resultados esperar en las Generales y, sobre todo, encontrar los puntos estratégicos en los cuales concentrar esfuerzos de campaña.






La segmentación de públicos para el análisis cualitativo en tiempos de algoritmos.




Algo bueno de vivir una vida algorítmicamente asistida es que nos da la posibilidad de ver nuestros deseos expresarse en tiempo real. Nos gusta ser algorítmicamente asistidos porque nos garantiza quien somos. Nos permite “targetiarnos” en cuestiones no necesariamente conexas entre sí, más bien yuxtapuestas y, sobre todo, diversas. Así nos sumergimos en un presente de deseo revelado, a todo momento y en todo lugar (o casi).

Es evidente que la asistencia algorítmica en el sector de la investigación revolucionó a las herramientas metodológicas. Algunes nos encontramos ensayando novedosos (y pretenciosos) diseños de muestras que usan como herramienta las nano-segmentaciones algorítmicas. Un uso frecuente es su aplicación en los reclutamientos para la conformación de paneles o citas a focus groups. Estas nano-segmentaciones pueden ser muy ínfimas, hasta lo irrelevante. Les contaré una historia a modo de ejemplo: hace un tiempo nos pidieron reclutar a mujeres mayores de 40 años, con hijos de 0 a 6 años, que compraran coleccionables en los kioskos. Aceptamos, a fuerza del deseo de tener más trabajo. Encontramos a dichas mujeres (en la ciudad de Córdoba y en Rosario) gracias a una micro-segmentación basada en información de usuarias de redes sociales. Lo cierto es que asistieron seis mujeres que no tenían nada en común, excepto estas tres características mencionadas. Es decir, los criterios de segmentación no eran criterios de identidad (lo sospechábamos desde el principio, pero el cliente es el cliente) y el resultado redundó en emergentes anecdotarios. Frente a esto cabe la pregunta sobre el para qué de la herramienta implementada (al mismo tiempo que la fascinación por su precisión).

Un punto crítico a considerar en estos tipos de diseños metodológicos, cuando el abordaje es cualitativo y más aún cuando es etnográfico, es que en ellos sirven para trazar un universo observable, finito, y poder analizarlo. Eso no quiere decir que lo que tendremos en frente sea representativo de otra cosa. Se trata en la mayor de una constelación azarosa de participantes sobre la cual se pueden conjeturar muchas cosas. Con suerte es también un grupo perteneciente a la misma clase social (C amplio, el más frecuente), es decir, una muestra demasiado pequeña de un universo tremendamente grande.

El punto es que los auténticos gemelajes que buscamos a la hora de segmentar una muestra para una investigación cualitativa o etnográfica se requiere de un cúmulo de convergencias subjetivas entre los representantes que puedan participar. Primer asunto: coincidir en algunas cosas no hace a un segmento. Segundo: nada excluye la división de niveles socio-económicos, eso es determinante y parece que hay que repetirlo hasta el cansancio. La desigualdad social debe ser siempre nuestra primera variable de aproximación y muestreo.

Nuestra fascinación por la incidencia de la tecnología en los diseños metodológicos, en específico en el muestreo, nos lleva a negar que identificar el gesto de atribuir sentido posterior a la experiencia. Con esto queremos señalar que las micro-segmentaciones no resuelven el desafío de un muestreo pertinente y reproducible. Esto sucede porque las segmentaciones al estilo “adentro-afuera” de mi negocio no equivale a segmentar modos de vida. A veces funciona, pero la mayoría de las veces no, de este modo se legitima lo que es un error en el diseño del filtro. Negar este tipo de situaciones conlleva trabajar (e investigar, en el peor de loscasos) en base a  prejuicios categóricos y expresiones de deseo.

Hay que tener algunas precauciones al momento de instrumentalizar el poder que confiere la híper-segmentación, no solo por lo inespecífico de fragmentar el universo en diminutos pedazos sino también por los enormes sesgos que eso recrea a la hora de definir un modo de vida, una identidad, de demarcar donde hay comunidad. 

Así también necesitamos redefinir la idea de comunidad como modos de vida, porque es allí, en los modos, donde nos constituimos a partir de experiencias y discursividades que nos atraviesan. Creo que algo de esto ya se empieza a captar (y esta nota sale tarde). Me refiero a las experiencias investigativas que han sabido ir por las vías de las discursividades y no por las expresiones de deseo. Por ejemplo, en redes sociales, ir por las palabras empleadas y no por la cantidad de likes.

Si bien gracias a los algoritmos podemos nano-segmentar, nadie está ni tan al margen ni tan al centro de ninguno de los micro-nichos que podrían contenerlo, y es porque aún somos desafiantemente especiales. Hay un reservorio de lo humanamente determinante que sigue funcionando como variable oculta. A este reservorio, en los procesos comprometidos de investigación, siempre debemos volver. No se trata de una mera “textura” cualitativa sino de un acercamiento al ethos, a la realidad como verdad vivida.

Además, el objeto de estudio “modo de vida” es materia viva y como tal se encuentra en permanente interacción. Agrego a esto que tenemos que asumir (no naturalizar) las relaciones que nos atraviesan como investigadores y producir saber asumiendo nuestra falta de neutralidad, porque un investigador existe solo como emergente de sus propias interpretaciones y relaciones. No hay centro vs. marginalidad, observador y observado. Solo nos podemos aproximar a nuestro objeto de estudio afectando nuestros métodos y diseños de investigación.

La vida algorítmicamente asistida nos da herramientas muy valiosas para orientar decisiones metodológicas, pero estas garantías de segmentación están lejos de dotar a las investigaciones de objetividad o de criterio científico. Simplemente nos muestran, mejor dicho, nos recuerdan, que el mundo es prismático, y que los modos de vida pueden ser tan diversos como quisiéramos y allí hay un riesgo a la hora de segmentar la muestra de una investigación.

sábado, 28 de septiembre de 2019

La precisión, el yerro y el cordobesismo.




Existen, al menos, dos aspectos importantes que hacen a la calidad de una medición: la precisión y la exactitud. La precisión es qué tan disperso puede ser el resultado de una medición cuando se mide repetidas veces la misma cantidad. En el caso de las encuestas es el tamaño de las barras de error, el así llamado “error muestral”, que sería una consecuencia del más puro azar y que sólo depende del tamaño de la muestra y, en menor medida, del tamaño de la población que se estudia. La exactitud, en cambio, es qué tan centrada es la medición con respecto al valor “verdadero”, por lo que sólo se puede dimensionar cuando se tiene conocimiento de este “verdadero” valor. Es la distancia entre el valor que parece más probable luego de repetidas mediciones y el verdadero valor, es el sesgo propio del método de medición, el desvío de la mira. En los estudios de opinión pública la exactitud es el santo grial, lo que los encuestadores y analistas tratamos de mejorar continuamente, sin nunca estar del todo seguros de haber llegado a la exactitud deseada. Justamente, exactitud no es precisión, cada metodología tiene su sesgo y por mucho que se agrande la muestra la mira va a estar igual de desviada. Los consultores lo saben, por eso no venden encuestas IVR de 10000 casos (la precisión sería del 1%, pero los sesgos están presentes de igual forma que en una encuesta de 600 casos).

La exactitud, o falta de ella, que tuvieron las encuestas de opinión a nivel nacional anteriores a las PASO en relación al resultado electoral demostró que, a pesar de los avances tecnológicos de los últimos 20 años, todavía no hay un método, de relativa fácil implementación y costos razonables, menos sesgado que las encuestas presenciales hechas a partir de un buen diseño muestral. Por buen diseño nos referimos a uno que tenga en cuenta una pluralidad de variables que resulten significativas en la caracterización de las identidades políticas y que al mismo tiempo sean bien conocidas y estén actualizadas. La selección de estas variables es altamente no trivial, y en esto reside buena parte del arte de diseñar una buena muestra.

En este sentido hay que destacar que las encuestas presenciales son superadoras a las telefónicas porque garantizan las respuestas de un espectro más amplio de personas, llegando mejor a los extremos sociales y económicos. Mientras que las encuestas CATI (Computer-Assisted Telephones Interviewing)  e IVR (Interactive Voice Response) no pueden hacerlo por razones ya conocidas: altas tasas de no respuestas (entre el 3% y 7% de respuestas), lo cual las convierte en métodos de baja confiabilidad en escenarios dinámicos, cercanos a elecciones generales y sobre todo polarizados.

De todas maneras, el hecho de que las encuestas presenciales sean más exactas que cualquier encuesta telefónica no es ninguna novedad, la abundancia relativa de encuestas CATI o IVR se explica simplemente por una cuestión de costos: es claramente más barato contactar gente telefónicamente que hacerlo de persona a persona. La novedad en esta oportunidad estuvo en otra cuestión: la inexactitud aún más marcada que tuvieron los métodos “on-line”, tanto las encuestas como las proyecciones basadas en data mining (esto último es materia de otro artículo).
Esto no quiere decir que las encuestas telefónicas o las on-line no sirvan. Una mira desviada puede ser casi igual de útil que una que no lo esté siempre que se conozca con precisión su desvío. Si se conoce, para una dada muestra, en qué medida ciertos sectores están sobrerrepresentados o subrepresentados se puede compensar el sesgo ponderando la muestra: esto es, asignando un peso a cada entrevistado, según las variables de diseño muestral, que compense esta sub o sobrerrepresentación, como si cada entrevistado valiera por más de una persona o por menos de una persona en función de qué sectores representa. Se pretende así centrar la mira, pero el precio a pagar es justamente la precisión, la muestra ponderada funciona como una muestra más chica que la sin ponderar. Pero el resultado es más confiable, y ante repetidas mediciones los valores promedios seguramente se acercarán bastante a los reales. La ponderación depende críticamente de la selección de aquellas variables que hacen al diseño de la muestra: las que consideramos importantes para subdividir (acariciar) significativamente al electorado. Es, por lo tanto, también un arte que cada analista practica no siempre con los mismos criterios. Fue tanta la distancia que hubo entre algunas encuestas y el resultado de las PASO que nos es lícito sospechar que algunos encuestadores ni siquiera se plantearon compensar los sesgos antes de publicar sus resultados.

El yerro del “independiente”.

Justamente, no todos nuestros colegas piensan que el problema sea puramente metodológico, algunos prefieren adjudicar la falta de exactitud a una supuesta volatilidad de la opinión pública. Existe una figura muy común y vagamente definida en el análisis político: el así llamado “votante independiente”, el chivo expiatorio de todos los yerros metodológicos. Este supuesto votante sería abundante (según cómo se lo defina serían entre el 20% y el 50% del electorado) y sin embargo sería difícil llegar a él o ella: no le gusta hablar de política y decide su voto en los últimos días e incluso directamente en el cuarto oscuro. La divergencia entre encuestas parece sugerir que aproximadamente el 30% del electorado evita sistemáticamente dar su opinión en encuestas, o si la da dice lo primero que se le ocurre y termina votando de manera totalmente independiente a lo que dijo en su momento. Sin desconocer que parte del electorado efectivamente puede comportarse así, de nuestra experiencia nos resulta mucho más plausible suponer que más erráticas son nuestras herramientas que la opinión pública.    
De todas maneras, en defensa de los trapos, debemos reconocer que las encuestas distritales mostraron tener una mayor exactitud, siendo que los comportamientos suelen ser más variables en poblaciones más pequeñas. Quizás en las provincias haya una mejor predisposición a contestar encuestas, además de que se requiere de menos presupuesto para mediciones presenciales.

Hablemos de Córdoba.

En el caso de Córdoba, la ventaja de la fórmula Macri-Pichetto por sobre Fernández-Fernández estuvo bastante bien medida por varios de nuestros colegas, se hablaba de entre 15 y 22 puntos de distancia, terminó siendo 18.3. Es particularmente interesante lo que pueda suceder en Córdoba el 27 de octubre, porque la clara diferencia de Macri hace que el microclima parezca tendiente a profundizar esa ventaja, pero al mismo tiempo la ola ganadora a nivel nacional va a tener cierta influencia por sí misma. Ambos efectos contradictorios entre sí se van a dar independientemente de las acciones de campaña, por lo que una radiografía precisa de aquellos votantes en esta provincia que sostienen que no pertenecen a una extracción politizada, que se sienten por fuera de los clivajes K - anti K o peronistas-antiperonistas, va a ser fundamental para dirigir estas acciones (esto es lo que nosotros llamamos “votante híbridos”: aquellos que se consideran por fuera de estos clivajes, y no necesariamente lo están). Por supuesto, esto va a ser de particular interés para las listas de diputados nacionales, donde unos pocos miles de votos de diferencia puede significar el acceso o no a una banca.

En términos puramente numéricos, Macri ganó en Córdoba casi como Fernández ganó en nación. En Córdoba: MM 50.1%, AF 31.8% mientras que en nación el resultado fue AF 49.5% y MM 32.9%. La victoria de MM en Córdoba es tan contundente como la de AF a nivel nacional. Marcan diferencias aparentemente irremontables y hablan de una clara preferencia del votante independiente o híbrido, según nuestra acepción. Este tipo de votante apoyó mayoritariamente a AF a nivel nacional (especialmente en Gran Buenos Aires, NOA, NEA y Patagonia), pero en Córdoba y en CABA sigue eligiendo a Cambiemos. Siendo CABA la cuna y bastión del macrismo, lo de Córdoba se configura como excepción en el plano nacional.

En Córdoba el corte de boleta tanto en la lista de Juntos por el Cambio como en la lista del Frente de Todos (en todos los casos a favor del tramo presidencial) fue casi idéntico en número: unos 7 puntos para cada lista (cerca de 160000 votos en cada caso), mientras que en el caso de la lista de Consenso Federal el corte fue de 3 puntos (unos 60000 votos). Puede que no sea muy sorprendente que la suma de estos números aproximados (7+7+3) de justamente los 17 puntos que sacó la lista corta de Hacemos por Córdoba, pero este hecho casi nos confirma que los votantes de la lista corta votaron casi en la misma medida tanto a Macri como a Fernández (a diferencia de lo que cierto sector del oficialismo provincial quiere instalar), y nos sugiere que la composición de los votos para presidente entre los votantes de la lista corta es aproximadamente (40%,40%,20%) para Macri, Fernández y Lavagna respectivamente. Nos confirma también de que no existen prácticamente los votantes de “sólo lista corta”, y es por eso que para sostener el corte quirúrgico de boletas hace falta, además de precisión (o exactitud en el mejor de los casos), cierta “neutralidad” en el discurso político a la hora de insinuar qué es lo que prefieren los cordobeses en términos nacionales. Si bien podríamos discutir, largo y tendido sobre cuáles son los componentes y condicionamientos políticos que hacen a dicha “neutralidad” por parte del principal referente de HpC, el gobernador Juan Schiaretti, lo cierto es que apalancar en la identidad territorial “cordobesa” ha sido la estrategia predilecta del oficialismo provincial, y a las pruebas hay que remitirse para demostrar su visible y sostenido éxito como tal. Sin embargo, no todo está dicho en la Córdoba de los cordobeses. Existen algunos movimientos que dan cuenta de que su matriz ideológica es permeable al clima nacional, lo cual puede inducir cambios en el comportamiento electoral. Cabe destacar que en este distrito a Alberto Fernández, en estas PASO, le fue considerablemente mejor que a Scioli en las generales del 2015: el frente contenedor al kirchnerismo subió de 19 a 32 puntos, mientras que Cambiemos bajó su performance de 53 a 50 puntos. Massa en las generales del 2015 había obtenido 20 puntos, mientras que Lavagna en esta oportunidad tuvo sólo 8 puntos: aparentemente la mayoría de los votos de Massa ahora fueron con Alberto y no tanto con Lavagna. Por lo cual la pregunta sobre cómo votarán los cordobeses en las generales de octubre, si seguirá siendo Córdoba la excepción nacional o si se alineará a un comportamiento más propio del total país, son preguntas que siguen sin responderse en tanto y en cuando no haya disponibles, para el análisis, mediciones rigurosas (presenciales) en el territorio provincial.