Cómo son los programas presidenciales si visualizamos sus palabras más relevantes

4 min readNov 13, 2017

--

Las palabras que aparecen en los programas de gobierno, proveen información que nos puede ayudar a retratar a cada candidato o candidata y, principalmente, a marcar las diferencias entre los 8 postulantes a la presidencia de Chile.

Términos más frecuentes

Una primera mirada al programa de cada candidato es posible obtener a partir de la frecuencia de las palabras (Term Frequency Tf) en el texto de cada programa de gobierno.

Aunque las frecuencias de palabras, son un buen retrato de las propuestas de cada candidato, se puede apreciar que hay palabras que son comunes a todos o la mayoría, lo que no facilita el análisis de diferencias o contrastes. Por ejemplo, la palabra “desarrollo” aparece en todos los programas de gobierno con mayor o menor intensidad, al igual que las palabras “educación”, “salud”, “sistema” o “país”.

Nube de palabras calculada en base a frecuencia de términos (Tf)

Las diferencias entre programas

Para relevar las diferencias entre programas, la idea es destacar aquellas palabras que aparecen con gran frecuencia en el programa de un candidato, pero que — a su vez — aparecen con poca intensidad en los otros programas (Idf).

Así obtenemos las siguientes visualizaciones de nubes de palabras.

Metodología utilizada

Este análisis fue creado utilizando técnicas que provienen del Procesamiento de Texto, la Recuperación de Información y la Visualización de Datos. Los textos son considerados Bolsas de Palabras (bag of words), lo que quiere decir que se descarta cualquier análisis semántico.

Fuente de datos

Los programas de gobierno se obtuvieron de las páginas oficiales de cada candidato o de la página del SERVEL, cuando no existía un programa en formato PDF en la página oficial del candidato.

Estos son los links a los PDFs utilizados:

Extracción de texto y limpieza

El texto de los archivos PDF fue extraído utilizando el servicio en línea OnlineConverter. Los archivos de los candidatos Goic y Guillier, se encontraban renderizados, esto quiere decir que el texto se encuentra transformado en gráfico, por lo que además fue necesario aplicar la característica de OCR para transformar las letras-gráfico en letras-texto.
Se realizó una limpieza manual de palabras que no se transformaron correctamente desde el archivo PDF al TXT.
Se eliminaron palabras repetidas que correspondían al pie de página o encabezado de los programas.
La palabra Chile fue reemplazada por el apellido del candidato en las primeras visualizaciones y por el apellido más el signo “+” en las segundas visualizaciones.

Análisis de frecuencia y visualizaciones

Los textos de cada candidato se analizaron y visualizaron utilizando el lenguaje Python con los módulos NLTK y WordCloud
Palabras no relevantes (stopwords) fueron eliminadas.
Se consideró análisis de bigramas.
Se utilizó Tf normalizado por el máximo.
Las imágenes se agregaron a este post utilizando el orden sorteado por el SERVEL previamente.

Códigos y resultados

La data utilizada además de las imágenes generadas y los códigos se encuentran disponibles este repositorio en GitHub