3 palabras engañosas en el análisis de sentimiento regional en línea
Puede aprender sobre el estado mental general de las personas en función de sus redes sociales. ¿Siempre tuitean sobre sus mayores molestias o publican fotos de gatitos particularmente lindos? Bueno, de manera similar, los investigadores recurren a Twitter en busca de pistas sobre el bienestar general de comunidades geográficas enteras. Descubrieron que las diferencias regionales en las frases comunes utilizadas producían predicciones que no siempre reflejaban el bienestar local. Pero eliminar solo tres términos específicos (bueno, amor y LOL) de su análisis mejoró enormemente la precisión del método. Su trabajo aparece en las Actas de la Academia Nacional de Ciencias.
«Estamos viviendo una época loca con el COVID-19. Ahora más que nunca, estamos usando las redes sociales para adaptarnos a la nueva normalidad y conectarnos con amigos y familiares que no podemos conocer cara a cara».
Kokil Jaidka está estudiando Lingüística Computacional en la Universidad Nacional de Singapur.
«Pero nuestros idiomas no son solo para comprender nuestros pensamientos y sentimientos individuales. También son pistas útiles para las comunidades en las que vivimos».
Un método más simple que utilizan muchos científicos para analizar los datos es asociar palabras con emociones positivas o negativas. Pero cuando estas estadísticas se comparan con las encuestas telefónicas que evalúan el bienestar regional, no pintan una imagen precisa del espíritu de la época local, dijo Jadkar.
Para averiguar por qué, Jaidka y su colega de Stanford, Johannes Eichstaedt, analizaron miles de millones de tuits de todo Estados Unidos. Descubrieron que los términos más utilizados en Twitter eran jajaja, amor y bueno.
«Perdieron efectivamente el análisis. De hecho, cuando eliminamos esas tres palabras individualmente, logramos mejorar el método de conteo de palabras más simple y obtener estimaciones mejores, si no perfectas, de la felicidad».
¿Por qué desconectar? Bueno, Jaidka dijo que un problema es…
«El lenguaje de Internet es realmente una bestia diferente al inglés hablado normal. Adaptamos palabras del vocabulario inglés para que signifiquen diferentes cosas en diferentes contextos».
Por ejemplo, jajaja.
«Twitteé la palabra LOL para coquetear, para expresar sarcasmo, para molestar y, a veces, simplemente para sorprenderme. Cuando se creó la medida de LOL como marcador de felicidad en la década de 1990, todavía significaba reír».
Hay muchos términos que son menos engañosos, dijo Eichstaedt.
«Nuestro modelo nos dice que palabras como emocionante, divertido, excelente, oportunidad, divertido, maravilloso son mejores palabras para medir el bienestar subjetivo, solo mire los datos».
Su trabajo aparece en las Actas de la Academia Nacional de Ciencias. [Kokil Jaidka et al., Estimating geographic subjective well-being from Twitter: A comparison of dictionary and data-driven language methods]
Ser capaz de leer con precisión las emociones de las personas no es una broma.
«Esto es especialmente importante ahora, en la era de COVID, donde anticipamos una crisis de salud mental, y hemos visto la mayor disminución en el bienestar subjetivo en los datos de la encuesta durante al menos 10 años, si no más».
No hay duda de que todos podríamos aprovechar más oportunidades fantásticas de gran diversión y emoción, más o menos LOL.
—Karen Hopkins
[The above text is a transcript of this podcast.]