Ao contrário dos grupos de ajuda, que apenas sabem dos problemas quando os alcoólicos se lhes dirigem, ou dos inquéritos porta-a-porta (demorados e com atraso na análise das respostas), o uso do Twitter permite inferir dados a partir da própria habitação do utilizador - o que "antes era impraticável", dizem os investigadores da universidade norte-americana de Rochester responsáveis peloestudo "Inferring Fine-grained Details on User Activities and Home Location from Social Media: Detecting Drinking-While-Tweeting Patterns in Communities".
Os seis investigadores usaram técnicas de aprendizagem por máquina ("machine learning") para detectar a emissão em tempo real de mensagens no Twitter e analisaram a correlação com o consumo de bebidas alcoólicas numa cidade (Nova Iorque) e numa localidade rural (Monroe County), mais a norte mas ainda no estado de Nova Iorque. Os dados de medição utilizados pertencem a uma nova categoria - a das mobimétricas - e deixam antever todo um novo mundo de análise de comportamentos mediante dados de mobilidade e localização que os nossos smartphones disponibilizam.
Ao contrário de outros estudos sobre actividades nas redes sociais e dados de geolocalização, os autores usaram novos métodos de "machine learning" para refinarem "a localização de actividades e dos lares", a partir de dados do Twitter. Descobriram assim padrões de consumo de álcool entre uma grande e uma pequena localidade, baseando-se nos utilizadores do Twitter e na "densidade" das lojas de venda ou locais de consumo de bebidas alcoólicas, com uma fiabilidade de até 80%.
A análise, que juntou elementos dos departamentos de ciências da computação e da medicina, deu diferentes pesos negativos ou positivos a denominadores nas conversas no Twitter, como "bêbado" ou "cerveja", "vinho" ou "ressaca". Esses termos eram igualmente confrontados com cerca de 50 expressões ligadas ao lar, como "sofá" ou "TV", "banho" ou "sono". Em resultado desta investigação, foi possível perceber que em Nova Iorque os utilizadores do Twitter usam a rede social em casa ou numa distância até 100 metros, enquanto em Monroe County isso ocorria a mais de um quilómetro. "A capacidade de detectar casas e localizações onde os [consumidores de álcool] tuítam permite-nos comparar o consumo em casa e fora", dizem. E perceberam que numa grande cidade - proporcionalmente com mais lojas de venda de bebidas alcoólicas ou bares -, elas são mais consumidas, até porque nesse tipo de ambiente, com "mais pessoas a socializarem, é provável existir uma maior taxa de consumo de bebidas".
Esta equipa de investigação considera que a análise do Twitter para "estudos geo-espaciais do comportamento humano", no consumo de álcool, exercício físico, doenças ou mesmo depressão "não tenta distinguir meras menções de actividades ou estados de registos de actividades" feitos pelos próprios utilizadores, embora os métodos usados possam ser replicados para outro tipo de comportamentos, ou "contextos virtuais sociais", nomeadamente na investigação de dados da saúde pública - até pela divulgação pública dos utilizadores do Twitter sobre os seus consumos de álcool ou de drogas, por exemplo.
Apesar de os utilizadores do Twitter fornecerem dados refinados e ubíquos, eles não servem como uma "amostra representativa da população geral", porque normalmente esta rede social não é muito usada por jovens ou por algumas minorias, salienta o estudo. No entanto, até estes desvios analíticos - que sucedem em qualquer análise estatística - podem ser comparados (e corrigidos), tendo em consideração a recolha de dados muito mais exigentes, como os censos, em que a margem de erro é semelhante, afirmam.
Em paralelo, este tipo de estudo pode ser replicado para outras redes sociais, como o Facebook, dado que a metodologia em pouco difere, desde que se obtenha acesso aos dados dos utilizadores, eles sejam agregados e daí extraídos potenciais resultados. Foi o que sucedeu na China.
A Google da China consegue prever empregos e consumo
A agregação de uma enorme quantidade de dados em "contextos virtuais sociais" ou pela geolocalização permite análises não apenas do que aconteceu, mas também do que pode vir a acontecer. O maior motor de busca chinês usou-os de forma inovadora para prever as actividades de consumo e de empregos - exemplificando o que outras empresas como o Facebook, a Google ou operadoras telefónicas podem fazer com os dados móveis dos utilizadores.
A Baidu, também conhecida como o Google da China, registou diferentes locais em todo o país, de escritórios a centros comerciais, usando a sua aplicação Baidu Maps, para depois usar a geolocalização fornecida pelos registos dos seus milhões de clientes. Conseguiu assim verificar onde estavam os utilizadores, quantos e em que momento, desde o final de 2014 até este ano.
Os dados recolhidos representam uma fotografia da sociedade chinesa e uma excelente notícia para os investigadores da área de análise de grandes dados (Big Data), sintetizava a revista New Scientist. Para Yves-Alexandre de Montjoye, do Data Science Institute no Imperial College de Londres, trata-se de uma "tendência encorajadora ver que [os investigadores chineses] estão a ser abertos sobre a investigação que realizam", mas questiona o "poder" das grandes (e em reduzido número) empresas com acesso a este tipo de dados.
Os investigadores chineses introduzem no estudo "Measuring Economic Activities of China with Mobile Big Data" o novo conceito de "mobimétrica" ("mobimetrics", contração de "mobile" e de "metrics"), que visa "quantificar as dinâmicas de um sistema social ao analisar enormes dados individuais de mobilidade gerados pelos smartphones" ou outros dispositivos móveis, incluindo carros autónomos, com aproximações de "machine learning", o que pode "mudar a paisagem" da economia e das ciências sociais.
A questão não é se certo tipo de métricas seriam ou não obtidas, mas a rapidez com que são conseguidas através da movimentação dos utilizadores dos smartphones. Por exemplo, os investigadores puderam registar o encerramento de uma grande fábrica de calçado em Dongguan, no sudeste da China, no primeiro trimestre deste ano, após verificarem uma "queda abrupta no número de funcionários". O mesmo sucedeu noutro exemplo com uma fábrica de telemóveis na província de Jiangsu, encerrada no final de 2015.
No entanto, os dados também mostram crescimento de empregos num parque de software em Pequim, com "muitas empresas de software", que quase duplicou desde 2014. Também na capital chinesa, analisa-se o "rápido crescimento" de funcionários numa "start-up", que disparou após ter recebido um elevado investimento no segundo trimestre de 2015.
Os registos de "milhares de milhão de dados de geoposicionamento" possibilitaram ainda à Baidu a criação de três índices - de emprego, de consumo e de tendências de consumo. No primeiro caso, conseguiram detectar como as posições em fábricas tradicionais diminuíram, ao contrário do que sucedeu nos empregos tecnológicos.
No consumo, anteciparam "volumes de tráfego" de consumidores para as lojas da Apple ou de fraude e receitas nos cinemas, com "resultados satisfatórios", o que facilitou a criação do último índice para as tendências de consumo. Este antecipa despesas em várias indústrias, como vendas de carros, restaurantes, investimentos financeiros ou no turismo, dizem os investigadores.
Ao serem "os primeiros a medir a segunda maior economia [do mundo] pela mineração de dados numa escala sem precedentes", salientam que - apesar de não existirem "estatísticas paralelas nos relatórios governamentais" - não querem "substituir as estatísticas tradicionais baseadas em inquéritos, mas complementar esses indicadores". Até porque, salientam, os dados móveis são menos usados por crianças ou idosos, desvirtuando a fiabilidade da análise estatística.
O que deixam a perceber é que "a Internet móvel, especialmente os serviços de localização, são ubíquos nos nossos dias: de cada vez que abrimos uma aplicação, procuramos um restaurante, verificamos a estrada e o tráfego, alugamos um carro usando uma aplicação, usamos o mapa de navegação móvel, a localização do utilizador é registada através de várias tecnologias de posicionamento, gerando maciços dados de rastreamento" derivados dessa mobilidade.
É este uso da "mobimétrica", das técnicas de analítica para Big Data e da "machine learning" que agilizam a correlação entre o consumo de álcool e o envio de tuítes, por exemplo. Os "dados móveis têm uma maior cobertura, mais estruturada e robusta", o que permite "medir os comportamentos ao nível individual numa forma mais directa". Ou seja, o futuro interligado dessas tecnologias ainda agora começou.
Comentários