• Estat Júnior

Estatística x Aprendizado de máquina

A análise de dados é uma atividade extremamente importante para compreendermos o funcionamento de quase todos os grandes problemas práticos. Um economista que queira estimar o valor do dólar no mês que vem ou um centro médico que precise se preparar para atender uma determinada quantidade de pacientes com gripe durante o inverno precisam entender quais são as características do cenário atual e como a combinação delas influenciam no valor das respostas que procuram.


As soluções para diversos problemas como esses partem de uma mesma ideia: buscar cenários anteriores similares ao atual e estudar qual foram suas respostas. Espera-se, com isso, que cenários similares deem origem a respostas similares.


Essa solução intuitiva, no entanto, nem sempre é fácil de se obter. Muitas vezes, por exemplo, não existe nenhum cenário idêntico ao atual em todas as características relevantes. Por outras, existem muitas ocasiões em que as variáveis eram similares às que observamos hoje, mas quando olhamos para o resultado dessas combinações, as respostas observadas não caminham na mesma direção. Frente a situações como essas, perguntas como “até que ponto posso considerar que duas situações são parecidas?” ou “quais são as variáveis mais importantes para se identificar esta situação?” tomam grande importância, e delas surgem diversas soluções e meios de se buscar respostas mais precisas.


Para solucionar perguntas como essas, foi desenvolvida a estatística como conhecemos hoje. A ideia central por trás de todo modelo estatístico que abre espaço para a previsão de respostas é unir um certo conhecimento prévio, contido em um banco de dados, com as ideias de variação e desvios aleatórios. Assim, a variação constitui o cerne de todo o pensamento estatístico.


Essa forma de análise mostrou-se muito poderosa e eficiente no século XX. Aliada ao desenvolvimento da capacidade computacional, a estatística se mostrou muito atraente pela sua versatilidade, ao tratar da mesma forma problemas muito diferentes, e pela sua capacidade incrível de compressão, transformando a informação presente em bancos de dados relativamente grandes (por vezes da ordem de centenas de milhares de observações), em funções e intervalos simples com margem à interpretação.


Ao longo dos últimos anos, o espaço aberto pela estatística deu origem a novos questionamentos. Com a evolução da internet e dos meios de comunicação, foi desenvolvida uma incrível capacidade de gerar dados com todo tipo de informação que se possa imaginar. Segundo a Google, atualmente, a cada minuto, 300 horas de vídeo são postadas no YouTube. Como fazer com que toda essa informação se transforme em algo utilizável?

Nesse momento, a modelagem tradicional enfrenta um grave problema. Uma vez que, sob o ponto de vista estatístico, não há grandes diferenças entre questões sobre temas completamente diferentes, a modelagem estatística é muito afetada pelo volume de dados que compreende. Muitas vezes, as técnicas que usamos para tratar algumas milhares de observações não se mostra prática para tratar de bilhões de dados. Seja por falta de precisão, por adotarem determinadas regras que se tornam muito restritivas, ou por simplesmente levarem muito tempo para serem processados, muitos modelos estatísticos acabam por não “performar” bem em grandes bases de dados.


Nessas situações, novas estratégias são empregadas. Com o avanço da programação, programadores desenvolveram algumas técnicas para processar grandes volumes de dados, cuja ideia central parte de fazer com que o computador “aprenda” por si só, compreendendo, à sua maneira, como se comportam os dados e como se comportariam se encontrassem determinadas situações. Estes são os chamados algoritmos de aprendizado de máquina.


Sem entrar muito nos detalhes técnicos destas soluções, é importante notar que, para conseguir fazer esse tipo de solução robusta, esses algoritmos abrem mão de certas propriedades muito relevantes. Um bom estatístico sempre busca interpretações para cada detalhe dos modelos que desenvolve. Na ciência, por exemplo, muitas vezes a resposta que se busca não está em prever qual será o próximo resultado de determinado fenômeno, mas sim, como este se comporta em geral. Para um biólogo que estuda a influência de um certo hormônio no crescimento de plantas, talvez o mais relevante não seja prever qual será a altura da árvore após a aplicação de uma determinada dosagem do hormônio, mas sim, quanto a árvore crescerá para cada ml acrescentado do hormônio.


Enquanto as soluções da estatística se mostram muito eficientes na resolução de questões como essa, os algoritmos de aprendizado de máquina podem só fornecer previsões das respostas esperadas, sem dar margem a maiores interpretações.


Assim, para cada problema abordado cabe uma reflexão sobre qual dessas duas estratégias utilizar: se é mais relevante processar grandes volumes de dados ou se interpretar como o problema se comporta traz mais informações. Por isso, a escolha da melhor técnica a ser utilizada é muito importante e deve ser feita com muito critério para evitar eventuais perdas de informações ou conclusões que não respondam às perguntas mais importantes das questões estudadas.

Nosso autor:

Rafael Branco, 22 anos, é aluno do quarto ano de estatística na UNICAMP. Interessado em programação, matemática e pintura, concluiu em 2017 uma iniciação científica chamada “Visitando os Primos” que tem como tema a fatoração de inteiros em números primos. Atualemte é presidente do conselho e gerente de projetos da Estat Júnior.

127 visualizações
  • Facebook ícone social
  • LinkedIn ícone social

© 2020 Estat Júnior - Análises Estatísticas