Aqui está a pasta do Dropbox com o projeto no Rstudio que criei para o modelo. Para quem quiser tentar repetir em casa o que fiz, não é necessário nada além do que está na pasta.
Agora vou explicar como usar o que está nela, presumindo que quem está lendo esse texto sabe muito pouco sobre Ciência de Dados. Vamos aos poucos:
O que eu fiz? Um modelo matemático para prever resultados de partidos da Copa do Mundo. O que isso significa:
Que eu consigo calcular a probabilidade do time 1 vencer o time 2, e consigo até tentar prever quantos gols cada time vai fazer;
Que eu preciso de muitos dados para fazer minhas previsões. Para isso, usei dados das ligas nacionais de TODOS os times que jogaram na Copa do Mundo de Clubes, para poder estimar a força de seus ataques e suas defesas. Além disso, peguei os resultados do modelo da Opta para força de ligas nacionais e usei isso como mais uma variável.
Como fiz esse modelo? Essa resposta pode ser dividida em 2 partes:
Usei um modelo de regressão Poisson para estimar as forças de ataque e defesa de cada time dentro de suas ligas e depois usei esse modelo com os dados da fase de grupos da Copa do Mundo. Se você quiser saber mais sobre o modelo, clique aqui;
Usei o R para treinar esse modelo. E por que o R? Porque fui treinado a usar R na minha faculdade de Estatística, e porque acho que o R é muito mais útil que o Python, para esse tipo de modelo. Se você quiser usar Python, os scripts são bem fáceis de traduzir para Python. O próprio ChatGPT deve lhe ajudar a traduzi-los bem rapidamente.
Como usei esse modelo para prever resultados? Peguei todos os parâmetros do meu (as forças de ataque e defesa de cada time) e gerei previsões de quantos gols cada time ia fazer em cada confronto do mata-mata. Em outras palavras, gerei várias partidas "falsas" e contei quantas vezes cada time vencia, empatava ou perdia. Em seguida, consolidei tudo isso em números fáceis de entender: probabilidades de vitória para cada time. Ah, mas e se os times empatarem? Eu presumi que caso o jogo fosse para pênaltis, que a chance de vitória era 50% para cada lado.
Como alguém pode usar essa pasta para fazer seus próprios modelos? Instalando o R e o Rstudio, e depois abrindo o arquivo chamado "Modelo de Poisson para prever resultados de futebol.Rproj" e rodando os arquivos que têm "Script" no nome. Com isso, os arquivos CSV vão ser atualizados com a nova versão.