Tecnologia

March Madness, revisitado: o modelo de IA funcionou bem. Mas coisas malucas ainda acontecem


(OBSERVAÇÃO: Este artigo faz parte de uma série contínua documentando um experimento com usando IA para preencher os colchetes da NCAA e veja como isso se compara a anos de experiência humana. O artigo original é o seguinte.)

Há uma semana, escrevi sobre entrar em um torneio da NCAA com um processo mais disciplinado do que normalmente uso.

Em vez de confiar em mascotes, vibrações ou qualquer equipe que parecesse ótima na tarde de sábado, tentei pensar na chave da mesma forma que um investidor ou analista faria: separar a previsão bruta do valor esperado, construir uma chave em torno da maior probabilidade de sucesso, construir outra em torno da dinâmica do pool e tomar decisões com pelo menos alguma consciência da incerteza.

Esse processo produziu dois colchetes. Uma delas era a chave “mais provável”, projetada para maximizar as chances de um placar forte se o torneio seguisse um caminho mais racional. O outro era uma chave EV para um conjunto de cerca de 70 inscrições – não um tiro lunar selvagem e contrário, mas algo projetado para vencer uma competição real, em vez de apenas parecer sensato.

Então, como isso funcionou?

Muito bem, na verdade. Só que não perfeitamente.

O modelo acertou 13 das equipes Sweet 16, o que é objetivamente forte em um torneio projetado para punir a confiança e recompensar o caos. A arquitetura geral da previsão manteve-se. Identificou a maioria dos verdadeiros pesos pesados. Estava direcionalmente correto sobre as equipes com maior probabilidade de sobreviver ao primeiro fim de semana. É geralmente entendido que a forma do campo.

Mas, como costuma acontecer em Março, também encontrou os pontos fracos.

As falhas mais óbvias foram no estado de Ohio, Wisconsin e Flórida. Ohio State perdeu um jogo por 66-64 para o TCU em uma bandeja tardia. Wisconsin caiu 83-82 para o 12º ponto alto. A Flórida, atual campeã nacional e cabeça-de-chave número 1, perdeu por 73-72 para Iowa em uma cesta de três pontos nos segundos finais. Não foram colapsos lentos e óbvios. Foram derrotas com apenas uma posse de bola, decididas nos momentos finais, exatamente o tipo de resultado que lembra que nenhum modelo de torneio funciona em laboratório.

Isso deixa duas interpretações possíveis.

Uma é que o modelo estava errado.

A outra é que o modelo estava quase certo, mas o basquete de eliminação única é um ambiente terrível para a certeza.

A resposta, como sempre, é ambas.

A boa notícia é que acertar 13 das 16 equipes do Sweet 16 sugere que a estrutura básica foi útil. Não foi aleatório. Não era decorativo. Não se tratava apenas de usar palavras mais sofisticadas para chegar às mesmas suposições intuitivas que todos os outros fazem. Ao nível da identificação da qualidade, funcionou.

A notícia menos reconfortante é que os erros também foram informativos.

Olhando para trás, o processo ainda se inclinava um pouco demais para “a melhor equipe geralmente avança”. Isso geralmente é verdade ao longo de uma temporada. É menos verdade durante 40 minutos num ginásio neutro, especialmente quando o oprimido pode criar volatilidade. A perda de Wisconsin é o exemplo mais claro. Um modelo de virada mais forte não teria necessariamente escolhido High Point para vencer, mas provavelmente teria tratado Wisconsin como mais frágil do que eu: mais suscetível ao tipo de jogo em que um azarão fica quente em três, amplia o favorito e transforma os últimos dois minutos em um cara ou coroa.

A perda da Flórida diz algo semelhante em um nível mais elevado. Nunca se espera que uma semente número 1 tenha “provabilidade” de perder cedo, mas há uma diferença entre ser forte e ser invulnerável. A modelo estava certa em respeitar a Flórida. Provavelmente foi errado tratar a Flórida como segura.

Essa distinção é importante se você está tentando ganhar um prêmio em vez de apenas defender sua dignidade.

É aqui que o exercício fica interessante. Nos mercados, nos investimentos e nas carteiras de grupos, há uma grande diferença entre estar amplamente correto e estar corretamente posicionado. Uma previsão pode ser inteligente e ainda assim não conseguir captar onde reside a verdadeira fragilidade. O torneio não concede pontos de estilo por ter a melhor estrutura se você ainda subestimar a possibilidade de um azarão ao vivo começar a fazer arremessos.

Então, o que eu mudaria?

Não é a ideia central. Ainda acho que a maneira correta de abordar uma faixa é separar a previsão de maior probabilidade da estratégia de valor esperado. A maioria das pessoas mistura isso sem perceber. Eles escolhem um campeão que acham que pode vencer, mas depois fazem algumas escolhas arbitrárias para “apimentar as coisas”, o que é apenas outra maneira de admitir que não têm um processo coerente.

O que eu melhoraria é a camada de volatilidade.

Uma versão melhor dessa abordagem prestaria mais atenção a quais favoritos são genuinamente robustos e quais apenas parecem fortes em uma planilha. Mediria mais explicitamente a variância de três pontos, o risco de rotatividade, problemas de falta, a dependência de um único marcador e a frequência com que os resultados de uma equipe variam enormemente de jogo para jogo. Ainda respeitaria as sementes principais. Seria apenas mais suspeito da parte deles.

Isso é ainda mais importante agora porque, é claro, os colchetes originais estão bloqueados.

Neste ponto, ninguém pode afirmar que “teria tido Iowa” a menos que realmente tivesse Iowa. Isso faz parte da beleza e da crueldade de todo o empreendimento. Assim que os jogos começam, sua estrutura brilhante se torna um documento histórico.

Mas isso não significa que o processo deixe de ser útil.

Por um lado, pode haver pools de segunda chance. Muitos concursos são reiniciados no Sweet 16 ou no Final Four, o que é realmente um presente para quem gosta de processo. Uma piscina de segunda chance elimina o teatro de fingir que sabemos tudo com antecedência. Agora temos novas informações, um campo menor e uma nova oportunidade de separar as equipes verdadeiramente fortes das que apenas sobrevivem.

Mais importante ainda, o exercício ainda oferece a lição principal que eu esperava explorar nesta série: a previsão disciplinada não significa eliminar a incerteza. Trata-se de tornar a incerteza legível.

O modelo se saiu bem. March ainda tinha outras ideias.

Isso não é um fracasso. Esse é o ponto.

E se houver uma reserva de segunda oportunidade, voltarei a ela – mais velho, mais sábio e um pouco menos disposto a confiar num favorito vulnerável só porque a sua semente diz que eu deveria.


Source link

Artigos Relacionados

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

Botão Voltar ao Topo