Modelos de Scoring de Crédito com IA: O Que Funciona, O Que é Hype e O Que o Regulador Espera

Poucos temas no mercado financeiro brasileiro geram tanto entusiasmo — e tanta confusão — quanto o uso de inteligência artificial em modelos de crédito. De um lado, casos reais de fintechs que usaram machine learning para expandir acesso ao crédito sem deteriorar a inadimplência. Do outro, promessas de vendedores de software que tratam um XGBoost treinado num dataset genérico como solução mágica para qualquer problema de risco.

A realidade, como costuma acontecer, é mais nuançada. IA pode transformar operações de crédito — mas a maioria das instituições financeiras brasileiras ainda opera com scorecards estatísticos simples, e isso não é necessariamente um problema. O que importa é entender em qual estágio sua operação se encontra, o que faz sentido para o seu contexto, e quais são as implicações regulatórias de cada escolha.

Este artigo é para quem quer entender de verdade o que funciona, sem o glossário de vendas.

A Promessa e a Realidade da IA em Crédito

O discurso de mercado sobre IA em crédito costuma soar assim: "nosso modelo processa milhares de variáveis em milissegundos, aprende continuamente com os dados e supera qualquer scorecard tradicional em discriminação de risco." Há verdade nesse discurso, mas há também omissões importantes.

A primeira omissão é sobre o que a maioria das operações realmente usa. Pesquisas com gestores de risco de crédito no Brasil mostram consistentemente que scorecards logísticos tradicionais — regressões lineares com variáveis selecionadas manualmente — ainda dominam a tomada de decisão na maioria das carteiras, inclusive em grandes bancos. Não por falta de conhecimento técnico, mas porque modelos simples têm vantagens reais: são explicáveis para o regulador, são estáveis ao longo do tempo, e suas falhas são compreensíveis e corrigíveis.

A segunda omissão é sobre dados. Modelos de machine learning precisam de grandes volumes de dados históricos rotulados — propostas com desfecho conhecido de inadimplência ou pagamento. Instituições com carteiras jovens ou operações novas simplesmente não têm esse histórico. Aplicar um modelo complexo em dados insuficientes produz resultados que parecem bons no backtest e decepcionam na prática.

A terceira omissão é sobre o custo de manter modelos complexos. Um modelo de deep learning que processa extratos bancários com NLP exige monitoramento constante, retreinamento periódico, infraestrutura de dados robusta e profissionais especializados. Para uma carteira de R$ 50 milhões, esse custo raramente se justifica.

Isso não significa que IA não tem lugar em crédito. Significa que a adoção precisa ser calibrada para o contexto, não para o hype.

Os Três Níveis de Maturidade em Modelos de Crédito

Uma forma prática de pensar sobre o tema é por níveis de maturidade. Cada nível tem suas características, seus requisitos e seus trade-offs.

Nível 1: Scorecard Logístico (Explicável e Auditável)

O scorecard tradicional é construído sobre regressão logística — uma técnica estatística que estima a probabilidade de inadimplência com base em variáveis selecionadas e ponderadas. Cada variável tem um peso, e a soma dos pesos produz uma pontuação que mapeia para uma probabilidade de default.

As vantagens são claras: total explicabilidade. É possível dizer exatamente por que uma proposta recebeu determinado score. "O score foi 520 porque o CPF tem restrição ativa (-80 pontos), a renda declarada está acima de R$ 5 mil (+40 pontos) e o tempo de relacionamento com a instituição é inferior a 6 meses (-30 pontos)." Essa transparência é essencial para atender exigências regulatórias, treinar analistas e identificar problemas no modelo.

A limitação é performance em situações não-lineares. Variáveis que interagem de formas complexas — onde a relação entre risco e renda, por exemplo, muda dependendo do segmento profissional — são difíceis de capturar num scorecard linear.

Para a maioria das operações que estão começando a estruturar modelos de crédito, o Nível 1 é o lugar certo para estar.

Nível 2: Machine Learning Supervisionado (Melhor Performance)

No segundo nível estão algoritmos como XGBoost, LightGBM e Random Forest — modelos de gradient boosting e ensemble que capturam relações não-lineares e interações entre variáveis de forma automática.

Em termos de performance discriminatória (capacidade de separar bons e maus pagadores), esses modelos consistentemente superam scorecards logísticos quando treinados com dados suficientes. A diferença em métricas como Gini e KS pode ser significativa, especialmente em segmentos com comportamento complexo.

O trade-off é explicabilidade. Um modelo XGBoost com centenas de árvores de decisão não tem interpretação intuitiva como um scorecard. Para contornar isso, técnicas como SHAP (SHapley Additive exPlanations) permitem calcular a contribuição de cada variável para cada decisão individual — o que atende parcialmente as exigências de transparência, mas com mais complexidade operacional.

Instituições com carteiras maduras, dados históricos robustos e equipe técnica adequada podem se beneficiar do Nível 2. O pré-requisito crítico é ter monitoramento de modelo implementado — sem acompanhar PSI (Population Stability Index), KS e Gini ao longo do tempo, não há como saber quando o modelo está desviando.

Nível 3: Deep Learning e NLP (Alta Complexidade, Alta Exigência)

O terceiro nível envolve redes neurais profundas, modelos de linguagem natural e arquiteturas que processam dados não estruturados — como textos de extratos bancários, notas fiscais, ou metadados de transações.

Um caso concreto: modelos que leem extratos bancários como texto, identificam padrões de comportamento (pagamentos recorrentes, concentração de receita, sazonalidade de fluxo de caixa) e traduzem isso em features para análise de crédito. Para populações sem histórico de crédito formal, essa abordagem pode ser poderosa.

Mas os requisitos são correspondentemente altos: volumes de dados massivos, infraestrutura de MLOps madura, profissionais de ciência de dados especializados e processos de validação sofisticados. Pouquíssimas instituições no Brasil têm condições de operar nesse nível de forma responsável.

A escolha do nível certo depende de três fatores: volume e qualidade dos dados disponíveis, capacidade técnica do time, e complexidade do segmento de crédito. Não existe nível "melhor" em abstrato — existe o nível adequado para o contexto.

O Que Realmente Melhora a Performance do Modelo

Uma das descobertas mais contraintuitivas de quem trabalha com modelos de crédito é que trocar o algoritmo raramente é o que mais move a agulha. O que muda de verdade:

Qualidade e diversidade dos dados. Um scorecard logístico treinado com dados ricos (Open Finance, comportamento transacional, dados alternativos) costuma superar um XGBoost treinado com as mesmas variáveis de bureau que todos os concorrentes usam. A vantagem competitiva em dados é muito mais duradoura do que a vantagem em algoritmo.

Acesso a Open Finance. Com o consentimento do cliente, é possível acessar extratos de outras instituições e reconstruir o perfil financeiro real da pessoa — renda verificada, compromisso de renda com dívidas existentes, padrão de saldo, regularidade de entrada de recursos. Esse nível de informação transforma a qualidade da análise, especialmente para autônomos, informais e microempreendedores.

Feature engineering cuidadoso. A transformação dos dados brutos em variáveis que o modelo consegue usar de forma eficiente — razão dívida/renda, volatilidade do saldo, sazonalidade de receita, tempo desde o último evento de inadimplência — é onde boa parte do trabalho real acontece. Bons data scientists gastam mais tempo aqui do que escolhendo algoritmo.

Controle de viés de seleção. Modelos treinados apenas com propostas aprovadas no passado têm um problema estrutural: não sabemos como teriam se comportado as propostas recusadas. Técnicas de correção de viés de seleção — como reject inference — são essenciais para que o modelo generalize corretamente para a população de solicitantes, não apenas para os que já aprovamos.

O Que o Regulador Espera

O ambiente regulatório brasileiro para modelos de crédito com IA está evoluindo rapidamente, e ignorar essa dimensão é um risco concreto.

Resolução BCB 4.557 estabelece exigências de gestão de riscos para instituições financeiras que incluem, explicitamente, riscos de modelos. O banco central espera que as instituições documentem seus modelos, realizem validação independente, monitorem performance ao longo do tempo e tenham planos de contingência para quando os modelos falham.

LGPD, Art. 20 assegura ao titular dos dados o direito de solicitar revisão humana de decisões tomadas exclusivamente por meios automatizados que afetem seus interesses — o que inclui, diretamente, decisões de crédito. Isso não significa que automação é proibida; significa que a instituição precisa ter um processo claro de revisão quando o cliente solicita, e que esse processo precisa ser genuíno, não pro forma.

Viés algorítmico é uma preocupação crescente. Modelos treinados com dados históricos tendem a reproduzir padrões históricos de exclusão — se certos grupos demográficos foram sistematicamente recusados no passado, o modelo aprende a recusar esses grupos, não porque eles sejam piores pagadores, mas porque os dados refletem discriminação anterior. O regulador e o mercado esperam que as instituições monitorem ativamente disparidades de aprovação e inadimplência por segmentos demográficos.

Explicabilidade é outra exigência crescente. Técnicas como SHAP e LIME permitem explicar decisões de modelos caixa-preta de forma compreensível para analistas e auditores. Implementar essas técnicas não é apenas boa prática — é o que um regulador vai pedir quando questionar como seu modelo funciona. Para Nível 2 e 3, ter uma estratégia de explicabilidade desde o design do modelo não é opcional.

Como Começar Sem um Time Gigante

A boa notícia é que é possível evoluir os modelos de crédito de forma incremental, sem precisar contratar uma equipe de 10 data scientists antes de gerar valor.

Comece no Nível 1. Se você ainda não tem um scorecard interno, ou está usando apenas o score do bureau sem nenhum modelo próprio, comece por aí. Um scorecard logístico bem construído com variáveis relevantes para o seu segmento já é uma vantagem competitiva real. O bureau é um ponto de partida, não um destino.

Use o bureau como baseline, não como teto. O score de crédito do Serasa ou SPC é uma variável poderosa, mas é a mesma que todos os seus concorrentes usam. A diferenciação vem de combinar o bureau com dados próprios — histórico de relacionamento, comportamento na plataforma, dados de Open Finance.

Implemente shadow mode antes de usar em produção. Antes de usar um novo modelo para decisões reais, rode-o em paralelo com o processo atual por um período. Compare as decisões, identifique divergências e entenda o comportamento do modelo em casos extremos. Só depois de validado em shadow mode é que um modelo deve influenciar decisões reais.

Monitore KS, Gini e PSI de forma contínua. Modelos degradam ao longo do tempo — o perfil da população de solicitantes muda, o ambiente econômico muda, os padrões de comportamento mudam. KS e Gini medem a capacidade discriminatória do modelo. PSI mede se a distribuição do score está estável ou derivando. Sem monitoramento sistemático, um modelo que funcionava bem no lançamento pode estar produzindo decisões ruins meses depois sem que ninguém perceba.

Documente tudo desde o início. Quais dados foram usados no treinamento? Qual era o período de safra? Quais variáveis foram consideradas e por quê algumas foram excluídas? Qual a performance no backtest e na validação out-of-time? Essa documentação é o que permite auditar, melhorar e defender o modelo quando necessário.

IA é Ferramenta, Não Estratégia

No final das contas, o que determina quem vence no mercado de crédito não é ter o algoritmo mais sofisticado. É ter o ciclo de aprendizado mais rápido.

Instituições que coletam dados de qualidade, monitoram continuamente a performance dos seus modelos, identificam rapidamente o que não está funcionando e fazem ajustes com base em evidências — essas são as que constroem vantagem competitiva duradoura. O modelo de IA é um componente desse ciclo, não o ciclo em si.

Uma fintech com scorecard logístico bem calibrado, dados de Open Finance e processo rigoroso de monitoramento vai superar uma instituição com XGBoost de última geração mas sem cultura de dados e sem processo de melhoria contínua. A tecnologia amplifica capacidades existentes — não as substitui.

O melhor momento para começar a estruturar modelos de crédito mais sofisticados foi há dois anos. O segundo melhor momento é agora — com clareza sobre o que funciona, o que é hype e o que o regulador espera.