Revisão de Probabilidade: fundamentos para o aprendizado de máquina

Se você já se perguntou por que falamos tanto em “probabilidade” quando o assunto é inteligência artificial, este artigo é o ponto de partida.

Antes de mergulhar nos modelos e algoritmos, precisamos entender como o mundo incerto é representado matematicamente — e é exatamente isso que a probabilidade faz. Ela é a linguagem que usamos para raciocinar sobre o desconhecido (Ross, 2014).

Neste artigo, faremos uma revisão de probabilidade de forma intuitiva e acessível nos conceitos essenciais: probabilidade, eventos, variáveis aleatórias, esperança, variância e distribuições. O objetivo é que você entenda não só como calcular, mas por que esses conceitos formam o alicerce do raciocínio probabilístico em aprendizado de máquina.

O que é probabilidade — e por que ela importa tanto?

Probabilidade é a linguagem da incerteza. Ela nos permite quantificar o quão provável é que algo aconteça — por exemplo, “a chance de chover amanhã”, “a probabilidade de um e-mail ser spam”, ou “a confiança de um modelo em sua própria previsão”.

Em termos simples, uma probabilidade é um número entre 0 e 1 que indica nossa confiança em um evento.

  • 0 significa “impossível”.
  • 1 significa “certo”.

Tudo entre esses extremos é o reino da incerteza — o campo em que o aprendizado de máquina vive.

Essa ideia de “grau de crença” é fundamental no paradigma Bayesiano, em que a probabilidade representa nosso estado de conhecimento sobre o mundo (Jaynes, 2003).

Em Machine Learning, praticamente toda decisão tem uma incerteza associada: dados são ruidosos, medições são imperfeitas e previsões nunca são 100% certas.

Modelos probabilísticos não apenas fazem previsões, mas também medem a confiança nelas — quantificando a confiança nas suas próprias previsões (Murphy, 2012). Essa é uma diferença crucial entre predição determinística e predição probabilística.

Experimentos e eventos: o vocabulário da incerteza

Toda análise probabilística começa com um experimento — uma ação cujo resultado é incerto. Por exemplo: lançar uma moeda ou medir a altura de uma pessoa escolhida ao acaso.

  • Espaço amostral (Ω): o conjunto de todos os resultados possíveis (cara, coroa).
  • Evento: um subconjunto de Ω (por exemplo, “sair cara”).
  • Probabilidade de um evento: a chance de ele acontecer.
  • Resultado (ou evento simples): por exemplo, “cara”.

Se a moeda for justa, então:

$P (cara)=0.5, P(coroa)=0.5$

Probabilidade de um evento

Uma função P que associa a cada evento A um número \(P(A) ∈ [0,1]\) que satisfaz axiomas:

  1. \(P(A) ≥ 0\) para todo A
  2. \(P(Ω) = 1\)
  3. Se A e B são disjuntos (não podem ocorrer juntos), então \(P(A∪B)=P(A)+P(B)\).

Esses valores representam nosso grau de crença sobre os resultados, e não apenas uma frequência observada — essa é a essência da interpretação Bayesiana da probabilidade (Jaynes, 2003).

Probabilidade condicional: quando um evento depende de outro

Nem sempre os eventos são independentes. Às vezes, saber que algo aconteceu muda nossa percepção sobre outro evento. É aí que entra a probabilidade condicional. Ela é definida como:

$$P(A \mid B) = \frac{P(A \cap B)}{P(B)}$$

Lê-se: “a probabilidade de A dado que B aconteceu”.

Exemplo intuitivo: Suponha que 10% da população tenha uma certa doença (evento D), e que um teste seja positivo (evento T) em 90% dos doentes. Saber que o teste deu positivo muda nossa crença sobre a probabilidade de estar doente.

Esse conceito é a base do Teorema de Bayes, um dos pilares do aprendizado probabilístico — e o coração do próximo artigo.

Independência: quando uma coisa não afeta a outra

Dois eventos A e B são independentes se:

$$P(A \cap B) = P(A) * P(B)$$

Isso significa que saber o resultado de B não muda nossa crença sobre A.

Por exemplo, dois lançamentos de uma moeda justa são independentes — o primeiro não influencia o segundo.

Em termos práticos, muitos modelos de machine learning (como o Naive Bayes) assumem independência entre variáveis para simplificar cálculos — mesmo que, na realidade, essa independência não seja perfeita (Bishop, 2006).

Variáveis aleatórias: quando números entram em cena

Até agora, falamos de eventos qualitativos (“sair cara ou coroa”). Mas, para trabalhar matematicamente, precisamos de variáveis aleatórias — funções que associam um número a cada resultado possível em valores numéricos que podemos manipular matematicamente (Ross, 2014).

Discretas: assumem valores contáveis (como o número de caras em 10 lançamentos de moeda). Representada por PMF (probability mass function):

$$p_X(k) = P(X = k)$$

Contínuas: assumem valores em um intervalo (como a altura de uma pessoa). Representada por PDF (probability density function):

$$\int_{a}^{b} f_X(x) \, dx = P(a \leq X \leq b)$$

Essas variáveis são descritas por funções que dizem quão provável é cada valor:

  • Discreta: Função de massa de probabilidade, \(p_X(k)\), Interpretação: Probabilidade de X= k
  • Contínua: Função densidade de probabilidade, \(f_X(x)\), Interpretação: Densidade em torno de x
  • Ambas: Função de distribuição acumulada, \(F_X(x) = P(X \le x)\), Interpretação: Probabilidade acumulada até x. (válida para ambos).

Esperança e variância: o centro e a dispersão

Para entender uma variável aleatória, precisamos resumir seu comportamento. Esses dois conceitos descrevem o comportamento médio e a variabilidade de uma variável aleatória.

Esperança (ou valor esperado)

É a média ponderada dos valores possíveis de X, levando em conta suas probabilidades:

\[
E[X] =
\begin{cases}
\sum_k k \cdot P(X=k), & \text{(discreta)} \\
\int_{-\infty}^{\infty} x f_X(x) \,dx, & \text{(contínua)}
\end{cases}
\]

A esperança representa o valor médio esperado em um grande número de repetições.

Interpretação: média ponderada dos valores que pode assumir (média “teórica”).

Discreta:

\[
E[X] = \sum_i x_i P(X=x_i)
\]

Contínua:

$$E[X] = \int_{-\infty}^{\infty} x \, f_X(x) \, dx$$

Propriedade importante (linearidade):

$$E[aX + bY] = aE[X] + bE[Y]$$

Variância (medida de dispersão)

Mede o quão distante os valores tendem a ficar da média:

$$\mathrm{Var}(X) = E\!\left[(X – E[X])^2\right]$$

$$\mathrm{Var}(X) = E[X^2] – (E[X])^2$$

$$\sigma_X = \sqrt{\mathrm{Var}(X)}$$

Ela quantifica a dispersão. Valores muito distantes da média aumentam a variância; valores próximos reduzem.

Intuição: a esperança diz onde está o centro; a variância diz quanto ele oscila.

Quanto maior a variância, mais os valores flutuam. O desvio padrão é apenas a raiz quadrada da variância.

Exemplo: Se jogarmos uma moeda 100 vezes, o número de caras pode variar, mas sempre em torno da média (esperança). A variância mede o quanto essa contagem costuma se desviar dessa média.

Distribuições de probabilidade: padrões da incerteza

As distribuições descrevem como a probabilidade se espalha entre os possíveis valores de uma variável. Cada tipo de distribuição modela um comportamento típico do mundo real (Murphy, 2012; Bishop, 2006).

A seguir, as mais importantes para quem estuda aprendizado de máquina:

Bernoulli: o acaso binário

Modela um evento com dois resultados possíveis (0 e 1).

$$P(X=1)=p, P(X=0)=1-p$$

É a base da regressão logística e de redes neurais binárias.

Exemplo: sucesso ou falha, clique ou não clique, positivo ou negativo.

Binomial: várias tentativas independentes

É a soma de n experimentos de Bernoulli.

\[
P(X=k) = {n \choose k} p^k (1-p)^{n-k}
\]

Modela o número de sucessos em n testes — muito útil para contagens.

Exemplo: quantas vezes um e-mail é aberto em 10 envios.

Normal (ou Gaussiana): o sino da natureza

Distribuição contínua que aparece em inúmeros fenômenos naturais.

Notação de distribuição:

\[
X \sim \mathcal{N}(\mu, \sigma^2)
\]

Esta é uma notação resumida para descrever que uma variável aleatória \(X\) segue uma distribuição Normal.

Função densidade de probabilidade (FDP):

\[
f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
\]

Esta é a fórmula matemática que descreve a curva em forma de sino da distribuição Normal.

A média μ define o centro e σ controla a largura do sino.

  • μ: média
  • σ2: variância

Exemplo: altura humana, erro de medição, ruído em sensores.

A FDP não retorna uma probabilidade diretamente, mas a densidade de probabilidade para um valor específico \(x\). Para encontrar a probabilidade de a variável aleatória cair em um determinado intervalo, é necessário calcular a área sob a curva da FDP nesse intervalo usando uma integral.

Em resumo, a notação \(X\sim \mathcal{N}(\mu ,\sigma ^{2})\) é uma maneira de dizer que a variável \(X\) tem uma distribuição normal, enquanto a fórmula \(f(x)\) é a definição matemática dessa distribuição, usada para calcular a densidade de probabilidade em qualquer ponto.

A Normal é tão comum que, segundo o Teorema Central do Limite, a soma de muitas pequenas variáveis aleatórias tende a ser normalmente distribuída (Ross, 2014).

Conclusão

A probabilidade é a gramática da incerteza — e o aprendizado de máquina fala essa língua fluentemente. Antes de treinar qualquer modelo, é fundamental compreender o que significam eventos, variáveis e distribuições. Esses conceitos formam o alicerce de tudo que virá a seguir — do Teorema de Bayes à regressão probabilística e aos modelos generativos modernos.

Em resumo: quem entende probabilidade não apenas ajusta modelos — interpreta o mundo com clareza matemática.

Para ver como esses conceitos se aplicam em modelos reais, leia meu artigo sobre Aprendizado de Máquina Probabilístico.

Referências

  • Ross, S. (2014). Introduction to Probability Models. Academic Press.
  • Murphy, K. P. (2012). Machine Learning: A Probabilistic Perspective. MIT Press.
  • Jaynes, E. T. (2003). Probability Theory: The Logic of Science. Cambridge University Press.
  • Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
Compartilhe:

Já parou pra pensar que toda decisão é, no fundo, um jogo de probabilidade? Me conta — como você lida com a incerteza nos seus projetos?

Davi Teixeira

Mestrando, Analista de Testes/QA e Desenvolvedor Web.

Todos os Posts

Davi Teixeira

Mestrando, Analista de Testes/QA e Desenvolvedor Web.

Todos os Posts

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts Relacionados

Desenvolvedor de Software especializado em Desenvolvimento Front-end e Qualidade de Software.

Contato

Categorias

Copyright © 2025 - daviteixeiradev - Todos os direitos reservados.