Se você já se perguntou por que falamos tanto em “probabilidade” quando o assunto é inteligência artificial, este artigo é o ponto de partida.
Antes de mergulhar nos modelos e algoritmos, precisamos entender como o mundo incerto é representado matematicamente — e é exatamente isso que a probabilidade faz. Ela é a linguagem que usamos para raciocinar sobre o desconhecido (Ross, 2014).
Neste artigo, faremos uma revisão de probabilidade de forma intuitiva e acessível nos conceitos essenciais: probabilidade, eventos, variáveis aleatórias, esperança, variância e distribuições. O objetivo é que você entenda não só como calcular, mas por que esses conceitos formam o alicerce do raciocínio probabilístico em aprendizado de máquina.
O que é probabilidade — e por que ela importa tanto?
Probabilidade é a linguagem da incerteza. Ela nos permite quantificar o quão provável é que algo aconteça — por exemplo, “a chance de chover amanhã”, “a probabilidade de um e-mail ser spam”, ou “a confiança de um modelo em sua própria previsão”.
Em termos simples, uma probabilidade é um número entre 0 e 1 que indica nossa confiança em um evento.
- 0 significa “impossível”.
- 1 significa “certo”.
Tudo entre esses extremos é o reino da incerteza — o campo em que o aprendizado de máquina vive.
Essa ideia de “grau de crença” é fundamental no paradigma Bayesiano, em que a probabilidade representa nosso estado de conhecimento sobre o mundo (Jaynes, 2003).
Em Machine Learning, praticamente toda decisão tem uma incerteza associada: dados são ruidosos, medições são imperfeitas e previsões nunca são 100% certas.
Modelos probabilísticos não apenas fazem previsões, mas também medem a confiança nelas — quantificando a confiança nas suas próprias previsões (Murphy, 2012). Essa é uma diferença crucial entre predição determinística e predição probabilística.
Experimentos e eventos: o vocabulário da incerteza
Toda análise probabilística começa com um experimento — uma ação cujo resultado é incerto. Por exemplo: lançar uma moeda ou medir a altura de uma pessoa escolhida ao acaso.
- Espaço amostral (Ω): o conjunto de todos os resultados possíveis (cara, coroa).
- Evento: um subconjunto de Ω (por exemplo, “sair cara”).
- Probabilidade de um evento: a chance de ele acontecer.
- Resultado (ou evento simples): por exemplo, “cara”.
Se a moeda for justa, então:
$P (cara)=0.5, P(coroa)=0.5$
Probabilidade de um evento
Uma função P que associa a cada evento A um número \(P(A) ∈ [0,1]\) que satisfaz axiomas:
- \(P(A) ≥ 0\) para todo A
- \(P(Ω) = 1\)
- Se A e B são disjuntos (não podem ocorrer juntos), então \(P(A∪B)=P(A)+P(B)\).
Esses valores representam nosso grau de crença sobre os resultados, e não apenas uma frequência observada — essa é a essência da interpretação Bayesiana da probabilidade (Jaynes, 2003).
Probabilidade condicional: quando um evento depende de outro
Nem sempre os eventos são independentes. Às vezes, saber que algo aconteceu muda nossa percepção sobre outro evento. É aí que entra a probabilidade condicional. Ela é definida como:
$$P(A \mid B) = \frac{P(A \cap B)}{P(B)}$$
Lê-se: “a probabilidade de A dado que B aconteceu”.
Exemplo intuitivo: Suponha que 10% da população tenha uma certa doença (evento D), e que um teste seja positivo (evento T) em 90% dos doentes. Saber que o teste deu positivo muda nossa crença sobre a probabilidade de estar doente.
Esse conceito é a base do Teorema de Bayes, um dos pilares do aprendizado probabilístico — e o coração do próximo artigo.
Independência: quando uma coisa não afeta a outra
Dois eventos A e B são independentes se:
$$P(A \cap B) = P(A) * P(B)$$
Isso significa que saber o resultado de B não muda nossa crença sobre A.
Por exemplo, dois lançamentos de uma moeda justa são independentes — o primeiro não influencia o segundo.
Em termos práticos, muitos modelos de machine learning (como o Naive Bayes) assumem independência entre variáveis para simplificar cálculos — mesmo que, na realidade, essa independência não seja perfeita (Bishop, 2006).
Variáveis aleatórias: quando números entram em cena
Até agora, falamos de eventos qualitativos (“sair cara ou coroa”). Mas, para trabalhar matematicamente, precisamos de variáveis aleatórias — funções que associam um número a cada resultado possível em valores numéricos que podemos manipular matematicamente (Ross, 2014).
Discretas: assumem valores contáveis (como o número de caras em 10 lançamentos de moeda). Representada por PMF (probability mass function):
$$p_X(k) = P(X = k)$$
Contínuas: assumem valores em um intervalo (como a altura de uma pessoa). Representada por PDF (probability density function):
$$\int_{a}^{b} f_X(x) \, dx = P(a \leq X \leq b)$$
Essas variáveis são descritas por funções que dizem quão provável é cada valor:
- Discreta: Função de massa de probabilidade, \(p_X(k)\), Interpretação: Probabilidade de X= k
- Contínua: Função densidade de probabilidade, \(f_X(x)\), Interpretação: Densidade em torno de x
- Ambas: Função de distribuição acumulada, \(F_X(x) = P(X \le x)\), Interpretação: Probabilidade acumulada até x. (válida para ambos).
Esperança e variância: o centro e a dispersão
Para entender uma variável aleatória, precisamos resumir seu comportamento. Esses dois conceitos descrevem o comportamento médio e a variabilidade de uma variável aleatória.
Esperança (ou valor esperado)
É a média ponderada dos valores possíveis de X, levando em conta suas probabilidades:
\[
E[X] =
\begin{cases}
\sum_k k \cdot P(X=k), & \text{(discreta)} \\
\int_{-\infty}^{\infty} x f_X(x) \,dx, & \text{(contínua)}
\end{cases}
\]
A esperança representa o valor médio esperado em um grande número de repetições.
Interpretação: média ponderada dos valores que pode assumir (média “teórica”).
Discreta:
\[
E[X] = \sum_i x_i P(X=x_i)
\]
Contínua:
$$E[X] = \int_{-\infty}^{\infty} x \, f_X(x) \, dx$$
Propriedade importante (linearidade):
$$E[aX + bY] = aE[X] + bE[Y]$$
Variância (medida de dispersão)
Mede o quão distante os valores tendem a ficar da média:
$$\mathrm{Var}(X) = E\!\left[(X – E[X])^2\right]$$
$$\mathrm{Var}(X) = E[X^2] – (E[X])^2$$
$$\sigma_X = \sqrt{\mathrm{Var}(X)}$$
Ela quantifica a dispersão. Valores muito distantes da média aumentam a variância; valores próximos reduzem.
Intuição: a esperança diz onde está o centro; a variância diz quanto ele oscila.
Quanto maior a variância, mais os valores flutuam. O desvio padrão é apenas a raiz quadrada da variância.
Exemplo: Se jogarmos uma moeda 100 vezes, o número de caras pode variar, mas sempre em torno da média (esperança). A variância mede o quanto essa contagem costuma se desviar dessa média.
Distribuições de probabilidade: padrões da incerteza
As distribuições descrevem como a probabilidade se espalha entre os possíveis valores de uma variável. Cada tipo de distribuição modela um comportamento típico do mundo real (Murphy, 2012; Bishop, 2006).
A seguir, as mais importantes para quem estuda aprendizado de máquina:
Bernoulli: o acaso binário
Modela um evento com dois resultados possíveis (0 e 1).
$$P(X=1)=p, P(X=0)=1-p$$
É a base da regressão logística e de redes neurais binárias.
Exemplo: sucesso ou falha, clique ou não clique, positivo ou negativo.
Binomial: várias tentativas independentes
É a soma de n experimentos de Bernoulli.
\[
P(X=k) = {n \choose k} p^k (1-p)^{n-k}
\]
Modela o número de sucessos em n testes — muito útil para contagens.
Exemplo: quantas vezes um e-mail é aberto em 10 envios.
Normal (ou Gaussiana): o sino da natureza
Distribuição contínua que aparece em inúmeros fenômenos naturais.
Notação de distribuição:
\[
X \sim \mathcal{N}(\mu, \sigma^2)
\]
Esta é uma notação resumida para descrever que uma variável aleatória \(X\) segue uma distribuição Normal.
Função densidade de probabilidade (FDP):
\[
f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
\]
Esta é a fórmula matemática que descreve a curva em forma de sino da distribuição Normal.
A média μ define o centro e σ controla a largura do sino.
- μ: média
- σ2: variância
Exemplo: altura humana, erro de medição, ruído em sensores.
A FDP não retorna uma probabilidade diretamente, mas a densidade de probabilidade para um valor específico \(x\). Para encontrar a probabilidade de a variável aleatória cair em um determinado intervalo, é necessário calcular a área sob a curva da FDP nesse intervalo usando uma integral.
Em resumo, a notação \(X\sim \mathcal{N}(\mu ,\sigma ^{2})\) é uma maneira de dizer que a variável \(X\) tem uma distribuição normal, enquanto a fórmula \(f(x)\) é a definição matemática dessa distribuição, usada para calcular a densidade de probabilidade em qualquer ponto.
A Normal é tão comum que, segundo o Teorema Central do Limite, a soma de muitas pequenas variáveis aleatórias tende a ser normalmente distribuída (Ross, 2014).
Conclusão
A probabilidade é a gramática da incerteza — e o aprendizado de máquina fala essa língua fluentemente. Antes de treinar qualquer modelo, é fundamental compreender o que significam eventos, variáveis e distribuições. Esses conceitos formam o alicerce de tudo que virá a seguir — do Teorema de Bayes à regressão probabilística e aos modelos generativos modernos.
Em resumo: quem entende probabilidade não apenas ajusta modelos — interpreta o mundo com clareza matemática.
Para ver como esses conceitos se aplicam em modelos reais, leia meu artigo sobre Aprendizado de Máquina Probabilístico.
Referências
- Ross, S. (2014). Introduction to Probability Models. Academic Press.
- Murphy, K. P. (2012). Machine Learning: A Probabilistic Perspective. MIT Press.
- Jaynes, E. T. (2003). Probability Theory: The Logic of Science. Cambridge University Press.
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
Compartilhe:
Já parou pra pensar que toda decisão é, no fundo, um jogo de probabilidade? Me conta — como você lida com a incerteza nos seus projetos?







