
对数正态分布的方差天然具有指数级增长特性,当底层对数变量的标准差较大时,原始变量的方差会急剧放大——这并非计算错误,而是其数学本质决定的。
在实际建模(如收入、消费等经济变量分析)中,若观测变量 ( y ) 呈现右偏、长尾特征,常被假设服从对数正态分布:即 ( \ln y \sim \mathcal{N}(\mu, \sigma^2) )。此时,( y ) 本身不服从正态分布,其统计量需严格依据对数正态分布的解析公式计算,而非直接对样本取 np.var() 后简单解释。
设 ( y \sim \text{LogNormal}(\mu, \sigma^2) ),则:
均值:
[
\mathbb{E}[y] = \exp\left(\mu + \frac{\sigma^2}{2}\right)
]
方差:
[
\operatorname{Var}(y) = \exp\left(2\mu + \sigma^2\right) \cdot \left[\exp(\sigma^2) - 1\right]
]
import numpy as np
mu, sigma = 7.5, 0.8
mean_y = np.exp(mu + sigma**2 / 2)
var_y = np.exp(2*mu + sigma**2) * (np.exp(sigma**2) - 1)
print(f"Mean: {mean_y:.2f}") # → 2489.90
print(f"Variance: {var_y:.2f}") # → 5557849.03结果与你报告的 Mean ≈ 2484.87、Variance ≈ 5650460.07 高度吻合(微小差异源于样本估计波动),证实计算完全正确,无需修改。
总之,对数正态分布的大方差不是 bug,而是 feature——它精准刻画了现实世界中收入、财富等变量的极端不平等特性。理解并接纳这一数学本质,是严谨建模的第一步。