幂律分布的示例

发布网友 发布时间:2022-04-26 00:21

我来回答

1个回答

热心网友 时间:2023-05-23 09:26

自然界与社会生活中,许多科学家感兴趣的事件往往都有一个典型的规模,个体的尺度在这一特征尺度附近变化很小. 比如说人的身高,中国成年男子的身高绝大多数都在平均值1.70m左右. 当然,地域不同这一数值会有一定的变化,但无论怎样,我们从未在大街上见过身高低于10cm的“小矮人”,或高于10m的“巨人”. 如果我们以身高为横坐标,以取得此身高的人数或概率为纵坐标,可绘出一条钟形分布曲线,这种曲线两边衰减得极快;类似这样以一个平均值就能表征出整个群体特性的分布,我们称之为泊松分布。另外一个我们要注意的是最高的人与最矮的人的身高之比,根据吉尼斯世界纪录,世界上最高的人与最矮的人(均已去世)的身高分别是2. 72m和0. 57m,二者之比为4. 8,这个数值并不是很大,我们将在下文中证实。
对于另一些分布,像国家GDP或个人收入的分布,情况就大不一样了,个体的尺度可以在很宽的范围内变化,这种波动往往可以跨越多个数量级. 比如根据世界银行的统计,最富有的国家—美国,其2003年GDP高达10, 881, 609, 000, 000美元(一个天文数字) ,而数据显示同年GDP最低的国家—西非岛国圣多美和普林西比,只有54, 000, 000美元,二者之比高达201511. 3. 个人收入分布亦是如此,想想世界首富比尔·盖茨那高达465亿美元的个人资产就清楚了. 国家或城市人口的分布也会出现类似的情形. 据世界银行的统计, 2003年人口最多的国家—中国,总人口数多达1, 288, 400,000,而数据显示同年人口最少的国家—西太平洋上的帕劳群岛,人口数仅为20, 000 (不及中国一个普通县城的人口数) ,二者之比有420之多。 以收入或人口数为横坐标,以不低于该收入值或人口数的个体数或概率为纵坐标,可绘出一条向右偏斜得很厉害,拖着长长“尾巴”的累积分布曲线 ,它与钟形的泊松分布曲线有显著的不同. 这种“长尾”分布表明,绝大多数个体的尺度很小,而只有少数个体的尺度相当大,像国家人口,全世界有224个国家和地区,只有11个国家的人口数超过一亿。
对“长尾”分布研究做出重要贡献的是Zipf和Pareto ,虽然他们并不是这种分布的最早发现者.1932年,哈佛大学的语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系: P ( r) ~r-α ,这种分布就称为Zipf定律,它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用. 实际上,包括汉语在内的许多国家的语言都有这种特点. 物理世界在相当程度上是具有惰性的,动态过程总能找到能量消耗最少的途径,人类的语言经过千万年的演化,最终也具有了这种特性,词频的差异有助于使用较少的词汇表达尽可能多的语义,符合“最小努力原则”. 分形几何学的创始人Mandelbrot对Zipf定律进行了修订,增加了几个参数,使其更符合实际的情形。
19世纪的意大利经济学家Pareto研究了个人收入的统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名的80/20 法则,即20%的人口占据了80%的社会财富. 个人收入X 不小于某个特定值x的概率与x的常数次幂亦存在简单的反比关系: P [X ≥x ]~x - k ,此式即为Pareto定律(帕累托定律)。
Zipf定律与Pareto定律都是简单的幂函数,我们称之为幂律分布;还有其他形式的幂律分布,像名次- 规模分布、规模- 概率分布,这四种形式在数学上是等价的,其通式可写成y = cx^(-r),其中x, y是正的随机变量,c, r均为大于零的常数. 这种分布的共性是绝大多数事件的规模很小,而只有少数事件的规模相当大. 对上式两边取对数,可知lny与lnx满足线性关系lny= lnc - rlnx,也即在双对数坐标下,幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。
判断两个随机变量是否满足线性关系,可以求解两者之间的相关系数;利用一元线性回归模型和最小二乘法,可得lny对lnx的经验回归直线方程,从而得到y与x之间的幂律关系式.在双对数坐标下的图形,由于某些因素的影响,前半部分的线性特性并不是很强,而在后半部分,则近乎为一直线,其斜率的负数就是幂指数。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com