首页 > 幂律分布 power law

lawy2,幂律分布 power law

互联网 2021-01-18 11:47:27
在线算命,八字测算命理

一个幂律图示例,展示了人气排名的规律。右侧是数量庞大但人气微弱的“长尾”,左侧则是少数“主宰”。 (又称80–20法则)。

在统计学中,幂律表示的是两个量之间的函数关系,其中一个量的相对变化会导致另一个量的相应幂次比例的变化,且与初值无关:表现为一个量是另一个量的幂次方。例如,正方形面积与边长的关系,如果长度扩大到两倍,那么面积扩大到四倍。[1]

目录1 实例2 性质2.1 标度不变性 Scale invariance2.2 缺失完备定义的均值 Lack of well-defined average value2.3 普适性 Universality3 幂律函数 Power-law functions3.1 示例3.2 其他形式3.2.1 分段幂律 Broken power law3.2.2 指数截断的幂律分布 Power law with exponential cutoff3.2.3 曲线幂律 Curved power law4 幂律概率分布 Power-law probability distributions4.1 图形检验法 Graphical methods for identification4.2 绘制幂律分布 Plotting power-law distributions4.3 从经验数据估计指数4.3.1 极大似然估计 Maximum likelihood4.3.2 Kolmogorov–Smirnov估计4.3.3 两点拟合法 Two-point fitting method4.3.4 R 函数5 验证幂律6 "幂律"相关概念的区分6.1 区别幂函数、指数函数、幂律分布?6.2 区别幂函数和幂律、幂律分布、指数分布?7 参见8 相关链接9 参考文献10 进一步阅读11 相关wiki12 编者推荐12.1 解读幂律分布与无标度网络 | 长文综述12.2 人类行为时空特性的统计力学(一)——认识幂律分布12.3 幂律分布的参数估计方法及R实现12.4 【Python舆情分析】 二.时间间隔分布研究及幂律分布图绘制12.5 相关课程12.5.1 复杂系统中的幂律分布12.5.2 解读幂律分布与无标度网络实例

幂律的涉及范围极其广泛,各种各样的物理、生物和人为现象的分布在大致遵循着幂律,包括月球表面月坑的大小,太阳耀斑的强度[2],各物种的觅食模式[3],神经元集群活动模式的规模[4],大多数语言的用词频率,一个国家各姓氏出现的频率,生物支系的物种丰富度[5],停电的影响范围,每个罪犯的刑事罪名指控,火山喷发[6],人类对刺激的敏感度[7][8] ,等等[9]。

不过很少有经验分布完全符合幂律分布,更确切地说,他们通常是遵循幂律末尾的规律。在许多复杂介质中,声衰减 Acoustic attenuation遵循宽频带内的频率幂律;揭示生物变量之间关系的异速标度律 Allometric scaling是自然界中已知的最著名的幂律函数之一。

性质标度不变性 Scale invariance

幂律的一个属性是它们的标度不变性。给定一个关系[math]\displaystyle{ f(x) = ax^{-k} }[/math] ,将参数 [math]\displaystyle{ x }[/math]标度一个常量 [math]\displaystyle{ c }[/math] 只会导致函数本身的比例标度,公式表达为:[math]\displaystyle{ f(c x) = a(c x)^{-k} = c^{-k} f(x) \propto f(x) }[/math],此处,[math]\displaystyle{ \propto }[/math] 表示成正比(正比例)。也就是说将参数标度常量[math]\displaystyle{ c }[/math],那么对应原始幂律关系乘以常量[math]\displaystyle{ {c}^{-k}}[/math] 。因此,所有具有特定标度指数的幂律都等效于常量因子(的标度),因为每个幂律函数都只是其他情况的缩放而已。

如果我们取用两者([math]\displaystyle{ f(x) }[/math] 和 [math]\displaystyle{ x }[/math])的对数,会得到一个线性关系,呈现在双对数图上就是一条直线,这通常被看作幂律的标志。对于实际数据,这种线性是幂律关系数据的必要条件,但并不是充分条件。实际上,有许多方法可以生成模拟此指数行为的有限数量的数据, 但在它们的渐近极限中, 不是真正的幂律 (例如, 如果某些数据的生成过程遵循对数正态分布)。因此, 准确地拟合和验证幂律模型是统计研究的一个活跃领域。

缺失完备定义的均值 Lack of well-defined average value

仅当[math]\displaystyle{k \gt2}[/math], [math]\displaystyle{ x^{-k} }[/math] 在 [math]\displaystyle{ x \in [1,\infty) }[/math]具有完备定义的均值; 当[math]\displaystyle{ k \gt 3 }[/math] 时,[math]\displaystyle{ x^{-k} }[/math] 具有有限的方差;

自然界中,大多数幂率分布的指数使得其具有完备定义的均值(K>2嘛),但是方差不是有限的,这意味着它们有可能成为“黑天鹅”行为[10]呈现了这个想法:假设你和你的朋友一起在一个房间里估算平均月收入,然后世界上最富有的人进入房间,他每月收入约10亿美元,那么房间里的平均收入会怎么样?

我们又将收入分布服从幂律现象称为帕累托分布(例如,美国人的资产净值服从指数为2的幂律分布)。一方面,这使得应用基于方差和标准差的传统统计(例如回归分析)失效。另一方面,这或许可通过采取有效的干预手段解决一些问题[11],例如,可以应用到管理汽车尾气排放,这个问题服从幂律分布(极少数汽车导致大多数污染),那么理论上从道路上消除那些极少数汽车就足以减少总排放量。[12]

然而,幂律分布的中位数确实存在: 对幂律[math]\displaystyle{ x^{-k} }[/math] ,与指数k > 1,它取 21/(k – 1)xmin,其中xmin时幂律所适用的最小值。[13]

普适性 Universality

幂律与特定标度指数的等价性在产生幂律关系的动力学过程中有更深层次的渊源。例如,在物理学中,热力系统中的相变与某些量呈现幂律分布有关,它们的指数被称为系统的临界指数 critical exponents。具有相同的临界指数的不同系统——即它们在接近临界状态 criticality时显示相同的标度行为——可以通过重整化理论来证明,他们的基本动力学相同。例如,水和 CO2 在沸点上的行为在相同的普适类中,因为它们具有相同的临界指数。事实上,几乎所有的物质相变都是由一小套普适类描述的。对于各种自组织的临界系统 self-organized critical,人们也进行了类似的观察,虽然不是很全面,但在这些系统中,系统的临界点是吸引子。在形式上,这种动力学的共享性被称为普适性 universality,而我们通常认为具有精确相同的临界指数的系统属于同一种普适类 universality 5class。

幂律函数 Power-law functions

科学家对幂率关系感兴趣,部分是因为某些简单机制生成幂率关系所展示出的简洁性。[14]一些数据幂律关系的演示可以指向特定的机制,这些机制不仅是自然现象的基础,还可以表明与其他看似不相关的系统之间的深层联系; 参见上文的普适性 。物理世界中幂律关系的无处不在, 部分是由于维度限制[15];而在复杂系统中,幂律通常被认为是层级或特定随机过程的特征。几个显著例子是帕累托的收入分配定律,分形的结构自相似性,以及生物系统中的标度定律。研究幂律关系的起源,并致力于现实世界中对它的观察和验证,是物理学、计算机科学、语言学、地球物理、神经科学、社会学、经济学等许多领域研究的一个热门话题。

不过,最近对幂律的兴趣主要来自于对概率分布的研究:似乎有大量的分布遵循幂律的形式,至少它们右尾是符合的。这些大型事件的行为将这些数量与大偏差理论 theory of large deviations的研究联系起来(也称为极值理论 extreme value theory),它考虑了诸如股市崩盘和大型自然灾害等极其罕见的事件的发生频率。在统计分布的研究中更倾向于称之为“幂律”。

在实际情况中,近似为幂律分布的情况[math]\displaystyle{ o(x^k) }[/math]通常包括一个偏差项,它可以表示观察到的值[math]\displaystyle{ \varepsilon }[/math]的不确定性(可能是测量或抽样误差),或者提供一种简单的方法使观察偏离幂律函数(可能是因为随机):[math]\displaystyle{ y = ax^k + \varepsilon.\! }[/math]

从数学角度来说,一个严格的幂律函数不可能是概率分布,但一个被截断的幂律函数的分布是可能的:[math]\displaystyle{ p(x) = C x^{-\alpha} }[/math] ,对于[math]\displaystyle{ x \gtx_\text{min} }[/math] ,指数[math]\displaystyle{ \alpha }[/math] (希腊字母alpha],注意不要与之前使用的标度系数[math]\displaystyle{ a }[/math]混淆)大于1(否则尾部具有无限区域),最小值[math]\displaystyle{ x \gtx_\text{min} }[/math]是必须存在的。否则,当x接近0时, 分布具有无限面积,常量因子C是一个标度因子,以确保总面积为 1,这是概率分布的基本要求。更常见的是使用渐近幂律——只在极限情况下成立。指数通常在 [math]\displaystyle{ 2 \lt\alpha \lt3 }[/math]之间,不过这并不绝对[9]。详细信息请参阅幂律概率分布 power-law probability distributions。

示例

从物理学(例如沙堆雪崩),生物学(例如物种灭绝和体重)以及社会科学(例如城市规模和收入[16])中,已经确定了超过一百种幂律分布。其中包括:

气溶胶光学中的Angstrom指数复杂介质中声衰减的频率依赖性心理物理学中的Stevens幂律 斯蒂芬-玻耳兹曼定律 The Stefan–Boltzmann law场效应晶体管和真空管的输入电压 - 输出 - 电流曲线近似于平方律 square-law关系,这是“ 管声”中的一个因素。平方立方定律 Square-cube law (表面积与体积的比率)Kleiber规律(关于动物新陈代谢以及一般的异速生长规律)在三极管的板特性曲线 plate characteristic curves中可以找到的三分之二幂律关系分别由引力势和静电势证明,牛顿引力和静电学的逆平方定律 inverse-square laws 作为吸引子 attrator的临界点的自组织临界性雨淋细胞 rain-shower cells[17]的大小,旋风中的能量耗散[18]以及地球和火星上尘卷风的直径[19]指数增长和随机观测(或随机死亡)[20]指数增长和创新指数扩散的进展[21]最优抗干扰理论(HOT)范德华力模型简谐运动中的力与势开普勒的第三定律 恒星的初始质量函数M-σ关系 射线强度与电压的 Gamma 校正与人类运动系统中的曲率有关的三分之二幂律关于生态环境的平均人口规模和人口规模的变化的泰勒定律涉及临界指数的二阶相变附近的行为经验学习曲线(波士顿经验曲线)的拟议形式宇宙射线核的微分能谱分形帕累托分布和帕累托原则,也被称为“80-20规则”语料库分析和人口分布中的Zipf定律,其中项目或事件的频率与其频率等级成反比(即,第二最频繁的项目/事件发生频率是最频繁项目的一半,第三频率项目/事件发生的频率是最频繁项目的三分之一,以此类推)在安全工作区与功率半导体最大同时电流和电压超临界状态的物质和超临界流体,如热容和粘度的超临界指数[22]Zeta分布(离散)Yule-Simon分布(离散)学生的t分布(连续),其中Cauchy分布是一个特例洛特卡定律 Lotka's law 无标度网络模型粉红噪音神经元雪崩[4](由非活动框架括起来的连续活动帧序列可以称为雪崩)]流数定律和流长定律(Horton 描述河流系统的定律)城市人口(Gibrat定律)书目和文字中的单词频率(Zipf定律)wiki上的90-9-1原则(也称为1%规则)以其作品平均价格排序的艺术家分布[23]理查森关于暴力冲突(战争与恐怖主义)严重程度的法律[24]CPU的高速缓存大小与高速缓存未命中数之间的关系遵循高速缓存未命中的幂律Curie-von Schweidler law 对直流电压输入的介电响应淡水鱼类的物种丰富度(物种数量)[25]抗地震阻尼器中速度关系的阻尼力其他形式分段幂律 Broken power law初始质量函数的一些模型遵循分段幂律; Kroupa(2001)红色。

分段幂律是一个分段函数,由两个或多个的幂律函数组成,再加上一个阈值。例如,有两个幂律[26]:

指数截断的幂律分布 Power law with exponential cutoff

具有指数截止的幂律就是幂律乘以一个指数函数[27]:

[math]\displaystyle{ f(x) \propto x^{\alpha}e^{\beta x}. }[/math]

曲线幂律 Curved power law

[28]

[math]\displaystyle{ f(x)\propto}[/math][math]\displaystyle{{x^{\alpha+\beta x}} }[/math]

幂律概率分布 Power-law probability distributions

广义上,幂律概率分布是一个密度函数(或离散情况下的概率质量函数)具有以下形式的分布:对于较大的[math]\displaystyle{ x }[/math][29],

[math]\displaystyle{ P(X\gt x) \sim L(x) x^{-(\alpha+1)} }[/math] ,

其中[math]\displaystyle{ \alpha \gt0 }[/math]且[math]\displaystyle{ L(x) }[/math]是一个慢变函数 Slowly varying function,对于任何正因子[math]\displaystyle{ r }[/math] ,它都满足[math]\displaystyle{ \lim_{x\rightarrow\infty} L(r\,x) / L(x) = 1 }[/math] 。[math]\displaystyle{ L(x) }[/math]的这个属性来自于[math]\displaystyle{ p(x) }[/math] 渐进的标度不变性。因此,[math]\displaystyle{ L(x) }[/math]仅控制左尾的形状和有限范围。如果[math]\displaystyle{ L(x) }[/math]是常量因子函数,并且我们有一个幂律适用于所有的 [math]\displaystyle{ x }[/math]值,在许多情况下,可以很容易地依据幂律假设出一个下限。结合这两种情况,当 [math]\displaystyle{ x }[/math]是一个连续变量,幂律有以下形式:

[math]\displaystyle{ p(x) = \frac{\alpha-1}{x_\min} \left(\frac{x}{x_\min}\right)^{-\alpha}, }[/math]

其中,[math]\displaystyle{ frac{\alpha-1}{x_\min} }[/math]是标准化常量因子

下面我们来讨论这个分布的性质。首先,它的矩可表示为:

[math]\displaystyle{ \langle x^{m} \rangle = \int_{x_\min}^\infty x^{m} p(x) \,\mathrm{d}x = \frac{\alpha-1}{\alpha-1-m}x_\min^m }[/math]

当[math]\displaystyle{ m \lt\alpha -1 }[/math],定义是完备的; 当[math]\displaystyle{ m \geq \alpha - 1 }[/math],发散:当[math]\displaystyle{ \alpha\leq 2 }[/math],均值与高阶矩都是无穷大; 当[math]\displaystyle{ 2\lt \alpha\lt 3 }[/math],均值存在,但方差和高阶矩都是无穷大。如果从这种分布中抽取有限样本,意味着中心矩估计永远不会收敛——并且随着数据的增多,他们还有增大的趋势。这种幂律概率分布又被称为帕累托型分布,具有帕累托尾部特征的分布,或是具有规则变化的分布。

一种不满足上面的一般形式的修改,即指数截止幂律分布。

[math]\displaystyle{ p(x) \propto L(x) x^{-\alpha} \mathrm{e}^{-\lambda x}. }[/math]

在这种分布中,指数衰减项[math]\displaystyle{ \mathrm{e}^{-\lambda x} }[/math]最终会在较大的[math]\displaystyle{ x }[/math]处超过正常的幂律分布。这种分布无法成比例缩放,因此并不是幂律;不过,它会在截止前的有限区域内近似地缩放。(注意,一般的幂律分布是这种分布的简单形式,即 [math]\displaystyle{ \lambda=0 }[/math]的指数截止幂律分布。)这种分布是渐近幂律分布的常见替代方法,因为它考虑了有限大小的影响。

Tweedie分布是一族统计模型,其特征是基于可加 additive与可再生 reproductive卷积以及标度变换 scale transformation的闭包 closure。因此,这些模型都表达了方差和均值之间的幂律关系。这些模型作为数学收敛的焦点,类似于正态分布在中心极限定理中所扮演的角色。这种收敛效应解释了为什么在自然过程中, 方差-平均幂律表现得如此广泛, 就像泰勒在生态学中的定律和在物理学中的涨落标度[30]。还可以证明,使用扩展箱 expanding bins的方法时,这种方差 - 均值幂律分布 variance-to-mean power law意味着存在1 / f噪声,而1/ f噪声可能是由于Tweedie收敛效应 Tweedie convergence effect而产生的[31]。

图形检验法 Graphical methods for identification在双对数图上呈现直线是必要的,但对于幂律,没有足够的证据证明直线的斜率就对应于幂律指数。

虽然人们已经提出了更成熟更稳健的方法,但检验随机样本是否具有幂律概率分布的最常用的图形方法还是帕累托双分位图 Pareto quantile-quantile plot(或帕累托Q-Q图),平均剩余寿命图 mean residual life plot[32][33]和双对数图 Pareto quantile-quantile plots(log-log图)。另一种更强大的图形检验法是利用残余分位函数束[34] 。(注意,幂律分布也称为帕累托分布。)这里假设从概率分布中获得随机样本,并且我们想知道分布的尾部是否遵循幂律(换句话说,我们想知道分布是否有“帕累托尾”)。此处随机样本也被称为“数据”。

帕累托Q-Q图是这样绘制的:它将取对数后(样本)数据的分位数与取均值为1的指数分布对应的分位数(或标准帕累托分布的位数)进行比较。如果得到的散点图表现是“渐近收敛”为直线,就应该怀疑其服从幂律分布。帕累托 Q-Q图的局限是它在尾部指数[math]\displaystyle{ \alpha }[/math](也称为帕累托指数)接近于0时表现不佳,因为帕累托Q-Q图难以检验尾部是缓慢变化的分布。[34]

另一种检验幂律概率分布的方法是平均剩余寿命图,它包含以下步骤:首先对数据取对数,然后将高于第 i 阶统计量的数据平均值与第 i 阶统计量进行比较绘制,从i = 1, ..., n,其中n是随机样本容量。如果绘制出的散点图走势呈现为一条“稳定”的水平直线,那么应该考虑其服从幂律分布。但由于平均剩余寿命图对异常值非常敏感(它并不稳健),所以它通常会产生一些难以解释的图形; 而这些图形通常被称为 Hill horror plots 。[35]

双对数图是使用随机样本以图形方式检验尾部分布的另一种方式。使用这个方法需谨慎,因为双对数图中呈现直线对幂律概率分布是必要不充分条件,许多非幂律分布在双对数图上也显示为直线[36][27] 。这个方法是将特定数在该分布中的概率估计量的对数 | 对比这个数的对数 |进行绘图。通常,此估计量是该数据在数据集中出现的次数的比例。如果图中的点在x较大时倾向于“收敛”为直线,则可得出结论,该分布具有“幂律尾”(power-law tail)。目前这些类型的绘图的应用示例 已经发表[37]。但这种方法的局限是,需要大量的数据才能使结果可靠。此外,它仅适用于离散(或分组)数据。

不过,目前已经发现了使用随机样本检验幂律概率分布的另一种图形方法。该方法包括绘制对数变换样本的束,是最早提出使用随机样本探索矩的存在和矩生成函数的工具,基于残差分位函数 RQF(也称为残差百分位函数)[38][39][40][41][42][43][44].The European Physical Journal.58.(167--173) ,它提供了许多众所周知的概率分布的尾部行为的完整表征,包括幂律分布与其他类型的重尾,甚至非重尾分布的分布。这种方法绘制的图形没有上面提到的平均剩余寿命图、双对数图和帕累托 Q-Q图的缺点,它们对异常值很敏感,能够直观地检验具有小[math]\displaystyle{ \alpha }[/math]值的幂律,并且不适用于分析大量数据。此外,其他分布类型的尾部也可以用这个方法观察检验。

绘制幂律分布 Plotting power-law distributions

一般来说,幂律分布是在双对数坐标轴上绘制的,强调右尾部分。最简便直观的方法是通过累积分布函数 cumulative distribution function,缩写为 cdf说明:[math]\displaystyle{ P({x})=\Pr(x\gt X) }[/math]

[math]\displaystyle{ P(x)=\Pr(x\gt X)=C\int_x^{+\infty}p(X)dX=\frac{\alpha-1}{x_{min}^{-\alpha+1}}\int_{x}^{\infty}X^{-\alpha}dX=\left(\frac{x}{x_{min}}\right)^{-\alpha+1} }[/math]

注意,cdf也是幂律函数,只是它的标度指数较小。从数据处理角度,cdf的等价形式是rank-frequency 分布,即先按升序排列[math]\displaystyle{ n }[/math]的观察值,再将它们与矢量[math]\displaystyle{ \left[1,\frac{n-1}{n},\frac{n-2}{n},\dots,\frac{1}{n}\right] }[/math]对应.

尽管便于记录数据,抑或是便于拟合平滑概率密度(质量)函数,但这些方法在数据表示中引入了隐式偏差,因此应该避免[45][27]。另一方面,所述的cdf法对处理这些隐式偏差更稳健(但并非没有偏误)并且保留了在双对数图形上的线性特征。虽然在同时用线性最小二乘法拟合幂律时,使用cdf绘制优于概率密度函数 pdf,但其不可避免地在数学上有不准确性。因此,在估计幂律分布的指数时,建议使用最大似然估计。

从经验数据估计指数

有许多方法可以估算幂律尾部的标度指数值,但并非所有方法都能产生无偏且一致的结果。一些最可靠的技术通常基于最大似然估计。替代方法通常基于双对数概率,双对数累积分布函数或对数分组数据进行线性回归,但是,应该避免这些方法,因为它们都可能导致对标度系数的具有显著偏误的估计。

极大似然估计 Maximum likelihood

对取自独立同分布的实函数的数据,我们拟合幂律分布的形式:

[math]\displaystyle{ p(x) = \frac{\alpha-1}{x_\min} \left(\frac{x}{x_\min}\right)^{-\alpha} }[/math]

要求[math]\displaystyle{ x\geq x_\min }[/math],其中系数[math]\displaystyle{ Z=\frac{\alpha-1}{x_\min} }[/math]是标准化常量.给定[math]\displaystyle{ x_\min }[/math],则对数似然函数变为:

[math]\displaystyle{ \mathcal{L}(\alpha)=\log\prod _{i=1}^n \frac{\alpha-1}{x_\min} \left(\frac{x_i}{x_\min}\right)^{-\alpha} }[/math]

这种可能性的最大值是通过对参数[math]\displaystyle{ \alpha }[/math]进行微分来找到的 ,从而使微分等于零,再重新排列,就得到了估计量方程:

[math]\displaystyle{ \hat{\alpha} = 1 + n \left[ \sum_{i=1}^n \ln \frac{x_i}{x_\min} \right]^{-1} }[/math]

其中 对 [math]\displaystyle{ n }[/math] 个数据,[math]\displaystyle{ \{x_i\} }[/math] 满足[math]\displaystyle{ x_{i}\geq x_\min }[/math].[2][46].这个估计展示了一个小范围样本偏差的秩 [math]\displaystyle{ O(n^{-1}) }[/math],当 n > 100时它会比较小。 此外, 这个估计的标准误是 [math]\displaystyle{ \sigma = \frac{\hat{\alpha}-1}{\sqrt{n}} + O(n^{-1}) }[/math]。这个估计量相当于从数量金融学和极端价值理论中获得的需要的 Hill 估计量。对于一组n值的整数数据点[math]\displaystyle{ \{x_i\} }[/math],对每一个[math]\displaystyle{ x_i\geq x_\min }[/math],都有最大似然指数是先验方程的解:

[math]\displaystyle{ \frac{\zeta'(\hat\alpha,x_\min)}{\zeta(\hat{\alpha},x_\min)} = -\frac{1}{n} \sum_{i=1}^n \ln \frac{x_i}{x_\min}}[/math]

其中 [math]\displaystyle{ \zeta(\alpha,x_{\mathrm{min}}) }[/math] 是不完整的黎曼ζ函数。这个估计的不确定性和连续方程的公式是一样的。 然而,这两个方程是不等价的,连续的方程形式不应该应用于离散的数据,反之亦然。

另外,这两种估计都需要选择 [math]\displaystyle{ x_\min }[/math].对于非平凡函数 [math]\displaystyle{ L(x) }[/math] , 选择太小的[math]\displaystyle{ x_\min }[/math] ,[math]\displaystyle{ \hat\alpha }[/math]会产生显著的偏误 ,选择过大又会增加[math]\displaystyle{ \hat\alpha }[/math]的不确定性,并且降低模型的统计功效. 所以通常情况下,[math]\displaystyle{ x_\min }[/math]的最佳选择很大程度上取决于左尾的特定形式,以[math]\displaystyle{ L(x) }[/math]为代表。

关于这些方法,以及能够使用它们的条件,可以进一步发现,《Power-law Distributions in Empirical Data》全面而详细地提供了可用的代码(Matlab、Python、R和C++)来评估和测试幂律分布的过程。

详细代码如下:

# coding: utf-8# # 用numpy生成0,1之间的幂律分布# # ### 概率密度函数为# f(x) = a*x^(a-1)# # In[241]:a = 0.4# 采样数量samples = 10000s = np.random.power(a, samples)# In[242]:# 绘图展示结果import matplotlib.pyplot as pltcount, bins, ignored = plt.hist(s, bins=50)x = np.linspace(0, 1, 100)y = a*x**(a-1.)normed_y = samples*np.diff(bins)[0]*yplt.plot(x, normed_y)plt.show()# # 使用原生方法生成0,1之间的幂律分布# In[250]:import math# 分布函数的反函数def rev(x,a):return math.exp(math.log(x) / a)# In[251]:# 生成分布s1 = []for i in range(samples):s1.append(rev(np.random.uniform(0,1),a))# In[252]:# 绘图count, bins, ignored = plt.hist(s1, bins=50)x = np.linspace(0, 1, 100)y = a*x**(a-1.)normed_y = samples*np.diff(bins)[0]*yplt.plot(x, normed_y)plt.show()# # 线性拟合生成结果# In[254]:# 统计不同区间的数据数量divide_num = 100ys = np.zeros(divide_num)xs = np.linspace(0,1,divide_num)for i in range(len(s)):ys[int(s[i] * 100)] += 1# In[255]:# 使用sklearn包中的回归工具from sklearn import linear_model# 回归x_log = np.log(xs)y_log = np.log(ys)#线性拟合数据准备X_para=[]Y_para=[]for x ,y in zip(x_log[1:],y_log[1:]):X_para.append([float(x)])Y_para.append(float(y))# 使用sklearn的线性拟合函数进行拟合regr = linear_model.LinearRegression()regr.fit(X_para, Y_para)# In[256]:# plt.title("fit the log data")plt.scatter(x_log,y_log,color = "black")plt.plot(X_para, regr.predict(X_para), color='blue',linewidth=3)plt.show()# # ks检验# In[155]:from scipy.stats import kstestKolmogorov–Smirnov估计

这是另一种计算幂律指数的方法,它不使用独立同分布数据,使用的是Kolmogorov-Smirnov统计量的最小值, [math]\displaystyle{ D }[/math],在数据的累积分布函数和幂律之间:

[math]\displaystyle{ \hat{\alpha} = \underset{\alpha}{\operatorname{arg\,min}} \, D_\alpha}[/math]

且:

[math]\displaystyle{D_\alpha = \max_x | P_\mathrm{emp}(x) - P_\alpha(x) |}[/math]

其中[math]\displaystyle{ P_\mathrm{emp}(x) }[/math] 和[math]\displaystyle{ P_\alpha(x) }[/math]分别表示数据的cdfs和指数[math]\displaystyle{ \alpha }[/math]的幂律概率分布。由于这种方法不以独立同分布数据为前提,所以它提供了一种替代方法来确定数据集的幂律指数,在这种情况下,时间相关性不能被忽略。[47]

两点拟合法 Two-point fitting method

两点拟合法可用于无标度分布情况下幂律指数的估计——它比极大似然估计更收敛[48]。研究断裂孔径的概率分布是这种方法的应用之一。某些情况下概率分布并不使用积累分布函数 cumulative distribution function表述,而是根据满足X> x条件的X的积累频率 cumulative frequency ,其中X是每单位(或区域单位、秒等)的要素数目,x是一个可变实数。例如,[48]将N个元件的样品的裂缝孔X的累积分布定义为“每米的裂缝数目大于x的裂缝的数目”。使用累积频率有其优势,例如,它允许人们把从不同标度的不同长度的样本线(例如分别从露头 outcrop和从显微镜)收集的相同的图表数据放在一起。

R 函数

通过R函数估计指数,并绘制双对数数据拟合线:

pwrdist Kendal, WS, B (2011) "Taylor's power law and fluctuation scaling explained by a central-limit-like convergence".Phys. Rev. E.83.↑ Kendal, WS, BR (2011) "Tweedie convergence: a mathematical basis for Taylor's power law, 1/f noise and multifractality".Phys. Rev. E.84.↑ Beirlant, J., Teugels, J. L., Vynckier, P. (1996a) Practical Analysis of Extreme Values, Leuven: Leuven University Press↑ Coles, S. (2001) An introduction to statistical modeling of extreme values. Springer-Verlag, London.↑ 34.0 34.1 34.2 Diaz, F. J. (1999) "Identifying Tail Behavior by Means of Residual Quantile Functions".Journal of Computational and Graphical Statistics.8.(493--509)↑ Resnick, S. I. (1997) "Heavy Tail Modeling and Teletraffic Data".The Annals of Statistics.25.(1805--1869)↑ Three-Toed Sloth (2018) So You Think You Have a Power Law — Well Isn't That Special?.↑ Jeong, H, Albert; Oltvai, B., Barabasi, Z.N., A.-L. (2000) "The large-scale organization of metabolic networks".Nature.407.(651--654)↑ Arnold, B. C., Brockett, P. L. (1983) "When does the βth percentile residual life function determine the distribution?".Operations Research.31.(391--396)↑ Joe, H., Proschan, F. (1984) "Percentile residual life functions".Operations Research.32.(668--678)↑ Joe, H., Part, A (1985) "Characterizations of life distributions from percentile residual lifetimes".37.(165--172)↑ Csorgo, S., Viharos, L. (1992) "Confidence bands for percentile residual lifetimes".Journal of Statistical Planning and Inference.30.(327--337)↑ Schmittlein, D. C., Morrison, D. G. (1981) "The median residual lifetime: A characterization theorem and an application".Operations Research.29.(392--399)↑ Morrison, D. G., Schmittlein, D. C. (1980) "Jobs, strikes, and wars: Probability models for duration".Organizational Behavior and Human Performance.25.(224--251)↑ Gerchak, Y (1984) "Decreasing failure rates and related issues in the social sciences".Operations Research.32.(537--546)↑ Bauke, H.. (2007) "Parameter estimation for power-law distributions by maximum likelihood methods".The European Physical Journal.58.(167--173)↑ Hall, P. (1982). "On Some Simple Estimates of an Exponent of Regular Variation". Journal of the Royal Statistical Society, Series B. 44 (1): 37–42. JSTOR 2984706↑ Hall, P. (1982) "On Some Simple Estimates of an Exponent of Regular Variation".Journal of the Royal Statistical Society.44.(37--42)↑ 48.0 48.1 Guerriero, V. (2012) "Power Law Distribution: Method of Multi-scale Inferential Statistics".Journal of Modern Mathematics Frontier (JMMF).1.(21--28)↑ Mitzenmacher, M. (2004). "A Brief History of Generative Models for Power Law and Lognormal Distributions" (PDF). Internet Mathematics. 1 (2): 226–251. doi:10.1080/15427951.2004.10129088.↑ Laherrère, J.; Sornette, D. (1998). "Stretched exponential distributions in nature and economy: "fat tails" with characteristic scales". The European Physical Journal B. 2 (4): 525–539. arXiv:cond-mat/9801293 Freely accessible. Bibcode:1998EPJB....2..525L. doi:10.1007/s100510050276↑ Stumpf, M.P.H. (2012). "Critical Truths about Power Laws". Science. 335: 665–666. Bibcode:2012Sci...335..665S. doi:10.1126/science.1216142. 进一步阅读Bak, Per (1997) How nature works, Oxford University Press, isbn0-19-850164-1Sornette, Didier (2006). Critical Phenomena in Natural Sciences: Chaos, Fractals, Self-organization and Disorder: Concepts and Tools. Springer Series in Synergetics (2nd ed.). Heidelberg: Springer, ISBN 978-3-540-30882-9.Mark Buchanan (2000) Ubiquity, Weidenfeld & Nicolson, ISBN 0-297-64376-2Alexander Saichev, Yannick Malevergne and Didier Sornette (2009) Theory of Zipf's law and beyond, Lecture Notes in Economics and Mathematical Systems, Volume 632, Springer (November 2009), ISBN 978-3-642-02945-5Laherrère, J., Sornette, D. (1998) "Stretched exponential distributions in nature and economy: "fat tails" with characteristic scales".European Physical Journal B.2.4:(525–539).Aaron Clauset, Cosma Rohilla Shalizi, M E J Newman (2009) POWER-LAW DISTRIBUTIONS IN EMPIRICAL DATA.SIAM Review.51.(661--703)Michael Mitzenmacher (2004) Brief History of Generative Models for Power Law and Lognormal Distributions.1.2:(226-251)Simon, H. A. (1955) "On a Class of Skew Distribution Functions".Biometrika.42, 10.(425--440)Stumpf, M.P.H., Porter, M.A. (2012) "Critical Truths about Power Laws".Science.335,.(665--6, 2012Sci)相关wiki从幂律分布到异速增长异速生长律数据科学指数概率分布统计规律

编者推荐高尔顿钉板实验装置解读幂律分布与无标度网络 | 长文综述

该文介绍了幂律分布的形式、特点以及无标度网络的形式和特点,特别是无标度网络在于抵御攻击和传染病传播上的特异性,并且列举了一些经典的幂律分布随机变量生成机制,最后简介了对数线性回归和极大似然对于幂律指数的估计方式以及KS检验在幂律分布检验上的应用。

人类行为时空特性的统计力学(一)——认识幂律分布

该文转述自周涛的《人类行为时空特性的统计力学》,主要介绍了与幂律分布相关的背景、概念,以及可能的应用价值。

幂律分布的参数估计方法及R实现

该文介绍了幂律分布在连续和离散两种情况下参数[math]\displaystyle{ \alpha}[/math]和Xmin的估计方法、分析步骤,和如何通过R语言实现。

【Python舆情分析】 二.时间间隔分布研究及幂律分布图绘制

本文主要是作者学习舆情分析、情感分析、人类行为动力学分析的在线笔记,主要包括幂律特性、时间间隔分布、利用Python绘制基于时间间隔分布的幂律特性图。

相关课程幂律分布相关课程复杂系统中的幂律分布

该课程结合实际数据和丰富的学术文献,从发展历史、使用场景、相关研究等方面向大家展示幂律分布。该课程是复杂系统入门必修课,帮助大家搭建体系完整的幂律分布学习框架!

解读幂律分布与无标度网络

该课程讲解了幂律分布的概念与原理以及分布在自然界的各种有趣幂律分布。

本中文词条由靠倒立解气参与编译,CecileLi审校,薄荷编辑,高飞、张江总审校,欢迎在讨论页面留言。

本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。

免责声明:非本网注明原创的信息,皆为程序自动获取自互联网,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责;如此页面有侵犯到您的权益,请给站长发送邮件,并提供相关证明(版权证明、身份证正反面、侵权链接),站长将在收到邮件24小时内删除。