每天資訊神秘的首位數定理,有點讓人困惑

菜單

神秘的首位數定理,有點讓人困惑

對於真實世界中的大部分資料集,首位數是1的數字的數量大約是首位數是9的6。6倍,不同首位數出現的頻率遵從一個對數分佈,被稱為首位數定理。這種首位數分佈的非對稱性與直覺相反,在長達一個世紀的時期作為一個經驗性統計規律存在,尚未被很好解釋。

從前,天文學家在進行天文研究時,經常要使用對數表。本世紀初,有一次天文學家西蒙紐科姆在查對數表時,偶然發現了這樣的現象:對數表開始的幾頁總要比後面幾頁磨損得厲害。這說明人們在查對數表時,較多地是使用了以1為首的那幾頁。於是,紐科姆便產生了這樣一個疑問:首位數是1的自然數在全體自然數中佔有多大的比例?它是不是要比首位數是其它數字的自然數要多?人們後來把這個問題稱為“首位數問題”。

大家可能會認為這個問題是顯而易見的。因為除0以外,共有九個數字:1,2,3,4,5,6,7,8,9,用其中任何一個數字開頭的自然數,在全體自然數中的分佈是均勻的,機會應該是均等的。也就是說,首位數是1的自然數應該佔全體自然數的1/9,但事實並不這麼簡單。

1974年,當時還在美國哈佛大學做研究生,後來是美國斯坦福大學統計學家的珀西迪亞科尼斯,研究了這個問題,所得到的結論出乎人們的意料,首位數是1的自然數約佔全體自然數的1/3。準確一點說,這個數值應該是lg2≈0。30103。

這是怎麼一回事呢?事實上,用不同數字做首位數字,這樣的自然數的分佈並不是很均勻的,也不是很規則的。首位數是1的自然數的分佈規律是:

1到20之間,這樣的數有11個,它們是1,10,11,12,……,19,所以約佔1/2;

1到30之間,這樣的數同樣有11個,所以約佔1/3;

1到100之間,這樣的數同樣有11個,所以約佔1/9;

1到200之間,這樣的數有111個,它們是1,10,11,……,19,100,101,……,199,所以約佔1/2

注意到首位數是1的自然數在以上各區間的個數與這個區間的所有自然數的個數的比值,總是在1/2與1/9之間來回震盪。迪亞科尼斯經過研究,終於運用高等數學的方法,得出這些比值的合理平均值,它就是上面所講到的lg2。

首位數定理,與其名稱相反,並非是一個嚴格的“定理”,而是一個在絕大部分自然資料集中都存在的經驗統計規律。這個規律由Newcomb S。於1881年首次發現,並由Benford F。於1938年再次獨立提出,所以也被稱為Benford定理。首位數定理是說,十進位制中一個數字的首位數是d(d=1,2,。,9)的機率遵從如下的對數分佈,越大的數字出現的機率越低。

簡單地說,一堆從實際生活得出的資料中,以1為首位數字的數的出現機率約為總數的三成,接近直覺得出之期望值1/9的3倍。推廣來說,越大的數,以它為首幾位的數出現的機率就越低。它可用於檢查各種資料是否有造假。

首位數定理的“神秘”性在於,雖然絕大部分自然資料集符合首位數定理,人工偽造的資料集大部分卻不滿足首位數定理,似乎自然界存在某種特殊的資料生產過程。

迪亞科尼斯當時並不知道這樣偶然地發現有什麼實際意義。後來,美國西雅圖波音航天局數學家梅爾達德沙沙哈尼在研究用計算機描繪自然景象的問題時,用上了這個結論。美國波音航天局還將這一成果用於飛機模擬器,使飛行員在不離開地面的情況下接受訓練,而能得到一種在空中飛行的實感。首位數問題的結論在科學技術上發揮了重大的作用。

另外在研究該定理在粒子物理與天體物理中的表現時發現,粒子物理中的強子寬度與壽命、脈衝星中的功率與運動等多類物理量均符合Benford分佈;統計物理中的三大正則統計——玻爾茲曼-吉布斯統計、費米-狄拉克統計和玻色-愛因斯坦統計均解析滿足首位數規律。

近期,北京大學的馬伯強教授和叢明舒、李聰喬在Elsevier旗下期刊Physics Letters A上發表了一篇題為“First Digit Law from Laplace Transform”的文章,使用Laplace變換推導並解釋了首位數定理,說明首位數定理並非源於自然界某種神秘的資料生產過程,而是人類發明的進位計數系統的內在屬性,並建議首位數定理作為一個基礎數學知識被科學工作者普遍瞭解。