對于真實世界中的大部分數據集,首位數是1的數字的數量大約是首位數是9的6.6倍,不同首位數出現的頻率遵從一個對數分布,被稱爲首位數定理。這種首位數分布的非對稱性與直覺相反,在長達一個世紀的時期作爲一個經驗性統計規律存在,尚未被很好解釋。
從前,天文學家在進行天文研究時,經常要使用對數表。本世紀初,有一次天文學家西蒙·纽科姆在查对数表时,偶然发现了这样的现象:对数表开始的几页总要比后面几页磨损得厉害。这说明人们在查对数表时,较多地是使用了以1爲首的那幾頁。于是,紐科姆便産生了這樣一個疑問:首位數是1的自然數在全體自然數中占有多大的比例?它是不是要比首位數是其它數字的自然數要多?人們後來把這個問題稱爲”首位數問題”。
大家可能會認爲這個問題是顯而易見的。因爲除0以外,共有九個數字:1,2,3,4,5,6,7,8,9,用其中任何一個數字開頭的自然數,在全體自然數中的分布是均勻的,機會應該是均等的。也就是說,首位數是1的自然數應該占全體自然數的1/9,但事實並不這麽簡單。
1974年,當時還在美國哈佛大學做研究生,後來是美國斯坦福大學統計學家的珀西·迪亚科尼斯,研究了这个问题,所得到的结论出乎人们的意料,首位数是1的自然數約占全體自然數的1/3.准確一點說,這個數值應該是lg2≈0.30103。
這是怎麽一回事呢?事實上,用不同數字做首位數字,這樣的自然數的分布並不是很均勻的,也不是很規則的。首位數是1的自然數的分布規律是:
1到20之間,這樣的數有11個,它們是1,10,11,12,……,19,所以約占1/2;
1到30之間,這樣的數同樣有11個,所以約占1/3;
1到100之間,這樣的數同樣有11個,所以約占1/9;
1到200之間,這樣的數有111個,它們是1,10,11,……,19,100,101,……,199,所以約占1/2
注意到首位數是1的自然數在以上各區間的個數與這個區間的所有自然數的個數的比值,總是在1/2與1/9之間來回震蕩。迪亞科尼斯經過研究,終于運用高等數學的方法,得出這些比值的合理平均值,它就是上面所講到的lg2。
首位數定理,與其名稱相反,並非是一個嚴格的”定理”,而是一個在絕大部分自然數據集中都存在的經驗統計規律。這個規律由Newcomb S.于1881年首次發現,並由Benford F.于1938年再次獨立提出,所以也被稱爲Benford定理。首位數定理是說,十進制中一個數字的首位數是d(d=1,2,..,9)的概率遵從如下的對數分布,越大的數字出現的概率越低。
簡單地說,一堆從實際生活得出的數據中,以1爲首位數字的數的出現概率約爲總數的三成,接近直覺得出之期望值1/9的3倍。推廣來說,越大的數,以它爲首幾位的數出現的概率就越低。它可用于檢查各種數據是否有造假。
首位數定理的”神秘”性在于,雖然絕大部分自然數據集符合首位數定理,人工僞造的數據集大部分卻不滿足首位數定理,似乎自然界存在某種特殊的數據生産過程。
迪亞科尼斯當時並不知道這樣偶然的發現有什麽實際意義。後來,美國西雅圖波音航天局數學家梅爾達德·沙沙哈尼在研究用计算机描绘自然景象的问题时,用上了这个结论。美国波音航天局还将这一成果用于飞机模拟器,使飞行员在不离开地面的情况下接受训练,而能得到一种在空中飞行的实感。首位数问题的结论在科学技术上发挥了重大的作用。
另外在研究該定理在粒子物理與天體物理中的表現時發現,粒子物理中的強子寬度與壽命、脈沖星中的功率與運動等多類物理量均符合Benford分布;統計物理中的三大正則統計——玻爾茲曼-吉布斯統計、費米-狄拉克統計和玻色-愛因斯坦統計均解析滿足首位數規律。
近期,北京大學的馬伯強教授和叢明舒、李聰喬在Elsevier旗下期刊Physics Letters A上發表了一篇題爲”First Digit Law from Laplace Transform”的文章,使用Laplace變換推導並解釋了首位數定理,說明首位數定理並非源于自然界某種神秘的數據生産過程,而是人類發明的進位計數系統的內在屬性,並建議首位數定理作爲一個基礎數學知識被科學工作者普遍了解。