Benford törvénye

A Benford-törvény , amelyet Benford eredetileg Act-kóros számoknak nevezett , a valós életben számos adatforráson empirikusan megfigyelt statisztikai gyakorisági eloszlásra , valamint a matematikára utal .

A numerikus adatok sorozatában azt várhatnánk, hogy az 1–9 számjegyek körülbelül olyan gyakran jelennek meg, mint az első jelentős számjegyek, 1/9 = 11,1% gyakorisággal . Ellentétben azonban ezt az intuíciót ( equiprobability torzítás ), a sorozat nagyon gyakran követi mintegy Benford-törvény: közel egy harmadát az adatok, a 1 st  leggyakoribb jelentős számú 1. Ezután jön a 2-es szám, akkor a 3.,  stb , és annak valószínűsége, hogy 9-es szám legyen az első jelentős számjegy, csak 4,6%. Ez egy olyan törvény, amelyet a társadalmi matematikában, vagyis a humán- és társadalomtudományokban is megfigyelnek , mint például a számértékek táblázataiban, például a fizikában , a vulkanológiában , a genetikában , a BTP-ben , a gazdaságban (csere) arány), vagy akár a címjegyzékének utcaszámain.

Törvénynyilatkozat

A decimális írásban szereplő valós számok sora követi Benford törvényét, ha az első c jelentős számjegy előfordulási gyakorisága hozzávetőleges

bármely 1 és 9 közötti c esetén ahol a tizedes logaritmust jelöli .

Ellenőrizzük, hogy e frekvenciák összege megegyezik- e log (10) = 1-vel .

Például annak a valószínűsége, hogy egy szám 1-gyel kezdődik, például 1012 vagy 0,000189, log (2) ≈ 30,1% , lásd az OEIS A007524 folytatását .

Az első számjegy elvárása ekkor megéri , messze az egységes törvény által megadott 5-től.

Ez a meghatározás általánosítható írásához számok bázis b helyett napló által log b  ; például :

Történelmi

Ez a megoszlás először figyelték meg a 1881 az amerikai csillagász Simon Newcomb , egy cikket a American Journal of Mathematics , miután észrevette, hogy a kedvezményes kopás (és ezért a) az első oldalakon a logaritmus táblázatok (majd összeállítani a könyvet). Ez a Newcomb cikk ötvenhét éven át teljesen észrevétlen maradt. Frank Benford , 1938 körül , észrevette ezt az egyenetlen kopást, amelyről úgy gondolják, hogy elsőként fogalmazta meg ezt a törvényt, amely Stigler törvényének megfelelően ma indokolatlanul viseli a nevét, és ugyanazokkal az eredményekkel érkezik, miután több tízezer embert sorolt ​​fel. adatok (folyók hossza, tőzsdei árak stb.).

Frekvenciaértékek

Első példák és ellenpéldák

Benford törvénye nem érvényes, ha véletlenszerűen szigorúan pozitív egész számokat rajzolunk, legfeljebb n számjeggyel; valóban annyi van, hogy 1-gyel, 2-vel, ... vagy 9-el kezdődik, vagyis .

Másrészt, a listán a 100 számot kapunk termékek két vagy több számot véletlenszerűen kiválasztani 1 és 10000, a frekvenciák a számjegyek 1-től 9 az első helyzetben nyomon több vagy kevesebb értékeit Benford-törvény . Egy szimuláció a következő frekvenciákat adja:

26%, 23%, 12%, 11%, 6%, 6%, 7%, 5%, 4%, összehasonlítva a Benford törvénye szerint várható értékekkel:

30%, 18%, 12%, 10%, 8%, 7%, 6%, 5%, 4%.

A való életben gyakran láthatjuk a valószínűségek csökkenését az első számjegy szerint, vagy akár megfelelőséget a Benford-törvény értékeivel: földrajzi adatok, fizikai adatok, sporteredmények, a számítógépre mentett fájlok mérete stb.

Például a Mickaël Launay 2019-ben 1226 árat jegyzett fel egy szupermarketben, és az első számjegyek egymást követő frekvenciájaként 1 és 9 között kapott: 32%, 26%, 15%, 9%, 5%, 4%, 3%, 2 %, 4%.

Másrészt ezt a törvényt nem ellenőrzik, ha az adatsor a következőket tartalmazza:

Benford folytonos törvénye és a logaritmus törtrészének egységessége

A mantissza egy igazi lény úgy definiáljuk, mint az intervallum nyert azáltal, hogy a vessző után az első jelentős számjegy (például a mantissza a 0,00125 1,25), mi adjuk a következő meghatározást, általánosítva az előzőt, és látható való élet.

Definíció  : A valós számok tizedesírásban követik a Benford-törvényt, ha továbbra is beletartozik , akkor megéri azoknak a soroknak a gyakorisága, amelyeknek a mantisza tartozik .

A sorozat első számjegyei ekkor követik Benford egyszerű törvényét, mivel a valóság első számjegye megegyezik azzal, ha a mantissza tartozik , és akkor a megfelelő valószínűség érvényes .

Most, a mantissza a kapjuk a következő képlettel: ahol jelöli a törtrész, a mantissza a tartozik , ha, és csak akkor, ha tartozik  ;ekkor megkapjuk Diaconis tételét:

Tétel  -  A decimális írásban szereplő valós számok sora követi Benford folytonos törvényét (tehát egyszerű Benford-törvényt is) csak akkor, ha a feltételeinek logaritmusainak tört részei egyenletesen oszlanak el [0,1] -en (vagy pontosabban kifejezve) , ha tagjai logaritmusai egyenlően oszlanak el modulo 1).

Valójában ebben az általánosabb formában, a logaritmikus mantissával együtt , mondta Benford törvényét először Newcomb.

Mindez természetesen bármilyen adatbázisra általánosítható.

Az elsőt követő számjegyek esete

K számjegyű blokk törvénye

Segítségével Benford bázis vagy folyamatos Benford-törvény, megkapjuk, hogy a valószínűsége benfordienne tizedes írás egy igazi számmal kezdődik a számok és a következő: .

Például annak a valószínűsége, hogy egy szám 314-gyel kezdődik, például 3,14159 ..., 314285,7 ... vagy 0,00314465 ... (itt, és ).

Ezt a meghatározást általánosítjuk a számok bázisba történő írásához, helyettesítve ezzel  :; például :

Az elsőt követő számjegyek törvénye

Ez az eredmény lehetővé teszi annak a benfordi valószínűségnek a megállapítását, hogy egy számjegy egy szám adott helyzetében van. Például a benfordi valószínűség, hogy az ember találkozik a második pozícióval:

Általánosabban a benfordi valószínűség, hogy a szám helyzetben van, megéri:

Ne feledje, hogy ennek a valószínűségnek a törvénye gyorsan megközelíti az egységes törvényt, amelynek értéke a tíz számjegy mindegyikéhez 10%, amint az alább látható.

ábra 0 1 2 3 4 5. 6. 7 8. 9.
1. sz NC 30,1% 17,6% 12,5% 9,7% 7,9% 6,7% 5,8% 5,1% 4,6%
2 nd 12,0% 11,4% 10,9% 10,4% 10,0% 9,7% 9,3% 9,0% 8,8% 8,5%
3 rd 10,2% 10,1% 10,1% 10,1% 10,0% 10,0% 9,9% 9,9% 9,9% 9,8%

Feltételezhetjük, hogy a negyedik számjegy eloszlása ​​egyenletes, mert a "0" az idő 10,0176% -ában jelenik meg a negyedik pozícióban, a "9" pedig az idő 9,9824% -ában jelenik meg.

Ez az eredmény bármilyen alapra általánosítható. A Benfordian valószínűsége, hogy a számjegy helyzetben van egy szám bázis értéke:

.

Kapcsolat Zipf törvényével

Ami nagy, Benford törvénye, amely szerint a szám megjelenik első blokkként, megközelítő Zipf-törvénynek tekinthető .

Ezzel szemben, ha szerinti zipf-eloszlás , tulajdonítunk a súlyt , hogy a egész szám , és meghatározzák a sűrűsége egy része az , mint a határérték, ha tart végtelenbe, ha létezik, a , akkor a sűrűsége l „egész számok> 0 kezdődő a tizedes írás előtag érvényes .

Alkalmazások

Az adócsalás felderítése

Hal Varian közgazdász 1972-ben megjelent cikkében felvetette azt az ötletet, hogy Benford törvényét alkalmazzák az adókijátszás felderítésére. Az első jelentős 5. és 6. számjegy egyértelműen túlsúlyban van a hamisított adatokban: az 5-ösnél 40%, a 6-nál pedig több mint 20%.

A tőzsdeindex- előrejelzési modell javaslatához konzisztencia- tesztet is be kell illeszteni , mivel Benford törvénye nem tesz különbséget a 20 és 200 000 közötti számok között: ennek a két számnak az első jelentős számjegye a 2.

A számokat azonban befolyásolhatja az adóküszöbök és felső határok elkerülésére irányuló vágy is, az adóoptimalizálás összefüggésében , ami nem törvényellenes.

Számviteli csalások felderítése

Egy 2011-ben megjelent tanulmányban négy német közgazdász, Bernhard Rauch, Max Göttsche, Gernot Brähler és Stefan Engel tesztelte Benford törvényét az Európai Unió tagállamai által készített számviteli adatokról . Megmutatják, hogy Görögország az az európai ország, amely a legjobban eltér a benfordi törvény jóslataitól. A Belgium a második ország, amely eltér a legtöbb tekintetében ez a jogszabály.

Választási csalások felderítése

A választási csalások rávilágítására Benford törvényét is alkalmazták . A Genf kanton a svájci használta, hogy észleljék az esetleges szabálytalanságok a kanton szavazatok.

Három politológus publikált egy tanulmányt, amely szimulációk alapján kimutatta, hogy a csalások azonosítása a benfordi törvény fit tesztjével problematikus volt, és nem adott jó eredményeket a szimulált adatokra vonatkozóan.

Tudományos csalások felderítése

Benford törvényét a hamis adatok tudományos cikkekben történő felderítésére is alkalmazták.

Magyarázatok

Skála változatlansága

Az empirikus megfigyelések azt mutatták, hogy a Benford törvényét követõ fizikai mérõkészletek más egységekre való átszámításukat követõen (a hosszúságok, hasonlóan az adott pénznemben kifejezett árlistákhoz, mottóváltás után is). Másrészt észrevették, hogy ha egy számtábla nem eléggé követi Benford törvényét, akkor a pénznemek megváltoztatása vagy az egységek átváltása jelentősen módosítja az első számjegy megjelenési gyakoriságát.

Bemutattuk a következő tételt, amelyet "skála-invarianciának" nevezünk: az első számjegy valószínűségének egyetlen törvénye, amely változatlan marad 0 és> 0 állandó szorzattal, Benford törvénye; egy ilyen törvényt skálának hívnak . Tehát a relevancia a multiplikatív különbségek megfigyeléséből áll, és "bármely adatlistán azonos számarányt találunk 1 és 2 között, mint 2 és 4 között, vagy 4 és 8 között" .

Ez a feltételezés sok számkészlet és különösen azok esetében, amelyeknek nincs nagyságrendje, például a társaság forgalma és a részvényárfolyamok, ésszerű.

Donald Knuth bemutatja ezt a tulajdonságot A számítógépes programozás művészete 2. kötetében , Szeminumerikus algoritmusok címmel . Ezt a demonstrációt Knuth idézése nélkül mások is megtartották.

Demonstráció

Ez lényegében a Knuth által bemutatott tüntetés, amelyet elvontabban és talán kevésbé hozzáférhető módon mutatunk be.

Válasszon egy pozitív valós számot, amely az I intervallumhoz tartozik .

Annak decimális írásban törekszünk a valószínűsége az első nem nulla számjegy, függetlenül bármely más jellemző.

Ez megfelel a keresést egy intézkedés m a forgatáson I , feltételezzük, hogy mérhető, a következőkkel:

  1. stb.

Feltételezzük, hogy I az [1; 10 [ intervallum szorzataiként konstruálódik [ a i > 0 valós számokkal  ; azaz: I = ∪ egy i × [1; 10 [ az a i > 0 . Tehát a szigorúan pozitív realok multiplikatív csoportjában dolgozunk (mert ennek a csoportnak a topológiája épül fel).

A szigorúan pozitív realok halmaza azzal a feltétellel, hogy a szorzás elválasztható és lokálisan kompakt topológiai csoport , egyetlen és egyetlen mérték létezik (a szorzási együttható kivételével), amely a csoporttörvény által invariáns: a csoport Haar-mértéke .

Ez a mérés m = d x ⁄ x .

Vegyük I = [1; 10 [ , van:

És van:

Mivel az intézkedés m invariáns a terméket, azáltal I = ∪ egy i × [1; 10 [ a , eljutunk a ugyanazt az eredményt.

A számrendszer változásakor a Benford-törvény is változatlan.

Független változók szorzata

1994-ben Jeff Boyle kimutatta, hogy ha egy változó eredményeként nagyszámú független változó szorozódik egymás között, akkor az nagyjából követi Benford törvényét (pontosan a határértéknél). Más szavakkal, Benford törvénye természetes lenne, ha az a sok tényező, amely megmagyarázza az ilyen és ilyen mennyiséget, többszörösen hat.

Ez az eredmény a nagy számok törvényének logaritmikus megfelelője .

A törtrész kiegyenlítése

2008-ban Nicolas Gauvrit és Jean-Paul Delahaye magyarázatot adott Benford törvényére azáltal, hogy statisztikai sorozatban felhasználta a számok logaritmusainak tört részének elterjedését és szabályos jellegét.

Különösen Diaconis tételét használják .

Azt javasolják továbbá, hogy ennek a törvénynek a logaritmuson kívüli más funkciókon alapuló megfelelője ugyanolyan jól működjön, de kevésbé egyszerű törvényeket adna, mint Benfordé.

Példák végtelen szekvenciákra, amelyek kielégítik vagy nem felelnek meg Benford törvényének

Meghatározás szerint a realok sorozata alapon ellenőrzi a Benford-törvényt, ha megéri annak a szekvenciának a határfrekvenciája, amelynek a bázisba írása (a vessző figyelembevétele nélkül) a számmal kezdődik .

Pontosabban, ha megjegyezzük a szekvencia értékhalmazát és a valós számok halmazát, amelynek alapírása a számmal kezdődik , ez azt jelenti .

Egész számára szekvenciát, ez egyenértékű az a tény, hogy a relatív aszimptotikus sűrűsége az itt létezik.

Ismert lakosztályok a törvény ellenőrzéséhez

A következő szekvenciák esetében a szekvencia egyenletesen oszlik el modulo 1-vel, ami azt bizonyítja, hogy követik Benford törvényét a b alapban (lásd fent):

Ne feledje, hogy az a tény, hogy ezek a szekvenciák követik Benford törvényét, azt bizonyítja, hogy az a szám, amelynek vessző utáni tágulása a szekvencia elemeinek összefűzésével jön létre, univerzumszám . Például a 2 hatványaihoz megkapjuk a számegyetemet .

Lakosztályok, amelyekről nem tudjuk ellenőrizni ezt a törvényt

Bizonyítjuk, hogy ha egy sorozat megfelel Benford törvényének, akkor a sorrend nem javított. A következő ellenpéldákat vezettük le ezekből:

Ezen szekvenciák egy része azonban a következő értelemben gyengített Benford-törvényt követ:

Egész számok folytatása

Ehhez a sorrendhez a b alap első c számjegyének frekvenciái folyamatosan oszcillálnak a két érték között:

és

(1/9 és 5/9 például a 10. alap 1. számához lásd az aszimptotikus sűrűségű demonstrációt ).

Megjegyezzük, hogy ezek az értékek fordítottan arányosan csökkennek a c és c +1 értékekkel .

Sőt, egymást követő Caesaro-átlagok elvégzésével a Benford-törvény értékeit valóban a határértékig érik el.

És mint láttuk, a logaritmikus sűrűsége a valóban egyenlő .

Prímszámok sorozata

Szintén ennél a szekvenciánál az első számjegyek frekvenciái nem konvergálnak, de a prímszámok relatív logaritmikus sűrűsége valóban megegyezik .

Példák a 0 és 1 közötti egységes változókból származó változók első számjegyű törvényeire

Megjegyzések és hivatkozások

  1. (in) Frank Benford "A törvény rendhagyó számok", Proceedings of the American Philosophical Society , Vol. 78, 1938, p.  551-572 .
  2. Ian Stewart , "1 valószínűbb, mint 9", For For Science, 190., 96. o. és A számok univerzuma című részben , Belin, 2000, p.  59 .
  3. (in) A. Geyer és Joan Marti, "  alkalmazása Benford-törvény, hogy Volcanology  " on www.researchgate.net ,2011(megtekintés : 2020. szeptember 17. )
  4. (in) James L. atya Terrance Goldman és Juan Perez-Mercader "  genom mérete és a Benford forgalmazás  " az amerikai National Library of gyógyszer- National Institutes of Health ,2012(megtekintés : 2020. szeptember 17. )
  5. (in) Ted Hill  (in) , "  az első jelentős számjegy az ő törvénye  " , kutatás , n o  316.,1999. január, P.  73 ( online olvasható ).
  6. Mickaël Launay, Az esernyő tétel , Flammarion,2019. október, P.  13.
  7. (in) P. Diaconis, "  A vezető számjegyek eloszlása ​​és az egyenletes eloszlás mod"  " , Annals of Probability 5 ,1977, P.  72-81
  8. (in) S. Newcomb, "  Megjegyzés a különböző számjegyek természetes számokban történő használatának gyakoriságáról  " , American Journal of Mathematics 4 ,1881, P.  39–40.
  9. Theodore P. Hill , "A szignifikáns számjegyű jelenség", The American Mathematical Monthly, Vol. 102. szám, 4. szám (1995. április), p.  322-327 . Hivatalos internetes link (előfizetés szükséges) . Alternatív, ingyenes internetes link .
  10. „  Benford törvénye  ” , a www.mathpages.com címen (hozzáférés : 2020. december 24. )
  11. J. P. Delahaye, "Az  egész szám nem egyenlő  ", Pour la Science 421 ,2012. november, P.  84 ( online olvasás )
  12. (in) Hal Varian , "  Benford törvénye  " , The American Statistician , vol.  26, n o  3,1972. június, P.  65–66 ( online olvasás , konzultáció 2011. október 27-én ).
  13. Hill 1999 , p.  75.
  14. (in) Bernhard Rauch Max Göttsche Gernot Brähler és Stefan Engel , "  Tény és fikció az EU-kormányzati gazdasági adatokban  " , német gazdasági áttekintés  (in) , vol.  12, n o  3,2011. augusztus, P.  243–255 ( online olvasás , konzultáció 2011. október 27-én ).
  15. "  Egy közgazdász gyanúsítja Belgiumot számláinak meghamisításával  ", Le Soir ,2011. október 25( online olvasás ).
  16. "A  statisztikusok felderítik a választási csalásokat  ", Le Temps ,2013. február 28( ISSN  1423-3967 , online olvasás , hozzáférés : 2020. július 19. )
  17. Csalás felderítési tesztek a 2013. március 3-i szavazáshoz, a genfi ​​kantoni államkancellária, 2013. április 24.
  18. . (en-USA) Joseph Deckert , Mihail Myagkov és Peter Ordeshook , „  Benford törvénye és a választási csalások felderítése  ” , Politikai elemzés , vol.  19, n o  3,2011, P.  245-268 ( online olvasás , konzultáció 2012. január 13-án ).
  19. Nicolas Gauvrit és Jean-Paul Delahaye : "  Miért nem titokzatos Benford törvénye  ", Matematika és Humán Tudományok , n o  182,2008 nyara, P.  7–15 ( online olvasás , konzultáció 2012. január 13-án ).
  20. Nicolas Gauvrit, véletlenül mondtad? A matematika és a pszichológia között Éditions Belin,2009( online olvasható ) , p.  29.
  21. (in) T. HILL, "Az  alap-változatlanság implikálja a Benford-törvényt  " , Proc. Amerikai Matematikai Társaság, 123. cikk (2) bekezdés ,1995, P.  887-895
  22. Michel Launay, op. cit. , 47. o
  23. (in) L. Pietronero, E. Tosatti, V. Tosatti, A. Vespignani, "  A számok egyenetlen eloszlásának magyarázata a természetben: Benford és Zipf törvényei  " , Physica A: Statisztikai mechanika és alkalmazásai , vol.  293, n csont  1-2,2001, P.  297-304 ( DOI  10.1016 / S0378-4371 (00) 00633-6 ).
  24. (in) Theodore P. Hill, "  Base invariancia utal: Benford-törvény  " , Proc. Keserű. Math. Soc. , vol.  123,1995, P.  887-895 ( online olvasás ).
  25. Benford törvénye .
  26. (a) J. Boyle, "  An alkalmazása Fourier sorozat, hogy a legjelentősebb Digit Probléma  " , Amer. Math. Havi , vol.  101,1994, P.  879-886.
  27. Nicolas Gauvrit, Jean-Paul Delahaye, „  Benford tábornok törvénye  ”, Math. & Sci. hum., n o  186 ,2009, P.  5-15 ( online olvasható )
  28. "A távolságok leggyakrabban az 1-es számmal kezdődnek", Science et Vie , 2010. augusztus, p.  61 .
  29. Ralph Raimi. Raimi, „  The First Digit Problem  ”, American Mathematical Monthly , 1. évf.  83, n o  7,1976, P.  521–538 ( DOI  10.2307 / 2319349 , JSTOR  2319349 )
  30. (in) Arnold, VA, Do, A., Ergodikus problémák a klasszikus mechanika. , Benjamin,1968
  31. következménye a equidistribution tétel
  32. Washington, „  Benford törvénye Fibonaccihoz és Lucas Numbershez  ”, The Fibonacci Quarterly , Vol.  19, n o  2tizenkilenc nyolcvan egy, P.  175–177
  33. Duncan, „  Az egységes terjesztés alkalmazása a Fibonacci-számokra  ”, The Fibonacci Quarterly , vol.  5,1967, P.  137–140
  34. Sarkar, „  Megfigyelés a binomiális együtthatók és tényezők jelentős számjegyeiről  ”, Sankhya B , vol.  35,1973, P.  363-364
  35. (en) Peter N. Posch, „  Felmérés az első számjegyű törvényt kielégítő szekvenciákról és elosztási funkciókról.  » , Statisztikai és Menedzsment Rendszerek Lapja, 11. évfolyam ,2008( online olvasás )
  36. (in) BJ Flehinger, Annak a valószínűségéről, hogy egy véletlenszerű egész kezdő számjegy van:  " , Amer. Math. Havi 73. ,1966, P.  1056—1061
  37. Flehinger eredményét bemutatja Knuth ( The Art of Computer Programming , Vol. 2. Addison-Wesley Publishing Company, 1981) könyve .
  38. A. Fuchs és G. Letta, „  A prímszámok első tizedesjegyének problémája  ”, The Foata Festschrift. Electron, J. Combin. 3, n ° 2 ,1996( online olvasás )
  39. Benford törvénye vonatkozik-e a prímekre? https://primes.utm.edu/notes/faq/BenfordsLaw.html
  40. (in) RE Whitney, "  Initial Digits for the Sequence Primes  " , American Mathematical Monthly, 1. évf. 79, 2. sz. ,1972. február, P.  150-152 ( online olvasás )

Lásd is

Bibliográfia

Külső linkek