czwartek, 13 stycznia 2011

Ciekawy przypadek prawa Benforda

Czyli jakie liczby nas otaczają, jak nie podrabiać zeznań podatkowych i co by się stało gdyby ludzie mieli po 8 palców.

Gdy rzucamy kostką, każda z liczb może pojawić się z równym prawdopodobieństwem (zakładając, że nikt ich nie spreparował.)

Prawdopodobieństwo wylosowania określonej liczby oczek w jednym rzucie wynosi 1/6

Okazuje się, że pierwsze cyfry w rzeczywistych zbiorach statystycznych - n.p. w zbiorze kwot domowych rachunków z przeciągu roku - rządzą się zupełnie inną regułą.

W takich przypadkach istnieje znacznie większe prawdopodobieństwo, że pierwszą cyfrą liczby będzie jedynka. Prawdopodobieństwo jest tym mniejsze, im większa cyfra.
Takie zjawisko statystyczne nazwano prawem Benforda.

Im większa cyfra, tym rzadziej pojawia się na wiodącej pozycji
Rozkład Benforda sprawdza się dla danych, które przyjmują różne rzędy wielkości - na przykład w zbiorze potęg dwójki od 2^1 do 2^1000.
Na wykresie przedstawiono częstotliwość występowania pierwszych cyfr w liczbach od 2^1 do 2^1000
Ten artykuł to wolne tłumaczenie posta z bloga Wolfram|Alpha.

Tak nie oszukasz fiskusa
Powyższą zależność możemy zaobserwować w wielu różnych zbiorach, nie tylko w ciągach liczbowych. Prawo Benforda ma jedno bardzo ważne zastosowanie - pozwala wykryć  nieprawidłowości w zbiorach danych, na przykład w zeznaniach podatkowych.

Oszuści podatkowi, strzeżcie się! Fałszerzom może się wydawać że wpisują do zeznania losowe liczby, ale tak naprawdę, na cyfrę wiodącą, często wybierają wyższe cyfry. A jeżeli rozkład cyfr wiodących nie odpowiada oczekiwanemu rozkładowi Benforda, zeznanie może być poddane dokładniejszej kontroli.

Rozkład Benforda przyniósł pecha Jamesowi Nelsonowi, księgowemu Arizona State Treasurer.
Nelson spreparował 23 prawie idealne czeki na kwotę niemal 2 mln dolarów. Niestety nietypowy rozkład pierwszych cyfr naprowadził śledczych na trop przestępstwa.

Spotyka się liczba z liczbą
Wolfram|Alpha dysponuje bilionami bitów danych z najróżniejszych dziedzin. To wprost idealne dane warunki do obserwowania rozkładu Benforda. Weźmy na przykład dane wprowadzane przez użytkowników w calach, sekundach i funtach brytyjskich. Okaże się, że rozkład ich cyfr wiodących do złudzenia przypomina rozkład Benforda.

Rozkład Benforda (zielony), prawdopodobieństwa wystąpienia pierwszych cyfr dla cali (żółty), sekund (pomarańczowy) i funta angielskiego (czerwony).
Źródło: Wolfram|Alpha
Rozkład Benforda charakteryzuje zbiory, w których znajdują się liczby różnych rzędów wielkości. Na wykresie w skali logarytmicznej wyraźnie widać, że w powyższych zbiorach znajdują się zarówno liczby rzędu jedności, jak i milionów.
Procent liczb w zbiorze w zależności od skali wielkości
Źródło: Wolfram|Alpha
Wariacje na temat rozkładu Benforda
Oczywiście nie wszystkie zbiory podlegają prawu Benforda. Sprawdźmy rozkład dla danych wprowadzanych przez użytkowników Wolfram|Alpha w kilogramach i stopach. W tym przypadku odchylenia od rozkładu Benforda mają przyczyny antropologiczne: średni wzrost człowieka mieści się w przedziale 5-6 stóp (150-180 cm), a waga 70-80 kg. Więcej informacji na ten temat można znaleźć na blogu Wolfram|Alpha.
Rozkład Benforda (kolor zielony), prawdopobieństwa wystąpienia pierwszych cyfr zgodnie dla danych w kilogramach (pomarańczowy),  i stopach (czerwony).
A może po osiem?
A gdyby ludzie mieli po 8 czy 12 palców i stosowali sytem inny niż dziesiętny? I tak musieliby mieć się na baczności fałszując zeznania podatkowe. Prawo Benforda można zastosować dla zbiorów liczb wyrażonych w dowolnym systemie liczbowym.

Ot, takie małe ciekawe prawko.

Autorami oryginału w języku angielskim są Michael Trott i Bjorn Zimmermann.

Brak komentarzy:

Prześlij komentarz