Hadoop教程:用hadoop計算PI值
一、計算PI值的方式與原理
百度一下,計算PI的方法還真不少。但在hadoop examples代碼中的注釋寫的是:是采用 Quasi-Monte Carlo 算法來估算PI的值。 維基百科中對Quasi-Monte Carlo的描述比較理論,好多難懂的公式。
好在google了一把,找到了斯坦福大學網站上的一篇文章:《通過扔飛鏢也能得出PI的值?》,文章很短,圖文并茂,而且很好理解。
我這里將那篇文章的重要部分截了個圖:

對上面的圖再稍微解釋一下:
- Figure2是Figure1的右上角的部分。
- 向Figure2中投擲飛鏢若干次(一個很大的數目),并且每次都仍在不同的點上。
- 如果投擲的次數非常多,Figure2將被刺得“千瘡百孔”。
- 這時,“投擲在圓里的次數”除以“總投擲次數”,再乘以4,就是PI的值!(具體的推導過程參見原文)
在這個算法中,很重要的一點是:如何做到“隨機地向Figure2投擲”,就是說如何做到Figure2上的每個點被投中的概率相等。
hadoop examples代碼中,使用了Halton sequence保證這一點,關于Halton sequence,大家可以參考維基百科。
我這里再總結一下Halton sequence的作用: 在1乘1的正方形中,產生不重復,并且均勻的點。每個點的橫坐標和縱坐標的值都在0和1之間。 正是這樣,保證了能夠做到“隨機地向Figure2投擲”。
有人總結了一下,這個實際上叫做蒙特卡洛算法,我們取一個單位的正方形(1×1) 里面做一個內切圓(單位圓),則 單位正方形面積 : 內切單位圓面積 = 單位正方形內的飛鏢數 : 內切單位圓內的飛鏢數 ,通過計算飛鏢個數就可以把單位圓面積算出來, 通過面積,在把圓周率計算出來。 注意 ,精度和你投擲的飛鏢次數成正比。
二,運行hadoop估算PI的命令

后面2個數字參數的含義:
- 第1個100指的是要運行100次map任務
- 第2個數字指的是每個map任務,要投擲多少次
2個參數的乘積就是總的投擲次數。
我運行的結果:

三,總結
hadoop的examples中的計算PI的方法屬于是采用大量采樣的統計學方法,還是屬于數據密集型的工作。
怎計算PI的精確值?
作單位圓,再作其內接正N邊形(N為2的正整數次方)先計算其內接正N邊形周長,可用公式C=N*2R*sin(180/N)計算,其中R為單位圓半徑1。sin(180/N)可以連用N次半角公式計算(因為N為2的正整數次方)最后用C/2便可得出圓周率的近似值(因為N可以無限大的取值,所以我們可以無限接近圓周率)
Hadoop做什計算合適?
主要針對大塊的數據文件,最好是數據規模上G、T級別的,hadoop把大塊數據進行切割并進行分布式存儲,對小塊數據由于系統開銷等原因處理速度并不一定比單個串行程序明顯。此外,hadoop的mapreduce計算模型通過map任務會產生中間結果文件,reduce任務在處理這些中間結果文件形成最終結果文件并輸出。
由 于中間結果文件是存儲在各個分布式計算節點本地內存或磁盤上的,如果計算產生的中間結果文件非常巨大,reduce過程需要通過遠程過程調用來取得這些中 間結果文件,會加大網絡傳輸的開銷,則不適合采用hadoop處理。所以對于是否何時采用hadoop來處理數據,上面講的兩點是必須考慮的問題,對于大規模數據的統計分析,例如求期望方差、或者對海量數據的分布式查詢適合用hadoop來做。呵呵~~不知是否解答清楚了你的問題。
轉載請注明出處://www.ming-yue.cn/hadoop-pi