小編整理: 標準差(Standard Deviation)是一種描述數據的離散程度的統計量,表示數據集合中每個(gè)數值與數據集平均值的偏離程度,越大表示該數據集合整體的離散程度越大,越小表示數據集合整體的離散程度越小,19世紀末由
英國 統計學(xué)家卡爾·皮爾遜(Karl Pearson)首先提出,其算術(shù)平方根稱(chēng)為標準差。
標準差 標準差正態(tài)函數
標準差(Standard Deviation)是一種描述數據的離散程度的統計量。 標準差表示數據集合中每個(gè)數值與數據集平均值的偏離程度,越大表示該數據集合整體的離散程度越大,越小表示數據集合整體的離散程度越小,19世紀末,由英國統計學(xué)家 卡爾·皮爾遜 (Karl Pearson)首先提出。
歷史 標準差是由英國統計學(xué)家卡爾·皮爾遜在19世紀末首先提出來(lái)的,當時(shí),人們通過(guò)求解方差已經(jīng)可以很好地描述數據分布的離散程度,但是方差最后獲得的值是平方單位的,不利于人們對其進(jìn)行直觀(guān)的理解和比較。而標準差的出現,正是為了解決這個(gè)問(wèn)題。 它是方差的平方根,具有良好的可解釋性和可比性,更容易被人們直觀(guān)地理解和應用。因此,到了 20世紀初,標準差很快被廣泛地應用于數據分析 、統計學(xué)、概率論以及各種相關(guān)領(lǐng)域。 標準差的出現和統計學(xué)的發(fā)展密不可分。在現代經(jīng)濟和科學(xué)技術(shù)領(lǐng)域中,數據量已經(jīng)變得非常龐大,要想對這些數據進(jìn)行有意義的分析和應用,需要借助統計學(xué)的工具和方法。標準差作為一個(gè)重要的統計量,可以幫助 人們更好地描述數據分布的離散程度和數據點(diǎn)之間的差異性,對數據分析和決策具有重要的參考作用。
相關(guān)概念
方差 標準差是方差的正平方根,即有:
其中,s表示標準差,Var表示方差。方差和標準差存在一種簡(jiǎn)單的互相轉化的關(guān)系,這種關(guān)系表示了數據分散程度的兩種不同表現方式,我們在實(shí)際應用中更常用標準差而不是方差,因為標準差具有與原始數據相同的物理單位,它更容易解釋和理解。
總體標準差 總體標準差是指總體數據分布中所有數據點(diǎn)與其平均值(或總體參數)之間的差距的平均值的平方根。 與樣本標準差不同,總體標準差是基于整個(gè)總體的所有數據進(jìn)行計算的,包括已知和未知的數據。如果我們有總體的全部數據,我們可以用全樣本計算總體標準差,而如果我們只有一個(gè)樣本,就需要通過(guò)樣本標準差來(lái)估計總體標準差。
總體標準差是衡量總體數據分布的離散度的一種重要指標,在統計分析、財務(wù)分析、商業(yè)決策、品質(zhì)控制以及市場(chǎng)調查等領(lǐng)域廣泛應用。例如,在市場(chǎng)調研中,研究人員可以使用總體標準差在整個(gè)市場(chǎng)中衡量某種產(chǎn)品或服務(wù)的消費者需求的波動(dòng)程度,以制定 更好的市場(chǎng)營(yíng)銷(xiāo)策略。在財務(wù)分析中,總體標準差可用于評估一家公司股票的波動(dòng)程度和風(fēng)險率,幫助投資者制定更好的投資策略。 其中, 是所有數據與總體參數(平均值)的差距的平方之和,N 是總體數據的數目。 總體標準差通常與樣本標準差一起使用。如果我們有總體的全部數據,我們可以用總體標準差來(lái)描述數據的分布情況。如果我們只有一個(gè)樣本數據,我們需要用樣本標準差來(lái)估計總體標準差。在數據分析和統計學(xué)中,總體標準差的準確度和估計誤差對于數據分析和結論推斷具有很重要的影響。
樣本標準差和總體標準差的區別在于它們基于不同的樣本或總體。樣本標準差是基于樣本數據計算的標準差,而總體標準差是基于總體數據計算的標準差。
在統計中,由于總體標準差很難計算,通常使用樣本標準差來(lái)估計總體標準差。這個(gè)過(guò)程是基于 大數定律 的原理,即隨著(zhù)樣本量的增加,樣本標準差越來(lái)越接近總體標準差。 一般來(lái)說(shuō),樣本標準差可以代替總體標準差進(jìn)行推斷和分析,但需要滿(mǎn)足一定的前提條件,如總體必須符合正態(tài)分布、樣本容量要足夠大等。在使用樣本標準差代替總體標準差時(shí),需要注意樣本量的選擇 和樣本的代表性,以確保估計的準確性。
單次測量標準差 單次測量標準差是一種用于衡量單次測量誤差的統計量。它評估單次測量的變異性,而不考慮多次測量的變異性。單次測量標準差越小,表示單次測量的精度越高。
在實(shí)際測量中,很難避免存在誤差。單次測量標準差可以用來(lái)衡量一個(gè)測量值與其平均值的差異,以評估測量結果的精度和準確性。較小的單次測量標準差表明單次測量誤差較小,結果較準確。
單次測量標準差的計算公式如下:
其中,s是單次測量標準差, 是第i次的測量值,x是測量值的平均值,n是測量次數。
均方根誤差 均方根誤差是統計學(xué)中用于衡量預測值與實(shí)際值之間誤差的一個(gè)指標,也是模型擬合度和預測準確性的一種度量。它是所有誤差的平方平均值(MSE)的平方根。
均方根誤差經(jīng)常被用來(lái)比較不同模型預測結果的準確程度,以選擇最好的預測模型。均方根誤差越小,表明預測模型的擬合度越好,預測結果越準確。
均方根誤差的計算公式如下:
均方差 均方差是指樣本數據集中 每個(gè)數據點(diǎn)與真實(shí)值的誤差平方的平均數。均方差通常用于評估預測模型的精度和準確性,也可在回歸問(wèn)題中用作損失函數。 均方差的公式如下:
其中,n是樣本數量, 是樣本中第 i個(gè)數據點(diǎn)的真實(shí)值, 是使用模型預測的第i個(gè)數據點(diǎn)的值。 MSE 值越小,表示模型的預測結果越接近真實(shí)值,表示模型的精度和準確性越高。相反,MSE 值越大,則意味著(zhù)模型的預測結果與真實(shí)值之間的誤差越大。
標準誤差 是某一統計量(如樣本均值、樣本均值之差、樣本比例、相關(guān)系數等)抽樣分布的標準。標準誤差用于衡量樣本統計量的離散程度,在參數估計和假設檢驗中,它是用于衡量樣本統計量與總體參數之間差距的重要尺度。在實(shí)際應用中,標準誤差往往是根據樣本數據計算來(lái)的,根據樣本數據計算的標準誤差實(shí)際上是 估計標準誤差 (在用統計軟件 計算時(shí)給出的都是估計標準誤差)。常見(jiàn)的標準誤差有樣本均值的標準誤差、樣本比例的標準誤差、樣本相關(guān)系數的標準誤差、線(xiàn)性回歸方程斜率及截距的標準誤差、回歸估計的標準誤差等,與標準差的關(guān)系為: 。
標準差性質(zhì)
非負性 標準差的非負性指標準差的值始終為非負數,即標準差不可能為負數。因為標準差是一個(gè)衡量數據分散程度的統計量,它是平均值和每個(gè)數據點(diǎn)之間的差的平方的平均值的平方根。平方根的結果始終為非負數,所以標準差也始終為非負數。
可加性 標準差的可加性是指在滿(mǎn)足一定條件下,兩個(gè)或多個(gè)相互獨立隨機變量的標準差可以相加。如果有多個(gè)隨機變量,例如X、Y、Z等,它們各自具有自己的標準差 ,想要計算它們的總體標準差s,則可以使用以下公式: 也就是將每個(gè)隨機變量的標準差平方相加,然后再將其和 開(kāi)平方 即可得到總體標準差。這個(gè)公式可以推廣到任意數量的隨機變量上,而且不管這些隨機變量之間是否存在相關(guān)性,都可以使用這個(gè)公式計算它們的總體標準差。
標準差及正態(tài)分布 標準差的正態(tài)分布是指,對于一個(gè)服從正態(tài)分布的隨機變量,其標準差的取值也服從一個(gè)正態(tài)分布。正態(tài)分布是由它的平均數u和標準差唯一決定的常把它記為 ,即標準差 條件下的正態(tài)分布記為 從形態(tài)上看,正態(tài)分布是一條單峰、對稱(chēng)鐘形的曲線(xiàn),其對稱(chēng)軸為 ,并在 時(shí)取最大值從 點(diǎn)開(kāi)始,曲線(xiàn)向正負兩個(gè)方向遞減延伸,不斷逼近x軸但永不與x軸相交因此說(shuō)曲線(xiàn)在正負兩個(gè)方向都是以x軸為漸近線(xiàn)的。 通過(guò)以下三組正態(tài)分布的曲線(xiàn),可知正態(tài)曲線(xiàn)具有兩頭低、中間高、左右對稱(chēng)的基本特征。
常數的標準差 假設X是隨機變量,數學(xué)期望 E(X)存在,并且定義 也存在,則稱(chēng)之為X的方差,記作 ,即 稱(chēng)為隨機變量X的標準差。
乘積的標準差 已知隨機變量X1均值和方差分別為a、b,X2的均值和方差分別為c、d,那么 的方差是: 即其標準差為
基本計算 標準差的數學(xué)理解是對數據的離散程度的度量,它是每個(gè)數據值與平均值的偏差的 平方平均數 的平方根。 如果數據的標準差較小,則表示這些數據非常接近平均值,數據的離散程度較小,而數據的標準差較大,則表示這些數據相對分散,數據的離散程度較大。 用公式表示是:
技算步驟 標準差的基本計算步驟主要分為以下五步 :
計算數據的平均值,即將所有數據之和除以數據的個(gè)數,得到一個(gè)數值,記為 。 計算每個(gè)數據值與平均值的差,即將每個(gè)數據減去平均值 ,得到一組差值。 計算每個(gè)差值的平方,即將每個(gè)差值的絕對值平方,得到一組平方值。
計算所有平方值的平均數,即將所有平方值之和除以樣本數量,得到一個(gè)數值記為 。 求出標準差,即將 取平方根,得到一個(gè)數值記為 。
實(shí)例 假設我們有10名學(xué)生在一份考試中的得分如下:[75, 80, 60, 90, 95, 70, 85, 85, 90, 65]
第一步計算平均值: =(75 + 80 + 60 + 90 + 95 + 70 + 85 + 85 + 90 + 65) / 10 = 80 第二步計算每位學(xué)生得分和平均值之間的差值:
75 - 80 = -5
80 - 80 = 0
60 - 80 = -20
90 - 80 = 10
95 - 80 = 15
70 - 80 = -10
85 - 80 = 5
85 - 80 = 5
90 - 80 = 10
65 - 80 = -15
第三步計算每個(gè)差值的平方值:
(-5)2 = 25
02 = 0
(-20)2 = 400
102 = 100
152 = 225
(-10)2 = 100
52 = 25
52 = 25
102 = 100
(-15)2 = 225
第四步計算平方求和,將所有差值的平方值相加:
25 + 0 + 400 + 100 + 225 + 100 + 25 + 25 + 100 + 225 = 1250
第五步計算方差:
最后計算標準差:
這組數據的標準差為11.18。 這說(shuō)明學(xué)生得分在平均分附近波動(dòng)很大,差異較大,不能僅僅看平均數來(lái)評價(jià)學(xué)生的水平,而需要綜合考慮標準差進(jìn)行分析。
應用范圍
經(jīng)濟學(xué) 在經(jīng)濟金融領(lǐng)域,標準差可以用于衡量經(jīng)濟金融數據的波動(dòng)程度和風(fēng)險程度。
股票投資 標準差在股票投資中扮演了非常重要的角色。投資者可以計算一只股票或組合股票的標準差來(lái)度量它們的風(fēng)險程度。一般來(lái)說(shuō),標準差越大,相對風(fēng)險程度也越高,因此能夠幫助投資者評估其投資組合的風(fēng)險度,以及在風(fēng)險和回報之間做出權衡。
證券組合 標準差也可以用于評估證券組合的風(fēng)險水平。投資者可以計算證券組合的 平均收益率 和標準差,以評估該組合的價(jià)值和風(fēng)險程度。投資者可以通過(guò)調整組合中各種資產(chǎn)的權重,來(lái)控制組合的風(fēng)險和回報之間的平衡關(guān)系。
期權和期貨交易 標準差在期權和期貨交易中也是非常重要的一個(gè)統計指標。在期權和期貨交易中,投資者需要評估市場(chǎng)波動(dòng)率和價(jià)格風(fēng)險,以便采取相應的對沖策略。標準差可以幫助投資者計算期權和期貨的隱含波動(dòng)率,幫助他們更好地控制交易風(fēng)險。
貨幣匯率 標準差還可以用于貨幣交易和匯率變動(dòng)的分析。投資者可以計算匯率的標準差來(lái)衡量市場(chǎng)波動(dòng),并通過(guò)衍生品和對沖工具的方式來(lái)規避交易風(fēng)險。
經(jīng)濟數據 標準差也可以用于評估經(jīng)濟數據波動(dòng)程度,比如通貨膨脹率、失業(yè)率和GDP等。標準差可以幫助經(jīng)濟學(xué)家和決策者評估市場(chǎng)和經(jīng)濟的波動(dòng)性及風(fēng)險,以及預測未來(lái) 經(jīng)濟走勢。
社會(huì )科學(xué) 在社會(huì )科學(xué)領(lǐng)域,標準差用于測量和評估各種社會(huì )現象的數據波動(dòng)和差異以及不確定性情況。
人口學(xué) 對于某些重要的社會(huì )群體,例如不同年齡、性別、種族或出生地的人群,社會(huì )學(xué)家可以使用標準差來(lái)描繪社會(huì )群體的總體和特征,例如人口數量、人口密度和 人口增長(cháng)率 等。
教育學(xué) 在教育研究中,標準差可以幫助教育人員和社會(huì )學(xué)家了解學(xué)生某一領(lǐng)域的學(xué)術(shù)成績(jì)的分布情況,例如學(xué)生的考試成績(jì)等。同時(shí),可以通過(guò)計算標準差來(lái)評估學(xué)生之間的差異以及學(xué)生在不同領(lǐng)域的學(xué)術(shù)表現的波動(dòng)情況。
心理學(xué) 在心理學(xué)領(lǐng)域,標準差可以被用來(lái)研究人群或者一組數據中領(lǐng)域間的變異程度。例如,測試心理健康的量表可以用標準差來(lái)描述被試者之間的差異程度。
社會(huì )調查分析 在社會(huì )調查分析中,標準差可以用來(lái)描繪社會(huì )調研數據的差異和波動(dòng)情況,可以幫助設計合適的調研問(wèn)卷和分析數據。通過(guò)調研數據的標準差,研究者能夠更好地理解數據背后的含義,深入分析調研的結果和趨勢,為政策制定和決策提供數據支持。
醫學(xué) 在醫學(xué)領(lǐng)域,標準差也被廣泛應用于不同醫療領(lǐng)域的統計計算和數據分析方面。
臨床試驗 在設計和分析臨床試驗時(shí),標準差是必不可少的一個(gè)統計量。標準差可以幫助研究人員確定試驗的樣本量、預測試驗結果和確定試驗數據的可靠性,有效地評估藥物和治療方法的有效性和安全性。
流行病學(xué) 標準差在 流行病學(xué)調查 和數據分析中也是一個(gè)非常有用的工具。通過(guò)計算標準差,可以評估流行病學(xué)調查數據的差異,檢查研究的數據是否符合正態(tài)分布曲線(xiàn),提高流行病學(xué)研究的可靠性和改善公共衛生政策,同時(shí)還可以用于制定醫學(xué)預算和數據管理。
醫療數據分析 在醫療數據分析中,標準差可以用于評估醫療數據集的變異程度。例如,醫生可以比較某一患者的生命體征(如心率、呼吸率、體溫等)與同齡、同性別、同體型健康人群的平均值以及標準差,判斷該患者所表現出來(lái)的生命體征是否異常。 如果該姑娘體溫偏高,但其仍在其年齡、同性別人群體溫的1個(gè)標準偏差內,那么該體溫異常就不太可能是真正的健康問(wèn)題。
物理學(xué) 在物理領(lǐng)域,標準差也有著(zhù)廣泛的應用,特別是在實(shí)驗測量和數據處理中。
實(shí)驗測量誤差的評估 在實(shí)驗室中,物理學(xué)家通常需要進(jìn)行各種類(lèi)型的測量,比如測量物理量的大小、重量、溫度等,并通過(guò)實(shí)驗數據來(lái)驗證理論模型。由于測量設備的精度和操作人員的技術(shù)水平等因素,每個(gè)測量結果都可能帶有一定誤差。為了衡量這種誤差,物理學(xué)家通常使用標準差來(lái)評估測量數據的離散程度,以確定實(shí)驗數據是否符合預期。如果標準差比較小,表明測量誤差較小,實(shí)驗數據比較可靠。
物理量的不確定度計算 在物理學(xué)中,很多物理量的大小可以通過(guò)測量或計算得到。由于測量誤差和測量設備導致的精度限制等因素的存在,這些物理量都帶有一定的不確定度。物理學(xué)家通常使用標準差來(lái)計算這些物理量的不確定度,進(jìn)而評估測量數據的合理性和可靠性。
數據分布的分析 在物理學(xué)中,物理學(xué)家通常需要對一些物理量的分布進(jìn)行分析,以確定其性質(zhì)和規律。 例如,對于一組時(shí)間數據,物理學(xué)家可以使用標準差來(lái)計算數據的離散程度和分布的形狀,進(jìn)而確定數據分布是正態(tài)分布還是非正態(tài)分布。在實(shí)際研究中,這種分布分析對于確定物理定律或預測自然現象的發(fā)展趨勢等方面是非常重要的。
實(shí)驗數據可視化 在物理學(xué)領(lǐng)域,可視化是一個(gè)非常重要的方法,可以幫助物理學(xué)家更好地理解數據。通過(guò)將實(shí)驗數據繪制成柱狀圖、直方圖或散點(diǎn)圖等圖形化形式,結合標準差等指標進(jìn)行分析,可以直觀(guān)地展現數據的分布情況和趨勢,更容易發(fā)現數據中存在的規律和異常。
工程學(xué) 在工程領(lǐng)域中,標準差用于描述數據的方差和波動(dòng)情況,從產(chǎn)品設計到質(zhì)量控制、風(fēng)險管理、實(shí)驗分析等各個(gè)方面,都具有重要的作用。同時(shí),標準差也能衡量產(chǎn)品的生產(chǎn)過(guò)程的穩定性,判斷產(chǎn)品是否符合規格要求。 下圖就是一個(gè)工程測試數據例。
NO.
測試前
測試后
差異
測試前
測試后
差異
測試前
測試后
差異
1
93.0
94.0
-1.0
62.1
63.5
-1.4
39.0
40.0
-1.0
2
94.0
93.0
1.0
65.0
62.9
2.1
40.0
41.0
-1.0
3
93.0
94.0
-1.0
66.2
64.1
2.1
41.0
39.0
2.0
4
93.0
93.0
0.0
66.5
65.2
1.3
39.0
40.0
-1.0
5
94.0
93.0
1.0
62.2
63.2
-1.0
40.0
41.0
-1.0
6
93.0
94.0
-1.0
63.5
65.4
-1.9
39.0
40.0
-1.0
7
96.0
95.0
1.0
66.2
67.9
-1.7
40.0
39.0
1.0
8
95.0
94.0
1.0
64.8
67.1
-2.3
41.0
40.0
1.0
9
94.0
95.0
-1.0
65.3
63.2
2.1
41.0
39.0
2.0
10
94.0
93.0
1.0
64.3
66.5
-2.2
40.0
41.0
-1.0
最大
96.0
95.0
1.0
66.5
67.9
2.1
41.0
41.0
2.0
最小
93.0
93.0
-1.0
62.1
62.9
-2.3
39.0
39.0
-1.0
平均
94.0
93.8
0.1
64.6
65.0
-0.3
40.0
40.0
0.1
標準差
1.1
0.8
1.0
1.6
1.9
1.9
0.8
0.8
1.3
風(fēng)險管理 標準差在工程領(lǐng)域被廣泛地運用于風(fēng)險管理以及工程設計中。通過(guò)計算出項目中各種風(fēng)險的標準差,工程師可以確定在各種情況下的風(fēng)險預期波動(dòng)值,并找到最好的可能性。此外,在設計階段,標準差可以幫助工程人員確定潛在的影響范圍,制定合理的設計方案,從而降低風(fēng)險和損失。
統計分析 在實(shí)驗和測試階段,標準差可以被用來(lái)評估數據的可重復性和一致性。通過(guò)評估標準差的大小,工程人員可以決定是否需要采取更多的測試措施,以達成更準確和可信的結果。
標準差的這些實(shí)際應用領(lǐng)域,其本質(zhì)都是基于統計學(xué),統計學(xué)還包括了假設檢驗、方差分析、回歸分析和時(shí)間序列分析等針對實(shí)際問(wèn)題的技術(shù)和建模方法 。標準差則是這些方法的基本工具之一,用于檢測數據的偏差和分析數據的波動(dòng)性。標準差既能作為協(xié)變量,也可以用于估計模型中的誤差項等,它在統計學(xué)中無(wú)處不在和非常重要。
發(fā)展趨勢 近年來(lái)新的統計學(xué)方法不斷涌現,但標準差在統計學(xué)中的地位和重要性仍然不可撼動(dòng)。
數據科學(xué)和人工智能 標準差是評估機器學(xué)習模型質(zhì)量的一種重要指標,可以衡量模型對數據的擬合程度和泛化能力。未來(lái)標準差在數據科學(xué)和人工智能領(lǐng)域的應用將越來(lái)越廣泛。
大數據 大數據分析越來(lái)越重視樣本量的大小,標準差可以作為評估樣本總體偏差和離散程度的重要指標,可以更好地分析和解釋數據集中數據的分布形態(tài)。
數據可視化 標準差也可以用來(lái)輔助數據可視化,通過(guò)繪制標準差的 誤差棒 圖,可以更直觀(guān)地展示樣本均值和標準差的變化趨勢。