每天資訊九道門丨大資料中的五種常見偏見

菜單

九道門丨大資料中的五種常見偏見

大資料中的偏見,無論是有意還是無意,都可能導致錯誤判斷和糟糕的業務成果。如今,企業意識到他們決策的很大一部分受到大資料的影響。資料的大量可用性並不能保證其相關性,資料科學家和分析師對大資料的分析也不能保證其相關性,因為人類的判斷有時可能存在缺陷。此外,有幾個因素可能會對資料產生正面或負面的影響。因此,資料可能會不時波動。這就是為什麼資料團隊知道如何從大資料中做出正確推斷變得至關重要的原因。只有當資料分析師和科學家意識到存在偏見及其解決方案時,這才有可能。 資料分析優質社群,等你加入哦~

確認偏差

感知就是一切,在大資料分析過程中會產生字面上的影響。這會導致一種稱為確認偏差的情況,這種偏差會扭曲資料。在這種現象中,資料科學家或分析師傾向於與他們的信念、觀點和觀點一致的資料。在篩選資料的過程中,他們傾向於從資訊中提取見解,以加快他們的主張或假設;一旦他們發現數據,哪怕只是稍微反駁他們的假設,他們就會放棄。在希望根據自己的看法調整證據和資訊的重要性的組織領導者中,這種情況更為常見。通常,確認偏差會導致不良的業務結果。

可用性啟發式

可用性啟發,通常稱為可用性偏差,經常出現在大資料中。它是我們必須注意的東西,更重要的是因為它的表現是微妙的。基本上,它指的是資料科學家僅根據現成的資料或最近的資訊進行推斷的方式。他們相信即時資料就是相關資料。對於新聞而言尤其如此,有時新聞報道的內容與實際發生的內容之間存在巨大差異。這可能會對大資料及其分析產生危險的後果,因為它可能會轉移資料分析師的注意力,使其不再關注其他替代觀點和解決方案。透過讓你只依賴最近的資料,可用性啟發式方法導致了資料分析的狹窄性。

九道門丨大資料中的五種常見偏見

辛普森悖論

我們所說的辛普森不是卡通片辛普森,而是一種被稱為辛普森悖論的資料偏差。辛普森悖論可能是最容易被忽視和低估的資料偏差。在肉眼看來,一些資料和統計資料可能看起來非常好,但一個警覺的資料科學家必須知道如何在字裡行間閱讀。在分析中,當對單個群體進行分析時,模式顯示了某一特定趨勢的主導地位。然而,當累積觀察這些模式時,結果完全相反。這些單獨的趨勢可能會導致誤導並掩蓋資料的整體價值和真實價值。這就是為什麼當資料流量增加時,分析師在閱讀時必須謹慎。這在醫療保健和營銷領域尤為重要,因為這兩個領域的目標受眾非常敏感。

非正態性

資料呈正態分佈或非正態分佈。非正態性的偏差是透過稱為 t 檢驗或鐘形曲線的東西來衡量的。鐘形曲線上的最高點用於突出那些代表最高機率事件的資料系列。篩選彙總資料的分析師有時會假設存在鐘形曲線,但實際上資料存在某些誤差和錯誤,而這些誤差和錯誤遠不及鐘形曲線。這導致資料科學家強行嘗試將資料擬合到鐘形曲線中。反過來,這會導致非常不準確的結果,從而損害組織的輸出。

過擬合和欠擬合

資料科學家普遍存在的一個誤解是,一個包含多種資料趨勢的過於複雜的模型必然會帶來準確的推論。但是,當評估大量引數並將其新增到資料模型時,會導致檢測到不必要的噪聲和微小波動。這樣一來,主要的潛在趨勢往往會被忽略,從而導致預測分析不佳。在欠擬合的情況下,與過擬合相反,它主要是模型過於簡單的結果。在這種情況下,資料分析師嘗試將非線性資料擬合到線性資料模型中,這兩種方法中的任何一種都可能導致偏差,最終導致結果扭曲。

資料科學家和分析師必須考慮到現有的偏見並針對這些偏見制定補救解決方案。由於大資料中隱藏的偏見會阻礙準確決策,並可能影響結果,因此企業領導者和領導管理人員保持警惕至關重要。

九道門丨大資料中的五種常見偏見