1.什麼是SPSS
SPSS是社會統計科學軟體包的簡稱, 其官方全稱為IBM SPSS Statistics。SPSS軟體包最初由SPSS Inc。於1968年推出,於2009年被IBM收購,主要運用於各領域資料的管理和統計分析。作為世界社會科學資料分析的標準,SPSS操作操作介面極其友好,結果輸出介面也很美觀,同時還配備十分詳細的使用者手冊。
1.1 SPSS的核心功能
1.2 資料編輯功能
可以透過SPSS的資料編輯功能,對資料進行增刪改等處理,還可以根據需要對資料進行拆分、加權、排序、聚合等處理。
1.3 視覺化功能
SPSS有很強大的繪圖功能,可以根據模型自動輸出描述性分析的統計圖,反映不同變數間的內在關係;同時還可以由使用者自定義統計圖的基本屬性,使資料分析報告更加美觀。其中,基本圖包括條形圖、扇形圖、餅圖、柱狀圖、箱線圖、直方圖、P-P圖、Q-Q圖等。而它的互動圖更加美觀,包括條形互動圖、帶狀互動圖、箱形互動圖、散點互動圖等不同風格的2D及3D圖。
1.4 表格編輯功能
使用者可以使用SPSS繪製不同風格的表格,同時表格可以在檢視器中編輯,也可以在專門的編輯視窗編輯。
1.5 聯接其他軟體
SPSS可以開啟多種型別的資料檔案, 其中包括Excel、Access、DaBase、文字編輯器、Lotus 1-2-3等等,同時使用者還可以將圖片儲存為不同的圖片格式。
1.6 統計功能
CDA資料分析師認為SPSS統計功能是進行資料分析要重點掌握的模組,透過此功能可以完成絕大部分數理統計模型分析,其中包括:迴歸分析、列聯表分析、聚類分析、因子分析、相關分析、對應分析、時間序列分析、判別分析等。
2.如何用SPSS進行資料分析
首先,要了解資料分析的一般流程是什麼?
CDA資料分析師將一個完整的資料分析專案分為以下五個流程:
2.1 資料獲取
外部資料主要有三種獲取方式,一種是獲取國內一些網站上公開的資料資料,例如國家統計局;一種是透過爬蟲等工具獲取網站上的資料。還有一種是透過企業內部的資料庫,SPSS有豐富的資料庫介面,可以便捷地從資料庫中讀取資料。
2.2 資料儲存
對於資料量不大的專案,可以使用excel來處理資料,但對於資料量過萬的專案,使用資料庫來儲存與管理會更高效便捷。SPSS也有自己的用作資料儲存的資料格式,sav檔案。使用者可以將經過SPSS處理的資料儲存為sav格式,同時也可以非常方便地將sav檔案轉換為其他資料格式檔案。
2.3 資料預處理
資料預處理也稱資料清洗。大多數情況下,我們拿到手的資料是格式不一致,存在異常值、缺失值等問題的,而不同專案資料預處理步驟的方法也不一樣。CDA資料分析師認為資料分析有80%的工作都在處理資料,可見資料預處理在資料分析的重要性。
2.4 建模與分析
這一階段首先要清楚資料的結構,結合專案需求來選取模型。
常見的資料探勘模型有:
2.5 視覺化分析
資料分析最後一步是撰寫資料分析報告,一般包括資料視覺化分析。
其次,掌握了資料分析的一般流程後,便要以SPSS為工具,根據以下流程對一個完整專案進行以下細分並掌握: