183.17.231.* 2020-09-21 13:12:33 |
大數據分析的過程是怎樣的
數據分析是指將整體分解為單獨的部分,以進行單獨檢查。數據分析是一個過程,用于獲得原始數據并將其轉換成用于由用戶決策有用的信息。收集并分析數據以回答問題,檢驗假設或推翻理論。
統計學家約翰·圖基(John Tukey)在1961年將數據分析定義為:“分析數據的程序,解釋此類程序結果的技術,計劃數據收集以使其分析更容易,更精確或更準確的方式以及所有的機制和結果適用于分析數據的(數學)統計信息!
可以區分幾個階段,如下所述。這些階段是迭代的,因為后期階段的反饋可能會導致早期階段的其他工作。
1、數據的需求
要進行數據分析,數據是必須的,它是根據指導分析的人員或客戶的要求指定的。將在其上收集數據的實體的一般類型稱為實驗單位(例如,個體與群體)?梢灾付ê瞳@得有關人口的特定變量(例如男女人數,收入水平等)。數據可以是數字的也可以是分類的(即數字的文本標簽)。
2、數據的收集
數據的收集來源方式很多,它是是從各種來源收集的。數據分析師可以將需求傳達給數據的管理人員,如組織內的信息技術人員。還可以從環境中的傳感器(例如監控,衛星等)收集數據。也可以通過采訪,從在線資源下載或閱讀文檔來獲取數據。
3、數據的處理
數據的處理是用于將原始信息轉換為可操作的情報或知識的情報周期的各個階段在概念上類似于數據分析中的各個階段。
最初獲得的數據必須經過處理或組織以便分析。例如,這些可能涉及將數據以表格格式(即結構化數據)放置在行和列中,以進行進一步分析,例如在電子表格或統計軟件中。
4、數據的清理
數據一旦經過組織和處理,數據很有可能不完整,可能會包含重復項或包含錯誤。由于數據輸入和存儲方式存在問題,因此需要清理數據。數據清理是防止和糾正這些錯誤的過程。常見任務包括記錄匹配,識別數據不正確,現有數據的整體質量,重復數據刪除和列分段。還可以通過各種分析技術來識別此類數據問題。例如,利用財務信息,可以將特定變量的總數與被認為可靠的單獨發布的數字進行比較。高于或低于預定閾值的異常量也可以進行檢查。數據**有幾種類型,具體取決于數據類型,例如電話號碼,電子郵件地址,雇主等。用于異常值檢測的定量數據方法可用于**可能輸入錯誤的數據?梢允褂梦谋緮祿磳憴z查器來減少輸入錯誤的單詞的數量,但是很難判斷單詞本身是否正確。
5、探索性數據分析
當我們**數據后,就可以對數據進行分析。數據分析師可以應用稱為探索性數據分析的各種技術來開始理解數據中包含的消息。探索的過程可能會導致額外的數據清理或額外的數據請求,因此這些活動本質上可能是迭代的?赡軙擅枋鲂越y計信息(例如平均值或中位數)以幫助理解數據。數據可視化還可以用于檢查圖形格式的數據,以獲得有關數據中消息的其他信息
6、建模和算法
可以將稱為算法的數學公式或模型應用于數據,以識別變量之間的關系,例如相關性或因果關系。一般而言,可以開發模型以基于數據中的其他變量評估數據中的特定變量,其中某些殘余誤差取決于模型的準確性(即,數據=模型+錯誤)。
推論統計包括測量特定變量之間關系的技術。例如,可以使用回歸分析來建模廣告的變化(自變量X)是否解釋了銷售的變化(因變量Y)。用數學術語來說,Y(銷售額)是X(廣告)的函數?梢詫⑵涿枋鰹閅=aX+b+誤差,其中設計模型時,當模型在給定的X值范圍內預測Y時,a和b將誤差最小化。分析師可能會嘗試建立描述數據的模型,以簡化分析并傳達結果。
7、數據的展示
一旦分析了數據,就可以以多種格式將其報告給分析用戶,以支持他們的要求。用戶可能會有反饋,這會導致其他分析。因此,許多分析周期都是迭代的。
在確定如何傳達結果時,分析人員可以考慮使用數據可視化技術來幫助將信息清晰**地傳達給聽眾。數據可視化使用信息顯示(例如表格和圖表)來幫助傳達數據中包含的關鍵消息。表格對可能查找特定數字的用戶很有幫助,而圖表(例如,條形圖或折線圖)則可能有助于解釋數據中包含的定量信息。
大數據分析的過程是怎樣的.中琛魔方大數據分析平臺(www.zcmorefun.com)表示大數據分析的過程和結果都要依托于一個強大的計算機基礎架構,這對于處理大數據信息也是至關重要的,如果要開發一些交互的系統,那么對于滿足不同的用戶需求是很重要的。 |