183.17.229.* 2020-07-13 13:23:34 |
大數(shù)據(jù)產(chǎn)生的背景是整個社會走向數(shù)字化,特別是社交網(wǎng)絡(luò)和各種傳感設(shè)備的發(fā)展。云計算和搜索引擎的發(fā)展,使得對大數(shù)據(jù)的**分析成為可能,核心問題是如何在種類繁多、數(shù)量龐大的數(shù)據(jù)中快速獲取有價值信息。通過數(shù)據(jù)分析來實現(xiàn)企業(yè)戰(zhàn)略運營已經(jīng)成為常態(tài),那么數(shù)據(jù)分析過程中都有哪些常見錯誤問題?
數(shù)據(jù)分析過程中常見的錯誤問題:
1、分析目標(biāo)不明確
“海量的數(shù)據(jù)其實并不能產(chǎn)生海量的財富”,許多數(shù)據(jù)分析人員由于沒有制定清晰的分析目標(biāo),常常在海量數(shù)據(jù)中混亂,要么是收集了錯誤的數(shù)據(jù),要么收集的數(shù)據(jù)不夠完整,這會導(dǎo)致數(shù)據(jù)分析的結(jié)果不夠準(zhǔn)確。
但如果一開始就鎖定了目標(biāo),你究竟要分析什么?再以結(jié)果為導(dǎo)向去思考,你就會知道需要用什么樣的數(shù)據(jù)去支撐你的分析?從而確定數(shù)據(jù)的來源、收集方式以及分析指標(biāo)。
2、收集數(shù)據(jù)時產(chǎn)生誤差
當(dāng)我們捕獲數(shù)據(jù)的軟件或硬件出錯時,就會出現(xiàn)一定的誤差。例如,使用日志與服務(wù)器不同步,則可能丟失移動應(yīng)用程序上的用戶行為信息。同樣,如果我們使用像麥克風(fēng)這樣的硬件傳感器,我們的錄音可能會捕捉到背景噪音或其他電信號的干擾。
3、樣本缺乏代表性
在進(jìn)行數(shù)據(jù)分析時,一定要有可信的數(shù)據(jù)樣本,這是確保數(shù)據(jù)分析結(jié)果靠不**的關(guān)鍵,如果數(shù)據(jù)樣本不具代表性,終分析的結(jié)果也就沒有價值。因此,對于數(shù)據(jù)樣本,也要求完整和**,用單一的、不具代表性的數(shù)據(jù)來代替全部數(shù)據(jù)進(jìn)行分析,這種片面的數(shù)據(jù)得到的分析結(jié)果有可能完全是錯誤的。
例如,Twitter的用戶可能受到更高教育且收入更高,其年齡也會偏大一些。如果用這種有偏的樣本來預(yù)測目標(biāo)觀眾是年輕人的電影票房,其分析結(jié)論可能就不會合理了。所以確保你得到的樣本數(shù)據(jù)代表了研究總體。否則,你的分析結(jié)論就缺乏堅實的基礎(chǔ)。
4、相關(guān)關(guān)系和因果關(guān)系混亂
大部分的數(shù)據(jù)分析人員在處理大數(shù)據(jù)時假設(shè)相關(guān)關(guān)系直接影響因果關(guān)系。使用大數(shù)據(jù)來理解兩個變量之間的相關(guān)性通常是一個很好的實踐方法,但是,總是使用“因果”類比可能導(dǎo)致虛假的預(yù)測和無效的決定。要想實現(xiàn)數(shù)據(jù)分析的好效果,必須理解相關(guān)關(guān)系和因果關(guān)系兩者的根本區(qū)別。相關(guān)關(guān)系往往是指同時觀察X和Y的變化,而因果關(guān)系意味著X導(dǎo)致Y。在數(shù)據(jù)分析中,這是兩個完全不同的事情,但是許多數(shù)據(jù)分析人員往往忽視了它們的區(qū)別。
“數(shù)據(jù)科學(xué)中相關(guān)關(guān)系不是因果關(guān)系”。如果兩個關(guān)系出現(xiàn)彼此相關(guān)的情況,也不意味著是一個導(dǎo)致了另一個的產(chǎn)生。
5、脫離業(yè)務(wù)實際
一個專業(yè)的數(shù)據(jù)分析人員,必須非常熟悉所分析項目的行業(yè)情況、業(yè)務(wù)流程以及相關(guān)知識,因為數(shù)據(jù)分析的終結(jié)果是解決項目中存在的問題,或者給行業(yè)的決策者提供參考意見。如果不能很好地將業(yè)務(wù)知識和數(shù)據(jù)分析工作結(jié)合起來,脫離業(yè)務(wù)實際而只關(guān)心數(shù)據(jù),在這種情況下得到的分析結(jié)果將不具有參考價值。
6、熱衷**分析
有的數(shù)據(jù)分析人員會過分追求所謂**的、**的、時髦的分析技術(shù),面對一個分析項目時,先想到的是選擇一個**的技術(shù)去解決,而不是從課題本身的真實需求出發(fā)去思考合理、有性價比的分析技術(shù)。如果能用簡單的方法得到相同的結(jié)果,就沒有必要引用復(fù)雜的數(shù)據(jù)分析模型。
大數(shù)據(jù)分析中常見的誤解.中琛魔方大數(shù)據(jù)分析平臺(www.zcmorefun.com)表示不同的技術(shù)往往需要不同的資源投入,而產(chǎn)出可能也是不同精度和不同表現(xiàn)形式。這其中孰優(yōu)孰劣,根據(jù)什么做判斷呢?我們要根據(jù)需求本身的精度、資源限制等來做出選擇。 |