183.17.228.* 2020-10-12 13:13:23 |
大數據是互聯網上海量的數據挖掘,而數據挖掘更多的是針對企業內部的小數據挖掘,數據分析是進行有針對性的分析和診斷,大數據需要分析的是趨勢和發展趨勢,數據挖掘主要是發現問題和診斷。
數據挖掘流程包含哪些步驟
一、數據的產生
很多時候我們會發現在瀏覽網站或者app時總會給我們推薦一些與我們相關的信息,這其實就是根據我們的互聯網行為來進行預測的,前端獲取到用戶的行為數據,傳輸到后端,然后存儲到服務器上,具體行為如下:
瀏覽網頁時或者app時,你的點擊和停留行為都會被服務器所記錄,終存儲到數據庫上
瀏覽購物app時,你的訂單,添加購物車,收藏,關注等行為
瀏覽快手,抖音等洗腦app時,你的關注,停留,評論,點贊,轉發等行為都會被記錄在服務器上
二、數據預處理
預處理就是提前處理一下,當把數據從源中讀取出來之后,我們可能會發現有些數據不符合我們的要求,比如有缺失值或者異常值(年齡為0),我們的處理可能是刪除,也可能是填充,我們把這些臟數據整理成干凈的數據。除此之外,我們可能還需要進行數據的變換,把原始數據轉化成符合模型要求的數據。
三、數據建模
數據清洗完了之后,進行可視化展示,然后我們使用一條線去擬合這些點,這條線就是一個函數,有了這個函數我們就可以進行預測,這個函數就是一個模型,這就是數據建模的過程。
四、數據分析VS數據挖掘
數據分析更多采用統計學的知識,對源數據進行描述性和探索性分析,從結果中發現價值信息來評估和修正現狀。數據挖掘不僅僅用到統計學的知識,還要用到機器學習的知識,這里會涉及到模型的概念。數據挖掘具有更深的層次,來發現未知的規律和價值。
從側重點上來說,相比較而言,數據分析更多依賴于業務知識,數據挖掘更多側重于技術的實現,對于業務的要求稍微有所降低。
從數據量上來說,數據挖掘往往需要更大數據量,而數據量越大,對于技術的要求也就越高。
從技術上來說,數據挖掘對于技術的要求更高,需要比較強的編程能力,數學能力和機器學習的能力。
從結果上來說,數據分析更多側重的是結果的呈現,需要結合業務知識來進行解讀。而數據挖掘的結果是一個模型,通過這個模型來分析整個數據的規律,一次來實現對于未來的預測,比如判斷用戶的特點,用戶適合什么樣的營銷活動。顯然,數據挖掘比數據分析要更深一個層次。
數據分析和數據挖掘有什么區別.中琛魔方大數據平臺(www.zcmorefun.com)表示數據分析是將數據轉化為信息的工具,而數據挖掘是將信息轉化為認知的工具。如果我們想從數據(即認知)中提取某些規律,我們往往需要將數據分析與數據挖掘相結合使用。 |