什么是數據挖掘?大家知道嗎?與數據分析有什么聯系嗎?又或者說數據挖掘與數據分析有什么區別呢?讓我們帶著這些問題,一起往下解惑吧。
什么是數據挖掘
01、數據的產生
很多時候,我們在瀏覽網站或者app時會給推薦一些相關的信息,這其實就是根據我們的互聯網行為來進行預測的。前端獲取到用戶的行為數據,傳輸到后端,然后存儲到服務器上,具體行為如下:
瀏覽網頁時或者app時,用戶的點擊和停留行為都會被服務器所記錄,終存儲到數據庫上;
瀏覽購物app時,用戶的訂單、添加購物車、收藏、關注等行為;
瀏覽快手,抖音等洗腦app時,用戶的關注、停留、評論、點贊、轉發等行為都會被記錄在服務器上。
02、數據預處理
預處理就是提前處理一下,當把數據從源中讀取出來之后,會發現有些數據不符合我們的要求,比如有缺失值或者異常值(年齡為0),我們的處理可能是刪除,也可能是填充,我們把這些臟數據整理成干凈的數據。除此之外,我們可能還需要進行數據的變換,把原始數據轉化成符合模型要求的數據。
03、數據建模
數據清洗完了之后,進行可視化展示,然后我們使用一條線去擬合這些點,這條線就是一個函數,有了這個函數我們就可以進行預測,這個函數就是一個模型,這就是數據建模的過程。
數據挖掘與數據分析有什么區別
數據分析更多采用統計學的知識,對源數據進行描述性和探索性分析,從結果中發現價值信息來評估和修正現狀。而數據挖掘不僅僅用到統計學的知識,還要用到機器學習的知識,這里會涉及到模型的概念。數據挖掘具有更深的層次,來發現未知的規律和價值。
從側重點上來說,相比較而言,數據分析更多依賴于業務知識,數據挖掘更多側重于技術的實現,對于業務的要求稍微有所降低。
從數據量上來說,數據挖掘往往需要更大數據量,而數據量越大,對于技術的要求也就越高。
從技術上來說,數據挖掘對于技術的要求更高,需要比較強的編程能力,數學能力和機器學習的能力。
從結果上來說,數據分析更多側重的是結果的呈現,需要結合業務知識來進行解讀。而數據挖掘的結果是一個模型,通過這個模型來分析整個數據的規律,一次來實現對于未來的預測,比如判斷用戶的特點,用戶適合什么樣的營銷活動。顯然,數據挖掘比數據分析要更深一個層次。
綜上,大數據是互聯網上海量的數據挖掘,而數據挖掘更多的是針對企業內部的小數據挖掘,數據分析是進行有針對性的分析和診斷。大數據需要分析的是趨勢和發展趨勢,而數據挖掘主要是發現問題和診斷。








