183.17.228.* 2020-03-26 13:25:43 |
大數(shù)據(jù)平臺:是指以處理海量數(shù)據(jù)存儲、計算及不間斷流數(shù)據(jù)實時計算等場景為主的一套基礎(chǔ)設(shè)施。典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等集群。
大數(shù)據(jù)平臺的功能:
1、容納海量數(shù)據(jù)
利用計算機(jī)群集的存儲和計算能力。不僅在性能上有所擴(kuò)展,而且其處理傳入的大量數(shù)據(jù)流的能力也相應(yīng)提高。
2、速度快
結(jié)合列式數(shù)據(jù)庫架構(gòu)(相對于基于行的非并行處理傳統(tǒng)數(shù)據(jù)庫)和使用大規(guī)模并行處理技術(shù),不僅能夠大幅提高性能(通常約100到1000倍),還可以實現(xiàn)更低且更透明的定價機(jī)制。
3、兼容傳統(tǒng)工具
確保平臺已經(jīng)過認(rèn)證,可以兼容傳統(tǒng)工具。
4、利用Hadoop
Hadoop已成為大數(shù)據(jù)領(lǐng)域中的主要平臺。利用Hadoop作為用于持久性和輕量型數(shù)據(jù)管理的**益平臺。
5、為數(shù)據(jù)科學(xué)家提供支持
數(shù)據(jù)科學(xué)家在企業(yè)IT中擁有著更高的影響力和重要性,快速、**、易于使用和廣泛部署的大數(shù)據(jù)平臺可以幫助拉近商業(yè)人士和技術(shù)專家之間的距離。
6、提供數(shù)據(jù)分析功能
確保大數(shù)據(jù)平臺不僅支持在數(shù)秒鐘內(nèi)準(zhǔn)備并加載數(shù)據(jù),還支持利用**算法建立預(yù)測模型,輕松部署模型以進(jìn)行數(shù)據(jù)庫內(nèi)計分。同時使數(shù)據(jù)科學(xué)家能夠使用現(xiàn)有統(tǒng)計軟件包和**語言。
如何搭建大數(shù)據(jù)分析平臺?
一般性步驟:
1、Linux系統(tǒng)安裝
2、分布式計算平臺/組件安裝
當(dāng)前分布式系統(tǒng)的大多使用的是Hadoop系列開源系統(tǒng)
3、數(shù)據(jù)導(dǎo)入
數(shù)據(jù)導(dǎo)入的工具是Sqoop
4、數(shù)據(jù)分析
數(shù)據(jù)分析一般包括兩個階段:數(shù)據(jù)預(yù)處理和數(shù)據(jù)建模分析。
數(shù)據(jù)預(yù)處理這個過程可能會用到Hive SQL,Spark QL和Impala。
數(shù)據(jù)建模分析**用的是Spark
5、結(jié)果可視化及輸出API
可視化一般式對結(jié)果或部分原始數(shù)據(jù)做展示。
大數(shù)據(jù)分析平臺有哪些功能.中琛魔方大數(shù)據(jù)(www.zcmorefun.com)溫馨提醒:在搭建大數(shù)據(jù)分析平臺之前,要先明確業(yè)務(wù)需求場景以及用戶的需求,通過大數(shù)據(jù)分析平臺,想要得到哪些有價值的信息,需要接入的數(shù)據(jù)有哪些,明確基于場景業(yè)務(wù)需求的大數(shù)據(jù)平臺要具備的基本的功能,來決定平臺搭建過程中使用的大數(shù)據(jù)處理工具和框架。 |