183.17.231.* 2020-07-17 13:13:47 |
大數據本質上是多個信息系統產生的數據匯聚、融合。他表示,當前我國大數據發展已進入到以數據深度挖掘、融合應用為特征的智能化階段,大數據的價值和意義正在凸顯。
大數據平臺目前存在的問題
目前絕大多數大數據平臺都是基于Hadoop生態,使用Yarn作為核心組件來進行資源管理和調度。但這樣的平臺普遍存在如下問題:
(1)資源彈性不足,無法按需自動擴容。大數據系統資源的高峰往往具有明顯的周期性。例如實時計算資源消耗主要在白天。離線分析中,日報型的計算任務資源的高峰一般在22:00以后。周報和月報型的計算任務業務高峰往往也是在一個固定的時間點。并且離線計算有時還有突發的計算任務,例如需要對歷史數據做一個統計。目前的大數據系統普遍缺乏資源的彈性,無法按需進行快速擴容,為了應對業務高峰和突發的計算任務只能預留出足夠多的資源來保證任務能夠正常響應。
(2)資源利用率低。日志留存和流量清單等存儲密集型的業務CPU使用率長期小于30%。而計算類的業務雖然CPU消耗很高,但是存儲的資源使用率小于20%。大量資源閑置。并且考慮在線業務往往在低峰期會有大量的資源閑置。這些資源其實離線計算業務是完全可以利用的,但目前大數據的系統架構這部分資源完全沒有被利用。導致資源利用率進一步降低。
(3)資源隔離性差。從Hadoop2.2.0版本開始,Yarn開始使用cgroup實現了CPU資源隔離,通過JVM提供的內存隔離機制來實現內存資源隔離。對于磁盤IO和網絡IO的隔離目前社區還在討論中YARN-2139[2],YARN-2140[3]。對于文件系統環境的隔離,社區在Hadoop 3.0版本中支持通過Classpath isolation HADOOP-11656[4]來避免不同版本的jar包沖突,但無法做到完整的文件系統隔離。整體上看Yarn的資源隔離做的并不完善,這就造成了,多個任務運行到同一個工作節點上時,不同任務之間會存在資源搶占的問題,不同任務之間相互影響。
(4)系統管理困難。在大數據系統中缺少統一的管理接口,也缺少路由管理,網絡管理,磁盤管理等能力。這就造成大數據平臺的開發往往需要對管理系統進行深度定制。開發工作量大,系統管理困難,并且平臺遷移困難。例如大數據平臺中需要提供對大數據組件UI頁面的訪問能力。在大數據平臺構建中,為了能夠訪問組件的UI頁面往往需要單獨進行網絡的打通,進行額外的路由的配置。并且很多時候這些配置都缺少標準的接口,無法做到自動化,管理起來十分困難。
(5)管理方式不統一。在線業務和大數據業務雖然屬于不同的業務類型,但就管理平臺來說提供的功能是類似的。主要提供資源管理,業務(任務)管理,權限管理,可視化展示與操作等方面的功能。但因為管理方式不統一,底層框架與運行方式不同,造成了在線業務和大數據業務往往需要開發不同的平臺,由不同的團隊運維來管理,這極大的增加了額外的人力投入,造成不必要的人力損失。
大數據平臺目前存在的問題.中琛魔方大數據分析平臺(www.zcmorefun.com)表示目前大數據平臺可能處在著很多得問題,需要及時進行修改,雖然處在著一些小問題,但企業如果想要更快更好得發展,那么必須得借助大數據,大數據也會隨著社會得進步而得到更好得完善。 |