通用 spark 的性能如何
通用 spark 的性能是比較出色的。
首先,它的數(shù)據(jù)處理速度很快。相比 Hadoop 的 MapReduce ,Spark 可以將中間結(jié)果寫到本地磁盤或?qū)⒅虚g結(jié)果 cache 到內(nèi)存中,節(jié)省了大量的網(wǎng)絡(luò) IO 和磁盤 IO 開銷,性能比 Hadoop MapReduce 快 100 倍。即便不將數(shù)據(jù) cache 到內(nèi)存中,其速度也是 MapReduce 的 10 倍以上。
其次,Spark 通用性強(qiáng),提供了 MLlib 、GraphX 、Spark Streaming 和 Spark SQL 等多個(gè)出色的分析組件,涵蓋了機(jī)器學(xué)習(xí)、圖形算法、流式計(jì)算、SQL 查詢和迭代計(jì)算等多種功能,組件間無縫、緊密地集成,一站式解決工作流中的問題。
而且,Spark 易于使用,支持 Java 、Scala 、Python 和 R 等編程語言編寫應(yīng)用程序,自帶了 80 多個(gè)高等級(jí)操作算子,允許在 Scala ,Python ,R 的使用命令進(jìn)行交互式運(yùn)行,大大降低了使用者的門檻。
同時(shí),Spark 具有很強(qiáng)的適應(yīng)性,能夠與 Hadoop 緊密繼承,支持 Hadoop 的文件格式,如以 HDFS 為持久層進(jìn)行數(shù)據(jù)讀寫,能以 YARN 作為資源調(diào)度器在其上運(yùn)行。
總之,通用 spark 在速度、通用性、易用性和適應(yīng)性等方面表現(xiàn)優(yōu)秀,能滿足多種大數(shù)據(jù)處理需求。