更新時(shí)間:2021-03-23 來(lái)源:黑馬程序員 瀏覽量:
DataFrame被稱為SchemaRDD。DataFrame使Spark具備了處理大規(guī)模結(jié)構(gòu)化數(shù)據(jù)的能力。在Spark中,DataFrame是一種以RDD為基礎(chǔ)的分布式數(shù)據(jù)集,因此DataFrame可以完成RDD的絕大多數(shù)功能,在開(kāi)發(fā)使用時(shí),也可以調(diào)用方法將RDD和DataFrame進(jìn)行相互轉(zhuǎn)換。DataFrame的結(jié)構(gòu)類似于傳統(tǒng)數(shù)據(jù)庫(kù)的二維表格,并且可以從很多數(shù)據(jù)源中創(chuàng)建,例如結(jié)構(gòu)化文件、外部數(shù)據(jù)庫(kù)、Hive表等數(shù)據(jù)源。下面,通過(guò)圖1來(lái)了解DataFrame與RDD在結(jié)構(gòu)上的區(qū)別。
DataFrame與RDD區(qū)別
在圖1中,左側(cè)為RDD[Person]數(shù)據(jù)集,右側(cè)是DataFrame數(shù)據(jù)集。DataFrame可以看作是分布式的Row對(duì)象的集合,在二維表數(shù)據(jù)集的每一列都帶有名稱和類型,這就是Schema元信息,這使得Spark框架可以獲取更多的數(shù)據(jù)結(jié)構(gòu)信息,從而對(duì)在DataFrame背后的數(shù)據(jù)源以及作用于DataFrame之上數(shù)據(jù)變換進(jìn)行了針對(duì)性的優(yōu)化,最終達(dá)到大幅提升計(jì)算效率;同時(shí),DataFrame與Hive類似,支持嵌套數(shù)據(jù)類型(例如Struct、Array、Map)。
RDD是分布式的Java對(duì)象的集合,例如圖4-3中的RDD[Person]數(shù)據(jù)集,雖然它以Person為類型參數(shù),但是對(duì)象內(nèi)部之間的結(jié)構(gòu)相對(duì)于Spark框架本身是無(wú)法得知的,這樣在轉(zhuǎn)換數(shù)據(jù)形式時(shí)效率相對(duì)較低。
總的來(lái)說(shuō),DataFrame除了提供比RDD更豐富的算子以外,更重要的特點(diǎn)是提升Spark框架執(zhí)行效率、減少數(shù)據(jù)讀取時(shí)間以及優(yōu)化執(zhí)行計(jì)劃。有了DataFrame這個(gè)更高層次的抽象后,處理數(shù)據(jù)就更加簡(jiǎn)單了,甚至可以直接用SQL來(lái)處理數(shù)據(jù),這對(duì)于開(kāi)發(fā)者來(lái)說(shuō),易用性有了很大的提升。不僅如此,通過(guò)DataFrame API或SQL處理數(shù)據(jù),Spark 優(yōu)化器(Catalyst)會(huì)自動(dòng)優(yōu)化,即使我們寫(xiě)的程序或SQL不高效,程序也可以高效的執(zhí)行。
猜你喜歡:
RDD如何分區(qū),各種模式下的分區(qū)數(shù)目是怎樣的?
【AI設(shè)計(jì)】北京143期畢業(yè)僅36天,全員拿下高薪offer!黑馬AI設(shè)計(jì)連續(xù)6期100%高薪就業(yè)
2025-09-19【跨境電商運(yùn)營(yíng)】深圳跨境電商運(yùn)營(yíng)畢業(yè)22個(gè)工作日,就業(yè)率91%+,最高薪資達(dá)13500元
2025-09-19【AI運(yùn)維】鄭州運(yùn)維1期就業(yè)班,畢業(yè)14個(gè)工作日,班級(jí)93%同學(xué)已拿到Offer, 一線均薪資 1W+
2025-09-19【AI鴻蒙開(kāi)發(fā)】上海校區(qū)AI鴻蒙開(kāi)發(fā)4期5期,距離畢業(yè)21天,就業(yè)率91%,平均薪資14046元
2025-09-19【AI大模型開(kāi)發(fā)-Python】畢業(yè)33個(gè)工作日,就業(yè)率已達(dá)到94.55%,班均薪資20763元
2025-09-19【AI智能應(yīng)用開(kāi)發(fā)-Java】畢業(yè)當(dāng)天offer率91%,薪資1W+占比54.2%,班級(jí)均薪12k+
2025-09-19