Spark Scala ішіндегі DataFrame дегеніміз не?
Spark Scala ішіндегі DataFrame дегеніміз не?

Бейне: Spark Scala ішіндегі DataFrame дегеніміз не?

Бейне: Spark Scala ішіндегі DataFrame дегеніміз не?
Бейне: What is Scala? | Scala Programming Tutorial for Beginners | Apache Spark Training | Edureka 2024, Мамыр
Anonim

А Spark DataFrame жиынтықтарды сүзу, топтау немесе есептеу әрекеттерін қамтамасыз ететін және осымен бірге пайдалануға болатын атаулы бағандарға ұйымдастырылған деректердің бөлінген жинағы. Ұшқын SQL. DataFrames құрылымдық деректер файлдарынан, бар RDD, Hive ішіндегі кестелерден немесе сыртқы дерекқорлардан құрастырылуы мүмкін.

Сол сияқты, сіз Scala-да DataFrame дегеніміз не деп сұрай аласыз.

Атаулы бағандарға ұйымдастырылған деректердің таратылған жинағы. А DataFrame Spark SQL реляциялық кестеге баламалы. ішінен бағанды таңдау үшін деректер шеңбері , ішінде қолдану әдісін пайдаланыңыз Скала және Java тіліндегі col.

Scala-да lit не үшін қолданылады? ( жанды болып табылады пайдаланылады ішінде Ұшқын әріптік мәнді жаңа бағанға түрлендіру үшін.) concat бағандарды аргумент ретінде қабылдайтындықтан жанды болуы тиіс пайдаланылады Мұнда.

Жоғарыда айтылғандай, ұшқындағы RDD мен DataFrame арасындағы айырмашылық неде?

Spark RDD API интерфейстері – An RDD Тұрақты таратылған деректер жиынын білдіреді. Бұл жазбалардың тек оқуға арналған бөлімдер жинағы. RDD деректерінің негізгі құрылымы болып табылады Ұшқын . Spark ішіндегі DataFrame әзірлеушілерге құрылымды таратылған деректер жинағына енгізуге мүмкіндік береді, бұл жоғары деңгейдегі абстракцияға мүмкіндік береді.

Spark ішіндегі Column қызметі не істейді?

Бағанмен ұшқын () функциясы болып табылады бар DataFrame бағанының атын өзгерту, мәнді өзгерту, деректер түрін түрлендіру, сонымен қатар алады жаңа баған жасау үшін пайдаланылуы мүмкін, осы жазбада, I ерік арқылы жиі қолданылатын DataFrame баған әрекеттері арқылы таныстыру Скала және Pyspark мысалдары.

Ұсынылған: