Data Engineering

PySpark - Processamento em grande escala

SparkSession, RDD vs DataFrame, transformations, actions, partitioning, broadcast variables, UDFs, Spark SQL, caching

20 perguntas de entrevista·
Senior
1

Qual é o ponto de entrada principal para criar uma aplicação PySpark?

Resposta

SparkSession é o ponto de entrada unificado introduzido no Spark 2.0. Substitui os antigos SparkContext, SQLContext e HiveContext em um único objeto. SparkSession permite criar DataFrames, executar consultas SQL e configurar a aplicação Spark de forma centralizada.

2

Qual é a diferença fundamental entre um RDD e um DataFrame no PySpark?

Resposta

Um DataFrame possui um schema estruturado com colunas nomeadas e tipadas, permitindo que o Spark otimize as consultas através do Catalyst. Um RDD é uma coleção distribuída não estruturada onde o Spark não conhece a estrutura interna dos dados, limitando as otimizações possíveis.

3

Qual é a diferença entre uma transformação e uma ação no PySpark?

Resposta

As transformations são avaliadas de forma preguiçosa (lazy) e constroem um plano de execução sem disparar a computação. As actions disparam a execução real do plano no cluster e retornam um resultado ao driver. Essa distinção permite ao Spark otimizar o plano antes da execução.

4

Entre as seguintes operações, qual é uma action do PySpark?

5

Como criar um DataFrame a partir de um arquivo Parquet no PySpark?

+17 perguntas de entrevista

Domine Data Engineering para sua proxima entrevista

Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.

Comece gratis