Question 1

Qual é o ponto de entrada principal para criar uma aplicação PySpark?

Accepted Answer

SparkSession é o ponto de entrada unificado introduzido no Spark 2.0. Substitui os antigos SparkContext, SQLContext e HiveContext em um único objeto. SparkSession permite criar DataFrames, executar consultas SQL e configurar a aplicação Spark de forma centralizada.

Question 2

Qual é a diferença fundamental entre um RDD e um DataFrame no PySpark?

Accepted Answer

Um DataFrame possui um schema estruturado com colunas nomeadas e tipadas, permitindo que o Spark otimize as consultas através do Catalyst. Um RDD é uma coleção distribuída não estruturada onde o Spark não conhece a estrutura interna dos dados, limitando as otimizações possíveis.

Question 3

Qual é a diferença entre uma transformação e uma ação no PySpark?

Accepted Answer

As transformations são avaliadas de forma preguiçosa (lazy) e constroem um plano de execução sem disparar a computação. As actions disparam a execução real do plano no cluster e retornam um resultado ao driver. Essa distinção permite ao Spark otimizar o plano antes da execução.

PySpark - Processamento em grande escala

Qual é o ponto de entrada principal para criar uma aplicação PySpark?

Resposta

Qual é a diferença fundamental entre um RDD e um DataFrame no PySpark?

Resposta

Qual é a diferença entre uma transformação e uma ação no PySpark?

Resposta

Entre as seguintes operações, qual é uma action do PySpark?

Como criar um DataFrame a partir de um arquivo Parquet no PySpark?

Outros temas de entrevista Data Engineering

Linux & Shell - Fundamentos

Git & GitHub - Fundamentos

Python avançado para Data Engineering

Docker - Fundamentos

Google Cloud Platform - Fundamentos

CI/CD e qualidade de código

Docker Compose

FastAPI - APIs de dados

SQL avançado para Data Engineering

Data Lake - Arquitetura e ingestão

BigQuery para Data Engineering

PostgreSQL - Administração

Data Modeling para Data Engineering

Fivetran & Airbyte - Ingestão de dados

dbt - Fundamentos

Apache Airflow - Fundamentos

Kubernetes - Fundamentos

dbt - Recursos avançados

Padrões ETL / ELT / ETLT

Apache Airflow - Avançado

Airflow + dbt - Orquestração de pipelines

Google Pub/Sub - Streaming de dados

Apache Beam & Dataflow

Kubernetes - Produção e escalabilidade

Terraform - Infrastructure as Code

Bancos de dados NoSQL

Arquitetura Data moderna

Monitoramento e observabilidade

IAM e segurança de dados

Domine Data Engineering para sua proxima entrevista