
PySpark - Processamento em grande escala
SparkSession, RDD vs DataFrame, transformations, actions, partitioning, broadcast variables, UDFs, Spark SQL, caching
1Qual é o ponto de entrada principal para criar uma aplicação PySpark?
Qual é o ponto de entrada principal para criar uma aplicação PySpark?
Resposta
SparkSession é o ponto de entrada unificado introduzido no Spark 2.0. Substitui os antigos SparkContext, SQLContext e HiveContext em um único objeto. SparkSession permite criar DataFrames, executar consultas SQL e configurar a aplicação Spark de forma centralizada.
2Qual é a diferença fundamental entre um RDD e um DataFrame no PySpark?
Qual é a diferença fundamental entre um RDD e um DataFrame no PySpark?
Resposta
Um DataFrame possui um schema estruturado com colunas nomeadas e tipadas, permitindo que o Spark otimize as consultas através do Catalyst. Um RDD é uma coleção distribuída não estruturada onde o Spark não conhece a estrutura interna dos dados, limitando as otimizações possíveis.
3Qual é a diferença entre uma transformação e uma ação no PySpark?
Qual é a diferença entre uma transformação e uma ação no PySpark?
Resposta
As transformations são avaliadas de forma preguiçosa (lazy) e constroem um plano de execução sem disparar a computação. As actions disparam a execução real do plano no cluster e retornam um resultado ao driver. Essa distinção permite ao Spark otimizar o plano antes da execução.
Entre as seguintes operações, qual é uma action do PySpark?
Como criar um DataFrame a partir de um arquivo Parquet no PySpark?
+17 perguntas de entrevista
Outros temas de entrevista Data Engineering
Linux & Shell - Fundamentos
Git & GitHub - Fundamentos
Python avançado para Data Engineering
Docker - Fundamentos
Google Cloud Platform - Fundamentos
CI/CD e qualidade de código
Docker Compose
FastAPI - APIs de dados
SQL avançado para Data Engineering
Data Lake - Arquitetura e ingestão
BigQuery para Data Engineering
PostgreSQL - Administração
Data Modeling para Data Engineering
Fivetran & Airbyte - Ingestão de dados
dbt - Fundamentos
Apache Airflow - Fundamentos
Kubernetes - Fundamentos
dbt - Recursos avançados
Padrões ETL / ELT / ETLT
Apache Airflow - Avançado
Airflow + dbt - Orquestração de pipelines
Google Pub/Sub - Streaming de dados
Apache Beam & Dataflow
Kubernetes - Produção e escalabilidade
Terraform - Infrastructure as Code
Bancos de dados NoSQL
Arquitetura Data moderna
Monitoramento e observabilidade
IAM e segurança de dados
Domine Data Engineering para sua proxima entrevista
Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.
Comece gratis