Uma avaliação empírica de técnicas de particionamento de dados em pipelines de dados distribuídos
DOI:
https://doi.org/10.36557/2674-9432.2026v5n3p1218-1233Palavras-chave:
Big data, databricks, liquid clustering, particionamento de dados, pyspark, azure data lake store gen2Resumo
Este artigo apresenta um estudo sobre a otimização de pipelines de dados em ambientes distribuídos, com foco na eficiência de recursos e redução de custos operacionais. O objetivo foi avaliar o impacto de diferentes estratégias de particionamento em grandes volumes de dados utilizando a plataforma Databricks integrada ao Azure Data Lake Storage Gen2. Foi utilizado um dataset de aproximadamente 120 GiB, analisado em três cenários: (i) sem particionamento, (ii) particionamento tradicional e (iii) particionamento por liquid clustering. As métricas avaliadas incluíram tempo de processamento, uso de CPU, uso de memória e custo financeiro. Os resultados demonstraram que o liquid clustering reduziu o tempo médio de execução de 547,03 s para 206,77 s, representando uma redução superior a 60% em relação ao cenário sem particionamento e de aproximadamente 35% em relação ao particionamento tradicional, além de diminuir o custo operacional em mais de 50%. A análise estatística (ANOVA de Welch) indicou diferenças significativas entre os cenários (p < 0,001), corroborando a superioridade da abordagem adaptativa. Conclui-se que a escolha da estratégia de particionamento é determinante para a eficiência de pipelines de dados em ambientes distribuídos
Downloads
Referências
ALAGARSAMY, Ram. AI-powered query data optimization in financial systems. ResearchGate, 2025. Disponível em: https://www.researchgate.net/publication/389749827_AI-Powered_Query_Data_Optimization_in_Financial_Systems. Acesso em: 15 maio 2025.
AUNG, Thandar; MAW, A. Analytics of reliability for real-time big data pipeline architecture. University of Information Technology, Yangon, Myanmar, v. 004, n. 2017, p. 42-56, abr. 2017. Disponível em:https://meral.edu.mm/record/6257/files/Analytics%20of%20Reliability%20for%20Real-Time%20Big%20Data%20Pipeline%20Architecture.pdf. Acesso em: 15 maio 2025.
BHATTACHARYA, Devipsita; CURRIM, Faiz; RAM, Sudha. Evaluating distributed computing infrastructures: an empirical study comparing Hadoop deployments on cloud and local systems. IEEE Transactions on Cloud Computing, v. 9, n. 3, p. 1075-1088, 1 jul. 2021. Disponível em: https://doi.org/10.1109/tcc.2019.2902377. Acesso em: 15 maio 2025.
CHERUKURI, H.; GOEL, E. L.; KUSHWAHA, G. S. Monetizing financial data analytics: best practice. International Journal of Computer Science and Publication, v. 11, n. 1, p. 76-87, 2021. Disponível em: https://rjpn.org/ijcspub/viewpaperforall.php?paper=IJCSP21A1011. Acesso em: 15 maio 2025.
DATABRICKS. Delta Lake: The Definitive Guide. Databricks, 2024. Disponível em: https://delta.io. Acesso em: 27 março 2026.
DAMJI, Jules et al. Learning Spark: Lightning-fast data analytics. 2. ed. Sebastopol: O’Reilly Media, 2020. Disponível em: https://www.oreilly.com/library/view/learning-spark-2nd/9781492050032/.
DARAM, S. Impact of cloud-based automation on efficiency and cost reduction: a comparative study. The International Journal of Engineering Research, v. 8, n. 10, p. a12-a21, 2021. Disponível em: https://tijer.org/tijer/papers/TIJER2110002.pdf. Acesso em: 15 maio 2025.
DATABRICKS. Comprehensive guide to optimize Databricks, Spark and Delta Lake workloads. Disponível em: https://www.databricks.com/discover/pages/optimize-data-workloads-guide. Acesso em: 15 maio 2025.
EETI, E. S.; JAIN, E. A.; GOEL, P. Implementing data quality checks in ETL pipelines: best practices and tools. International Journal of Computer Science and Information Technology, v. 10, n. 1, p. 31-42, 2020. Disponível em: https://rjpn.org/ijcspub/viewpaperforall.php?paper=IJCSP20B1006. Acesso em: 15 maio 2025.
KUMAR, A.; SINGH, R. Metadata-driven optimization of distributed ETL pipelines in cloud-native data warehouses. Journal of Data Engineering, 2024.
LI, Y. et al. Adaptive data partitioning for distributed query processing. arXiv preprint, 2021.
MOORE, David S. A estatística básica e sua prática. 9. ed. Rio de Janeiro: LTC, 2023. 626 p. Disponível em: https://www.grupogen.com.br/livro-a-estatistica-basica-e-sua-pratica-david-s-moore-william-i-notz-e-michael-a-fligner-editora-ltc-9788521638605.
PAMADI, E. V. N. Designing efficient algorithms for MapReduce: a simplified approach. The International Journal of Engineering Research, v. 8, n. 7, p. 23-37, 2021. Disponível em: https://tijer.org/tijer/papers/TIJER2107003.pdf. Acesso em: 15 maio 2025.
PAMADI, Vishesh Narendra; PANDEY, Priya; GOEL, Om. Comparative analysis of optimization techniques for consistent reads in key-value stores. International Journal of Creative Research Thoughts, v. 9, n. 10, p. d797-d813, out. 2021. Disponível em: https://www.researchgate.net/publication/388959917_Comparative_Analysis_Of_Optimization_Techniques_For_Consistent_Reads_In_Key-Value_Stores. Acesso em: 15 maio 2025.
SILVA, Adryan Felipe Marques da; BALTHAZAR, Glauber da Rocha; FERREIRA, Eduardo Augusto; SANTOS, Everton Souza dos. Comparative analysis of blocking and non-blocking models in rest APIS. Cuadernos de Educación y Desarrollo, [S.L.], v. 17, n. 8, p. 01-23, 5 ago. 2025. Brazilian Journals. http://dx.doi.org/10.55905/cuadv17n8-013.
SHAIKH, Eman et al. Apache Spark: a big data processing engine. In: IEEE Middle East and North Africa Communications Conference (MENACOMM), 2., 2019. Anais [...]. IEEE, nov. 2019. p. 1-6. Disponível em: https://doi.org/10.1109/menacomm46666.2019.8988541. Acesso em: 15 maio 2025.
SHANMUKHA, EETI; CHAURASIA, Ajay Kumar; SINGH, Tikam. Real-time data processing: an analysis of PySpark's capabilities. International Journal of Research and Analytical Reviews, v. 8, n. 3, p. 929-939, 2021. Disponível em: https://www.academia.edu/124656194/Real_Time_Data_Processing_An_Analysis_of_PySparks_Capabilities. Acesso em: 15 maio 2025.
YANG, Ming et al. An efficient storage and service method for multi-source merging meteorological big data in cloud environment. EURASIP Journal on Wireless Communications and Networking, v. 2019, n. 1, 29 out. 2019. Disponível em: https://doi.org/10.1186/s13638-019-1576-0. Acesso em: 15 maio 2025.
ZAHARIA, Matei et al. Apache Spark: a unified engine for big data processing. Communications of the ACM, v. 59, n. 11, p. 56-65, 2016. Disponível em: https://dl.acm.org/doi/10.1145/2934664. Acesso em:15 maio 2025.
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2026 Evandro Costa Ferreira, Glauber da Rocha Balthazar

Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Você tem o direito de:
- Compartilhar — copiar e redistribuir o material em qualquer suporte ou formato para qualquer fim, mesmo que comercial.
- Adaptar — remixar, transformar, e criar a partir do material para qualquer fim, mesmo que comercial.
- O licenciante não pode revogar estes direitos desde que você respeite os termos da licença.
De acordo com os termos seguintes:
- Atribuição — Você deve dar o crédito apropriado , prover um link para a licença e indicar se mudanças foram feitas . Você deve fazê-lo em qualquer circunstância razoável, mas de nenhuma maneira que sugira que o licenciante apoia você ou o seu uso.
- Sem restrições adicionais — Você não pode aplicar termos jurídicos ou medidas de caráter tecnológico que restrinjam legalmente outros de fazerem algo que a licença permita.