Uma avaliação empírica de técnicas de particionamento de dados em pipelines de dados distribuídos

Evandro Costa Ferreira; Glauber da Rocha Balthazar

doi:10.36557/2674-9432.2026v5n3p1218-1233

Autores

Evandro Costa Ferreira Instituto Federal de São Paulo (IFSP) https://orcid.org/0009-0001-1884-8320
Glauber da Rocha Balthazar Instituto Federal de São Paulo (IFSP) https://orcid.org/0000-0002-1993-6621

DOI:

https://doi.org/10.36557/2674-9432.2026v5n3p1218-1233

Palavras-chave:

Big data, databricks, liquid clustering, particionamento de dados, pyspark, azure data lake store gen2

Resumo

Este artigo apresenta um estudo sobre a otimização de pipelines de dados em ambientes distribuídos, com foco na eficiência de recursos e redução de custos operacionais. O objetivo foi avaliar o impacto de diferentes estratégias de particionamento em grandes volumes de dados utilizando a plataforma Databricks integrada ao Azure Data Lake Storage Gen2. Foi utilizado um dataset de aproximadamente 120 GiB, analisado em três cenários: (i) sem particionamento, (ii) particionamento tradicional e (iii) particionamento por liquid clustering. As métricas avaliadas incluíram tempo de processamento, uso de CPU, uso de memória e custo financeiro. Os resultados demonstraram que o liquid clustering reduziu o tempo médio de execução de 547,03 s para 206,77 s, representando uma redução superior a 60% em relação ao cenário sem particionamento e de aproximadamente 35% em relação ao particionamento tradicional, além de diminuir o custo operacional em mais de 50%. A análise estatística (ANOVA de Welch) indicou diferenças significativas entre os cenários (p < 0,001), corroborando a superioridade da abordagem adaptativa. Conclui-se que a escolha da estratégia de particionamento é determinante para a eficiência de pipelines de dados em ambientes distribuídos

Downloads

Não há dados estatísticos.

Referências

ALAGARSAMY, Ram. AI-powered query data optimization in financial systems. ResearchGate, 2025. Disponível em: https://www.researchgate.net/publication/389749827_AI-Powered_Query_Data_Optimization_in_Financial_Systems. Acesso em: 15 maio 2025.

AUNG, Thandar; MAW, A. Analytics of reliability for real-time big data pipeline architecture. University of Information Technology, Yangon, Myanmar, v. 004, n. 2017, p. 42-56, abr. 2017. Disponível em:https://meral.edu.mm/record/6257/files/Analytics%20of%20Reliability%20for%20Real-Time%20Big%20Data%20Pipeline%20Architecture.pdf. Acesso em: 15 maio 2025.

BHATTACHARYA, Devipsita; CURRIM, Faiz; RAM, Sudha. Evaluating distributed computing infrastructures: an empirical study comparing Hadoop deployments on cloud and local systems. IEEE Transactions on Cloud Computing, v. 9, n. 3, p. 1075-1088, 1 jul. 2021. Disponível em: https://doi.org/10.1109/tcc.2019.2902377. Acesso em: 15 maio 2025.

CHERUKURI, H.; GOEL, E. L.; KUSHWAHA, G. S. Monetizing financial data analytics: best practice. International Journal of Computer Science and Publication, v. 11, n. 1, p. 76-87, 2021. Disponível em: https://rjpn.org/ijcspub/viewpaperforall.php?paper=IJCSP21A1011. Acesso em: 15 maio 2025.

DATABRICKS. Delta Lake: The Definitive Guide. Databricks, 2024. Disponível em: https://delta.io. Acesso em: 27 março 2026.

DAMJI, Jules et al. Learning Spark: Lightning-fast data analytics. 2. ed. Sebastopol: O’Reilly Media, 2020. Disponível em: https://www.oreilly.com/library/view/learning-spark-2nd/9781492050032/.

DARAM, S. Impact of cloud-based automation on efficiency and cost reduction: a comparative study. The International Journal of Engineering Research, v. 8, n. 10, p. a12-a21, 2021. Disponível em: https://tijer.org/tijer/papers/TIJER2110002.pdf. Acesso em: 15 maio 2025.

DATABRICKS. Comprehensive guide to optimize Databricks, Spark and Delta Lake workloads. Disponível em: https://www.databricks.com/discover/pages/optimize-data-workloads-guide. Acesso em: 15 maio 2025.

EETI, E. S.; JAIN, E. A.; GOEL, P. Implementing data quality checks in ETL pipelines: best practices and tools. International Journal of Computer Science and Information Technology, v. 10, n. 1, p. 31-42, 2020. Disponível em: https://rjpn.org/ijcspub/viewpaperforall.php?paper=IJCSP20B1006. Acesso em: 15 maio 2025.

KUMAR, A.; SINGH, R. Metadata-driven optimization of distributed ETL pipelines in cloud-native data warehouses. Journal of Data Engineering, 2024.

LI, Y. et al. Adaptive data partitioning for distributed query processing. arXiv preprint, 2021.

MOORE, David S. A estatística básica e sua prática. 9. ed. Rio de Janeiro: LTC, 2023. 626 p. Disponível em: https://www.grupogen.com.br/livro-a-estatistica-basica-e-sua-pratica-david-s-moore-william-i-notz-e-michael-a-fligner-editora-ltc-9788521638605.

PAMADI, E. V. N. Designing efficient algorithms for MapReduce: a simplified approach. The International Journal of Engineering Research, v. 8, n. 7, p. 23-37, 2021. Disponível em: https://tijer.org/tijer/papers/TIJER2107003.pdf. Acesso em: 15 maio 2025.

PAMADI, Vishesh Narendra; PANDEY, Priya; GOEL, Om. Comparative analysis of optimization techniques for consistent reads in key-value stores. International Journal of Creative Research Thoughts, v. 9, n. 10, p. d797-d813, out. 2021. Disponível em: https://www.researchgate.net/publication/388959917_Comparative_Analysis_Of_Optimization_Techniques_For_Consistent_Reads_In_Key-Value_Stores. Acesso em: 15 maio 2025.

SILVA, Adryan Felipe Marques da; BALTHAZAR, Glauber da Rocha; FERREIRA, Eduardo Augusto; SANTOS, Everton Souza dos. Comparative analysis of blocking and non-blocking models in rest APIS. Cuadernos de Educación y Desarrollo, [S.L.], v. 17, n. 8, p. 01-23, 5 ago. 2025. Brazilian Journals. http://dx.doi.org/10.55905/cuadv17n8-013.

SHAIKH, Eman et al. Apache Spark: a big data processing engine. In: IEEE Middle East and North Africa Communications Conference (MENACOMM), 2., 2019. Anais [...]. IEEE, nov. 2019. p. 1-6. Disponível em: https://doi.org/10.1109/menacomm46666.2019.8988541. Acesso em: 15 maio 2025.

SHANMUKHA, EETI; CHAURASIA, Ajay Kumar; SINGH, Tikam. Real-time data processing: an analysis of PySpark's capabilities. International Journal of Research and Analytical Reviews, v. 8, n. 3, p. 929-939, 2021. Disponível em: https://www.academia.edu/124656194/Real_Time_Data_Processing_An_Analysis_of_PySparks_Capabilities. Acesso em: 15 maio 2025.

YANG, Ming et al. An efficient storage and service method for multi-source merging meteorological big data in cloud environment. EURASIP Journal on Wireless Communications and Networking, v. 2019, n. 1, 29 out. 2019. Disponível em: https://doi.org/10.1186/s13638-019-1576-0. Acesso em: 15 maio 2025.

ZAHARIA, Matei et al. Apache Spark: a unified engine for big data processing. Communications of the ACM, v. 59, n. 11, p. 56-65, 2016. Disponível em: https://dl.acm.org/doi/10.1145/2934664. Acesso em:15 maio 2025.

Uma avaliação empírica de técnicas de particionamento de dados em pipelines de dados distribuídos

Autores

DOI:

Palavras-chave:

Resumo

Downloads

Referências

Downloads

Publicado

Como Citar

Edição

Seção

Licença

Você tem o direito de:

De acordo com os termos seguintes:

Enviar Submissão

Informações

Periódicos Brasil. Pesquisa Científica (ISSN 2674-9432)