Uma avaliação empírica de técnicas de particionamento de dados em pipelines de dados distribuídos

Evandro Costa Ferreira; Glauber da Rocha Balthazar

doi:10.36557/2674-9432.2026v5n3p1218-1233

Autores/as

Evandro Costa Ferreira Instituto Federal de São Paulo (IFSP) https://orcid.org/0009-0001-1884-8320
Glauber da Rocha Balthazar Instituto Federal de São Paulo (IFSP) https://orcid.org/0000-0002-1993-6621

DOI:

https://doi.org/10.36557/2674-9432.2026v5n3p1218-1233

Palabras clave:

big data, Databricks, liquid clustering, data partitioning, PySpark, Azure Data Lake Storage Gen2

Resumen

Este artículo presenta un estudio sobre la optimización de la canalización de datos en entornos distribuidos, centrándose en la eficiencia de los recursos y la reducción de los costes operativos. El objetivo fue evaluar el impacto de diferentes estrategias de particionamiento en grandes volúmenes de datos utilizando la plataforma Databricks integrada con Azure Data Lake Storage Gen2. Se utilizó un conjunto de datos de aproximadamente 120 GiB, analizado en tres escenarios: (i) sin particionamiento, (ii) particionamiento tradicional y (iii) particionamiento mediante agrupamiento líquido. Las métricas evaluadas incluyeron el tiempo de procesamiento, el uso de la CPU, el uso de la memoria y el coste financiero. Los resultados demostraron que el agrupamiento líquido redujo el tiempo medio de ejecución de 547,03 s a 206,77 s, lo que representa una reducción de más del 60 % en comparación con el escenario sin particionamiento y de aproximadamente el 35 % en comparación con el particionamiento tradicional, además de disminuir los costes operativos en más del 50 %. El análisis estadístico (ANOVA de Welch) indicó diferencias significativas entre los escenarios (p < 0,001), corroborando la superioridad del enfoque adaptativo. Se puede concluir que la elección de la estrategia de particionamiento es crucial para la eficiencia de los flujos de datos en entornos distribuidos.

Descargas

Los datos de descargas todavía no están disponibles.

Citas

ALAGARSAMY, Ram. AI-powered query data optimization in financial systems. ResearchGate, 2025. Disponível em: https://www.researchgate.net/publication/389749827_AI-Powered_Query_Data_Optimization_in_Financial_Systems. Acesso em: 15 maio 2025.

AUNG, Thandar; MAW, A. Analytics of reliability for real-time big data pipeline architecture. University of Information Technology, Yangon, Myanmar, v. 004, n. 2017, p. 42-56, abr. 2017. Disponível em:https://meral.edu.mm/record/6257/files/Analytics%20of%20Reliability%20for%20Real-Time%20Big%20Data%20Pipeline%20Architecture.pdf. Acesso em: 15 maio 2025.

BHATTACHARYA, Devipsita; CURRIM, Faiz; RAM, Sudha. Evaluating distributed computing infrastructures: an empirical study comparing Hadoop deployments on cloud and local systems. IEEE Transactions on Cloud Computing, v. 9, n. 3, p. 1075-1088, 1 jul. 2021. Disponível em: https://doi.org/10.1109/tcc.2019.2902377. Acesso em: 15 maio 2025.

CHERUKURI, H.; GOEL, E. L.; KUSHWAHA, G. S. Monetizing financial data analytics: best practice. International Journal of Computer Science and Publication, v. 11, n. 1, p. 76-87, 2021. Disponível em: https://rjpn.org/ijcspub/viewpaperforall.php?paper=IJCSP21A1011. Acesso em: 15 maio 2025.

DATABRICKS. Delta Lake: The Definitive Guide. Databricks, 2024. Disponível em: https://delta.io. Acesso em: 27 março 2026.

DAMJI, Jules et al. Learning Spark: Lightning-fast data analytics. 2. ed. Sebastopol: O’Reilly Media, 2020. Disponível em: https://www.oreilly.com/library/view/learning-spark-2nd/9781492050032/.

DARAM, S. Impact of cloud-based automation on efficiency and cost reduction: a comparative study. The International Journal of Engineering Research, v. 8, n. 10, p. a12-a21, 2021. Disponível em: https://tijer.org/tijer/papers/TIJER2110002.pdf. Acesso em: 15 maio 2025.

DATABRICKS. Comprehensive guide to optimize Databricks, Spark and Delta Lake workloads. Disponível em: https://www.databricks.com/discover/pages/optimize-data-workloads-guide. Acesso em: 15 maio 2025.

EETI, E. S.; JAIN, E. A.; GOEL, P. Implementing data quality checks in ETL pipelines: best practices and tools. International Journal of Computer Science and Information Technology, v. 10, n. 1, p. 31-42, 2020. Disponível em: https://rjpn.org/ijcspub/viewpaperforall.php?paper=IJCSP20B1006. Acesso em: 15 maio 2025.

KUMAR, A.; SINGH, R. Metadata-driven optimization of distributed ETL pipelines in cloud-native data warehouses. Journal of Data Engineering, 2024.

LI, Y. et al. Adaptive data partitioning for distributed query processing. arXiv preprint, 2021.

MOORE, David S. A estatística básica e sua prática. 9. ed. Rio de Janeiro: LTC, 2023. 626 p. Disponível em: https://www.grupogen.com.br/livro-a-estatistica-basica-e-sua-pratica-david-s-moore-william-i-notz-e-michael-a-fligner-editora-ltc-9788521638605.

PAMADI, E. V. N. Designing efficient algorithms for MapReduce: a simplified approach. The International Journal of Engineering Research, v. 8, n. 7, p. 23-37, 2021. Disponível em: https://tijer.org/tijer/papers/TIJER2107003.pdf. Acesso em: 15 maio 2025.

PAMADI, Vishesh Narendra; PANDEY, Priya; GOEL, Om. Comparative analysis of optimization techniques for consistent reads in key-value stores. International Journal of Creative Research Thoughts, v. 9, n. 10, p. d797-d813, out. 2021. Disponível em: https://www.researchgate.net/publication/388959917_Comparative_Analysis_Of_Optimization_Techniques_For_Consistent_Reads_In_Key-Value_Stores. Acesso em: 15 maio 2025.

SILVA, Adryan Felipe Marques da; BALTHAZAR, Glauber da Rocha; FERREIRA, Eduardo Augusto; SANTOS, Everton Souza dos. Comparative analysis of blocking and non-blocking models in rest APIS. Cuadernos de Educación y Desarrollo, [S.L.], v. 17, n. 8, p. 01-23, 5 ago. 2025. Brazilian Journals. http://dx.doi.org/10.55905/cuadv17n8-013.

SHAIKH, Eman et al. Apache Spark: a big data processing engine. In: IEEE Middle East and North Africa Communications Conference (MENACOMM), 2., 2019. Anais [...]. IEEE, nov. 2019. p. 1-6. Disponível em: https://doi.org/10.1109/menacomm46666.2019.8988541. Acesso em: 15 maio 2025.

SHANMUKHA, EETI; CHAURASIA, Ajay Kumar; SINGH, Tikam. Real-time data processing: an analysis of PySpark's capabilities. International Journal of Research and Analytical Reviews, v. 8, n. 3, p. 929-939, 2021. Disponível em: https://www.academia.edu/124656194/Real_Time_Data_Processing_An_Analysis_of_PySparks_Capabilities. Acesso em: 15 maio 2025.

YANG, Ming et al. An efficient storage and service method for multi-source merging meteorological big data in cloud environment. EURASIP Journal on Wireless Communications and Networking, v. 2019, n. 1, 29 out. 2019. Disponível em: https://doi.org/10.1186/s13638-019-1576-0. Acesso em: 15 maio 2025.

ZAHARIA, Matei et al. Apache Spark: a unified engine for big data processing. Communications of the ACM, v. 59, n. 11, p. 56-65, 2016. Disponível em: https://dl.acm.org/doi/10.1145/2934664. Acesso em:15 maio 2025.

Una evaluación empírica de las técnicas de particionamiento de datos en flujos de datos distribuidos.

Autores/as

DOI:

Palabras clave:

Resumen

Descargas

Citas

Descargas

Publicado

Cómo citar

Número

Sección

Licencia

Você tem o direito de:

De acordo com os termos seguintes:

Enviar un artículo

Información

Periódicos Brasil. Pesquisa Científica (ISSN 2674-9432)