Una evaluación empírica de las técnicas de particionamiento de datos en flujos de datos distribuidos.
DOI:
https://doi.org/10.36557/2674-9432.2026v5n3p1218-1233Palabras clave:
big data, Databricks, liquid clustering, data partitioning, PySpark, Azure Data Lake Storage Gen2Resumen
Este artículo presenta un estudio sobre la optimización de la canalización de datos en entornos distribuidos, centrándose en la eficiencia de los recursos y la reducción de los costes operativos. El objetivo fue evaluar el impacto de diferentes estrategias de particionamiento en grandes volúmenes de datos utilizando la plataforma Databricks integrada con Azure Data Lake Storage Gen2. Se utilizó un conjunto de datos de aproximadamente 120 GiB, analizado en tres escenarios: (i) sin particionamiento, (ii) particionamiento tradicional y (iii) particionamiento mediante agrupamiento líquido. Las métricas evaluadas incluyeron el tiempo de procesamiento, el uso de la CPU, el uso de la memoria y el coste financiero. Los resultados demostraron que el agrupamiento líquido redujo el tiempo medio de ejecución de 547,03 s a 206,77 s, lo que representa una reducción de más del 60 % en comparación con el escenario sin particionamiento y de aproximadamente el 35 % en comparación con el particionamiento tradicional, además de disminuir los costes operativos en más del 50 %. El análisis estadístico (ANOVA de Welch) indicó diferencias significativas entre los escenarios (p < 0,001), corroborando la superioridad del enfoque adaptativo. Se puede concluir que la elección de la estrategia de particionamiento es crucial para la eficiencia de los flujos de datos en entornos distribuidos.
Descargas
Citas
ALAGARSAMY, Ram. AI-powered query data optimization in financial systems. ResearchGate, 2025. Disponível em: https://www.researchgate.net/publication/389749827_AI-Powered_Query_Data_Optimization_in_Financial_Systems. Acesso em: 15 maio 2025.
AUNG, Thandar; MAW, A. Analytics of reliability for real-time big data pipeline architecture. University of Information Technology, Yangon, Myanmar, v. 004, n. 2017, p. 42-56, abr. 2017. Disponível em:https://meral.edu.mm/record/6257/files/Analytics%20of%20Reliability%20for%20Real-Time%20Big%20Data%20Pipeline%20Architecture.pdf. Acesso em: 15 maio 2025.
BHATTACHARYA, Devipsita; CURRIM, Faiz; RAM, Sudha. Evaluating distributed computing infrastructures: an empirical study comparing Hadoop deployments on cloud and local systems. IEEE Transactions on Cloud Computing, v. 9, n. 3, p. 1075-1088, 1 jul. 2021. Disponível em: https://doi.org/10.1109/tcc.2019.2902377. Acesso em: 15 maio 2025.
CHERUKURI, H.; GOEL, E. L.; KUSHWAHA, G. S. Monetizing financial data analytics: best practice. International Journal of Computer Science and Publication, v. 11, n. 1, p. 76-87, 2021. Disponível em: https://rjpn.org/ijcspub/viewpaperforall.php?paper=IJCSP21A1011. Acesso em: 15 maio 2025.
DATABRICKS. Delta Lake: The Definitive Guide. Databricks, 2024. Disponível em: https://delta.io. Acesso em: 27 março 2026.
DAMJI, Jules et al. Learning Spark: Lightning-fast data analytics. 2. ed. Sebastopol: O’Reilly Media, 2020. Disponível em: https://www.oreilly.com/library/view/learning-spark-2nd/9781492050032/.
DARAM, S. Impact of cloud-based automation on efficiency and cost reduction: a comparative study. The International Journal of Engineering Research, v. 8, n. 10, p. a12-a21, 2021. Disponível em: https://tijer.org/tijer/papers/TIJER2110002.pdf. Acesso em: 15 maio 2025.
DATABRICKS. Comprehensive guide to optimize Databricks, Spark and Delta Lake workloads. Disponível em: https://www.databricks.com/discover/pages/optimize-data-workloads-guide. Acesso em: 15 maio 2025.
EETI, E. S.; JAIN, E. A.; GOEL, P. Implementing data quality checks in ETL pipelines: best practices and tools. International Journal of Computer Science and Information Technology, v. 10, n. 1, p. 31-42, 2020. Disponível em: https://rjpn.org/ijcspub/viewpaperforall.php?paper=IJCSP20B1006. Acesso em: 15 maio 2025.
KUMAR, A.; SINGH, R. Metadata-driven optimization of distributed ETL pipelines in cloud-native data warehouses. Journal of Data Engineering, 2024.
LI, Y. et al. Adaptive data partitioning for distributed query processing. arXiv preprint, 2021.
MOORE, David S. A estatística básica e sua prática. 9. ed. Rio de Janeiro: LTC, 2023. 626 p. Disponível em: https://www.grupogen.com.br/livro-a-estatistica-basica-e-sua-pratica-david-s-moore-william-i-notz-e-michael-a-fligner-editora-ltc-9788521638605.
PAMADI, E. V. N. Designing efficient algorithms for MapReduce: a simplified approach. The International Journal of Engineering Research, v. 8, n. 7, p. 23-37, 2021. Disponível em: https://tijer.org/tijer/papers/TIJER2107003.pdf. Acesso em: 15 maio 2025.
PAMADI, Vishesh Narendra; PANDEY, Priya; GOEL, Om. Comparative analysis of optimization techniques for consistent reads in key-value stores. International Journal of Creative Research Thoughts, v. 9, n. 10, p. d797-d813, out. 2021. Disponível em: https://www.researchgate.net/publication/388959917_Comparative_Analysis_Of_Optimization_Techniques_For_Consistent_Reads_In_Key-Value_Stores. Acesso em: 15 maio 2025.
SILVA, Adryan Felipe Marques da; BALTHAZAR, Glauber da Rocha; FERREIRA, Eduardo Augusto; SANTOS, Everton Souza dos. Comparative analysis of blocking and non-blocking models in rest APIS. Cuadernos de Educación y Desarrollo, [S.L.], v. 17, n. 8, p. 01-23, 5 ago. 2025. Brazilian Journals. http://dx.doi.org/10.55905/cuadv17n8-013.
SHAIKH, Eman et al. Apache Spark: a big data processing engine. In: IEEE Middle East and North Africa Communications Conference (MENACOMM), 2., 2019. Anais [...]. IEEE, nov. 2019. p. 1-6. Disponível em: https://doi.org/10.1109/menacomm46666.2019.8988541. Acesso em: 15 maio 2025.
SHANMUKHA, EETI; CHAURASIA, Ajay Kumar; SINGH, Tikam. Real-time data processing: an analysis of PySpark's capabilities. International Journal of Research and Analytical Reviews, v. 8, n. 3, p. 929-939, 2021. Disponível em: https://www.academia.edu/124656194/Real_Time_Data_Processing_An_Analysis_of_PySparks_Capabilities. Acesso em: 15 maio 2025.
YANG, Ming et al. An efficient storage and service method for multi-source merging meteorological big data in cloud environment. EURASIP Journal on Wireless Communications and Networking, v. 2019, n. 1, 29 out. 2019. Disponível em: https://doi.org/10.1186/s13638-019-1576-0. Acesso em: 15 maio 2025.
ZAHARIA, Matei et al. Apache Spark: a unified engine for big data processing. Communications of the ACM, v. 59, n. 11, p. 56-65, 2016. Disponível em: https://dl.acm.org/doi/10.1145/2934664. Acesso em:15 maio 2025.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2026 Evandro Costa Ferreira, Glauber da Rocha Balthazar

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Você tem o direito de:
- Compartilhar — copiar e redistribuir o material em qualquer suporte ou formato para qualquer fim, mesmo que comercial.
- Adaptar — remixar, transformar, e criar a partir do material para qualquer fim, mesmo que comercial.
- O licenciante não pode revogar estes direitos desde que você respeite os termos da licença.
De acordo com os termos seguintes:
- Atribuição — Você deve dar o crédito apropriado , prover um link para a licença e indicar se mudanças foram feitas . Você deve fazê-lo em qualquer circunstância razoável, mas de nenhuma maneira que sugira que o licenciante apoia você ou o seu uso.
- Sem restrições adicionais — Você não pode aplicar termos jurídicos ou medidas de caráter tecnológico que restrinjam legalmente outros de fazerem algo que a licença permita.