免费编程教程

最新
大数据面试题

梳理数据倾斜、Shuffle 优化等高频考点,准备大数据工程师面试。

9 0 0
2026-06-18
最新
ETL 设计与实现

设计高效的 ETL 管道,处理增量抽取、数据清洗和缓慢变化维。

10 0 0
2026-06-17
最新
数据质量监控

使用 Great Expectations 等工具定义数据契约,检测数据漂移和异常。

10 0 0
2026-06-17
最新
数据治理与血缘

建立数据资产目录,追踪数据流向,确保数据质量和合规使用。

7 0 0
2026-06-17
最新
dbt 数据建模

使用 dbt 编写模块化 SQL 转换,测试数据质量并生成数据文档。

7 0 0
2026-06-17
最新
Redshift 数据仓库

使用 Amazon Redshift 构建分析型数据库,通过分布和排序键优化查询。

10 0 0
2026-06-17
最新
BigQuery 数据分析

利用 BigQuery 快速分析 PB 级数据,内置机器学习和地理空间函数。

14 0 0
2026-06-17
最新
Snowflake 云数据仓库

使用 Snowflake 的存算分离架构,弹性伸缩并安全共享数据。

9 0 0
2026-06-17
最新
Delta Lake 数据湖

在数据湖上实现 ACID 事务、可扩展的元数据处理和时间旅行查询。

7 0 0
2026-06-17
最新
数据湖架构

设计基于对象存储的数据湖,利用多种计算引擎直接分析海量原始数据。

10 0 0
2026-06-17
最新
Kafka Streams 实时计算

直接在 Kafka 上进行转换、聚合和连接操作,无需独立集群。

11 0 0
2026-06-17
最新
Flink 流处理

使用 Apache Flink 进行实时流计算,处理事件时间、窗口和状态。

13 0 0
2026-06-17
最新
Hive 数据仓库

使用 HiveQL 在 Hadoop 上进行类 SQL 查询,管理元数据和分区表。

12 0 0
2026-06-17
最新
Hadoop 生态系统

了解 Hadoop 核心组件,搭建分布式文件系统和资源管理,运行批处理作业。

12 0 0
2026-06-17
最新
PySpark 数据处理

通过 PySpark 编写 Python 代码运行在 Spark 集群上,进行大规模 ETL 和分析。

16 0 0
2026-06-17
最新
Apache Spark 大数据

使用 PySpark 或 Scala Spark 处理大规模数据,掌握转换与动作算子。

9 0 0
2026-06-17
最新
数据管道 Apache Airflow

使用 Airflow 创建、调度和监控复杂的数据工作流,管理依赖和重试。

6 0 0
2026-06-17
最新
Apache Kafka 消息系统

掌握 Kafka 架构,学习生产者发布、消费者订阅和分区再均衡机制。

8 0 0
2026-06-16
最新
数据湖与数据仓库架构设计

比较数据湖与数据仓库,设计基于对象存储和开放表格式的湖仓一体架构,实现批流统一的数据处理与治理。

9 0 0
2026-06-12
最新
Hadoop 生态系统基础与实操

理解 Hadoop 分布式文件系统与 MapReduce 计算模型,搭建本地集群并运行经典的单词计数作业,奠定大数据基础。

9 0 0
2026-06-12
最新
Apache Spark 大数据处理快速入门

使用 PySpark 编写分布式数据处理程序,学习 Spark DataFrame 操作、SQL 查询和常见性能优化,处理 TB 级数据集。

10 0 0
2026-06-12
最新
Elasticsearch 全文搜索与数据分析

深入 Elasticsearch 搜索原理,掌握映射设计、DSL 查询、聚合分析及性能调优,搭建企业级搜索与日志分析平台。

10 0 0
2026-06-12
最新
Apache Kafka 流处理平台实战

学习 Kafka 架构、主题分区、消费者组再均衡以及 Kafka Streams DSL,构建可靠的实时数据管道和事件驱动应用。

9 0 0
2026-06-12