pyspark读取mysql（pyspark读取文件）

编程日记 • 2025-02-15 08:06 • 阅读 81

可以使用 Fabric 笔记本连接到 Azure Blob 存储、Azure SQL 数据库和其他存储选项中保存的数据。通过连接到数据源，即使数据未存储在 Fabric 湖屋中，也可以在分析过程中使用数据。还可以使用 Spark 代码在将数据加载到湖屋之前对其进行筛选和处理，这样 Spark 便能成为一个功能强大的工具，可将数据引入到 Fabric 分析环境中。

以下 PySpark 代码连接到 Azure Blob 存储中保存的数据，将数据读取到 DataFrame 中，然后显示数据。

上一个示例使用 SAS 令牌连接到源数据，然后再将数据读取到 DataFrame 中。根据数据的存储位置，可能需要使用不同的身份验证类型，例如服务主体或 OAuth。下面是使用服务主体连接到 Azure SQL 数据库的示例：

连接到数据并将其加载到 DataFrame 后，可以将数据保存到湖屋中。例如，以下代码以 Parquet 格式保存 DataFrame，该格式支持结构化、半结构化和非结构化数据。 Parquet 具有优化的列式存储结构以及高效的压缩功能。

Delta 表是 Fabric 湖屋的主要功能，因为它们支持 ACID 事务、事务日志等。可以通过笔记本轻松引入外部数据并将其加载到 Delta 表中。 Delta 表使用 Parquet 格式，并增加了一个日志文件。湖屋表以 Delta 格式保存，在 Fabric 用户界面中，表名称旁带有三角 Delta (Δ) 图标。

以下代码保存 Delta 表：

Spark 为并行处理框架，数据存储在一个或多个工作器节点上，这意味着它可以轻松针对大型数据进行缩放。但是，除非进行管理，否则 Spark 会存储大量小型数据文件（称为小文件问题），这可能会降低查询性能。 “V 顺序”和“优化写入”是在 Fabric 中默认启用的优化选项。

“V 顺序”可以加快各种计算引擎（如 Power BI、SQL 和 Spark）的读取速度并提高其读取效率。 V 顺序在写入时对 parquet 文件应用特殊的排序、分发、编码和压缩。
“优化写入”通过增加文件大小并因此减少写入的文件数来提高性能和可靠性。它适合用于 Delta 表的文件大小不理想或不标准的情况，或是可接受更高写入延迟的情况。

pyspark读取mysql（pyspark读取文件）

相关推荐