如何在Windows 10上安装Apache Spark?操作步骤指南

2021年11月20日19:55:25 发表评论 1,283 次浏览

Windows 10 Apache Spark安装教程介绍

Apache Spark 是一个开源框架,可处理来自多个源的大量流数据。Spark 用于具有机器学习应用程序、数据分析和图形并行处理的分布式计算。

如何在Windows上安装Apache Spark?本指南将向你展示如何在 Windows 10 上安装 Apache Spark并测试安装

先决条件

  • 运行 Windows 10 的系统
  • 具有管理员权限的用户帐户(安装软件、修改文件权限和修改系统路径所需)
  • 命令提示符或 Powershell
  • 提取 .tar 文件的工具,例如 7-Zip

在 Windows 上安装 Apache Spark

Windows 10如何安装Apache Spark?对于新手用户来说,在 Windows 10 上安装 Apache Spark 似乎很复杂,但是这个简单的教程会让你开始使用。如果你已经安装了 Java 8 和 Python 3,则可以跳过前两步。

第 1 步:安装 Java 8

Apache Spark 需要 Java 8。你可以使用命令提示符检查是否安装了 Java。

通过单击开始> 键入cmd > 单击命令提示符打开命令行。

在命令提示符中键入以下命令:

java -version

如果安装了 Java,它将响应以下输出:

如何在Windows 10上安装Apache Spark?操作步骤指南

你的版本可能有所不同。第二个数字是 Java 版本——在本例中是 Java 8。

如果你没有安装 Java:

1. 打开浏览器窗口,并导航到https://java.com/en/download/

如何在Windows 10上安装Apache Spark?操作步骤指南

2. 单击Java 下载按钮并将文件保存到你选择的位置。

3. 下载完成后双击该文件以安装 Java。

注意:在撰写本文时,最新的 Java 版本为 1.8.0_251。安装更高版本仍然有效。此过程只需要 Java 运行时环境 (JRE) – 不需要完整的开发工具包 (JDK)。JDK 的下载链接是https://www.oracle.com/java/technologies/javase-downloads.html

第 2 步:安装 Python

1. 要安装 Python 包管理器,请在 Web 浏览器中导航到https://www.python.org/

2. 将鼠标悬停在下载菜单选项上,然后单击Python 3.8.3。3.8.3 是撰写本文时的最新版本。

3. 下载完成后,运行该文件。

如何在Windows 10上安装Apache Spark?操作步骤指南

4. 在第一个设置对话框底部附近,勾选Add Python 3.8 to PATH。选中另一个框。

5. 接下来,单击自定义安装

如何在Windows 10上安装Apache Spark?操作步骤指南

6. 你可以在此步骤中选中所有复选框,也可以取消选中你不想要的选项。

7. 单击下一步

8. 选择为所有用户安装框,其他框保持原样。

9. 在自定义安装位置下,单击浏览并导航到 C 盘。添加一个新文件夹并将其命名为Python

10. 选择该文件夹并单击确定

如何在Windows 10上安装Apache Spark?操作步骤指南

11. 点击安装,让安装完成。

12. 安装完成后,单击底部的禁用路径长度限制选项,然后单击关闭

13. 如果你打开了命令提示符,请重新启动它。通过检查 Python 版本来验证安装:

python --version

输出应该打印Python 3.8.3

注意:有关如何在 Windows 上安装 Python 3 或如何解决潜在问题的详细说明,请参阅我们的在 Windows 上安装 Python 3指南。

第 3 步:Windows 10如何安装Apache Spark - 下载安装包

1. 打开浏览器并导航到https://spark.apache.org/downloads.html

2. 在下载 Apache Spark标题下,有两个下拉菜单。使用当前的非预览版本。

  • 在我们的例子中,在选择 Spark 版本下拉菜单中选择2.4.5 (Feb 05 2020)
  • 在第二个下拉选择包类型中保留选择Pre-built for Apache Hadoop 2.7

3. 点击spark-2.4.5-bin-hadoop2.7.tgz 链接。

如何在Windows 10上安装Apache Spark?操作步骤指南

4. 加载镜像列表的页面,你可以在其中查看要下载的不同服务器。从列表中选择任何一个并将文件保存到你的下载文件夹。

步骤 4:验证 Spark 软件文件 - Windows 10 Apache Spark安装教程

1. 通过检查文件的校验和来验证下载的完整性。这可确保你使用未更改、未损坏的软件。

2. 导航回Spark 下载页面并打开校验和链接,最好在新选项卡中。

3.接下来,打开命令行并输入以下命令:

certutil -hashfile c:\users\username\Downloads\spark-2.4.5-bin-hadoop2.7.tgz SHA512

4.将用户名更改为你的用户名。系统会显示一个长字母数字代码以及消息Certutil: -hashfile completed successfully

如何在Windows 10上安装Apache Spark?操作步骤指南

5. 将代码与你在新浏览器选项卡中打开的代码进行比较。如果它们匹配,则你的下载文件未损坏。

第 5 步:安装 Apache Spark

如何在Windows上安装Apache Spark?安装 Apache Spark 涉及将下载的文件解压缩到所需位置。

1.在 C: 驱动器的根目录中创建一个名为Spark的新文件夹。从命令行,输入以下内容:

cd \

mkdir Spark

2. 在资源管理器中,找到你下载的 Spark 文件。

3. 右键单击​​该文件并使用系统上的工具(例如 7-Zip)将其解压缩到C:\Spark

4. 现在,你的C:\Spark文件夹中有一个新文件夹spark-2.4.5-bin-hadoop2.7,其中包含必要的文件。

第 6 步:添加 winutils.exe 文件

为你下载的 Spark 安装的底层 Hadoop 版本下载winutils.exe文件。

1. 导航到此 URL https://github.com/cdarlint/winutils并在bin文件夹中找到winutils.exe并单击它。

如何在Windows 10上安装Apache Spark?操作步骤指南

2. 找到右侧的下载按钮下载文件。

3. 现在,使用 Windows 资源管理器或命令提示符在 C 上创建新文件夹Hadoop bin

4. 将 winutils.exe 文件从 Downloads 文件夹复制到C:\hadoop\bin

步骤 7:配置环境变量

Windows 10如何安装Apache Spark?在 Windows 中配置环境变量会将 Spark 和 Hadoop 位置添加到你的系统 PATH。它允许你直接从命令提示符窗口运行 Spark shell。

1. 单击开始并键入environment

2. 选择标记为Edit the system environment variables的结果。

3. 系统属性对话框出现。在右下角,单击环境变量,然后在下一个窗口中单击新建

如何在Windows 10上安装Apache Spark?操作步骤指南

4. 对于变量名称,输入SPARK_HOME

5. 对于变量值,键入C:\Spark\spark-2.4.5-bin-hadoop2.7,然后单击确定。如果你更改了文件夹路径,请改用该路径。

如何在Windows 10上安装Apache Spark?操作步骤指南

6. 在顶部框中,单击路径条目,然后单击编辑。编辑系统路径时要小心。避免删除列表中已有的任何条目。

如何在Windows 10上安装Apache Spark?操作步骤指南

7. 你应该会在左侧看到一个带有条目的框。在右侧,单击新建

8. 系统高亮显示新行。输入 Spark 文件夹的路径C:\Spark\spark-2.4.5-bin-hadoop2.7\bin。我们建议使用%SPARK_HOME%\bin以避免路径可能出现的问题。

如何在Windows 10上安装Apache Spark?操作步骤指南

9. 对 Hadoop 和 Java 重复此过程。

  • 对于 Hadoop,变量名是HADOOP_HOME  ,值使用你之前创建的文件夹的路径:C:\hadoop。C:\hadoop\bin添加到Path 变量字段,但我们建议使用%HADOOP_HOME%\bin
  • 对于 Java,变量名是JAVA_HOME,值使用 Java JDK 目录的路径(在我们的例子中是C:\Program Files\Java\jdk1.8.0_251)。

10. 单击确定关闭所有打开的窗口。

注意:通过重新启动命令提示符来应用更改。如果这不起作用,你将需要重新启动系统。

第 8 步:启动 Spark

1. 如何在Windows上安装Apache Spark?使用右键单击并以管理员身份运行打开一个新的命令提示符窗口:

2. 要启动 Spark,请输入:

C:\Spark\spark-2.4.5-bin-hadoop2.7\bin\spark-shell

如果正确设置环境路径,则可以键入spark-shell以启动 Spark。

3. 系统应显示多行指示应用程序的状态。你可能会看到 Java 弹出窗口。选择允许访问以继续。

最后,会出现 Spark 徽标,并且提示会显示Scala shell

如何在Windows 10上安装Apache Spark?操作步骤指南

4., 打开网页浏览器并导航到http://localhost:4040/

5. 你可以将localhost替换为你的系统名称。

6. 你应该会看到一个 Apache Spark shell Web UI。下面的示例显示了Executors页面。

如何在Windows 10上安装Apache Spark?操作步骤指南

7. 要退出 Spark 并关闭 Scala shell,请ctrl-d 在命令提示符窗口中按 。

注意:如果你安装了 Python,则可以使用 Python 使用以下命令运行 Spark:

pyspark


使用 quit() 退出。

Windows 10 Apache Spark安装教程:测试Spark

Windows 10如何安装Apache Spark?在本例中,我们将启动 Spark shell 并使用 Scala 读取文件的内容。你可以使用现有文件,例如Spark 目录中的README文件,也可以创建自己的文件。我们用一些文本创建了pnaptest

1. 打开命令提示符窗口并导航到要使用的文件所在的文件夹,然后启动 Spark shell。

2. 首先,用文件名声明一个在 Spark 上下文中使用的变量。如果有,请记住添加文件扩展名。

val x =sc.textFile("pnaptest")

3. 输出显示已创建 RDD。然后,我们可以通过使用此命令调用操作来查看文件内容:

x.take(11).foreach(println)
如何在Windows 10上安装Apache Spark?操作步骤指南

如何在Windows上安装Apache Spark?此命令指示 Spark 从你指定的文件中打印 11 行。要对该文件执行操作(值 x),请添加另一个值y,并进行映射转换。

4. 例如,你可以使用以下命令反向打印字符:

val y = x.map(_.reverse)

5. 系统创建与第一个相关的子 RDD。然后,指定要从值y打印多少行:

y.take(11).foreach(println)
如何在Windows 10上安装Apache Spark?操作步骤指南

输出以相反的顺序打印pnaptest文件的11 行。

完成后,使用ctrl-d.

Windows 10 Apache Spark安装教程结论

Windows 10如何安装Apache Spark?你现在应该在 Windows 10 上安装了 Apache Spark,并安装了所有依赖项。开始在你的 Windows 环境中运行 Spark 实例。

我们的建议是还可以了解更多有关Spark DataFrame是什么、其功能以及在收集数据时如何使用 Spark DataFrame 的信息。

木子山

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: