前言
PySpark 长期依赖 Linux 默认的 Python 2.7.5,令人十分头疼。如何升级到 Python 3?一番折腾后,再次开启 Google 深度搜索之旅。
操作步骤
首先安装 Python 3.x,并将其路径添加到全局环境变量中。执行以下命令:
sudo vim /etc/profile
export PATH=/usr/bin/python3:$PATH
source /etc/profile
接下来,进入 CDH Web 管理界面,找到 spark-env.sh 文件并进行配置。操作示例如下:

即添加以下两行配置:
export PYSPARK_PYTHON=/usr/bin/python3
export PYSPARK_DRIVER_PYTHON=/usr/bin/python3
随后重启 CDH 中的过期服务(没错,就是那个需要刷新的服务)。
完成以上步骤后,即可愉快地继续使用 PySpark 处理任务。

参考
