Hadoop3配置sqoop

sqoop功能稳定后就没再更新了,最新版本就是1.4.7。而最新版的sqoop又分为支持Hadoop2的版本和纯净的版本。 我们需要把两个包都下下来,提取部分sqoop_hadoop2.6.0版本的jar包放到纯净版sqoop的lib目录下,在sqoop配置文件中加入获取当前环境中的hive及hadoop的lib库来使用.

下载sqoop

下载sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 和sqoop-1.4.7.tar.gz 这两个包。 从支持Hadoop2的sqoop的lib目录下复制下图所示的三个包到纯净版中, mysql开头的那个jar包是MySQL的jdbc连接包,如果使用sqoop同步数据的过程中需要从MySQL导出数据或者从导入数据到MySQL,那还需要放这个包进去。 同理,如果需要使用hbase,那也一样放jar包进去。(连接hive不需要再放jar包,hive数据是存在hdfs上的)

上传sqoop到服务器并配置

把修改好的sqoop上传到服务器上,放在喜欢的位置(我放在了/usr/local下),在sqoop的conf目录的sqoop-env.sh文件添加如下内容,引入Hadoop和hive的lib库,注意路径要改成自己的安装路径:

1
2
3
4
5
6
export HADOOP_COMMON_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=/usr/local/hadoop
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HIVE_HOME/lib/*

export HIVE_HOME=/usr/local/hive

在服务器上添加sqoop的环境变量,修改~/.bashrc。添加如下内容:

1
2
export SQOOP_HOME=/usr/local/sqoop
export PATH=$PATH:$SQOOP_HOME/bin:$SQOOP_HOME/bin

至此,sqoop安装完成。sqoop是离线应用,即用即开,和DataX相同。

网站总访客数:Loading
网站总访问量:Loading
使用 Hugo 构建
主题 StackJimmy 设计