sqoop功能稳定后就没再更新了,最新版本就是1.4.7。而最新版的sqoop又分为支持Hadoop2的版本和纯净的版本。 我们需要把两个包都下下来,提取部分sqoop_hadoop2.6.0版本的jar包放到纯净版sqoop的lib目录下,在sqoop配置文件中加入获取当前环境中的hive及hadoop的lib库来使用.
下载sqoop
下载sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 和sqoop-1.4.7.tar.gz 这两个包。 从支持Hadoop2的sqoop的lib目录下复制下图所示的三个包到纯净版中, mysql开头的那个jar包是MySQL的jdbc连接包,如果使用sqoop同步数据的过程中需要从MySQL导出数据或者从导入数据到MySQL,那还需要放这个包进去。 同理,如果需要使用hbase,那也一样放jar包进去。(连接hive不需要再放jar包,hive数据是存在hdfs上的)
上传sqoop到服务器并配置
把修改好的sqoop上传到服务器上,放在喜欢的位置(我放在了/usr/local
下),在sqoop的conf目录的sqoop-env.sh文件添加如下内容,引入Hadoop和hive的lib库,注意路径要改成自己的安装路径:
|
|
在服务器上添加sqoop的环境变量,修改~/.bashrc
。添加如下内容:
|
|
至此,sqoop安装完成。sqoop是离线应用,即用即开,和DataX相同。