这个该死的问题查了我整整3天,差点就放弃了。kettle用的人不多,文档也不太全,源码又重又大。
需求是从Impala用SQL读取数据,写入MYSQL。
环境是: pdi-ce-7.0.0.0-25
Linux: CentOS7
连接的是Cloudera Impala,使用第三方JDBC jar包:ImpalaJDBC4.jar
在Windows环境下,使用spoon.bat编写的JDBC同步逻辑是可以使用的,没有问题。
在Linux下面,运行第一次的时候,也可以正常运行,但是第二次运行后,就会报:
Error reading object from XML file
Unable to load database connection info from XML node
Unable to create new database interface
database type with plugin id [IMPALASIMBA] couldn‘t be found!
根据baidu某帖子,删除$KETTLE_HOME/system/karaf/caches 下的内容后,就可以顺利执行。
但是你不可能每次运行kettle作业都删一次本地缓存,这样并发进程的时候可能会出现bug。
怀疑是karaf这个OSGi容器生成的bundle有问题,思路就是不让它生成缓存文件就是了。据了解,Apache Karaf 每次加载一个Class,就会在Bundle里面生成一个classloader。
最后顺藤摸瓜,加了一个配置:
if [ -z "$PENTAHO_DI_JAVA_OPTIONS" ]; then
PENTAHO_DI_JAVA_OPTIONS="-Xms1024m -Xmx2048m -XX:MaxPermSize=256m -Dpentaho.karaf.root.transient=true"
fi
在spoon.sh的代码里面,加入了-Dpentaho.karaf.root.transient=true。这样就不会生成缓存了,多次执行也OK。
目前可以解决当前使用。
文章分享完毕,希望我的分享对大家有所帮助。更多学习技巧也可参阅:福网
Kettle 使用Impala遇到plugin id [IMPALASIMBA] couldn't be found!
原文:https://www.cnblogs.com/meilideni/p/12963781.html