Java程序运行、停止Shell脚本

时间：2015-11-17 19:36:35 阅读：255 评论：0 收藏：0 [点我收藏+]

碰到这样一个问题——用Java程序来控制shell脚本的运行和停止。具体来讲，这个Java程序至少要有三个功能：

运行Shell脚本；
等待Shell脚本执行结束；
停止运行中的Shell程序；

从功能需求来看，似乎是比较容易做到的。尽管没有写过类似功能的程序，Google一下，很快就有答案了。

用Runtime或者ProcessBuilder可以运行程序，而Process类的waitFor()和destroy()方法分别满足功能2和3。

import java.io.BufferedReader;
import java.io.File;
import java.io.IOException;
import java.io.InputStreamReader;


public class ShellRunner extends Thread
{
  private Process proc;
  private String dir;
  private String shell;

  public ShellRunner(String dir, String shell)
  {
    super();
    this.proc = null;
    this.dir = dir;
    this.shell = shell;
  }

  @Override
  public void run() {
    try
    {
      ProcessBuilder builder = new ProcessBuilder("sh", dir + shell);
      builder.directory(new File(dir));

      proc = builder.start();
      System.out.println("Running ...");
      int exitValue = proc.waitFor();
      System.out.println("Exit Value: " + exitValue);
    }
    catch (IOException e)
    {
      e.getLocalizedMessage();
    }
    catch (InterruptedException e)
    {
      e.getLocalizedMessage();
    }
  }

  public void kill()
  {
    if (this.getState() != State.TERMINATED) {
      proc.destroy();
    }
  }

  public static void main(String args[]) {
    ShellRunner runner = new ShellRunner("/tmp/", "run.sh");
    runner.start();

    InputStreamReader inputStreamReader = new InputStreamReader(System.in);
    BufferedReader reader = new BufferedReader(inputStreamReader);
    try
    {
      String line = null;
      while ( (line = reader.readLine()) != null ) {
        if (line.equals("kill")) {
          runner.kill();
        }
        else if (line.equals("break")) {
          break;
        }
        else {
          System.out.println(runner.getState());
        }
      }
      reader.close();
      inputStreamReader.close();
    }
    catch (IOException e)
    {
      e.printStackTrace();
    }

  }
}

跑一下上面这个测试程序，waitFor()方法可以正确等待shell程序退出，但是destroy()方法并没有结束shell脚本相关的进程。

为什么呢？

这是一个BUG。

JDK-bug-4770092：Process.destroy() 不能结束孙子进程（grandchildren）。上述例子中，java程序的子进程是”sh run.sh”，而shell脚本中的任何命令都是”sh run.sh”这个进程的子进程（也可能有孙子进程，或者更远的后代进程）。所以shell脚本中执行的命令并不能随着 Process.destroy()结束。这是一个很老的BUG，但是出于各个平台兼容性的考虑，官方并不准备修复这个BUG。似乎依赖Java程序来完成功能3的路已经断了。

现在剩下的问题可以归结为：如何结束一颗进程树上的所有进程？其中的某些进程可能已经退出，也就是说进程树的某些分支可能已经断开了。

一个比较自然的想法是：记录所有以”sh run.sh”这个进程为根进程的所有进程号，需要的时候统一kill。这需要一点Linux进程的相关知识：

Linux下每个进程有很多ID属性：PID（进程号）、PPID（父进程号）、PGID（进程组号）、SID（进程所在session的ID）
子进程会继承父进程的进程组信息和会话信息
一个进程只能创建从属于（和它自身）同一个会话的进程组，除非使用setsid系统调用的方式新建一个会话
进程组不能在不同的会话中迁移，进程所属的进程组可以变，但是仅限于同一个会话中的进程组

还要一点Linux命令工具的知识：

用 “kill -9 -1234”可以杀死进程组号为1234的所有进程
strace命令可以跟踪某个进程以及它fork出来的所有子进程产生的系统调用

有了这些知识，思路就比较清晰了：用strace跟踪setsid这个系统调用，记下所有伴随系统调用产生的SID；在需要杀死这棵进程树上的所有进程时，用ps命令把进程树上还没退出的进程组全部找出，一并kill。

形成代码就是：

import java.io.BufferedReader;
import java.io.File;
import java.io.IOException;
import java.io.InputStreamReader;


public class ShellRunner2 extends Thread
{
  private Process proc;
  private String dir;
  private String shell;
  private File tmpFile;

  public ShellRunner2(String dir, String shell) throws IOException
  {
    super();
    this.proc = null;
    this.dir = dir;
    this.shell = shell;
    this.tmpFile = createTempFile(dir, shell);
  }

  @Override
  public void run() {
    try
    {
      ProcessBuilder builder = new ProcessBuilder("sh", "-c",
          "strace -o " + tmpFile.getPath() + " -f -e trace=setsid setsid sh " + dir + shell);
      builder.directory(new File(dir));

      proc = builder.start();
      System.out.println("Running ...");
      int exitValue = proc.waitFor();
      System.out.println("Exit Value: " + exitValue);
    }
    catch (IOException e)
    {
      e.getLocalizedMessage();
    }
    catch (InterruptedException e)
    {
      e.getLocalizedMessage();
    }
  }

  public void kill()
  {
    if (this.getState() != State.TERMINATED) {
      try
      {
        ProcessBuilder builder = new ProcessBuilder("sh", "-c",
            "ps -o sid,pgid ax | " +
            "grep $(grep -e \"setsid()\" -e \"<... setsid resumed>\" " +
              tmpFile.getPath() +
            " | awk ‘{printf \" -e\" $NF}‘) | awk {‘print $NF‘} | " +
            "sort | uniq | sed ‘s/^/-/g‘ | xargs kill -9 2>/dev/null");
        builder.directory(new File(dir));
        Process proc = builder.start();
        proc.waitFor();
      }
      catch (IOException e)
      {
        e.printStackTrace();
      }
      catch (InterruptedException e)
      {
        e.printStackTrace();
      }
    }
  }

  public static void main(String args[]) throws IOException {
    ShellRunner2 runner = new ShellRunner2("/tmp/", "a.sh");
    runner.start();

    InputStreamReader inputStreamReader = new InputStreamReader(System.in);
    BufferedReader reader = new BufferedReader(inputStreamReader);
    try
    {
      String line = null;
      while ( (line = reader.readLine()) != null ) {
        if (line.equals("kill")) {
          runner.kill();
        }
        else if (line.equals("break")) {
          break;
        }
        else {
          System.out.println(runner.getState());
        }
      }
      reader.close();
      inputStreamReader.close();
    }
    catch (IOException e)
    {
      e.printStackTrace();
    }

  }

  private File createTempFile(String dir, String prefix) throws IOException {
    String name = "." + prefix + "-" + System.currentTimeMillis();
    File tempFile = new File(dir, name);
    if (tempFile.createNewFile()) {
      return tempFile;
    }
    throw new IOException("Failed to create file " + tempFile.getPath() + ".");
  }
}

设计一个针对性的测试：

下面这个程序fork子程序并设置PGID，测试过成中编译为可执行文件pgid_test。

#include <unistd.h>
#include <sys/types.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>

int main(int argc, void *argv[]) {
  pid_t pid;
  int slp = 10;

  if (argc > 1) {
      int tmp = atoi(argv[1]);
      if (tmp > 0 && tmp < 120) {
          slp = tmp;
      }
  }

  if ((pid = fork()) != 0) {
      if (setpgid(pid, 0) != 0) {
          fprintf(stderr, "setpgid() error - %s", strerror(errno));
      }
  }

  sleep(slp);
  
  return 0;
}

{a,b,c,d}.sh这几个shell脚本之间的调用模拟了一个进程树的生成，并且这些进程有着不同的SID或者PGID。

a.sh

sh b.sh &(sleep 15)&sleep 10

b.sh

(sleep 12)&sh c.sh &

c.sh

./pgid_test 20 &setsid sh d.sh &setsid sh d.sh &

d.sh

./pgid_test 30 &(sleep 30; echo "bad killer " `date` >> /tmp/bad_killer) &

运行java程序，调用kill()后，所有子进程都被成功结束了。

这个方法并不那么优美，也有可能存在问题：

strace的输出sesion id的形式可能不止那么两种；不同版本的strace的输出可能不一样。
shell程序可能以其他用户身份启动了一些进程，而kill又没有权限杀死那些进程。
在ps命令执行之后，kill执行之前，正好有setsid调用，这个调用产生的session的相关进程会被漏掉。这个问题可以通过多次执行解决。

Java程序运行、停止Shell脚本

原文：http://my.oschina.net/laigous/blog/531637

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)