问答中心分类: STRING如何在 Java 中将 InputStream 读取/转换为字符串?
0
Paul de Vrieze 提问 1月 前

如果你有一个java.io.InputStream对象,您应该如何处理该对象并生成一个String?

假设我有一个InputStream包含文本数据,我想将其转换为String,例如,我可以将其写入日志文件。
采取什么最简单的方法InputStream并将其转换为String?

public String convertStreamToString(InputStream is) {
    // ???
}
Kevin Anderson 回复 1月 前

这回答了你的问题了吗?扫描仪在使用 next() 或 nextFoo() 后跳过 nextLine()?

Kevin Anderson 回复 1月 前

请记住,您需要考虑输入流的编码。系统默认值不一定总是你想要的。t

Kevin Anderson 回复 1月 前

这些答案大部分是在 Java 9 之前编写的,但现在您可以使用 .readAllBytes 从 InputStream 获取字节数组。因此,简单的“new String(inputStream.readAllBytes())”使用 String 的 byte[] 构造函数即可。

29 Answers
0
Slava Vedenin 回答 1月 前

总结其他答案我发现了 11 种主要方法(见下文)。我写了一些性能测试(见下面的结果):
将 InputStream 转换为字符串的方法:

  1. 使用IOUtils.toString(阿帕奇实用程序)
    String result = IOUtils.toString(inputStream, StandardCharsets.UTF_8);
  2. 使用CharStreams(番石榴)
    String result = CharStreams.toString(new InputStreamReader(
           inputStream, Charsets.UTF_8));
  3. 使用Scanner(JDK)
    Scanner s = new Scanner(inputStream).useDelimiter("\\A");
     String result = s.hasNext() ? s.next() : "";
  4. 使用流 API(Java 8)。警告:此解决方案转换不同的换行符(如\r\n) 至\n.
    String result = new BufferedReader(new InputStreamReader(inputStream))
       .lines().collect(Collectors.joining("\n"));
  5. 使用并行流 API(Java 8)。警告:此解决方案转换不同的换行符(如\r\n) 至\n.
    String result = new BufferedReader(new InputStreamReader(inputStream))
        .lines().parallel().collect(Collectors.joining("\n"));
  6. 使用InputStreamReaderStringBuilder(JDK)
    int bufferSize = 1024;
     char[] buffer = new char[bufferSize];
     StringBuilder out = new StringBuilder();
     Reader in = new InputStreamReader(stream, StandardCharsets.UTF_8);
     for (int numRead; (numRead = in.read(buffer, 0, buffer.length)) > 0; ) {
         out.append(buffer, 0, numRead);
     }
     return out.toString();
  7. 使用StringWriterIOUtils.copy(阿帕奇共享)
    StringWriter writer = new StringWriter();
     IOUtils.copy(inputStream, writer, "UTF-8");
     return writer.toString();
  8. 使用ByteArrayOutputStreaminputStream.read(JDK)
    ByteArrayOutputStream result = new ByteArrayOutputStream();
     byte[] buffer = new byte[1024];
     for (int length; (length = inputStream.read(buffer)) != -1; ) {
         result.write(buffer, 0, length);
     }
     // StandardCharsets.UTF_8.name() > JDK 7
     return result.toString("UTF-8");
  9. 使用BufferedReader(JDK)。警告:此解决方案转换不同的换行符(如\n\r) 至line.separator系统属性(例如,在 Windows 中为“\r\n”)。
    String newLine = System.getProperty("line.separator");
     BufferedReader reader = new BufferedReader(
             new InputStreamReader(inputStream));
     StringBuilder result = new StringBuilder();
     for (String line; (line = reader.readLine()) != null; ) {
         if (result.length() > 0) {
             result.append(newLine);
         }
         result.append(line);
     }
     return result.toString();
  10. 使用BufferedInputStreamByteArrayOutputStream(JDK)
    BufferedInputStream bis = new BufferedInputStream(inputStream);
    ByteArrayOutputStream buf = new ByteArrayOutputStream();
    for (int result = bis.read(); result != -1; result = bis.read()) {
        buf.write((byte) result);
    }
    // StandardCharsets.UTF_8.name() > JDK 7
    return buf.toString("UTF-8");
  11. 使用inputStream.read()StringBuilder(JDK)。警告:此解决方案存在 Unicode 问题,例如俄语文本(仅适用于非 Unicode 文本)
    StringBuilder sb = new StringBuilder();
    for (int ch; (ch = inputStream.read()) != -1; ) {
        sb.append((char) ch);
    }
    return sb.toString();

警告

  1. 解决方案 4、5 和 9 将不同的换行符转换为一个。
  2. 解决方案 11 无法正确处理 Unicode 文本

性能测试
小型性能测试String(长度 = 175),网址在github(mode = Average Time, system = Linux, score 1,343 是最好的):

Benchmark                         Mode  Cnt   Score   Error  Units
 8. ByteArrayOutputStream and read (JDK)        avgt   10   1,343 ± 0,028  us/op
 6. InputStreamReader and StringBuilder (JDK)   avgt   10   6,980 ± 0,404  us/op
10. BufferedInputStream, ByteArrayOutputStream  avgt   10   7,437 ± 0,735  us/op
11. InputStream.read() and StringBuilder (JDK)  avgt   10   8,977 ± 0,328  us/op
 7. StringWriter and IOUtils.copy (Apache)      avgt   10  10,613 ± 0,599  us/op
 1. IOUtils.toString (Apache Utils)             avgt   10  10,605 ± 0,527  us/op
 3. Scanner (JDK)                               avgt   10  12,083 ± 0,293  us/op
 2. CharStreams (guava)                         avgt   10  12,999 ± 0,514  us/op
 4. Stream Api (Java 8)                         avgt   10  15,811 ± 0,605  us/op
 9. BufferedReader (JDK)                        avgt   10  16,038 ± 0,711  us/op
 5. parallel Stream Api (Java 8)                avgt   10  21,544 ± 0,583  us/op

大型性能测试String(长度 = 50100),网址在github(mode = Average Time,system = Linux,得分 200,715 最好):

Benchmark                        Mode  Cnt   Score        Error  Units
 8. ByteArrayOutputStream and read (JDK)        avgt   10   200,715 ±   18,103  us/op
 1. IOUtils.toString (Apache Utils)             avgt   10   300,019 ±    8,751  us/op
 6. InputStreamReader and StringBuilder (JDK)   avgt   10   347,616 ±  130,348  us/op
 7. StringWriter and IOUtils.copy (Apache)      avgt   10   352,791 ±  105,337  us/op
 2. CharStreams (guava)                         avgt   10   420,137 ±   59,877  us/op
 9. BufferedReader (JDK)                        avgt   10   632,028 ±   17,002  us/op
 5. parallel Stream Api (Java 8)                avgt   10   662,999 ±   46,199  us/op
 4. Stream Api (Java 8)                         avgt   10   701,269 ±   82,296  us/op
10. BufferedInputStream, ByteArrayOutputStream  avgt   10   740,837 ±    5,613  us/op
 3. Scanner (JDK)                               avgt   10   751,417 ±   62,026  us/op
11. InputStream.read() and StringBuilder (JDK)  avgt   10  2919,350 ± 1101,942  us/op

图表(性能测试取决于 Windows 7 系统中的输入流长度)
在此处输入图像描述
性能测试(平均时间)取决于 Windows 7 系统中的输入流长度:

length  182    546     1092    3276    9828    29484   58968

 test8  0.38    0.938   1.868   4.448   13.412  36.459  72.708
 test4  2.362   3.609   5.573   12.769  40.74   81.415  159.864
 test5  3.881   5.075   6.904   14.123  50.258  129.937 166.162
 test9  2.237   3.493   5.422   11.977  45.98   89.336  177.39
 test6  1.261   2.12    4.38    10.698  31.821  86.106  186.636
 test7  1.601   2.391   3.646   8.367   38.196  110.221 211.016
 test1  1.529   2.381   3.527   8.411   40.551  105.16  212.573
 test3  3.035   3.934   8.606   20.858  61.571  118.744 235.428
 test2  3.136   6.238   10.508  33.48   43.532  118.044 239.481
 test10 1.593   4.736   7.527   20.557  59.856  162.907 323.147
 test11 3.913   11.506  23.26   68.644  207.591 600.444 1211.545
Steve Chambers 回复 1月 前

不错的作品。在底部提供一个 tl;dr 总结可能很有用,即抛出存在换行/ unicode 问题的解决方案,然后(在剩下的那些中)说有或没有外部库最快的解决方案。

Gigino 回复 1月 前

这个答案似乎不完整

M. Justin 回复 1月 前

我对 Java 9 很好奇InputStream.transferTo和 Java 10Reader.transferTo自发布此答案以来添加的解决方案,因此我检查了链接的代码并为它们添加了基准。我只测试了“大字符串”基准。InputStream.transferTo是所有测试的解决方案中最快的,在 60% 的时间内运行test8在我的机器上做了。Reader.transferTo慢于test8,但比所有其他测试都快。也就是说,它在 95% 的时间内运行为test1, 所以这不是一个显着的改进。

Luke Hutchison 回复 1月 前

我把所有的while循环到for在对这篇文章的编辑中循环,以避免在循环之外使用未使用的变量污染命名空间。这是一个适用于大多数 Java 读取器/写入器循环的巧妙技巧。

Shmuel Newmark 回复 1月 前

在 Java 9 中,您可以使用 .readAllBytes 从 InputStream 中获取字节数组。所以“new String(inputStream.readAllBytes())”使用 String 的 byte[] 构造函数工作。

0
Pavel Repin 回答 1月 前

这是一种仅使用标准 Java 库的方法(请注意,流未关闭,您的里程可能会有所不同)。

static String convertStreamToString(java.io.InputStream is) {
    java.util.Scanner s = new java.util.Scanner(is).useDelimiter("\\A");
    return s.hasNext() ? s.next() : "";
}

我从那里学到了这个技巧“愚蠢的扫描仪技巧”文章。它起作用的原因是因为扫描器迭代流中的标记,在这种情况下,我们使用“输入边界的开始”(\A)分隔标记,因此只为流的全部内容提供一个标记。
请注意,如果您需要具体说明输入流的编码,您可以将第二个参数提供给Scanner指示要使用的字符集的构造函数(例如“UTF-8”)。
帽子小费也去雅各布,谁曾经给我指出过那篇文章。

Oleg Markelov 回复 1月 前

我们不应该在返回值之前关闭扫描仪吗?

CodeMonkey 回复 1月 前

会做同样的事情并使用资源 try(java.util.Scanner s = new java.util.Scanner(is).useDelimiter("\\A")){ return s.hasNext() 来关闭资源? s.next() : ""; }

0
Chinnery 回答 1月 前

Apache Commons 允许:

String myString = IOUtils.toString(myInputStream, "UTF-8");

当然,您可以选择除 UTF-8 之外的其他字符编码。
另见:(文件)

Shantaram Tupe 回复 1月 前

试图取回InputStream,不工作stackoverflow.com/q/66349701/3425489

0
Paul de Vrieze 回答 1月 前

考虑到文件一个应该首先得到一个java.io.Reader实例。然后可以读取并添加到StringBuilder(我们不需要StringBuffer如果我们不在多个线程中访问它,并且StringBuilder是比较快的)。这里的诀窍是我们在块中工作,因此不需要其他缓冲流。块大小被参数化以用于运行时性能优化。

public static String slurp(final InputStream is, final int bufferSize) {
    final char[] buffer = new char[bufferSize];
    final StringBuilder out = new StringBuilder();
    try (Reader in = new InputStreamReader(is, "UTF-8")) {
        for (;;) {
            int rsz = in.read(buffer, 0, buffer.length);
            if (rsz < 0)
                break;
            out.append(buffer, 0, rsz);
        }
    }
    catch (UnsupportedEncodingException ex) {
        /* ... */
    }
    catch (IOException ex) {
        /* ... */
    }
    return out.toString();
}
0
sampathpremarathna 回答 1月 前

利用:

InputStream in = /* Your InputStream */;
StringBuilder sb = new StringBuilder();
BufferedReader br = new BufferedReader(new InputStreamReader(in));
String read;

while ((read=br.readLine()) != null) {
    //System.out.println(read);
    sb.append(read);
}

br.close();
return sb.toString();
Rangi Keen 回复 1月 前

readLine()删除换行符,因此生成的字符串将不包含换行符,除非您在添加到构建器的每一行之间添加行分隔符。