查看: 446|回复: 0

[Java代码] 关于Poi读取Excel引发内存溢出问题的解决方法

发表于 2017-10-5 09:50:19
尚学堂AD

前言

最近生产环境有个老项目一直内存报警,不时的还出现内存泄漏,导致需要重启服务器,已经严重影响正常服务了。

分析

1.dump内存文件

liunx使用如下命令:

  1. ./jmap -dump:format=b,file=heap.hprof pid
复制代码

2.使用Eclipse Memory Analysis进行分析

异常如下:

  1. at org.apache.poi.xssf.usermodel.XSSFRow.<init>(Lorg/openxmlformats/schemas/spreadsheetml/x2006/main/CTRow;Lorg/apache/poi/xssf/usermodel/XSSFSheet;)V (XSSFRow.java:68)
  2. at org.apache.poi.xssf.usermodel.XSSFSheet.initRows(Lorg/openxmlformats/schemas/spreadsheetml/x2006/main/CTWorksheet;)V (XSSFSheet.java:157)
  3. at org.apache.poi.xssf.usermodel.XSSFSheet.read(Ljava/io/InputStream;)V (XSSFSheet.java:132)
  4. at org.apache.poi.xssf.usermodel.XSSFSheet.onDocumentRead()V (XSSFSheet.java:119)
  5. at org.apache.poi.xssf.usermodel.XSSFWorkbook.onDocumentRead()V (XSSFWorkbook.java:222)
  6. at org.apache.poi.POIXMLDocument.load(Lorg/apache/poi/POIXMLFactory;)V (POIXMLDocument.java:200)
  7. at org.apache.poi.xssf.usermodel.XSSFWorkbook.<init>(Ljava/io/InputStream;)V (XSSFWorkbook.java:179)
复制代码

POI在加载Excel引发了内存泄漏,中间创建了大量的对象,占用了大量的内存

3.查看上传的Excel大小

经查看发现很多Excel大小在9M的文件

4.查看代码POI读取Excel的方式

发现使用的是用户模式,这样会占用大量的内存;POI提供了2中读取Excel的模式,分别是:

  • 用户模式:也就是poi下的usermodel有关包,它对用户友好,有统一的接口在ss包下,但是它是把整个文件读取到内存中的,
    对于大量数据很容易内存溢出,所以只能用来处理相对较小量的数据;
  • 事件模式:在poi下的eventusermodel包下,相对来说实现比较复杂,但是它处理速度快,占用内存少,可以用来处理海量的Excel数据。

经上面分析基本可以确定问题出在使用POI的用户模式去读取Excel大文件,导致内存泄漏。

本地重现

下面模拟一个600kb大小的Excel(test.xlsx),分别用两种模式读取,然后观察内存波动;

1.需要引入的库maven:

  1. <dependencies>
  2. <dependency>
  3. <groupId>org.apache.poi</groupId>
  4. <artifactId>poi-ooxml</artifactId>
  5. <version>3.6</version>
  6. </dependency>
  7. <dependency>
  8. <groupId>com.syncthemall</groupId>
  9. <artifactId>boilerpipe</artifactId>
  10. <version>1.2.1</version>
  11. </dependency>
  12. </dependencies>
复制代码

2.用户模式代码如下:

  1. import java.io.File;
  2. import java.io.FileInputStream;
  3. import java.io.IOException;
  4. import java.io.InputStream;
  5. import org.apache.poi.ss.usermodel.Cell;
  6. import org.apache.poi.ss.usermodel.Row;
  7. import org.apache.poi.ss.usermodel.Sheet;
  8. import org.apache.poi.ss.usermodel.Workbook;
  9. import org.apache.poi.xssf.usermodel.XSSFWorkbook;
  10. public class UserModel {
  11. public static void main(String[] args) throws InterruptedException {
  12. try {
  13. Thread.sleep(5000);
  14. System.out.println("start read");
  15. for (int i = 0; i < 100; i++) {
  16. try {
  17. Workbook wb = null;
  18. File file = new File("D:/test.xlsx");
  19. InputStream fis = new FileInputStream(file);
  20. wb = new XSSFWorkbook(fis);
  21. Sheet sheet = wb.getSheetAt(0);
  22. for (Row row : sheet) {
  23. for (Cell cell : row) {
  24. System.out.println("row:" + row.getRowNum() + ",cell:" + cell.toString());
  25. }
  26. }
  27. } catch (IOException e) {
  28. e.printStackTrace();
  29. }
  30. }
  31. Thread.sleep(1000);
  32. } catch (Exception e) {
  33. e.printStackTrace();
  34. }
  35. }
  36. }
复制代码

3.事件模式代码如下:

  1. import java.io.InputStream;
  2. import org.apache.poi.openxml4j.opc.OPCPackage;
  3. import org.apache.poi.xssf.eventusermodel.XSSFReader;
  4. import org.apache.poi.xssf.model.SharedStringsTable;
  5. import org.apache.poi.xssf.usermodel.XSSFRichTextString;
  6. import org.xml.sax.Attributes;
  7. import org.xml.sax.ContentHandler;
  8. import org.xml.sax.InputSource;
  9. import org.xml.sax.SAXException;
  10. import org.xml.sax.XMLReader;
  11. import org.xml.sax.helpers.DefaultHandler;
  12. import org.xml.sax.helpers.XMLReaderFactory;
  13. public class EventModel {
  14. public void processOneSheet(String filename) throws Exception {
  15. OPCPackage pkg = OPCPackage.open(filename);
  16. XSSFReader r = new XSSFReader(pkg);
  17. SharedStringsTable sst = r.getSharedStringsTable();
  18. XMLReader parser = fetchSheetParser(sst);
  19. InputStream sheet2 = r.getSheet("rId1");
  20. InputSource sheetSource = new InputSource(sheet2);
  21. parser.parse(sheetSource);
  22. sheet2.close();
  23. }
  24. public XMLReader fetchSheetParser(SharedStringsTable sst) throws SAXException {
  25. XMLReader parser = XMLReaderFactory.createXMLReader("org.apache.xerces.parsers.SAXParser");
  26. ContentHandler handler = new SheetHandler(sst);
  27. parser.setContentHandler(handler);
  28. return parser;
  29. }
  30. private static class SheetHandler extends DefaultHandler {
  31. private SharedStringsTable sst;
  32. private String lastContents;
  33. private boolean nextIsString;
  34. private SheetHandler(SharedStringsTable sst) {
  35. this.sst = sst;
  36. }
  37. public void startElement(String uri, String localName, String name, Attributes attributes) throws SAXException {
  38. if (name.equals("c")) {
  39. System.out.print(attributes.getValue("r") + " - ");
  40. String cellType = attributes.getValue("t");
  41. if (cellType != null && cellType.equals("s")) {
  42. nextIsString = true;
  43. } else {
  44. nextIsString = false;
  45. }
  46. }
  47. lastContents = "";
  48. }
  49. public void endElement(String uri, String localName, String name) throws SAXException {
  50. if (nextIsString) {
  51. int idx = Integer.parseInt(lastContents);
  52. lastContents = new XSSFRichTextString(sst.getEntryAt(idx)).toString();
  53. nextIsString = false;
  54. }
  55. if (name.equals("v")) {
  56. System.out.println(lastContents);
  57. }
  58. }
  59. public void characters(char[] ch, int start, int length) throws SAXException {
  60. lastContents += new String(ch, start, length);
  61. }
  62. }
  63. public static void main(String[] args) throws Exception {
  64. Thread.sleep(5000);
  65. System.out.println("start read");
  66. for (int i = 0; i < 100; i++) {
  67. EventModel example = new EventModel();
  68. example.processOneSheet("D:/test.xlsx");
  69. Thread.sleep(1000);
  70. }
  71. }
  72. }
复制代码

具体代码来源:http://poi.apache.org/spreadsheet/how-to.html#xssf_sax_api

4.设置VM arguments:-Xms100m -Xmx100m

UserModel运行结果直接报OutOfMemoryError,如下所示:

  1. Exception in thread "main" java.lang.OutOfMemoryError: GC overhead limit exceeded
  2. at java.lang.String.substring(String.java:1877)
  3. at org.apache.poi.ss.util.CellReference.separateRefParts(CellReference.java:353)
  4. at org.apache.poi.ss.util.CellReference.<init>(CellReference.java:87)
  5. at org.apache.poi.xssf.usermodel.XSSFCell.<init>(XSSFCell.java:105)
  6. at org.apache.poi.xssf.usermodel.XSSFRow.<init>(XSSFRow.java:68)
  7. at org.apache.poi.xssf.usermodel.XSSFSheet.initRows(XSSFSheet.java:157)
  8. at org.apache.poi.xssf.usermodel.XSSFSheet.read(XSSFSheet.java:132)
  9. at org.apache.poi.xssf.usermodel.XSSFSheet.onDocumentRead(XSSFSheet.java:119)
  10. at org.apache.poi.xssf.usermodel.XSSFWorkbook.onDocumentRead(XSSFWorkbook.java:222)
  11. at org.apache.poi.POIXMLDocument.load(POIXMLDocument.java:200)
  12. at org.apache.poi.xssf.usermodel.XSSFWorkbook.<init>(XSSFWorkbook.java:179)
  13. at zh.excelTest.UserModel.main(UserModel.java:23)
复制代码

EventModel可以正常运行,使用Java VisualVM监控结果如下:

UserModel模式下读取600kbExcel文件直接内存溢出,看了600kbExcel文件映射到内存中还是占用了不少内存;EventModel模式下可以流畅的运行。

5.设置VM arguments:-Xms200m -Xmx200m

UserModel可以正常运行,使用Java VisualVM监控结果如下:

EventModel可以正常运行,使用Java VisualVM监控结果如下:

UserModel模式和EventModel模式都可以正常运行,但是很明显UserModel模式回收内存更加频繁,而且在cpu的占用上更高。

总结

通过简单的分析以及本地运行两种模式进行比较,可以看到UserModel模式下使用的简单的代码实现了读取,但是在读取大文件时CPU和内存都不理想;

而EventModel模式虽然代码写起来比较繁琐,但是在读取大文件时CPU和内存更加占优。

好了,以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对程序员之家的支持。



回复

使用道具 举报