Java poi 将 word 转成 html,ppt 转成图片

本贴最后更新于 2126 天前,其中的信息可能已经时过境迁

Java 容易被忽视的 poi 包

Poi 提取技术是 java 中一大亮点。前几日在做项目时需要将 ppt 转化为图片,将 word 文档输出的功能。在百度搜了些资料,整理了一下,借用前辈们的经验整合了这两个小小的类

文章原出两处:http://vtrtbb.iteye.com/blog/601267

          http://pengenjing.iteye.com/blog/1901225

来看下面的吧 word 文档转化为 html 格式的代码先:

package com.hsp.util;

import java.io.BufferedWriter;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.OutputStream;

import java.io.OutputStreamWriter;

import java.util.List;

import javax.xml.parsers.DocumentBuilderFactory;

import javax.xml.parsers.ParserConfigurationException;

import javax.xml.transform.OutputKeys;

import javax.xml.transform.Transformer;

import javax.xml.transform.TransformerException;

import javax.xml.transform.TransformerFactory;

import javax.xml.transform.dom.DOMSource;

import javax.xml.transform.stream.StreamResult;

import org.apache.commons.io.output.ByteArrayOutputStream;

import org.apache.poi.hwpf.HWPFDocument;

import org.apache.poi.hwpf.converter.PicturesManager;

import org.apache.poi.hwpf.converter.WordToHtmlConverter;

import org.apache.poi.hwpf.model.PicturesTable;

import org.apache.poi.hwpf.usermodel.CharacterRun;

import org.apache.poi.hwpf.usermodel.Paragraph;

import org.apache.poi.hwpf.usermodel.Picture;

import org.apache.poi.hwpf.usermodel.PictureType;

import org.apache.poi.hwpf.usermodel.Range;

import org.apache.poi.hwpf.usermodel.Table;

import org.apache.poi.hwpf.usermodel.TableCell;

import org.apache.poi.hwpf.usermodel.TableIterator;

import org.apache.poi.hwpf.usermodel.TableRow;

import org.w3c.dom.Document;

public class Word2Html {

/*newrealpath是指word文档的原路径,realpath是指word文档的新路径,newsid是指该word文档存储在数据库中的唯一id值,用户没上传一个word文档,后台会根据生成的唯一id值创建一个.html文件,就是newsid.html*/

public static boolean changeWord2html(String newrealpath,String realpath,int newsid) {  

    boolean b=true; 

 try {  

        convert2Html(newrealpath,realpath+"//"+newsid+".html");  

    } catch (Exception e) {  

        e.printStackTrace();

        b=false;

    }  

    return b;

}  

//该方法是将文本写入路径之中

public static void writeFile(String content, String path) {  

    FileOutputStream fos = null;  

    BufferedWriter bw = null;  

    try {  

        File file = new File(path);  

        fos = new FileOutputStream(file);  

        bw = new BufferedWriter(new OutputStreamWriter(fos,"GB2312"));  

        bw.write(content);  

    } catch (FileNotFoundException fnfe) {  

        fnfe.printStackTrace();  

    } catch (IOException ioe) {  

        ioe.printStackTrace();  

    } finally {  

        try {  

            if (bw != null)  

                bw.close();  

            if (fos != null)  

                fos.close();  

        } catch (IOException ie) {  

        }  

    }  

}  

public static void convert2Html(String fileName, String outPutFile)  

        throws TransformerException, IOException,  

        ParserConfigurationException {  

    HWPFDocument wordDocument = new HWPFDocument(new FileInputStream(fileName));//创建一个文档  

    WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(  

            DocumentBuilderFactory.newInstance().newDocumentBuilder()  

                    .newDocument());//对普通文本的操作

     wordToHtmlConverter.setPicturesManager( new PicturesManager()  

     {  

         public String savePicture( byte[] content,  

                 PictureType pictureType, String suggestedName,  

                 float widthInches, float heightInches )  

         {  

             return "test/"+suggestedName;  

         }  

     } );//对图片的操作

    wordToHtmlConverter.processDocument(wordDocument);  

    //保存图片  

    List pics=wordDocument.getPicturesTable().getAllPictures();  

    if(pics!=null){  

        for(int i=0;i下面都是转换

    TransformerFactory tf = TransformerFactory.newInstance();  

    Transformer serializer = tf.newTransformer();  

    serializer.setOutputProperty(OutputKeys.ENCODING, "GB2312");  

    serializer.setOutputProperty(OutputKeys.INDENT, "yes");  

    serializer.setOutputProperty(OutputKeys.METHOD, "html");  

    serializer.transform(domSource, streamResult);  

    out.close();  

    writeFile(new String(out.toByteArray()), outPutFile); //调用writeFile类 

}  

}

下面的我们来看看 ppt 转化为图片格式的代码:

package com.hsp.util;

import java.awt.Dimension;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.FileOutputStream;

import java.io.IOException;

import java.util.ArrayList;

import java.util.List;

import java.awt.Color;

import java.awt.Dimension;

import java.awt.Graphics2D;

import java.awt.geom.Rectangle2D;

import java.awt.image.BufferedImage;

import org.apache.poi.hslf.model.TextRun;

import org.apache.poi.hslf.record.Slide;

import org.apache.poi.hslf.usermodel.RichTextRun;

import org.apache.poi.hslf.usermodel.SlideShow;

public class PPTtoImage {

/pptload 是指 ppt 的原路径,newfullnewpath 是指 ppt 的新路径,newsid 是指该 ppt 存储在数据库中的唯一 id 值,用户没上传一个 ppt,后台会根据生成的唯一 id 值创建一个唯一的文件夹,该文件夹内存放该 ppt 转化的图片/

public static List changppttoimage(String pptload,String newfullnewpath,int newsid){

// 读入 PPT 文件

File file = new File(pptload);

return doPPTtoImage(file,newfullnewpath,newsid);

}

public static List doPPTtoImage(File file,String newfullnewpath,int newsid){

/*boolean isppt = checkFile(file);

if (!isppt) {

System.out.println("你指定的文件不是 ppt 文档!");

return false;

}*/

List al=new ArrayList();

try {

FileInputStream is = new FileInputStream(file);

SlideShow ppt = new SlideShow(is);

is.close();

Dimension pgsize = ppt.getPageSize();

org.apache.poi.hslf.model.Slide[] slide = ppt.getSlides();

for (int i = 0; i < slide.length; i++) {

//System.out.print("第" + i + "页。");

if(slide[i].getNotesSheet()!=null&&slide[i].getNotesSheet().getTextRuns()!=null){

 //获取第一个备注

 //System.out.println("备注:" + slide[i].getNotesSheet().getTextRuns()[0].getText());

}

TextRun[] truns = slide[i].getTextRuns();

for (int k = 0; k < truns.length; k++) {

 RichTextRun[] rtruns = truns[k].getRichTextRuns();

 for (int l = 0; l < rtruns.length; l++) {

  rtruns[l].setFontIndex(1);

  rtruns[l].setFontName("宋体");

  // 获取文本列表

  //System.out.println(rtruns[l].getText());   

 }

}

BufferedImage img = new BufferedImage(pgsize.width,

  pgsize.height, BufferedImage.TYPE_INT_RGB);

Graphics2D graphics = img.createGraphics();

graphics.setPaint(Color.white);

graphics.fill(new Rectangle2D.Float(0, 0, pgsize.width,

  pgsize.height));

slide[i].draw(graphics);

// 这里设置图片的存放路径和图片的格式(jpeg,png,bmp等等),注意生成文件路径

File f=new File(newfullnewpath);

//判断该文件夹是否存在,如果不存在,这创建一个新的文件夹

if(!f.isDirectory())

{

f.mkdirs();

}

FileOutputStream out = new FileOutputStream(newfullnewpath+"pict_"+(i + 1) + ".jpeg");

javax.imageio.ImageIO.write(img, "jpeg", out);

al.add("pict_"+(i + 1) + ".jpeg");

out.close();

}

/*System.out.println("ok");

return true;*/

} catch (FileNotFoundException e) {

System.out.println(e);

} catch (IOException e) {

e.printStackTrace();

}

return al;

}

// function 检查文件是否为 PPT

public static boolean checkFile(File file) {

boolean isppt = false;

String filename = file.getName();

String suffixname = null;

if (filename != null && filename.indexOf(".") != -1) {

suffixname = filename.substring(filename.indexOf("."));

if (suffixname.equals(".ppt")) {

isppt = true;

}

return isppt;

} else {

return isppt;

}

}

}

经测试是可行的,在小编这里是可以运行成功的,不过,上面只是简单的两个类而已,在项目中,还要用 struts2 去限定转化文件的大小等等。

  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3168 引用 • 8207 回帖
  • POI
    22 引用 • 21 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • scmod

    我记得是不是只支持 doc 文件来着,docx 好像要用别的,ppt 不清楚..excel 好像也是这样

推荐标签 标签

  • abitmean

    有点意思就行了

    22 关注
  • Sublime

    Sublime Text 是一款可以用来写代码、写文章的文本编辑器。支持代码高亮、自动完成,还支持通过插件进行扩展。

    10 引用 • 5 回帖 • 1 关注
  • Bug

    Bug 本意是指臭虫、缺陷、损坏、犯贫、窃听器、小虫等。现在人们把在程序中一些缺陷或问题统称为 bug(漏洞)。

    77 引用 • 1741 回帖 • 1 关注
  • OnlyOffice
    4 引用 • 26 关注
  • C

    C 语言是一门通用计算机编程语言,应用广泛。C 语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。

    83 引用 • 165 回帖 • 43 关注
  • 旅游

    希望你我能在旅途中找到人生的下一站。

    85 引用 • 895 回帖
  • Eclipse

    Eclipse 是一个开放源代码的、基于 Java 的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。

    75 引用 • 258 回帖 • 627 关注
  • CodeMirror
    1 引用 • 2 回帖 • 115 关注
  • webpack

    webpack 是一个用于前端开发的模块加载器和打包工具,它能把各种资源,例如 JS、CSS(less/sass)、图片等都作为模块来使用和处理。

    41 引用 • 130 回帖 • 294 关注
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 238 关注
  • 区块链

    区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。所谓共识机制是区块链系统中实现不同节点之间建立信任、获取权益的数学算法 。

    91 引用 • 751 回帖 • 1 关注
  • Ubuntu

    Ubuntu(友帮拓、优般图、乌班图)是一个以桌面应用为主的 Linux 操作系统,其名称来自非洲南部祖鲁语或豪萨语的“ubuntu”一词,意思是“人性”、“我的存在是因为大家的存在”,是非洲传统的一种价值观,类似华人社会的“仁爱”思想。Ubuntu 的目标在于为一般用户提供一个最新的、同时又相当稳定的主要由自由软件构建而成的操作系统。

    123 引用 • 168 回帖
  • 反馈

    Communication channel for makers and users.

    123 引用 • 906 回帖 • 193 关注
  • Sandbox

    如果帖子标签含有 Sandbox ,则该帖子会被视为“测试帖”,主要用于测试社区功能,排查 bug 等,该标签下内容不定期进行清理。

    370 引用 • 1213 回帖 • 581 关注
  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    76 引用 • 37 回帖
  • 电影

    这是一个不能说的秘密。

    120 引用 • 597 回帖 • 2 关注
  • SQLite

    SQLite 是一个进程内的库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite 是全世界使用最为广泛的数据库引擎。

    4 引用 • 7 回帖 • 4 关注
  • 酷鸟浏览器

    安全 · 稳定 · 快速
    为跨境从业人员提供专业的跨境浏览器

    3 引用 • 59 回帖 • 25 关注
  • 程序员

    程序员是从事程序开发、程序维护的专业人员。

    532 引用 • 3528 回帖 • 1 关注
  • 国际化

    i18n(其来源是英文单词 internationalization 的首末字符 i 和 n,18 为中间的字符数)是“国际化”的简称。对程序来说,国际化是指在不修改代码的情况下,能根据不同语言及地区显示相应的界面。

    7 引用 • 26 回帖
  • IDEA

    IDEA 全称 IntelliJ IDEA,是一款 Java 语言开发的集成环境,在业界被公认为最好的 Java 开发工具之一。IDEA 是 JetBrains 公司的产品,这家公司总部位于捷克共和国的首都布拉格,开发人员以严谨著称的东欧程序员为主。

    180 引用 • 400 回帖
  • 新人

    让我们欢迎这对新人。哦,不好意思说错了,让我们欢迎这位新人!
    新手上路,请谨慎驾驶!

    51 引用 • 226 回帖
  • 面试

    面试造航母,上班拧螺丝。多面试,少加班。

    324 引用 • 1395 回帖 • 1 关注
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 55 关注
  • Spring

    Spring 是一个开源框架,是于 2003 年兴起的一个轻量级的 Java 开发框架,由 Rod Johnson 在其著作《Expert One-On-One J2EE Development and Design》中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层架构,分层架构允许使用者选择使用哪一个组件,同时为 JavaEE 应用程序开发提供集成的框架。

    941 引用 • 1458 回帖 • 150 关注
  • GitBook

    GitBook 使您的团队可以轻松编写和维护高质量的文档。 分享知识,提高团队的工作效率,让用户满意。

    3 引用 • 8 回帖 • 1 关注
  • DevOps

    DevOps(Development 和 Operations 的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。

    39 引用 • 24 回帖