记一次 PDF/WORD 文档的读取实现

本贴最后更新于 1728 天前,其中的信息可能已经时移世异

引言: 还是发个帖子记录一下吧。

1. POI 读取 MS 的 Office (word/excel)

2.

3. LingPipe 深度剖析 是种解决办法吗?

lingpipe 是 alias 公司开发的一款自然语言处理软件包。提供了文本分类,命名体识别、情感分类、中文分词、词性标注、拼写检查、聚类等一系列的 NLP 算法接口,最近工作也需要用到这个工具,于是深入调研了一把,下面是一些本人的总结。
LingPipe 深度剖析

4. PDFBOX

  • PDF
    26 引用 • 36 回帖 • 1 关注
  • Word
    11 引用 • 38 回帖

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • PeterChu
    作者

    image.png

    image.png

    很棒哦,完美躲过了正确识别啊,666

  • 其他回帖
  • PeterChu
    作者

    😑 小老弟怎么肥四啊,问题还没解决,却已经想好搭建一个工具平台实现变现了啊,接下来是不是可以实现小目标,迎娶白富美了啊

  • PeterChu
    作者

    难道要用 OCR 文字识别 吗 🤔 😩

  • PeterChu 1 评论
    作者

    image.png
    😂 翻译学院的同学们都是太乙真人的弟子吧,大家一起修仙的吧

    “《西翻走不走》”,“西安第二女子监狱”哈哈哈哈 😂
    PeterChu
  • 查看全部回帖