DataCleaner

本贴最后更新于 1917 天前,其中的信息可能已经物是人非

DataCleaner

在 github 介绍中描述为“首屈一指的开放源码数据质量解决方案。”,由 Neopost 和 Human Inference 提供支持的开源软件,协议为 LGPL3.0,目前由 68 个发行版本。最新版为 5.5.0,社区下载版为 5.1.5。windows、linux、mac 有分别的安装包。

概览

  

描述

  DataCleaner 是一个数据质量分析,比较,验证和监督的软件.DataCleaner 包括一个独立的图形用户界面分析,比较和验证,并进行监测 web 应用。

功能模块

  源码包主要的模块描述:

  • api:DataCleaner 的公共 API。 主要是为了构建自己的扩展而提供的接口和注解。
  • resources:DataCleaner 的静态资源
  • oss-branding:图标和颜色
  • test-ware:用于 DataCleaner 的单元测试的类和扩展代码
  • engine
    • core:核心引擎部分,它允许根据 API 执行作业和组件。
    • xml-config:包含读写任务文件和配置文件清理工具。
    • env:DataCleaner 可以运行的不同/替代环境,例如 Apache Spark 或 webapp-cluster
  • components
     - 许多子模块包含内置以及与 DataCleaner 一起使用的其他组件/扩展。
     - 标准组件:一个容器项目,它依赖于通常捆绑在 DataCleaner 社区版中的所有组件。
  • desktop
     - api DataCleaner 桌面应用程序的公共 API。
     - ui 适用于桌面用户的基于 Swing 的用户界面。
  • monitor
     - api DataCleaner 监控模块的 API 类和接口

安装方式

环境要求

  1. 一台有图形界面的计算机(命令行模式除外)
  2. java7 或以上
  3. DataCleaner 的软件许可文件

启动命令

社区 5.5.0 版 zip 下载后直接解压使用 datacleaner.sh 或 datacleaner.cmd 启动。

以上为 DataCleaner 基本情况,以及采用图形界面运行方式。 并不太符合 B/S 方式的修改过程
因为需要了解 desktop-api 和 desktop-ui 的结合方式,并据此开发一套完整 B/S 应用。


通过调研,DataCleaner 提供了一种和 Kettle 类似的运行模式。及在图形界面通过数据源选择, 组件拖动,参数配置,结果输出等一系列拖动操作过程,最终保存为一个任务文件(*.xml)。
imagepng

其中:

  • job-metadata 为任务的元信息,包含描述、作者、时间、属性等。
  • source 为数据源信息
  • transformation 转换过程块
    • transformer 单个转换过程块
  • analysis 数据分析块
    • analyzer 分析相关模块,包括文件的输出。

其对应的是客户端中的:
image2png

对应的列表有:

完整的 DataCleaner 组件列表

  • Transform 转换

    • Composition 合并

    • Conversion 转换

    • Data structures 数据结构

    • Date and time 日期和时间

    • Encoding 编码

    • Filter 过滤器

    • Network tools 网络工具

    • Numbers 数值

    • Scripting 脚本

    • Text 文本

  • Improve 改善

    • Location 本地

    • Reference data 参考数据

  • Analyze 分析

    • Date and time 日期和时间

    • Visualization 可视化

    • Write 写入

相关帖子

回帖

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...