多系统,异构数据,大数据量同步的问题

本贴最后更新于 2158 天前,其中的信息可能已经天翻地覆

最近在做个项目,功能主要是数据同步。
客户有多个系统(OA,AD 域服务器···),各个系统间没有直接连通,这些系统都要用到 HR 系统的员工相关数据(员工信息变更都是在 HR 系统进行),现在要把 HR 系统相关数据同步到其他的系统。不要求实时,但是要求支持增量同步和全量同步,数据量比较多。

请问黑客有没相关方案或者资料可推荐?

  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3168 引用 • 8207 回帖
  • 异构系统
    1 引用 • 8 回帖
  • 数据同步
    1 引用 • 8 回帖
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    89 引用 • 113 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • linker

    kafka 了解一下

  • xjtushilei 2 3 赞同

    全量

    全量数据的话用阿里的 datax,官网 https://github.com/alibaba/DataX,应该没有任何问题

    增量

    这个比较复杂了,要看具体任务具体设计了。不知道符合以下哪种情况。

    1. 如果有公网 ip 的话可以试试阿里的 dts,不过大概率数据库不会有公网权限的
      imagepng
    2. 如果有增量的 id,时间戳之类的,自己写脚本去实现增量读取就好。判断源 db 和目标 db 的 id 大小,速度和同步时间都可以自己控制,不影响原来系统业务性能。还能体现出自己的 kpi
    3. 如果有源 DB 的权限
    4. 基于 binlog,用类似 flume 或 Logstash 之类的去监测 binlog,然后增量的 binlog 刷到目标 db,目标 db 有压力的话中间搞个 kafka 之类的消息队列来缓冲一下,再用 flume 接上你的目标 db
    5. 基于触发器,设置 insert,update,delete 的触发器,执行脚本。脚本刷到 kafka 之类的队列里,然后 kafka 再到目标 db(可以再用 flume 来完成这个任务,省去自己写程序)
    6. 还有一个比较万能的软件,在用 datax 之前了解过,但是没用过,希望对你有用。kettle 据说有很多种方式来满足需求。
    1 回复
  • shuiniu

    datax 之前看了下,没有 ad 同步,而且不是 java web 的形式,没有采用。另外,我们的源数据在客户那里,我们的程序权限有限。

  • shuiniu 1 赞同

    @linker @xjtushilei ,昨天问的问题今天整理了两个方案出来,正在实现中(java web),欢迎讨论:

    场景

    这里对场景进行简化:

    1. 现在有张表:A 和 B,A B 表通过 id 字段关联(A 表掌握在客户手里,不能随便变更结构和数据)
    2. 俩表异构,需要自己根据业务做好字段的对应
    3. 这两张表可能不在同一个数据库
    4. 用户只对 A 进行人为操作,其中 增删改 操作的结果需要同步到 B 表
    5. 不要求实时,要求准确可靠,增量更新,并且数据量大

    分析

    增量更新必须要有相应的字段支持,否则除了行间内容的全量对比(成本高效率低),别无他法。

    增量同步的两个先决条件:

    1. A 表需要一个记录内容的 最后修改时间 的字段,假设该字段名是 modifyTime
    2. B 表需要一个记录内容的 最后同步时间 的字段,假设该字段名是 syncTime

    一些方案

    方案一

    查询出 B 表的最小 syncTime(minSync) ,分页查出 A 表 modifyTime>=minSync (上次同步完之后进行了修改) 的记录进行同步或者插入,直到所有的 modifyTime<minSync 。

    方案二

    分页从 A 表取出 id 和 modifyTime,在 B 系统中做关联对比,syncTime<=modifyTime 的记录需要更新,B 表中没有的记录则执行插入。

    注意:考虑到不同机器的时间有一些误差,需要做一些处理,避免都写出在临界值的记录没有得到更新,比如:modifyTime>=minSync-N (N 是机器间时间差和其他的时间开销产生的误差)

    以上两种方案的优缺点,暂时没有总结整理。

  • shuiniu

    @88250 大大,回复里的标题也忒大了吧?

    2 回复
  • 让你用 H1,好吧,我改小一点点

  • xjtushilei

    👍

请输入回帖内容 ...

推荐标签 标签

  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    89 引用 • 113 回帖
  • TensorFlow

    TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。

    20 引用 • 19 回帖
  • golang

    Go 语言是 Google 推出的一种全新的编程语言,可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发 Go,是因为过去 10 多年间软件开发的难度令人沮丧。Go 是谷歌 2009 发布的第二款编程语言。

    492 引用 • 1383 回帖 • 375 关注
  • 智能合约

    智能合约(Smart contract)是一种旨在以信息化方式传播、验证或执行合同的计算机协议。智能合约允许在没有第三方的情况下进行可信交易,这些交易可追踪且不可逆转。智能合约概念于 1994 年由 Nick Szabo 首次提出。

    1 引用 • 11 回帖 • 7 关注
  • 星云链

    星云链是一个开源公链,业内简单的将其称为区块链上的谷歌。其实它不仅仅是区块链搜索引擎,一个公链的所有功能,它基本都有,比如你可以用它来开发部署你的去中心化的 APP,你可以在上面编写智能合约,发送交易等等。3 分钟快速接入星云链 (NAS) 测试网

    3 引用 • 16 回帖
  • Sandbox

    如果帖子标签含有 Sandbox ,则该帖子会被视为“测试帖”,主要用于测试社区功能,排查 bug 等,该标签下内容不定期进行清理。

    370 引用 • 1215 回帖 • 582 关注
  • webpack

    webpack 是一个用于前端开发的模块加载器和打包工具,它能把各种资源,例如 JS、CSS(less/sass)、图片等都作为模块来使用和处理。

    41 引用 • 130 回帖 • 295 关注
  • OAuth

    OAuth 协议为用户资源的授权提供了一个安全的、开放而又简易的标准。与以往的授权方式不同之处是 oAuth 的授权不会使第三方触及到用户的帐号信息(如用户名与密码),即第三方无需使用用户的用户名与密码就可以申请获得该用户资源的授权,因此 oAuth 是安全的。oAuth 是 Open Authorization 的简写。

    36 引用 • 103 回帖 • 9 关注
  • Spark

    Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架。Spark 拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。

    74 引用 • 46 回帖 • 549 关注
  • Hibernate

    Hibernate 是一个开放源代码的对象关系映射框架,它对 JDBC 进行了非常轻量级的对象封装,使得 Java 程序员可以随心所欲的使用对象编程思维来操纵数据库。

    39 引用 • 103 回帖 • 685 关注
  • 数据库

    据说 99% 的性能瓶颈都在数据库。

    330 引用 • 614 回帖 • 1 关注
  • ZooKeeper

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 HBase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    59 引用 • 29 回帖 • 19 关注
  • OkHttp

    OkHttp 是一款 HTTP & HTTP/2 客户端库,专为 Android 和 Java 应用打造。

    16 引用 • 6 回帖 • 54 关注
  • WiFiDog

    WiFiDog 是一套开源的无线热点认证管理工具,主要功能包括:位置相关的内容递送;用户认证和授权;集中式网络监控。

    1 引用 • 7 回帖 • 545 关注
  • 正则表达式

    正则表达式(Regular Expression)使用单个字符串来描述、匹配一系列遵循某个句法规则的字符串。

    31 引用 • 94 回帖
  • 微信

    腾讯公司 2011 年 1 月 21 日推出的一款手机通讯软件。用户可以通过摇一摇、搜索号码、扫描二维码等添加好友和关注公众平台,同时可以将自己看到的精彩内容分享到微信朋友圈。

    129 引用 • 793 回帖 • 1 关注
  • 阿里云

    阿里云是阿里巴巴集团旗下公司,是全球领先的云计算及人工智能科技公司。提供云服务器、云数据库、云安全等云计算服务,以及大数据、人工智能服务、精准定制基于场景的行业解决方案。

    89 引用 • 345 回帖
  • PHP

    PHP(Hypertext Preprocessor)是一种开源脚本语言。语法吸收了 C 语言、 Java 和 Perl 的特点,主要适用于 Web 开发领域,据说是世界上最好的编程语言。

    164 引用 • 407 回帖 • 526 关注
  • 区块链

    区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。所谓共识机制是区块链系统中实现不同节点之间建立信任、获取权益的数学算法 。

    91 引用 • 751 回帖
  • React

    React 是 Facebook 开源的一个用于构建 UI 的 JavaScript 库。

    192 引用 • 291 回帖 • 443 关注
  • Mac

    Mac 是苹果公司自 1984 年起以“Macintosh”开始开发的个人消费型计算机,如:iMac、Mac mini、Macbook Air、Macbook Pro、Macbook、Mac Pro 等计算机。

    164 引用 • 594 回帖 • 1 关注
  • 单点登录

    单点登录(Single Sign On)是目前比较流行的企业业务整合的解决方案之一。SSO 的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。

    9 引用 • 25 回帖 • 2 关注
  • Bug

    Bug 本意是指臭虫、缺陷、损坏、犯贫、窃听器、小虫等。现在人们把在程序中一些缺陷或问题统称为 bug(漏洞)。

    77 引用 • 1741 回帖
  • Sublime

    Sublime Text 是一款可以用来写代码、写文章的文本编辑器。支持代码高亮、自动完成,还支持通过插件进行扩展。

    10 引用 • 5 回帖
  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    18708 引用 • 69849 回帖
  • jQuery

    jQuery 是一套跨浏览器的 JavaScript 库,强化 HTML 与 JavaScript 之间的操作。由 John Resig 在 2006 年 1 月的 BarCamp NYC 上释出第一个版本。全球约有 28% 的网站使用 jQuery,是非常受欢迎的 JavaScript 库。

    63 引用 • 134 回帖 • 741 关注
  • 知乎

    知乎是网络问答社区,连接各行各业的用户。用户分享着彼此的知识、经验和见解,为中文互联网源源不断地提供多种多样的信息。

    10 引用 • 66 回帖 • 1 关注