记录:一次数据迁移

本贴最后更新于 2001 天前,其中的信息可能已经斗转星移

迁移前的情况

  • 数据量:80万+

  • 数据表字段数量:48个字段

  • 数据库:阿里云RDS数据库

  • 迁移环境:本地计算机

  • 情况说明:公司业务中有一个API导入导出的功能,也就是数据要从上游导进来和导出给下游,但是由于种种原因,当前项目数据库中很多字段都是用字符串来存储,在对接了一段时间后,出现问题,上游导进来的数据字符串多种多样,不规范字符随处可见,甚至还有乱码;鉴于这种情况,公司决定对数据库做规范,全部用数字代码替换字符串,但同时不能影响线上版本的使用;数据迁移就是这个需求中的其中一环。

数据迁移

迁移思路

从开始设计到实际迁移经历了3个版本优化,下面会一个一个的说明

  1. Version1.0

    从数据库取出数据,对数据做处理,然后存储到新表中;

    问题:转化速度很慢,当时做了一个实验,估算完成时间大概需要15天左右,原因就是各流程的效率是不一样的,这个时间太长显然行不通

    这个阶段的代码很初级,就不附了(ps:我不会告诉你是因为我懒)

  2. Version1.1

    从上面的测试中发现两个问题:

     处理的速度慢于写,写远远慢于读,处理与写的效率大概是1:5的比例(按完成时间计算出的);
     整体的效率很低,读写一次算作一个流程的话,每个流程要连接数据库两次;并且读完一条数据后就猫在一边等着了,处理和写操作都完成才读下一条,处理和写又是耗时最长的操作;
    

    这个过程做个比喻就像是一条月饼流水生产线,A准备原料,B做月饼,C包装,现在的情况是A准备一份的量,就在等着BC,B做完了,就等着C,C做好之后A才准备下一份,此时BC又在等着A,这个速度可想而知。

    所以这个版本尝试把流程分离,A 读出全部数据,B 处理数据的同时,C 负责不断的写,这样做需要一个盘子(中间件),B 处理好数据之后放到盘子里,C 不停从盘子里拿;(当然三个流程可以各自独立,但读耗费的时间对整体时间的影响我个人觉得稍微优化下可以接受,所以只把 BC 流程分离)

    那么问题就来了:这个盘子应该用什么来做?

    这个盘子应该是双向的,一端进,一端出,并且进出的时候不能出异常,也就是线程安全!想想应该是队列,而且是线程安全的队列,即:ConcurrentLinkedQueue(需要注意的是使用这个队列,非空判断的时候一定要避免用 size,原因嘛请百度)

    到这里,应该基本的结构就出来了:

    两个线程,一个负责处理数据,处理之后把数据放进队列,另一个线程负责写,从队列中拿数据写到新表里去;注意写操作的时候不光要对队列做非空判断,还要判断处理线程是否在进行(也就是队列中还会不会有新数据进来)

    照例,不附代码!

  3. Version2.0

    按照版本 1.1 来做还是满足不了需求,时间确实减少了很多,但还是很长,那接下来该怎么优化?

    想想实际生活,这种情况明显就是人手不足了,人手不足能怎么办?当然是招人了!所以程序的思路也是这样,既然BC两个人已经不够用了,那每个岗位就再招他个七八个人,总该够了吧!

    多线程操作,这个时候代码的结构开始有所体现了,所以果断 OOP,new 两个岗位类,一个负责处理数据,一个负责写数据;这两个类我的命名是“MigrateProcessor”(处理类)和“MigrateWriter”(写入类)

public class MigrateWriter {

    /**
     * 实例化对象
     * @param queue
     */
    public  void  getInstance(ConcurrentLinkedQueue queue,String threadName,MigrateManage migrateService,PageData c){
        this.init(queue,threadName,migrateService,c);
        this.destroy();
    }

    /**
     * 初始化
     */
    private void init(ConcurrentLinkedQueue queue,String threadName,MigrateManage migrateService,PageData c){
        boolean flag = true;
        while(flag){
            if(queue.isEmpty()){
                if(Integer.parseInt(c.get("c").toString())>0){
                    continue;
                }
            }
            try{
                PageData ml = (PageData)queue.poll();
                this.execute(ml,threadName,migrateService);
            }catch (Exception e){
                e.printStackTrace();
                System.out.println(threadName+"---插入数据库失败");
                continue;
            }
            if(queue.isEmpty() && (Integer.parseInt(c.get("c").toString())<=0) ){
                flag = false;
            }
        }

    }

    /**
     * 执行操作
     */
    private void execute(PageData ml,String threadName,MigrateManage migrateService) throws Exception {
        if(null!=ml){
            long begin = System.currentTimeMillis();

            //更新到数据库
            migrateService.updateLoanCopy(ml);

            long end = System.currentTimeMillis();
            System.out.println(threadName+"---插入数据成功---id:"+ml.get("id").toString()+"---需要"+(end-begin)+"ms");
        }
    }

    /**
     * 销毁
     */
    public void destroy(){
        System.out.println(Thread.currentThread().getName()+"结束!");
        while (!Thread.currentThread().isInterrupted()) {
            Thread.currentThread().interrupt();
        }
    }

}
public class MigrateProcessor {

    /**
     * 实例化对象
     * @param queue
     */
    public void getInstance(ConcurrentLinkedQueue queue, List<PageData> migrateLoanCityInfo, String threadName, MigrateManage migrateService,PageData c) {
        this.init(queue, migrateLoanCityInfo, threadName, migrateService,c);
        int cou = Integer.parseInt(c.get("c").toString());
        c.put("c",cou--);
        this.destroy();
    }

    /**
     * 初始化
     */
    private void init(ConcurrentLinkedQueue queue, List<PageData> migrateLoanCityInfo, String threadName, MigrateManage migrateService,PageData c) {
        for (PageData ml : migrateLoanCityInfo) {
            long begin = System.currentTimeMillis();
            try {
                this.execute(queue, ml, threadName, migrateService);
            } catch (ArithmeticException s) {
                continue;
            } catch (Exception e) {
                e.printStackTrace();
                System.out.println(threadName + "处理数据发生错误:" + ml.get("id").toString());
                continue;
            }
            queue.offer(ml);
            long end = System.currentTimeMillis();
            System.out.println(threadName + "处理一条数据需要" + (end - begin) + "ms");
        }

    }

    /**
     * 执行操作(这里只转化了一个字段,做个演示用,源数据很杂,需要多次转化,这里业务逻辑可以忽略掉,只要知道这里是用来处理各个字段的就行)
     */
    private void execute(ConcurrentLinkedQueue queue, PageData ml, String threadName, MigrateManage migrateService) throws Exception {
        if ((!NumberUtils.isNumber(ml.getString("loan_oldcity"))) && null != ml.get("loan_oldcity") && (!"".equals(ml.get("loan_oldcity")))) {
            ml.put("city_name", ml.getString("loan_oldcity"));
            PageData codeInfo = migrateService.getCityCodeByCityName(ml);
            if (null != codeInfo && !"".equals(codeInfo)) {
                ml.put("loan_oldcity", codeInfo.getString("city_code"));
            } else {
                PageData cityTranscate = migrateService.getCityTranscate(ml);       //转换城市
                if (null != cityTranscate && !"".equals(cityTranscate)) {
                    //再次查询是否有code值
                    ml.put("city_name", cityTranscate.get("unified_location").toString());
                    codeInfo = migrateService.getCityCodeByCityName(ml);
                    if (null != codeInfo && !"".equals(codeInfo)) {
                        ml.put("loan_oldcity", codeInfo.getString("city_code"));
                    } else {
                        System.out.println(ml.get("id").toString() + "---loan_oldcity转化后查找不到---" + ml.getString("loan_oldcity"));
                    }
                } else {
                    System.out.println(ml.get("id").toString() + "---loan_oldcity无法转化---" + ml.getString("loan_oldcity"));
                }
            }
        } else if (NumberUtils.isNumber(ml.getString("loan_oldcity"))) {
            throw new ArithmeticException();
        }
    }

    /**
     * 销毁
     */
    private void destroy() {
        System.out.println(Thread.currentThread().getName()+"结束!");
        while (!Thread.currentThread().isInterrupted()) {
            Thread.currentThread().interrupt();
        }
    }

}

主流程(看个人的电脑配置,10 个线程我的电脑已到极限的极限):

对读操作做些优化,限制单次查询数量,耗时大约50s(为什么要限制,你也可以试试一次读出来,可能会有惊喜)
处理数据,5个线程对我来说足够,处理的同时放入队列
插入数据,4个线程
        List<PageData> migrateLoanCityInfo = migrateService.getMigrateLoanCityInfo(pd);
        System.out.println("总数据量:"+migrateLoanCityInfo.size());

        int size = 5;
        PageData c = new PageData();
        c.put("c",size);


        List<List<PageData>> listArr=new ArrayList<List<PageData>>();
        int remaider=migrateLoanCityInfo.size()%size;  //(先计算出余数)
        int number=migrateLoanCityInfo.size()/size;  //然后是商
        int offset=0;//偏移量
        for(int i=0;i<size;i++){
            List<PageData> value=null;
            if(remaider>0){
                value=migrateLoanCityInfo.subList(i*number+offset, (i+1)*number+offset+1);
                remaider--;
                offset++;
            }else{
                value=migrateLoanCityInfo.subList(i*number+offset, (i+1)*number+offset);
            }
            listArr.add(value);
        }

        ConcurrentLinkedQueue queue = new ConcurrentLinkedQueue();      //用来存储数据的队列

        //processor处理字段,并存入ConcurrentLinkedQueue中
        Thread mp_1 = new Thread(new Runnable() {
            @Override
            public void run() {
                MigrateProcessor mp = new MigrateProcessor();
                mp.getInstance(queue,listArr.get(0),"mp_1",migrateService,c);
            }
        });
        Thread mp_2 = new Thread(new Runnable() {
            @Override
            public void run() {
                MigrateProcessor mp = new MigrateProcessor();
                mp.getInstance(queue,listArr.get(1),"mp_2",migrateService,c);
            }
        });
        Thread mp_3 = new Thread(new Runnable() {
            @Override
            public void run() {
                MigrateProcessor mp = new MigrateProcessor();
                mp.getInstance(queue,listArr.get(2),"mp_3",migrateService,c);
            }
        });
        Thread mp_4 = new Thread(new Runnable() {
            @Override
            public void run() {
                MigrateProcessor mp = new MigrateProcessor();
                mp.getInstance(queue,listArr.get(3),"mp_4",migrateService,c);
            }
        });
        Thread mp_5 = new Thread(new Runnable() {
            @Override
            public void run() {
                MigrateProcessor mp = new MigrateProcessor();
                mp.getInstance(queue,listArr.get(4),"mp_5",migrateService,c);
            }
        });

        mp_1.start();
        mp_2.start();
        mp_3.start();
        mp_4.start();
        mp_5.start();

        Thread mv_t1 = new Thread(new Runnable() {
            @Override
            public void run() {
                MigrateWriter mw = new MigrateWriter();
                mw.getInstance(queue,"mv_t1",migrateService,c);
            }
        });
        Thread mv_t2 = new Thread(new Runnable() {
            @Override
            public void run() {
                MigrateWriter mw = new MigrateWriter();
                mw.getInstance(queue,"mv_t2",migrateService,c);
            }
        });
        Thread mv_t3 = new Thread(new Runnable() {
            @Override
            public void run() {
                MigrateWriter mw = new MigrateWriter();
                mw.getInstance(queue,"mv_t3",migrateService,c);
            }
        });
        Thread mv_t4 = new Thread(new Runnable() {
            @Override
            public void run() {
                MigrateWriter mw = new MigrateWriter();
                mw.getInstance(queue,"mv_t4",migrateService,c);
            }
        });

        mv_t1.start();
        mv_t2.start();
        mv_t3.start();
        mv_t4.start();

这样做迁移处理完所有数据需要 4-5 个小时左右,当前的耗时可以在我项目进度之内,所以接下来就没有再另外做优化,那另外还有其他的优化方式吗?答案是肯定有的!

最后说明两点:

代码中还有很多生硬的部分,比如线程间的通信协调,如果有大牛看到了,希望指点指点~
这些代码只是演示说明用,并不是全部,直接用会出bug的哦
  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1083 引用 • 3461 回帖 • 287 关注
  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3167 引用 • 8207 回帖
  • MySQL

    MySQL 是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,目前属于 Oracle 公司。MySQL 是最流行的关系型数据库管理系统之一。

    675 引用 • 535 回帖
  • 线程
    120 引用 • 111 回帖 • 3 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • Latke

    Latke 是一款以 JSON 为主的 Java Web 框架。

    70 引用 • 532 回帖 • 711 关注
  • JavaScript

    JavaScript 一种动态类型、弱类型、基于原型的直译式脚本语言,内置支持类型。它的解释器被称为 JavaScript 引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在 HTML 网页上使用,用来给 HTML 网页增加动态功能。

    710 引用 • 1173 回帖 • 176 关注
  • 分享

    有什么新发现就分享给大家吧!

    242 引用 • 1746 回帖 • 1 关注
  • Redis

    Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。从 2010 年 3 月 15 日起,Redis 的开发工作由 VMware 主持。从 2013 年 5 月开始,Redis 的开发由 Pivotal 赞助。

    284 引用 • 247 回帖 • 181 关注
  • 前端

    前端技术一般分为前端设计和前端开发,前端设计可以理解为网站的视觉设计,前端开发则是网站的前台代码实现,包括 HTML、CSS 以及 JavaScript 等。

    247 引用 • 1347 回帖
  • Bootstrap

    Bootstrap 是 Twitter 推出的一个用于前端开发的开源工具包。它由 Twitter 的设计师 Mark Otto 和 Jacob Thornton 合作开发,是一个 CSS / HTML 框架。

    18 引用 • 33 回帖 • 685 关注
  • 深度学习

    深度学习(Deep Learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

    40 引用 • 40 回帖
  • jQuery

    jQuery 是一套跨浏览器的 JavaScript 库,强化 HTML 与 JavaScript 之间的操作。由 John Resig 在 2006 年 1 月的 BarCamp NYC 上释出第一个版本。全球约有 28% 的网站使用 jQuery,是非常受欢迎的 JavaScript 库。

    63 引用 • 134 回帖 • 745 关注
  • 支付宝

    支付宝是全球领先的独立第三方支付平台,致力于为广大用户提供安全快速的电子支付/网上支付/安全支付/手机支付体验,及转账收款/水电煤缴费/信用卡还款/AA 收款等生活服务应用。

    29 引用 • 347 回帖 • 1 关注
  • ReactiveX

    ReactiveX 是一个专注于异步编程与控制可观察数据(或者事件)流的 API。它组合了观察者模式,迭代器模式和函数式编程的优秀思想。

    1 引用 • 2 回帖 • 126 关注
  • 创造

    你创造的作品可能会帮助到很多人,如果是开源项目的话就更赞了!

    172 引用 • 990 回帖
  • Vue.js

    Vue.js(读音 /vju ː/,类似于 view)是一个构建数据驱动的 Web 界面库。Vue.js 的目标是通过尽可能简单的 API 实现响应的数据绑定和组合的视图组件。

    261 引用 • 662 回帖
  • JSON

    JSON (JavaScript Object Notation)是一种轻量级的数据交换格式。易于人类阅读和编写。同时也易于机器解析和生成。

    51 引用 • 190 回帖 • 2 关注
  • Bug

    Bug 本意是指臭虫、缺陷、损坏、犯贫、窃听器、小虫等。现在人们把在程序中一些缺陷或问题统称为 bug(漏洞)。

    77 引用 • 1741 回帖
  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    18600 引用 • 69242 回帖 • 1 关注
  • TensorFlow

    TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。

    20 引用 • 19 回帖
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 346 关注
  • GitLab

    GitLab 是利用 Ruby 一个开源的版本管理系统,实现一个自托管的 Git 项目仓库,可通过 Web 界面操作公开或私有项目。

    46 引用 • 72 回帖
  • 快应用

    快应用 是基于手机硬件平台的新型应用形态;标准是由主流手机厂商组成的快应用联盟联合制定;快应用标准的诞生将在研发接口、能力接入、开发者服务等层面建设标准平台;以平台化的生态模式对个人开发者和企业开发者全品类开放。

    15 引用 • 127 回帖
  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    76 引用 • 37 回帖
  • jsDelivr

    jsDelivr 是一个开源的 CDN 服务,可为 npm 包、GitHub 仓库提供免费、快速并且可靠的全球 CDN 加速服务。

    5 引用 • 31 回帖 • 42 关注
  • TextBundle

    TextBundle 文件格式旨在应用程序之间交换 Markdown 或 Fountain 之类的纯文本文件时,提供更无缝的用户体验。

    1 引用 • 2 回帖 • 45 关注
  • GitBook

    GitBook 使您的团队可以轻松编写和维护高质量的文档。 分享知识,提高团队的工作效率,让用户满意。

    3 引用 • 8 回帖
  • NetBeans

    NetBeans 是一个始于 1997 年的 Xelfi 计划,本身是捷克布拉格查理大学的数学及物理学院的学生计划。此计划延伸而成立了一家公司进而发展这个商用版本的 NetBeans IDE,直到 1999 年 Sun 买下此公司。Sun 于次年(2000 年)六月将 NetBeans IDE 开源,直到现在 NetBeans 的社群依然持续增长。

    78 引用 • 102 回帖 • 641 关注
  • iOS

    iOS 是由苹果公司开发的移动操作系统,最早于 2007 年 1 月 9 日的 Macworld 大会上公布这个系统,最初是设计给 iPhone 使用的,后来陆续套用到 iPod touch、iPad 以及 Apple TV 等产品上。iOS 与苹果的 Mac OS X 操作系统一样,属于类 Unix 的商业操作系统。

    84 引用 • 139 回帖 • 1 关注
  • 钉钉

    钉钉,专为中国企业打造的免费沟通协同多端平台, 阿里巴巴出品。

    15 引用 • 67 回帖 • 370 关注
  • 外包

    有空闲时间是接外包好呢还是学习好呢?

    26 引用 • 232 回帖 • 3 关注