科大龙明康访谈学习

本贴最后更新于 2153 天前,其中的信息可能已经沧海桑田

背景

今天被一篇《科大讯飞两代 AI 平台演进之路--讯飞云计算研究院副院长龙明康访谈》的文章刷屏了。这篇文章的作者是龙明康老师。

本文记录一下读书笔记。

关键词

讯飞语音云

  • 日均 PV:从百万到千亿
  • 平台化:AIUI(智能人机交互系统)、AIoT(智能物联网)平台
  • 开发者数量:80 万 +
  • 代表:讯飞语音输入法、锤子发布会语音输入

关键词解释

UI 是 user interface 的缩写,即人机交互界面。AIUI 即 AI 的 UI。

如语音 UI 为 VUI(voice-user interface)。

语音识别

现状

语音识别如果在理想的环境下是比较好做的,业界现在在理想场景下的语音识别率差距越来越小。

难点

  1. 如何解决复杂的环境噪音、用户带口音、远场等情况下的识别率低的问题
  2. 做通用领域的识别相对好做,而专业领域就比较难做,比如医疗、法律等方向
  3. 做用户级的个性化声学模型、语言模型,深度学习当前大多数还是有监督学习,所以如何结合应用场景来降低标注成本也是很有挑战的事情

技术

  1. 自研 CNN 结构的声学模型
  2. Encoder-Decoder 方案

  1. 识别率的优化问题

早期大家喜欢在实验环境做大量的优化,达到 85% 的识别率后,才上线。实际上线后统计,发现只有 60% 识别率。所以后来吸取了这些经验,采取先上线,利用真实数据快速迭代的方法。

产品

平台化、标准化

语音云大概是在 2009 年由于继栋大大提出并启动项目,早期讯飞的 AI 能力面向 toB 销售,现在看来,当时的模式就是私有云的方式。随着对接越来越多,需求定制和技术支持的工作已经不堪重负,大家意识到平台化、标准化才是出路。

语音输入典型产品

技术

算法

  • 神经网络
  • 决策树
  • 支持向量机等
  • 深度学习

框架

  • TensorFlow:生态很全面,上手简单,但是性能不够好
  • MXnet:性能优化的比较好,节省显存,运算效率高。另外 MXnet 只做训练

各领域难点

  • 智能客服、机器人:偏语义理解领域

AI 三次浪潮

第一次

出现了很多顶级算法,但是这些算法只能解决狭窄领域的问题,而且当时的计算能力是严重不足的,所以进入第一次冬天。

第二次

出现了语音识别、机器翻译、专家系统、类神经网络,但是效果完全达不到人们对 AI 的预期。

第三次

依赖大数据技术、深度学习技术的成熟,且在计算能力大幅增加。

当前应该已经到了 AI 应用爆发的时期,随着大家对 AI 的理解越来越深刻,AI 已经被应用到越来越多的细分领域,从讯飞开放平台的开发者增长可见一斑。我认为当前的主要瓶颈还是 AI 人才短缺,这也包括懂 AI 的业务专家,他们才是把 AI 带到世界每个角落的发动机。

AI 工程师之路

入门

了解现状

大概清楚当前 AI 的一些现状,能干什么,大概能做到什么程度

要了解这个也比较简单,从讯飞开放平台上就可以了解到很多

了解生产环节

理论研究、模型训练、引擎工程化、服务化,训练的部分还有个深度学习平台需要建设

进阶

分布式服务经验

有一些分布式服务经验的的工程师可以从服务化入手,逐渐了解引擎的一些特性和运作机制。

算法功底经验

如果已经具备一些算法功底,包括图论、概率论相关知识就可以转做引擎工程化。

引擎工程对性能有非常高的要求,所以需要深入计算机体系结构,结合 CPU/GPU/memory 优化。

在这个过程中就可以深入探索下模型是怎么来的。

通常这个时候可以去尝试使用 TensorFlow 在一些开源的模型上进行调参,要调好参其实还是非常有门槛,需要具备设计模型的能力,这样的人在讯飞 AI 研究院都是非常资深的级别了。

再进阶

搞特征工程了,偏理论研究,需要深入研究泛函、矩阵分析、概率图模型、随机过程、优化理论等。

对于这个进阶过程,讯飞内部都有各个阶段的培训材料,在讯飞开放平台的 AI 大学中也有部分分享课程。

参考

  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3167 引用 • 8207 回帖
  • 讯飞
    1 引用

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...