Google Speech-to-Text API 初体验

背景

体验一下 Google 的语音转文本服务。

简介

Google Speech-to-Text 服务，利用机器学习技术将语音转换为文本，无论音频长短均可实现。

初体验

官方提供三种工具：客户端库，gcloud 工具和命令行。

使用 gcloud 可以无痛上手。

gcloud 准备工作

开通账户：需要验证信用卡，具体略
创建一个项目
下载安装云 SDK

发出请求

音频转录请求

请求

gcloud ml speech recognize gs://cloud-samples-tests/speech/brooklyn.flac --language-code=en-US

结果

{
	"results": [{
		"alternatives": [{
			"confidence": 0.98360395,
			"transcript": "how old is the Brooklyn Bridge"
		}]
	}]
}

转录短音频文件

使用同步语音识别，将短音频文件(不到 1 分钟)转录为文字。

本地文件

指令

gcloud ml speech recognize PATH-TO-LOCAL-FILE  --language-code='en-US'

限制

只 fcrfsingle channel (mono) audio

体验

gcloud ml speech recognize nls-sample-16k.wav --language-code='zh-CN'

结果

{
	"results": [{
		"alternatives": [{
			"confidence": 0.97500247,
			"transcript": "北京的天气"
		}]
	}]
}

远程文件

最上面第一个初体验正是远程文件。

文件格式

转录长音频文件

使用异步语音识别，将长音频文件（时长超过 1 分钟）转录为文字

长音频文件推荐使用 GCS URI，即将音频存储在 gs 上。

如果是本地音频，则有限制：时长 < 8 分钟，大小 <

远程文件初体验

提交请求

输入

gcloud ml speech recognize-long-running 'gs://cloud-samples-tests/speech/brooklyn.flac' --language-code='en-US' --async

响应

Check operation [875262839786112xxxx] for status.
{
  "name": "875262839786112xxxx"
}

查询结果

请求

gcloud ml speech operations describe 875262839786112xxxx

响应

{
	"done": true,
	"metadata": {
		"@type": "type.googleapis.com/google.cloud.speech.v1.LongRunningRecognizeMetadata",
		"lastUpdateTime": "2018-10-19T09:50:44.091939Z",
		"progressPercent": 100,
		"startTime": "2018-10-19T09:50:41.952946Z"
	},
	"name": "875262839786112xxxx",
	"response": {
		"@type": "type.googleapis.com/google.cloud.speech.v1.LongRunningRecognizeResponse",
		"results": [{
			"alternatives": [{
				"confidence": 0.98360395,
				"transcript": "how old is the Brooklyn Bridge"
			}]
		}]
	}
}

持续查询结果

查询

gcloud ml speech operations wait 875262839786112xxxx

响应

Waiting for operation [875262839786112xxxx] to complete...done.
{
	"@type": "type.googleapis.com/google.cloud.speech.v1.LongRunningRecognizeResponse",
	"results": [{
		"alternatives": [{
			"confidence": 0.98360395,
			"transcript": "how old is the Brooklyn Bridge"
		}]
	}]
}

本地文件初体验

提交

gcloud ml speech recognize-long-running "news-20170607-8k-50s.wav" --language-code='cmn-Hans-CN' --async

结果

Check operation [30093786222362xxxx] for status.
{
  "name": "30093786222362xxxx"
}

查询

gcloud ml speech operations wait 30093786222362xxxx

结果

Waiting for operation [30093786222362xxxx] to complete...done.
…………

从流式输入转录音频

必须使用客户端库，暂且略过。

附录

测试中文音频

新闻联播音频

参考

kaldi 在 mac 下的初体验

背景 Kaldi 是使用人数最多的语音识别开源工具，而且在不断的更新[2]。更多的背景介绍见[2]，本文尝试编译 Kaldi 并且跑通一些小的例子。源码编译下载 git clone https://github.com/kaldi-asr/kaldi 编译 tools 参考 tools/INSTALL 文件安装 ..

MKV 文件格式学习

简介 MKV 是开源的多媒体封装格式，是 Matroska 媒体系统中的一种文件格式。优势 Matroska 媒体格式最大的优势是，通过 EBML 框架，可以支持所有已知的音视频格式，同时支持未来新出现的音视频格式。 EBML [链接] 框架，允许在向后兼容性的基础上，增加容器格式的新特征。常见的扩展名常见扩展名 ..

阿里云录音文件识别初体验

背景场景设想一个场景，我们在会议中，现场录制了下来了会议音频。随后整理会议纪要时，需要重新人工听一遍，然后写成文字。但是这个重复枯燥的事情能否由自动完成呢？通过录音文件识别功能，即可以实现。方案之前使用过讯飞听见来完成这个功能。我们在上面上传一段语音，即可以自动识别成为文字。但是讯飞听见只有 2 ..

wav 文件格式学习

术语 PCM PCM(Pulse Code Modulation, 脉冲编码调制)，是一种编码方式，目标是将模拟信号转换为数字信号。具体分为三个阶段，采样、量化和编码，如下：采样：每隔一定时间进行采样，转换成一个个离散的点。采样率为信号带宽两倍以上（来奎斯特采样定理）。量化：再对离散点的值四舍五入取整，进行分层。 ..

思源笔记 v3.0.11 发布，修复缺陷

概述该版本修复了一些缺陷并改进了很多细节。变更记录以下是此版本中的详细变更。改进功能 [链接] [链接] [链接] [链接] [链接] [链接] [链接] 改进复制文本* 支持用其他元素替换文本元素改进数据库汇总过滤编辑数据库表格视图中的链接时选择所有文本数据库日期过滤器排除空值改进数据库多选字段排 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于