阿里云录音文件识别初体验

背景

场景

设想一个场景，我们在会议中，现场录制了下来了会议音频。随后整理会议纪要时，需要重新人工听一遍，然后写成文字。

但是这个重复枯燥的事情能否由自动完成呢？

通过 录音文件识别 功能，即可以实现。

方案

之前使用过 讯飞听见 来完成这个功能。我们在上面上传一段语音，即可以自动识别成为文字。

但是讯飞听见只有 2 小时免费转写时长。在讯飞的免费时长使用完后，开始调研了一下别的产品。

阿里云录音文件识别

阿里云的录音文件识别功能，也可以完成相应的事情。

目前只支持 API 方式的调用，但是对于我们工程师来说，这都不是困难。API 调用可能还更方便一些。

注册阿里云账号

注册阿里云账号后，可以得到 AccessKey ID 和 AccessKey Secret。

之后就可以开通试用了。

pom 依赖

从官方文档中直接拿过来

<dependency>
    <groupId>com.aliyun</groupId>
    <artifactId>aliyun-java-sdk-core</artifactId>
    <version>3.5.0</version>
</dependency>
<dependency>
    <groupId>com.alibaba</groupId>
    <artifactId>fastjson</artifactId>
    <version>1.2.49</version>
</dependency>

Java 调用

依赖从官方文档中拿过来。

import com.alibaba.fastjson.JSONObject;
import com.aliyuncs.CommonRequest;
import com.aliyuncs.CommonResponse;
import com.aliyuncs.DefaultAcsClient;
import com.aliyuncs.IAcsClient;
import com.aliyuncs.http.MethodType;
import com.aliyuncs.profile.DefaultProfile;

public class FileTransJavaDemo {
	/**
	 * 地域ID 常量内容，请勿改变
	 */
	public static final String REGIONID = "cn-shanghai";
	public static final String ENDPOINTNAME = "cn-shanghai";
	public static final String PRODUCT = "nls-filetrans";
	public static final String DOMAIN = "filetrans.cn-shanghai.aliyuncs.com";
	public static final String API_VERSION = "2018-08-17";
	public static final String POST_REQUEST_ACTION = "SubmitTask";
	public static final String GET_REQUEST_ACTION = "GetTaskResult";
	/**
	 * 参数设置Key 常量内容，请勿改变
	 */
	public static final String KEY_APP_KEY = "app_key";
	public static final String KEY_FILE_LINK = "file_link";
	public static final String KEY_TASK = "Task";
	public static final String KEY_TASK_ID = "TaskId";
	public static final String KEY_STATUS_TEXT = "StatusText";

	public static void main(String args[]) throws Exception {
		if (args.length < 3) {
			System.err.println("FileTransJavaDemo need params: <AccessKey Id> <AccessKey Secret> <app-key>");
		}
		final String accessKeyId = args[0];
		final String accessKeySecret = args[1];
		final String appKey = args[2];
		/**
		 * 阿里云鉴权client
		 */
		IAcsClient client;
		// 设置endpoint
		DefaultProfile.addEndpoint(ENDPOINTNAME, REGIONID, PRODUCT, DOMAIN);
		// 创建DefaultAcsClient实例并初始化
		DefaultProfile profile = DefaultProfile.getProfile(REGIONID, accessKeyId, accessKeySecret);
		client = new DefaultAcsClient(profile);
		/**
		 * 创建CommonRequest 设置请求参数
		 */
		CommonRequest postRequest = new CommonRequest();
		// 设置域名
		postRequest.setDomain(DOMAIN);
		// 设置API的版本号，格式为YYYY-MM-DD
		postRequest.setVersion(API_VERSION);
		// 设置action
		postRequest.setAction(POST_REQUEST_ACTION);
		// 设置产品名称
		postRequest.setProduct(PRODUCT);
		/**
		 * 设置录音文件识别请求参数，以JSON字符串的格式设置到请求的Body中
		 */
		JSONObject taskObject = new JSONObject();
		// 设置app_key
		taskObject.put(KEY_APP_KEY, appKey);
		// 设置音频文件访问链接
		taskObject.put(KEY_FILE_LINK, "http://aliyun-nls.oss.aliyuncs.com/asr/fileASR/examples/nls-sample.wav");
		String task = taskObject.toJSONString();
		// 设置以上JOSN字符串为Body参数
		postRequest.putBodyParameter(KEY_TASK, task);
		// 设置为POST方式的请求
		postRequest.setMethod(MethodType.POST);
		/**
		 * 提交录音文件识别请求
		 */
		// 获取录音文件识别请求任务的ID，以供识别结果查询使用
		String taskId = "";
		CommonResponse postResponse = client.getCommonResponse(postRequest);
		if (postResponse.getHttpStatus() == 200) {
			JSONObject result = JSONObject.parseObject(postResponse.getData());
			String statusText = result.getString(KEY_STATUS_TEXT);
			if (statusText.equals("SUCCESS")) {
				System.out.println("录音文件识别请求成功响应： " + result.toJSONString());
				taskId = result.getString(KEY_TASK_ID);
			} else {
				System.err.println("录音文件识别请求失败： " + postResponse.getData());
				return;
			}
		} else {
			System.err.println("录音文件识别请求失败，Http错误码：" + postResponse.getHttpStatus());
			System.err.println("录音文件识别请求失败响应：" + postResponse.getData());
			return;
		}
		/**
		 * 创建CommonRequest 设置任务ID
		 */
		CommonRequest getRequest = new CommonRequest();
		// 设置域名
		getRequest.setDomain(DOMAIN);
		// 设置API版本
		getRequest.setVersion(API_VERSION);
		// 设置action
		getRequest.setAction(GET_REQUEST_ACTION);
		// 设置产品名称
		getRequest.setProduct(PRODUCT);
		// 设置任务ID为查询参数
		getRequest.putQueryParameter(KEY_TASK_ID, taskId);
		// 设置为GET方式的请求
		getRequest.setMethod(MethodType.GET);
		/**
		 * 提交录音文件识别结果查询请求
		 * 以轮询的方式进行识别结果的查询，直到服务端返回的状态描述为“SUCCESS”、“SUCCESS_WITH_NO_VALID_FRAGMENT”，或者为错误描述，则结束轮询。
		 */
		String statusText = "";
		while (true) {
			CommonResponse getResponse = client.getCommonResponse(getRequest);
			if (getResponse.getHttpStatus() != 200) {
				System.err.println("识别结果查询请求失败，Http错误码：" + getResponse.getHttpStatus());
				System.err.println("识别结果查询请求失败：" + getResponse.getData());
				break;
			}
			JSONObject result = JSONObject.parseObject(getResponse.getData());
			System.out.println("识别查询结果：" + result.toJSONString());
			statusText = result.getString(KEY_STATUS_TEXT);
			if (statusText.equals("RUNNING") || statusText.equals("QUEUEING")) {
				// 继续轮询
				Thread.sleep(3000);
			} else {
				break;
			}
		}
		if (statusText.equals("SUCCESS") || statusText.equals("SUCCESS_WITH_NO_VALID_FRAGMENT")) {
			System.out.println("录音文件识别成功！");
		} else {
			System.err.println("录音文件识别失败！");
		}
	}
}

实际调用

录音文件识别请求成功响应：

{
	"TaskId": "64d8d379cd4c11e8b422f1057c7axxxx",
	"RequestId": "EBBFC8E8-16BC-4220-84D3-C2DB1B7Dxxxx",
	"StatusText": "SUCCESS",
	"StatusCode": 21050000
}

识别查询结果：

{
	"TaskId": "64d8d379cd4c11e8b422f1057c7axxxx",
	"RequestId": "A378A43D-97AD-4314-BD52-D3865CD1xxxx",
	"StatusText": "RUNNING",
	"BizDuration": 0,
	"StatusCode": 21050001
}

识别查询结果：

{
	"TaskId": "64d8d379cd4c11e8b422f1057c7axxxx",
	"RequestId": "ECB8FB0E-2503-45CD-BF17-FF76BB98xxxx",
	"StatusText": "SUCCESS",
	"BizDuration": 3574,
	"SolveTime": 1539258996543,
	"StatusCode": 21050000,
	"Result": {
		"Sentences": [{
			"EndTime": 3574,
			"SilenceDuration": 0,
			"BeginTime": 470,
			"Text": "明天是周一天气挺好的",
			"ChannelId": 0,
			"SpeechRate": 193,
			"EmotionValue": 6.0
		}, {
			"EndTime": 3574,
			"SilenceDuration": 0,
			"BeginTime": 470,
			"Text": "明天是周一天气挺好的",
			"ChannelId": 1,
			"SpeechRate": 193,
			"EmotionValue": 6.0
		}]
	}
}

录音文件识别成功！

注意，结果中的两句话，并不是识别重复了，而是两个不同的 ChannelId 的结果是一样的而已。

阿里云录音文件识别初体验

背景

场景

方案

阿里云录音文件识别

注册阿里云账号

pom 依赖

Java 调用

实际调用

参考

相关帖子

kaldi 在 mac 下的初体验

Google Speech-to-Text API 初体验

MKV 文件格式学习

wav 文件格式学习

软件架构设计原则

别以为“自动挡”就不可能出现 OOM

用好 Java 8 的日期时间类，少踩一些“老三样”的

欢迎来到这里！