【资源贴】中日对译口语句对语料库

本贴最后更新于 253 天前,其中的信息可能已经时移世改

前段时间访问人人影视官网发现字幕组翻译社居然跨界合作出了个人人词典手机 APP,主要卖点是基于海量的影视剧内容来提供关键词匹配金句台词及对应视频预览功能。觉得是个有想法的 idea,二次利用积累的影视剧及字幕素材来开发新功能,走在了同行的前面。

发现人人词典做的是基于中英文的双语台词关键词检索,于是萌生了做一个中日文句对关键词检索工具的想法。爬取了字幕组网站上公布出来的日语影视剧字幕文件,发现只有 600 个左右的压缩包,而其他语种的字幕文件有 2W+。暂时先将收集到的中日双语字幕文件内容提取出来做成了这个语料库,测试用字典文件和使用工具代码托管在 GitHub 上,后续也不打算继续扩充语料字典的收录了,完整版的字典文件就存在这个贴子的打赏内容区。

项目 GitHub 地址:https://github.com/hero6180/jp2cn-subtitle-corpus

使用截图:
P6.PNG

如果有需要下载完整版中日对译语料库,请查看本贴打赏内容。

打赏 600 积分后可见
600 积分 • 2 打赏
  • GitHub

    GitHub 于 2008 年上线,目前,除了 Git 代码仓库托管及基本的 Web 管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。正因为这些功能所提供的便利,又经过长期的积累,GitHub 的用户活跃度很高,在开源世界里享有深远的声望,并形成了社交化编程文化(Social Coding)。

    165 引用 • 1779 回帖 • 403 关注
  • 中日对译
    1 引用 • 4 回帖
  • 语料库
    1 引用 • 4 回帖
  • 口语句对
    1 引用 • 4 回帖
1 操作
soulfight 在 2019-09-19 18:09:04 更新了该帖

赞助商 我要投放

4 回帖
请输入回帖内容 ...
  • soulfight

    没有想到,有道翻译在【中日互译】领域已然超越了谷歌翻译成为了无冕之王,几近于普通人工翻译的正确度,文本翻译速度之快超乎想象,有意思的是发现有道中译日收录了《一公升的眼泪》中的内容,测试某些句子的中译日发现出来的结果一个字都不差,注意字幕组是从日文翻译成中文,这里测试的是从中文翻译成日文,有道翻译在训练 AI 自然语言翻译方面已领先对手几个身位了,科技在某些领域的赋能让人敬畏。
    COP6.PNG
    COP2.PNG
    COP1.PNG
    COP5.PNG
    COP3.PNG
    COP7.PNG

    1 回复
  • craterone

    老哥,抓的字幕的压缩包还在吗?我这想做个语法搜索的,但是人人官网改版了,日语字幕好像都没了。

  • renzhe0009

    老哥 我打赏了 语料库的下载链接呢? 怎么只是预计分享呢?

  • ghostsf

    无所不用其极