关于国内外语法纠错的研究(二)-数据集

关于国内外语法纠错的研究(二)-数据集Arabic 阿拉伯语 的 QALB 2014 QALB 2015 Czech 捷克语 的 AKCES GEC GECCC German 德语 的 Falko MERLIN Japanese 日语 的 TEC JL Russian 俄语 的 RULEC GEC Ukrainian 乌克兰语 的 UA GEC 下篇文章将介绍用于语法介绍的核心方法

概要

在上文中阐述了语法纠错的时代背景,语法纠错的含义,以及前人对于构建语法纠错数据的一些思路,本文将整理现如今最通用的几个数据集,包含英语,中文等等。

English Dataset

没有详细将全部介绍,这里我们只谈几种通用的

FCE

FCE(he First Certificate in English ),第一证书语料库是剑桥学习者语料库 (CLC)的公共子集,由国际英语学习者编写的 1,244 个脚本(大约为531k 单词)组成 作为第二语言(L1为母语使用者,L2 学习者)。每个脚本通常包含两个针对短文、信件或描述风格的提示的答案,并且每个答案都由单个注释者更正,该注释者根据 88 种错误类型的框架对每个编辑进行了识别和分类 )(FCE 中表示了 71 种独特的错误类型)。 数据被分为标准训练、开发和测试集,它还包含论文级别分数以及有关学习者的其他有限数据,并已用于自动论文评分。评级为B1-B2(PS:初级(A1–A2)、中级(B1–B2)、高级(C1–C2))

NUCLE/CoNLL

Lang-8

Lang-8 英语语料库是多语种 Lang-8 Learner语料库的预处理子集,由 100,000 个提交内容组成 (大约1180 万字),该语料库由向语言学习社交网络服务 Lang-8 提交的 100,000 篇文章(∼1180 万字)组成。这些文章完全不按主题分类,因此包括了所有能力水平(A1-C2),而且是由国际 L2 英语学习者撰写的,偏向于日语 L1 学习者。虽然 Lang-8 是最大的公开可用语料库之一,但也是最嘈杂的语料库之一,因为校正是由其他用户而非专业注释者提供的。少数提交的语料还包含多组更正,但所有注释都以平行文本的形式提供,因此不包含明确的编辑或错误类型。Lang-8 也是 BEA-2019 共享任务的官方训练数据集之一。

JFLEG

约翰霍普金斯大学流利扩展 GUG 语料库 (JFLEG)是 1,501 个句子(约 28.1k 个单词)的集合,大致均等地分为开发集和测试集。 这些句子是从能力水平不详的二级英语学习者所写的文章中随机抽取的,并由 Amazon Mechanical Turk 上的众包注释者进行纠正(Crowston 2012)。 每个句子总共注释了 4 次,产生 4 组平行参考注释,但编辑没有明确定义或分类。 JFLEG 的主要创新在于句子被纠正为流畅而不是最低限度的语法(参照研究(一))。 JFLEG 的主要批评是它比其他测试集小得多,句子断章取义,并且没有经过专业注释者的纠正,这也就导致其评级不定(?A1-C2)

W&I+LOCNESS

Write & Improve (W&I) 和 LOCNESS 语料库分别包括由各种能力水平(A1-C2)的国际学习者撰写的 3,600 篇文章(大约755k单词)和由以英语为母语的英国/美国大学生撰写的 100 篇文章(大约46.2k 字)。该语料库是作为 BEA-2019 共享任务的官方训练、开发和测试语料库发布的,其设计比其他语料库更加均衡,因此每个能力级别的句子数量大致相同: 与其他语料库相比,该语料库的设计更加均衡,因此每个能力级别的句子数量大致相同:初级、中级、高级和母语。W&I 论文来自 Write & Improve 在线论文写作平台3,而 LOCNESS 论文仅构成开发集和测试集的一部分。训练集和开发集的文章各由一名注释者修正,而测试集的文章则由 5 名注释者修正,从而形成 5 套平行参考注释。编辑已明确定义,但未进行人工分类,因此错误类型是使用ERRANT框架。

others

  • CLC,剑桥学习者语料库 (CLC)是由国际英语学习者为不同级别的剑桥考试(A1-C2)编写的超过 130,000 个脚本(约 2910 万字)的专有集合。 它是公共 FCE 的超集,并以相同的方式注释。
  • EFCAMDAT, Education First 剑桥数据库 (EFCAMDAT)由所有能力水平(A1-C2)的国际学习者提交到 English First 在线学校平台的 118 万个脚本(约 8350 万字)组成。 大约 66% 的内容(约 5680 万字)已进行了显式编辑注释,这些编辑根据 25 种错误类型的框架进行了分类。 由于教师所做的注释是为了向学生提供反馈,而不是为了 GEC 系统开发,因此注释并不总是完整的。
  • WikEd(维基百科), 维基百科编辑错误语料库 由英语维基百科文章的数千万个句子的修订历史组成。 这些文本是由母语人士而不是第二语言学习者编写和编辑的,并且并非所有更改都是语法编辑。 语料库的预处理版本可用5(2850 万个句子,62600 万个单词),它可以过滤和修改句子,使其仅包含与 NUCLE 中类似的编辑。 该语料库还包括方便收集其他语言的类似基于 Wiki 的语料库的工具。
  • AESW,科学写作自动评估 (AESW) 数据集包含从 9,919 篇已发表的科学期刊文章中提取的 316k 段落(约 3550 万字),并分为 AESW 共享任务的训练、开发和测试集(Daudaravicius 等人,2016 年)。大部分段落来自物理、数学和工程期刊,由高级人士或母语人士撰写。 这些文章由专业语言编辑编辑,他们明确标识了所需的编辑,但没有按错误类型对它们进行分类。 尽管数据集很大,但 AESW 数据集的主要限制之一是文本来自非常特定的领域,并且许多句子包含用于数学符号和参考引用的占位符标记,这些占位符标记不能推广到其他领域。
  • GMEG,GEC 语法多域评估 (GMEG) 数据集由 5,919 个句子(约 122,400 个单词)组成,大致均匀地分布在 3 个不同的领域:正式母语、非正式母语和学习者文本。 具体来说,正式文本从 WikEd 语料库中采样,非正式文本从雅虎问答中采样,学习者文本从 FCE 中采样。这些句子在段落级别(WikEd 除外)进行采样,以包含一些上下文,并由 4 名专业注释者进行注释,以生成 4 组替代参考文献。 GMEG 的目标之一是使研究人员多样化,摆脱纯粹基于 L2 学习者的语料库。
  • CWEB ,CWEB数据集由从CommonCrawl 数据集中网络上的随机段落中采样的 13.6k 个句子(297k个单词)组成。由 2 位专业注释者进行双重注释,并使用 ERRANT 自动提取和分类编辑内容。与 GMEG 一样,CWEB 的目标之一是引入一个超越学习者语料库的数据集。
  • GHTC,GitHub Typo Corpus (GHTC)(由 GitHub 软件托管网站中存储库的 203k 次提交中的 353k 条编辑组成。 语料库背后的因素之一是开发人员经常做出小的提交来纠正较小的拼写/语法错误,并且这些注释可用于 GEC。GHTC 的主要限制是大多数编辑都是来自特定领域(即软件文档)的拼写或拼写错误,并且编辑的上下文并不总是完整的句子。

中文语料库

NLPTEA

对外汉语考试 (TOCFL) 语料库 和汉语水平考试 (HSK:汉语水平考试) 语料库分别由 2.8k 篇文章和 11k 篇文章组成, 由参加普通话水平考试的各类语言学习者(A1-C2)撰写的论文(400 万字符)。这些语料库的各个子集被用作 2014 年至 2020 年间 NLPTEA 系列汉语语法错误诊断(即错误检测)共享任务的官方训练和测试集。 这些共享任务中最新的 NLPTEA-2020 总共发布了 2.6k 个段落(92.1k 个字符,每个 1.5 个句子),这些段落由单个注释器根据 4 种错误类型的框架进行注释: 冗余(R )、缺失 (M)、单词选择 (S) 或单词顺序 (W)。

NLPCC-2018

NLPCC-2018 共享任务是第一个关于普通话完全纠错的共享任务,它进一步发布了从 Lang-8 的清理子集中提取的 717k 训练句子(1410 万个字符) 用户提交的内容。 与 Lang-8 学习英语语料库一样,该数据集中作者的能力水平未知,由其他用户提供更正。 本次共享任务的测试数据来自北京大学汉语学习者语料库,由外国大学生编写的2000个句子(6.13万个字符)组成。 所有测试句子首先由单个注释者注释,该注释者还根据与 NLPTEA 相同的 4 错误类型框架对编辑进行分类,然后由第二个注释者检查,如果需要,第二个注释者可以对注释进行更改。

MuCGEC

汉语语法纠错多参考多源评价数据集(The Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction,即MuCGEC) 是一个新语料库,旨在成为中文 GEC 的更强大的测试集。 它总共包含 7,063 个句子(约 278k 个字符),大致相等地采样自 NLPCC-2018 训练集(Lang-8)、NLPCC-2018 测试集(北大汉语学习者语料库)和 NLPTEA2018/2020 测试集(HSK) 语料库)。 所有句子都由多个注释者进行注释,但相同的引用被删除,因此取每个句子平均, 2.3 个引用(90% 的句子有 1-3 个引用)。 编辑还根据 19 种错误类型的方案进行分类,其中包括 5 种主要错误类型和 14 种次要子类型。

总结

本文将整理现如今最通用的几个数据集,包含两个语种,分别为英文和中文,除此以外,还有其他语种的语法纠错语料库,比如:
Arabic(阿拉伯语)的QALB-2014,QALB-2015
Czech(捷克语)的AKCES-GEC,GECCC;
German(德语)的Falko-MERLIN;
Japanese(日语)的TEC-JL;
Russian(俄语)的RULEC-GEC;
Ukrainian(乌克兰语)的UA-GEC

下篇文章将介绍用于语法介绍的核心方法。

今天的文章 关于国内外语法纠错的研究(二)-数据集分享到此就结束了,感谢您的阅读。
编程小号
上一篇 2025-01-05 08:46
下一篇 2025-01-05 08:40

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/102608.html