美国劳工统计局使用机器学习自动执行数据编码

政府安排永久充满着各种文件,其间又不乏很多纸质文档;即使是关于电子文档,实践处理与解读依然需求消耗很多的人力。为此,联邦安排寄期望于AI技能,即经过高档机器学习、神经网络以及自然言语处理(NLP)技能帮忙改善这类文档的处理功率,尽或许将名贵的人力资源解放出来。尽管其间不少技能在其他作业中早已具有老练的运用,并被拓宽以增强各类作业流程及使命,但在部分政府部门内,这些技能还彻底归于新鲜事物。

以美国劳工计算局(BLS)为例,该安排的首要职责在于履行作业损伤与疾病查询,以确保各类作业场所中常见的健康损害问题并帮忙拟定指导性方针。为了完结这项使命,劳工局在全国各地的办公室中设有数十名练习有素的职工,专职经过作业场所内的查询数据对各类损伤及疾病进行分类。可是,这方面作业一向以手动办法履行,并导致各类符号、编码过错乃至速度与本钱瓶颈一向阻碍着全体流程的功率进步。

▲ 图:Alex Measure, 美国劳工计算局经济学家

为了简化整个流程,劳工局决议引进机器学习技能。约十年之前,劳工局经济学家Alex Measure决议探究机器学习(ML)技能怎么帮忙该安排改善流程功率,他自己也与咱们同享了将AI技能归入劳工局乃至整个联邦政府傍边或许呈现的共同应战、各安排在AI运用进程中面对的数据难题、外加未来几年内他最为等待的重要发现。

在本文中,咱们将一起了解他关于将机器学习运用于政府事务场景,特别是文档与人工流程中方面的名贵见地。

问:劳工局在数据搜集与处理方面面对的特别应战是什么?

Alex Measure: 劳工局需求面向很多方向搜集很多专题信息,详细包括作业、人力本钱、作业时刻以及作业场所损伤危险等各个方面。在查询傍边,各范畴间仅有的共通点在于,查询效果往往以自然言语的办法存在。在信息搜集进程中,无论是采纳访谈、查询或许仍是其他办法,搜集到的大部分内容都是以言语办法传达。为此,咱们需求将言语转换为计算数据,这便是咱们常说的编码进程。

在此进程中,咱们需求分配标准化分类目标以指示值得注重的要害特征。例如,《作业损伤与疾病查询》每年搜集数十万份与作业相关的损伤与疾病查询资料。为了答复比如“门卫人员在作业中最常见的损伤原因是什么?”这类问题,咱们需求仔细阅览每一份描绘,以编码办法将对方的作业与形成损伤的要素相关起来。接下来,咱们汇总效果信息以答复实践问题。直到最近,整个流程依然适当单调繁琐,并且大部分作业需求以手动办法完结。

在作业损伤与疾病查询方面,咱们每年大约需求25000个作业时。假如期望赶快完结使命,则意味着需求一起招聘更多人力、练习更多新雇员,并确保他们可以以一致的办法对内容做出解读。这适当困难,实践上咱们发现,即使是两位相同经历丰厚的专家,在编写同一份损伤阐明资料时也只需70%左右的几率针对相同的资料给出彻底相同的损伤编码分类。这样的应战不只存在于劳工局之内,也广泛存在于全球各类从事相似使命的安排傍边。

问:那么劳工局是怎么运用机器学习技能处理这些问题的?

Alex Measure: 七年之前,劳工局完结了《作业损伤与疾病查询》的悉数编码作业。曩昔一年中,咱们运用有监督机器学习(特别是深度神经网络)主动完结了逾越85%的处理使命。随后,劳工局开端逐渐将这些技能用于处理其他相关使命,包括从作业/出产分类,到医疗福利及作业要求的各个方面。

问:多年以来,劳工局关于AI技能的观点与运用办法阅历了哪些改变?

Alex Measure: 我参加劳工局大概是12年前,那时候人们首要仍是在用常识工程或许依据规矩的办法进行资料编码。其间的根本思路是,假如期望计算机履行某项操作,则需求清晰奉告它履行使命所需求的每条规矩与信息。例如,假如要对作业进行分类,则或许需求创立一份清单,列出全部或许呈现的职称以及与职称相对应的作业代码。

这种办法在处理简略及标准化使命时体现不错,但惋惜的是,即使是在职位分类这种适当详细的运用范畴傍边,体系也简直无法直接处理人类言语。例如,在《作业损伤与疾病查询》中,咱们发现每年收到的职位中约有2000种被体系直接对应为“管理员”。更糟糕的是,总会呈现某些以往从未呈现在数据中的新职位,并且部分职位与地点作业严密相关,详细取决于特定企业的命名惯例或许作业中的传统用语。效果便是,咱们需求拟定体量巨大且适当杂乱的规矩,而这全部终究也只能支撑840多种作业分类。更要命的是,这套体系的构建与维护都极为困难。

有监督机器学习带来了一种代替计划——相较于清晰奉告计算机其需求了解以及履行的使命内容,现在咱们可以引导计算机经过数据进行学习,由其自主找到履行某些使命的最佳办法。只需咱们具有成规划的数据资料(多年以来,咱们现已堆集到可观的数据资源),那么往往只需求很少的人工投入就能构建起一套功率极高的体系。在咱们的事例中,劳工局在短短几周之内就运用自在开源软件构建起咱们的榜首套机器学习体系,并发现其功能远远逾越咱们以往长期运用的、依据规矩的贵重计划。更令人惊奇的是,其功能乃至比咱们的编码员还要高。

与传计算划比较,机器学习办法也给主动化带来了更多开展空间。现在,劳工局与全球各计算安排现已在相似的使命中敏捷推行此项技能。当然,机器学习在其他范畴也具有杰出体现。咱们正运用机器学习技能主动检测数据过错,并主动匹配并符号数据会集的缺失记载。这对咱们可谓含义严重,可以帮忙劳工局经过更多不同来历搜集到很多数据。

问:AI/ML技能的介入,给本来的编码员们带来了怎样的影响?

Alex Measure: 在开端考虑引进主动化处理计划时,人们遍及感到忧虑,不少职工抵抗主动化并将其视为一种要挟。但实践状况并非如此,我以为这得益于咱们采纳的详细施行办法以及对全体状况的归纳考量。首要,咱们很早就做出决议,将主动化的要点放在进步数据质量方面。这十分重要,因为除了数据质量本身的含义之外,这也代表着一种十分新颖的处理办法,要求咱们确保编码流程的正确履行、并在呈现问题时及时发动预先拟定的牢靠备份计划。咱们的规划根本如下:

榜首,将计算机最拿手的作业交由主动化处理,将人类最拿手的作业留给雇员。

第二,逐渐引进主动化机制,确保职工有时刻习惯作业量与作业办法的改变。

第三,由雇员担任监督主动分配的代码,并在他们以为计算机存在过错时分配人员做出调整。

第四,将节省下的资源用于其他重要使命,例如数据搜集与数据检查。

效果便是,在随后的六年时刻里,越来越多的惯例编码作业逐渐被速度更快、质量更好的数据检查与搜集主动化计划所接收。这还带来令人意外的效果,即咱们对惯例手动编码的需求尽管大大削减,但模型无法处理的高难度状况依然依赖于人类专家。因而,主动化程度越高,可以处理的总数据量就越大,其间需求人为介入处理的数据相同更多。效果便是,担任人为调整以及验证机器学习体系是否正常运转的雇员反而有所增加。

问:您能否同享一些在劳工局的运用场景中,AI技能发现的风趣或许令人意外的洞见?

Alex Measure: 就个人来看,我以为这儿有两个令人形象深入的惊喜。首要便是自在开源软件的存在,竟然让机器学习体系的构建变得如此轻松,且实践体现远优于咱们以往运用的高本钱、依据规矩的办法。第二点在于,这类体系在编码分配准确率方面比经过练习的人类编码员更高。这全部都是咱们刚开端不可思议的,事实上整个劳工局都花了一段时刻才习惯如此超卓的作用,并且其效果的确十分安稳。

均匀来看,咱们的机器学习体系自上线以来就一向在编码准确率方面逾越了人类雇员,并且二者的距离跟着很多数据的涌入以及随之进行的后续练习而越来越大,这也促进咱们逐渐转向更强壮的机器学习算法——例如深度神经网络。

问:咱们在数据运用方面面对着哪些共同应战?这些应战是否会成为政府安排在运用AI技能方面的妨碍?

Alex Measure:最大的应战之一在于数据保密性。机器学习需求很多数据,政府安排则具有着丰厚的实用性数据,但却不能恣意揭露加以运用——这无疑约束了各安排运用机器学习技能的详细途径。例如,在咱们榜首次测验运用深度神经网络时,咱们无法直接运用云资源,因为现有方针对此明令禁止。这就构成了大问题,因为劳工局本身明显没有足够的硬件以练习咱们需求的各类神经网络模型。终究,咱们经过内部收购及装置必要硬件处理了这个问题,但适当一部分其他安排恐怕难以跨过这道门槛。

另一大重要应战在于模型同享。当劳工局开宣布可以主动对作业或损伤进行标准化类别区分的机器学习模型时,这一效果不只可以服务于劳工局本身,关于其他处理相似使命的联邦安排也相同含义深远,乃至可以给外部研讨安排及研讨人员带来巨大帮忙。因为咱们把握着很多相关数据,因而劳工局等政府安排在练习这类模型方面具有着特别的优势位置。但有研讨标明,这类模型或许在无意之间透露出练习进程中所运用的的数据信息,这就要求咱们在模型同享方面当心再当心。近期其他研讨标明某些技能有望缓解这些危险,劳工局现已开端进行探究,但这仍是一项极为困难的应战。

问:从更广泛的视点来看,联邦政府中的哪些范畴有望在AI技能的推进下完结明显的功率进步?

Alex Measure: 我在政府安排作业的时刻不短了,在我看来简直每个联邦安排都有望运用有监督机器学习技能,完结适当一部分日常使命的主动化转型。计算安排便是最典型的一例,他们的首要作业内容便是言语编码与分类。现在,越来越多的计算安排现已在运用相似的技能主动检测过错,并匹配来自不同数据集的记载内容。

问:联邦安排可以采纳哪些措施以招引那些具有技能创新才干的高水平劳动力?

Alex Measure: 我以为联邦安排最好的人才招引办法,便是着重使命感与荣誉感。联邦安排注重的往往是那些最重要的使命,一旦成功将谋福整个国家,这关于具有激烈公民知道的人才极具招引力。究竟有含义的项目可不是那么简单接触到的。我还想着重的是,外部招聘并不是招引娴熟劳动力的仅有途径。劳工局的不少编码项目及后续机器学习测验依托的并不是外部AI专家,而是经过培育、关于主动化技能抱有浓厚兴趣的内部雇员。当然,在此期间Coursera等免费在线教育资源也发挥了重要作用。

劳工局之所以可以走通这条路途,是因为职工现已在计算范畴具有丰厚的经历。可以必定的是,成功的机器学习项目既需求着重技能的一面,也需求注重专业常识方面的堆集。政府雇员对专业的知道现已十分深入,互联网上又有着很多可以自在获取的资源树立技能根底,二者就这样调和一致了起来。

问:展望未来几年,您最等待哪些AI技能效果?

Alex Measure: 我的作业首要依赖于有监督机器学习,但其间仍存在着一大限制。咱们需求丰厚的练习数据才干取得杰出的功能,这儿说的不是少数数据,而是体量巨大、远超普通人学习所需的数据调集。在大多数状况下,咱们需求为模型供给成百上千的练习数据示例,才干让其把握一种相关概念。这是个巨大的妨碍,因为大多数运用场景中并不能供给这么丰厚的数据。

曩昔几年傍边,研讨人员们现已在这方面取得了巨大的发展。这种发展首要来自两个方面:

其一是搬迁学习,行将一项使命中学习到的常识转移到另一项使命上,有时候人们也将其称为自我监督学习。这根本上便是将有监督学习技能运用于无清晰符号的数据。最近,一种盛行的自我监督言语使命开端被人们所注重,即首要搜集很多文本、然后重复采样其间的部分小规划子集、躲藏采样中的某些单词,练习模型依据上下文猜测缺失的片段。只需可以正确完结这一操作,咱们即可取得一套对言语具有深入理解的模型,且不需求任何显式标签。接下来,咱们就能经过搬迁学习将该技能运用于指向不同言语处理使命的模型,例如猜测损伤分类等。假如全部顺利,那么其可以明显下降使命主动化所需求的练习数据总量。这无疑为现在因为缺少练习数据而无法完结主动化的很多运用场景,打开了通向机器学习的大门。

咱们注重的另一个重要范畴在于差异化隐私,其在AI内部与外部皆有运用。最新发展现已带来一种全新机制,可以在完结机器学习模型同享的一起,为根底练习数据供给严厉的隐私维护。一范畴的发展有望加速受信数据搜集方之间的主动化效果流转(例如经过练习的机器学习模型以及计算估计值),一起进步根底数据的保密性水平。




沙巴网址-沙巴平台官方网址