· · ·

关于开云

关于开云

开云(中国) 东说念主工智能的东说念主工部分—数据标注(上)

发布日期:2026-05-09 08:54 来源:未知 作者:admin 浏览次数:

裁剪导读:东说念主工智能的发展,是通过不休学习已知样本达成的。在监督学习的情况下,东说念主工的数据标注是智能的前提与灵魂。本文作家对此进行了分析,但愿对你有匡助。

当前社会东说念主工智能鸿沟兴盛发展,各鸿沟王人在追求智能化,耳闻则诵的有智能驾驶、智能家居、智能语音、智能保举等。东说念主工智能是通过机器学习,大批学习已知样本,有了展望才略之后再展望未知样本,以达到智能化的完毕,机器学习可分为监督学习和无监督学习,无监督学习的完毕是不可控的,频频被用来作念探索性的实验。

在现实诓骗中,经常是有监督学习,有监督学习就需要作念数据标注,是以智能的前提是东说念主工,因为智能完毕的输出是屡次东说念主工样本的输入,不错说东说念主工的数据标注是智能的前提与灵魂,莫得东说念主工就莫得智能,有些许东说念主工就有些许智能。

一、数据标注的分类

数据标注从难易进度方面可分辨为学问性标注与专科性标注。举例,舆图识别鸿沟的标注多为学问性标注,标注说念路、路牌、舆图等数据,语音识别标注也多为学问性标注。作念该类型标注责任难点在于需要大批标注巡视样本,因为诓骗场景千般且复杂,对标注员无专科技艺条件,主若是讲求负责,任务完奏遵循快、质地高的即为好的标注员。

医疗会诊鸿沟标注多为专科性标注,因为病种、症状的分类与标注需要有医疗专科知识的东说念主能力作念,招聘鸿沟标注也属于专科性标注,因为标注员需要熟知招聘业务、各岗亭所需的知识技艺,还需了解HR招东说念主时的良善点,能力判断简历是否稳妥职位的招聘条件。该类型的标注责任需要有招聘鸿沟专科知识的标注员,简略称为标注大家,标注责任的难点比拟多,举例选拨培养合适的标注员、标注法例的界定、标注质地的扫尾等多方面。

数据标注从标贵重标方面可分辨为评估型标注与样本型标注。

评估型标注一般是为了评估模子的准确率,发现一些Badcase样例,然后优化算法模子,该类型标注责任为了省俭标注资源可扫尾标注数目,一般情况下标注千量级的数据,样本具有统计羡慕即可,标注完成后需要统计正确率,以及特地样例,该类型标注的重心是特地样例的原因追究,分析每个Badcase出现的原因,并将原因归纳为不同的分类,有了原因分析苟简算法同学分类型分批次的优化模子。

样本型标注即为模子提供前期的巡视样本,看成机器学习的输入,该类型标注责任需要标注大批数据,一般情况下需要标注万量级的数据。为了样本的平衡性,标注样本多是就地抽取的,这样作念的优点是可在一定进度上幸免样本偏差,但缺点是要标注大批数据。如果是文本型样本,就怕可借助算法抽取一些高频、高质地样本进行标注,这样可一定进度上减少标注责任量,开云(中国)但可能存在样本偏差。总之样本型标注是个挑夫活,业界有句话这样说的:如果你和一个东说念主有仇,那么劝他去干标注吧。

数据标注从标注对象方面可分辨为文本标注、图像标注、讲话标注、视频标注,从标注神情方面可分辨为分类标注、标框标注、描点标注,这些标注分类基本王人属于标注方法的互异,莫得较强的专科度,是以不作念较多清晰了。

二、数据标注法例的制定

学问性标注的法例比拟粗陋,标注一部分样本即可追究出较通用的法例,但专科性标注的法例比拟复杂,制定专科的标注法例需要除名以下三原则:多维分析与空洞分析相荟萃,因子权重影响要素场景化,问题类型标签化、结构化。以下是招聘鸿沟简历与职位匹配度标注法例的联接念念想,具体细节法例会在《数据标注(下)》中发扬。该标注法例比拟稳妥标注法例制定的三原则。

第一,多维分析与空洞分析相荟萃。

简历与职位的匹配度影响要素细目是多维的,不可只参考责任资格或专科条件一个因子,简略某几个因子,要多维分析,最终再给出空洞评分完毕。天然简历与职位的匹配标注也不可能一上来就能给出空洞的评分,不可纯理性的告诉标注员:你合计是简历与职位十分匹配就给分,不匹配就不给分,这在逻辑上也不对理。是以要先给单一因子打分,然后参考每个因子的评分完毕,最终再进行空洞分析给出评分完毕。

第二,因子权重影响要素场景化。

前边有提到简历与职位匹配度评估需要给每个因子打分,那每个因子打分扫尾后若何给出空洞评分呢,给每个因为赋予权重吗?然后按权重估量总分?谜底是诡辩的,咱们要荟萃具体场景把通盘因子进行归类分析,比如设定一些弥留因子,如果弥留因子不匹配可能就径直不给分,比如责任资格代表的是一个东说念主的胜任力,如果该候选东说念主不具备该岗亭的胜任力,总分细目是0分。还有一些因子天然不是很弥留,但会影响评分,有些因子时而弥留时而不弥留,比如年事,HR想要1-3年教养的行政专员,候选东说念主40岁,该情况细目会影响最终评分且很有可能总分是0分。是以把通盘影响因子荟萃场景进行归类分析是十分必要的。

第三,问题类型标签化、结构化。

标注完毕一般情况下会以分数的方法展示,ABCD,简略0123,然后一组数据莫得取得满分是因为什么呢?那处不匹配呢?是往常期制定标注法例时一定要把原因分析议论进去,列出通盘不匹配的原因,酿成结构化的原因标签,成心于最终分析Badcase的分类与占比,然后算法简略计谋团队在优化时不错优先经管占比高或影响恶劣的case。

数据标注是一项看似粗陋现实却十分复杂的责任,触及标注分类、标注法例制定、标注原因分析、标注系统搭建、标注团队经管等,尤其触及到专科鸿沟的标注则更难得,本篇主要先容了标注分类、标注法例制定,细节的标注法例以及标注系统的搭建开云(中国),标注团队管答理在后续更新,但愿大家合手续良善,感谢阅读!

星空体育中国官网入口