pp电子(中国游)官方在线平台







咨(zī)询热(rè)线:021-80392549

pp电子(中国游)官方在线平台 QQ在线 pp电子(中国游)官方在线平台 企业微信(xìn)
pp电子(中国游)官方在线平台
pp电子(中国游)官方在线平台 资讯(xùn) > 人工智(zhì)能 > 正文

低学历的印度(dù)数据标签工 正成为(wéi)全球AI功臣

2019/03/25机器人257

Kumaramputhur是(shì)喀拉拉邦Palakkad西北约45公里(lǐ)处的(de)一个小村庄,约有(yǒu)3500个(gè)家庭在这里居住(zhù)。这(zhè)个村庄没有第一产业可(kě)言,它的性(xìng)别比例和识字(zì)率都低于(yú)该州的平均(jun1)水平。除(chú)了有(yǒu)一些现代化的痕迹,这里似乎没有什么值得引起注(zhù)意(yì)。

然(rán)而,正是在这个(gè)村子里(lǐ),高(gāo)中辍学生Mujeeb Kolasseri指挥(huī)着(zhe)一支由200多名员工组成的团(tuán)队(duì),为美国、欧洲、澳大利亚和亚洲的客户开发人工智能解决方案。Kolasseri 于三年前(qián)创办了这家名为Infolks的公(gōng)司,28岁的他是(shì)该(gāi)公司资格最老的成员。

该公(gōng)司的办(bàn)公室位(wèi)于连接Palakkad和Kozhikode的高(gāo)速公路(lù)上,虽然不起眼,但团(tuán)队(duì)里(lǐ)的大部分(fèn)成员都在这里工(gōng)作。他们(men)所要做(zuò)的就是将(jiāng)固定在自(zì)动驾驶车辆上的摄像机(jī)拍摄的车(chē)辆、交通(tōng)灯、路标和行(háng)人的图像(xiàng)进行强调和标记(jì)。这(zhè)份工(gōng)作看似简单,但(dàn)却很困难,因为他们需要将(jiāng)激光雷达遥感器捕(bǔ)获的(de)数据(jù)进行精确标记(激(jī)光雷达为自动驾驶车辆创建3D地图,以获得(dé)对周(zhōu)围物体的感知)。

约2000公里之外,加尔各答西南边(biān)缘的梅蒂阿(ā)布鲁兹胡格(gé)利河岸(àn)附近,约有200名妇女正在给图(tú)像贴标签,这些图像将用于(yú)训(xùn)练自动驾驶车辆和增强现实系统中的算法(fǎ)。

“他们参与(yǔ)着一些我们(men)最前沿的图像项目,”数(shù)据(jù)注释公司(sī)iMerit的技术和营销副总裁Jai Natarajan表示(shì),其(qí)员工参与(yǔ)标记和准备数据,以训练人工智(zhì)能算法。

iMerit在(zài)加尔各答、兰奇、布(bù)巴内斯瓦尔、维扎格和夏隆办事处的数千名员(yuán)工也在从事着类似的工作,通过给(gěi)数百万数据贴上标签(qiān),帮助训练全球各大公司(sī)开(kāi)发的人工智(zhì)能(néng)算法。

全球企业巨头正在逐步采用人(rén)工智(zhì)能(néng),为人(rén)工智能算法提供支持的数据集也变(biàn)得越(yuè)来越专有,所以这些公司(sī)需要(yào)在要求、质量控(kòng)制、反(fǎn)馈和交付方面与(yǔ)数据标签团队进行更高程度的合作。

由于(yú)本世(shì)纪初(chū)业务流程外包的繁荣,印度人对这些行话和要求并不(bú)陌生。数据注(zhù)释和标记也是一种由流程驱动的工作(zuò),需要精确的工作和技能,即使(shǐ)是受过高(gāo)中教育(yù)的人也(yě)可以接受(shòu)培训。

随着以众包为主的第一代工(gōng)作被更先进的要求所取代,Infolks、iMerit和Playment等公(gōng)司开始迎合全球客户,并使印(yìn)度成为数据标(biāo)签和(hé)注释工作(zuò)的新兴中心(xīn)。

“这是一(yī)个新兴行业。在印度,每(měi)个人都已经(jīng)开始(shǐ)意识到它带来的巨大(dà)机遇,”印度科技产业机构Nasscom的(de)高级(jí)副总裁兼首席战略(luè)官Sangeeta Gupta表示。“人工智能需要适(shì)当注释、分类和匿名的数据。为此,不管喜不(bú)喜欢,你都将(jiāng)使用自动(dòng)化(huà),但你也必须使用熟练(liàn)的人力(lì)资源,而这就是它(tā)给(gěi)印(yìn)度带来的机(jī)会。”

根据研究公司(sī)Cognilytica的一份报(bào)告(gào),到2023年底,与人(rén)工智能和机(jī)器学(xué)习相关(guān)的数(shù)据准备解决方案的全球市场,预计(jì)将从2018年的约5亿美元增长(zhǎng)至12亿(yì)美元。

什么是(shì)数(shù)据标记(jì)?

通(tōng)过数据(jù)标(biāo)记和注释,来(lái)自(zì)非(fēi)结构(gòu)化来源(如照相机、传感器、电子邮件和社交媒(méi)体等)以及来自结构化来源(如数据库)的数(shù)据集被(bèi)标(biāo)记(jì)、标注、着色(sè)或突出(chū)显示,以标(biāo)记出差(chà)异、相似性或类型。通过这样的方法,当数(shù)据被输(shū)入到用于训练人工(gōng)智能(néng)系(xì)统(tǒng)的算法中时,该(gāi)算法可以正确地识别数(shù)据并从(cóng)中学习(xí)。

比方说,你想训练一种算(suàn)法,利用车载摄像(xiàng)机拍摄的(de)图像来理解路标。数据标签工或注释工(gōng)将通过图像数据集,使用标注工具标(biāo)记或高(gāo)亮(liàng)显示路标,并将(jiāng)其输入人工(gōng)智能算法进行学习。下一次,当算(suàn)法在一(yī)个区域内实时行驶(shǐ)并遇到路标时,它应该能够识别出路标。算法训(xùn)练(liàn)的路标图像越多,其准确性就越高(gāo)。

推动人工智能或机器学习激增的是(shì)从互联网、社(shè)交媒体、传感器和(hé)其(qí)他来源获取的大量数据。如今的算法有能力吸收更(gèng)多的数据,从(cóng)而也更精确(què)。只要(yào)数据是优质且干净的,将(jiāng)另外一百万个(gè)数据集(jí)输入(rù)一个算法将(jiāng)会提高它的准确性。因此,这也导致(zhì)了人(rén)工智(zhì)能(néng)算法和应用(yòng)对标注良好的数据(jù)产生了无止(zhǐ)境的渴望。

根据Cognilytica的(de)报告,现如今,数据准备和工程任(rèn)务占据了大多数(shù)人工智能和(hé)机(jī)器学习项目(mù)80%以上的时间。

“比如自动驾(jià)驶,一个小时的视频数据可能需(xū)要消(xiāo)耗800个工时,”Playment首席(xí)执行官Siddharth Mall表示。

Infolks之旅

Kolasseri高(gāo)中辍学后,在铝(lǚ)加工行业(yè)工作,但由于健(jiàn)康原因不得不离开。在国内,他(tā)注册(cè)了亚马逊(xùn)称(chēng)为“Mechanical Turk”(MTurk)的众包就业(yè)市场,并开始从全球各地(dì)的(de)公(gōng)司(sī)从事注释工作(zuò)。

“我能够保持99.8的评级是因为我(wǒ)能够提(tí)供(gòng)高质(zhì)量的(de)服务。我工作过的一家公司非常喜欢我的(de)工作,于是直接找到我,并提供了更多(duō)的工作(zuò),”Kolasseri说,他随(suí)后成(chéng)立了一个六人团(tuán)队来完成这项(xiàng)工作。“我们最初在家(jiā)工作,2016年初,随(suí)着业务的增长,我决(jué)定注(zhù)册成(chéng)立这家公司。”

最初,Kolasseri的兄弟(dì)和一(yī)个朋友投资了2.5万卢比,帮助他建立了这家公司。如今,Infolks是一个(gè)正在(zài)成长中的团队(duì),其(qí)大(dà)部分员工来自Kumaramputhur及其周边(biān)地区。

Kolasseri说:“公司的愿景是(shì)将我(wǒ)们的村庄变得全球化,并为农村地区的年轻人提(tí)供经济机会。近(jìn)200名员工中有(yǒu)90%在20到25岁之(zhī)间。”


尽管(guǎn)该团队也负(fù)责医疗保健、机(jī)器人和农(nóng)业等领域的数据集,但(dàn)他们(men)大(dà)约(yuē)75%的工(gōng)作都是在自动驾驶(shǐ)车辆(liàng)领(lǐng)域。其客户包括德国汽(qì)车(chē)公司戴(dài)姆(mǔ)勒和其他国际科技公司,由(yóu)于签署的协议,Kolasseri并未(wèi)透露这些(xiē)公司的名称(chēng)。

至于注释,该(gāi)公司使用客户提供的工具,或者使(shǐ)用第三方(fāng)工(gōng)具(jù)。“我们(men)的研发团队正在开发自己的注释工具。它目前正在测试中,应该会在接下来的几周(zhōu)内推出,” Kolasseri表(biǎo)示。Infolks还在Kozhikode区(qū)附近(jìn)的一个科技园区内(nèi)设立了另一个办事处。Kolasseri希望(wàng)这(zhè)能(néng)够增加(jiā)公司(sī)的收入,因为(wéi)新的地点属于(yú)经(jīng)济特区,有助于扩大其全球(qiú)客户群。

印度人工智(zhì)能(néng)后(hòu)台(tái)

亚马逊的MTurk在开始(shǐ)限制非美国员工之前,曾(céng)是印度人寻找数据标签(qiān)和注(zhù)释工作的热门平台。尽管后(hòu)来取消了限制,但随着企业客户(hù)开始(shǐ)更加重视数据安全(quán),MTurk在(zài)数据标签商中的(de)受欢(huān)迎程度有(yǒu)所(suǒ)下(xià)降。此外,包括Spare5、Cloudfactory和(hé)Figure Eight在(zài)内(nèi)的新众包平台也已经进(jìn)入市(shì)场,它们则更加关注注释和标签(qiān)市场。

Kolasseri说:“在创办公司(sī)之前,我(wǒ)曾于2015年至2016年期间(jiān)在MTurk平台上工(gōng)作过,如(rú)今,仍然(rán)不断有新(xīn)的平台(tái)出现(xiàn)。但是,由于企业客户(hù)非常关注数据安全,尤其是(shì)考虑到许多(duō)数据集都是专有的,因此(cǐ)信任这些平台上的工作人员(yuán)成为他们面临的更(gèng)大挑战。”

由前Flipkart员工Mall、Ajinkya Malasane和Akshay Kumar Lal所创(chuàng)立的(de)Playment,则以一种略有不同的方式对待注释和标签行业(yè)。

该(gāi)公(gōng)司为各种用例开发了一系列注(zhù)释工具,并开发了一个由受过这(zhè)些工(gōng)具培训的标签工和注释工(gōng)组(zǔ)成的众包平台。该(gāi)公司直接与客户(hù)或相关的信息技(jì)术服务公司进行合作。

“要(yào)将(jiāng)原始数据转换为(wéi)带注(zhù)释的结(jié)构(gòu)化数据,你需(xū)要前端注释工具、熟练(liàn)且经济高效的人力资源。此外,由(yóu)于处理数据的规模化,你还需要有(yǒu)合适的中(zhōng)间件来(lái)支持不同的工作流并管理远程(chéng)人力资源,”Mall说。

Playment的众包平台拥有30多万(wàn)标(biāo)签(qiān)工(gōng)和注释工。其中,该公司认为约有2.5万人(rén)是“高技(jì)能顶级玩家”。据Mall称(chēng),这些人几(jǐ)乎整(zhěng)天都在平台上,平均月收(shōu)入为2万至3万(wàn)卢比。

Playment的大部分(fèn)工(gōng)作也(yě)来自国际(jì)客户,其中包括三星、滴滴出行、阿里(lǐ)巴巴(bā)、Drive.ai和Continental AG,其中(zhōng)大部分都属(shǔ)于自动(dòng)驾驶车辆领域。

iMerit的(de)战(zhàn)略则以员工为中(zhōng)心。其2000多名劳动力中,约80%来自月(yuè)收入(rù)低(dī)于100美元的(de)家庭;其中大约一(yī)半是女性。“我们的社会使命是在贫困社区(qū)和公司或工业较少的(de)地区创造技术就(jiù)业机会。我们在(zài)科(kē)技产业稍低、科技就(jiù)业机会较少的城市开展业务,” Natarajan说道。

所(suǒ)谓的利他主(zhǔ)义也有很好的商业意义。Natarajan表示:“我们的(de)合作(zuò)伙伴和(hé)办公(gōng)地点,允许我们(men)以非常经济高(gāo)效的方式扩大数据注释和标签(qiān)团队,并为客户(hù)提供高质量(liàng)的工作。”

尽管iMerit的大部(bù)分业务都来自美国(guó)——客户包括微(wēi)软(ruǎn)、易趣和Tripadsvisor——但其90%的数据注释和(hé)标签工作是在印度完成(chéng)的。

注释自(zì)动化(huà)

虽然各大公司正在(zài)开发用于(yú)注(zhù)释的自动化工(gōng)具(jù),但由于许(xǔ)多工作需要(yào)更为(wéi)细致的定(dìng)制注(zhù)释或标签(qiān)工作,要想(xiǎng)让自(zì)动(dòng)化工(gōng)具(jù)达到高精度还需要(yào)一段时间。

Natarajan说,与五年(nián)前人(rén)工智能还(hái)在区分猫和狗(gǒu)的不同相比,现在(zài)的人工智(zhì)能(néng)需(xū)要处理更高级的工(gōng)作。“机器学习已(yǐ)经向前(qián)发(fā)展,所以不再有人要求我(wǒ)们为狗和(hé)猫(māo)进行标记。如今,每家公(gōng)司都有(yǒu)定制的需求和非(fēi)常细微的需(xū)求,所以不可能自动实现这一点,也(yě)不可能自动给出数据(jù)并由一(yī)群匿名人士贴上标签。”

他(tā)说,基于人工智能的自(zì)动(dòng)化(huà)注释工具是(shì)不可避免会出(chū)现的,但它并不(bú)是一(yī)个威(wēi)胁。“自动化注释工具本身就是经过良好注释训练(liàn)出(chū)来的(de)结果。当(dāng)你(nǐ)试图解决一个问题时,这些工具只能把你带到(dào)一定的水(shuǐ)平(píng),但是要超(chāo)越(yuè)这个水平,你还需(xū)要自定义注释,”Natarajan说。

当然,加(jiā)以一段时间,自动化工具会变的足够有效,从而能够(gòu)创建(jiàn)更好地数(shù)据集。“从更长远的(de)角度来看,我们确实认识到这个行业并不能永久存在。当客户成功时,我们的任务就结束(shù)了,”Natarajan说。“但我们也(yě)发现,这也并不是一个100%肯定(dìng)的事情,因为它总是一个(gè)持续不断的学习和改进的过(guò)程。此外,当客户转向下一个问(wèn)题时,一切又(yòu)都从(cóng)零开始了。”

换句话(huà)说,印度的数据标签和注释公司尚(shàng)未见顶,这一行业可能需要(yào)很长时间才会走上业务流程外包的老路。


关键词:




AI人工智能网(wǎng)声明:

凡资讯来源注明为其他媒体(tǐ)来源的信(xìn)息,均为转(zhuǎn)载自其(qí)他媒体,并不代表本网站赞同其观点(diǎn),也不代(dài)表本网(wǎng)站对其真实性负(fù)责。您若对该文章(zhāng)内容有任(rèn)何疑问或质疑,请立即与网站(www.longnan.14842.xinxiang.zz.pingliang.ww38.viennacitytours.com)联系,本(běn)网站将迅(xùn)速给您回应并做(zuò)处(chù)理(lǐ)。


联系电话:021-31666777   新闻、技(jì)术文章投稿QQ:3267146135   投(tóu)稿邮箱(xiāng):syy@gongboshi.com

精(jīng)选资讯更多

相关(guān)资(zī)讯更多(duō)

热门搜(sōu)索

工博士人(rén)工(gōng)智能网
pp电子(中国游)官方在线平台
扫描二维码关注微信
扫(sǎo)码反馈

扫一扫,反馈当前页(yè)面

咨(zī)询反馈(kuì)
扫(sǎo)码关注

微(wēi)信(xìn)公众号

返回顶(dǐng)部

pp电子(中国游)官方在线平台

pp电子(中国游)官方在线平台