pp电子(中国游)官方在线平台







咨(zī)询热线:021-80392549

pp电子(中国游)官方在线平台 QQ在(zài)线 pp电子(中国游)官方在线平台 企业微信
pp电子(中国游)官方在线平台
pp电子(中国游)官方在线平台 资(zī)讯 > AI挖掘技术 > 正(zhèng)文

自然(rán)语言处理(lǐ)(NLP)的一般处理流程!

2020/05/253631

自然语(yǔ)言处理(NLP)的(de)一般(bān)处理流(liú)程!

自(zì)然(rán)语言处理(NLP)的一般处理流程!


1. 什么是NLP

自然语(yǔ)言处理 (Natural Language Processing) 是人工智能(AI)的(de)一个子(zǐ)领域。自然语言(yán)处理是研究(jiū)在(zài)人与人交互中以及在人与计算(suàn)机交互中的语言(yán)问题的(de)一门学科。为(wéi)了建设和完善语(yǔ)言模型,自然语言处理建立计算框架,提出(chū)相应的(de)方法来不(bú)断的完善设计(jì)各种实用系统,并探讨这些实用(yòng)系(xì)统的评测方法。

2. NLP主要(yào)研究方向(xiàng)

信(xìn)息抽取:从给(gěi)定文本中(zhōng)抽取重要的信(xìn)息,比(bǐ)如时间(jiān)、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等(děng)等(děng)。通俗说来,就是(shì)要了解谁在(zài)什么(me)时(shí)候、什么原因(yīn)、对(duì)谁(shuí)、做了什么(me)事、有什么结(jié)果。

文(wén)本生成:机器像人一(yī)样使用自然(rán)语言进行表达和写作。依据(jù)输入的不同,文本生成技术主要(yào)包括(kuò)数据到文本生成和文本到文本生成。数据到文(wén)本(běn)生成是指将包含键值对的数据转化(huà)为自然(rán)语言文(wén)本;文本到文本生成对输入文(wén)本(běn)进行转化和处理从而(ér)产生新的文本。

问答(dá)系统:对一个自然语言表达的问题,由问答系(xì)统给(gěi)出一个(gè)精准(zhǔn)的(de)答案。需(xū)要对自然语(yǔ)言查询语句进行某种程度的语义分(fèn)析,包括(kuò)实(shí)体链接、关系识别,形成逻辑(jí)表达式(shì),然(rán)后到知识库中查(chá)找可(kě)能的候选答(dá)案并(bìng)通过一个排序机制找出(chū)最佳的答案(àn)。

对话系统:系统通过一系列的对话,跟用户进行聊天、回(huí)答、完成某一项任务。涉及到用户意图理解、通用聊天引(yǐn)擎(qíng)、问答(dá)引擎、对(duì)话管理等技术。此外,为了体现上下文相关,要具备多(duō)轮对话(huà)能力。

文本挖掘(jué):包括文本(běn)聚类(lèi)、分类(lèi)、情感分析以及对挖掘的信息和知识的可视化、交互式的表达(dá)界(jiè)面。目前主流的(de)技术都(dōu)是基于统计机器学习的。

语(yǔ)音识别和生成:语音识别(bié)是将输入计算机的语(yǔ)音符号(hào)识别转换成书面语表(biǎo)示。语音生成又称文(wén)语(yǔ)转换(huàn)、语音(yīn)合成,它是指将书(shū)面文本自动转换(huàn)成对(duì)应的(de)语音表征。

信息过(guò)滤:通过(guò)计算机系统自动识别和过(guò)滤符合特(tè)定(dìng)条件的(de)文档信息。通常指网络有害(hài)信息的自动识别和过滤,主要用于信息安全和防护,网(wǎng)络内容管(guǎn)理等。

舆(yú)情分析:是指收集(jí)和(hé)处理海量信息,自动化地对网络舆(yú)情进(jìn)行分析(xī),以实现及时应对网络舆情的目的。

信息检索:对大规模的文(wén)档进行索引。可简(jiǎn)单对(duì)文档中(zhōng)的词汇,赋之以不(bú)同的权重来建立索引,也可建立(lì)更加深层的索引。在查询的时候,对(duì)输(shū)入的查询(xún)表达式比如一个检索词或者(zhě)一个句子进行(háng)分析(xī),然后在索引里面查找(zhǎo)匹配的候选文档,再根据一个排(pái)序(xù)机制把候选文档排序,最后输出(chū)排序得分(fèn)最高的文档。

机器(qì)翻(fān)译:把输入的(de)源语言(yán)文本通过自动翻译获得另外一种(zhǒng)语(yǔ)言的(de)文(wén)本。机(jī)器翻译从最早(zǎo)的基(jī)于规则(zé)的(de)方法到二(èr)十年前的基于统计的方法,再到今天的基于神经网(wǎng)络(编码-解码)的方法,逐(zhú)渐形成(chéng)了(le)一套比较(jiào)严谨的方法体系。

3. NLP的发展

1950年(nián)前:图灵测试 1950年前阿兰(lán)·图灵(líng)图灵测试:人和机器(qì)进(jìn)行交(jiāo)流,如果人无法判断(duàn)自己交流的对象是(shì)人还是机器,就说(shuō)明这个(gè)机器具有(yǒu)智(zhì)能。

1950-1970:主流(liú):基于(yú)规则形式语言理论(lùn)

乔姆斯基,根据数学中的公理化方法研究自然语言,采用代(dài)数和集(jí)合论把(bǎ)形式语言定义为符号的序列(liè)。他(tā)试图使(shǐ)用(yòng)有限的规则(zé)描述无(wú)限(xiàn)的语言现(xiàn)象,发现(xiàn)人类普遍的语言机制,建(jiàn)立所谓的普遍语法。

1970-至今:主流:基(jī)于(yú)统计 谷(gǔ)歌、微软、IBM,20世(shì)纪70年代,弗里(lǐ)德里克·贾里尼(ní)克及其领导(dǎo)的IBM华生实验室将语音识别率从70%提升到90%。 1988年,IBM的彼得·布(bù)朗提出了基(jī)于统计的机(jī)器翻(fān)译方法。 2005年,Google机器翻(fān)译(yì)打败基于规则的Sys Tran。

2010年以后:逆袭(xí):机器学习

AlphaGo先后战(zhàn)胜李(lǐ)世石、柯洁等,掀(xiān)起人工智(zhì)能热潮。深度学(xué)习、人(rén)工神经网络成(chéng)为热词。领域:语音识别、图像识别、机器翻译、自动驾驶、智能家居。

4. NLP任务的一(yī)般步骤

下面图片看不(bú)清楚的,可(kě)以百度脑图查看,点击链接(jiē)


5. NLP、CV,选哪个(gè)?

NLP:自然语(yǔ)言(yán)处理,数据是文本。

CV:计(jì)算机视觉(jiào),数据(jù)是图像。

两者属(shǔ)于不(bú)同的领域,在遇(yù)到这个问题的时候,我(wǒ)也是(shì)犹(yóu)豫了很久,想(xiǎng)了(le)很多(duō),于是乎(hū)得出一个结论(lùn):都(dōu)是利用深度学习去解决现实世界存(cún)在(zài)的问(wèn)题,离开了CV,NLP存活不了;离开了NLP,CV存活不了。两者就像兄弟姐妹一(yī)样,整个“家庭”不能分割但个体又存在(zài)差异!

NLP/CV属于(yú)两(liǎng)个不同的研究领域,都是很好(hǎo)的领域(yù),可以根据自(zì)己(jǐ)的(de)爱好作出(chū)适合(hé)自己的选择,人工智能(néng)是一个多(duō)学科交(jiāo)叉的(de)领域,需要的不仅仅是单方面的能力(lì),而是多方面的能力。对于每个人来说(shuō)都有自(zì)己的侧(cè)重点(diǎn),选择自己擅长的领域里持(chí)续深(shēn)耕,就会(huì)有(yǒu)所成就(jiù)!

关键词: AI挖掘技术




AI人(rén)工智能网声明:

凡资讯来(lái)源注明为其他媒体(tǐ)来源的信息,均为(wéi)转载自其他媒体,并(bìng)不代表本(běn)网(wǎng)站赞同其观(guān)点,也(yě)不(bú)代表本(běn)网站对其真实性负责。您若对该文章内容(róng)有(yǒu)任何疑问(wèn)或质疑,请立即与网站(www.longnan.14842.xinxiang.zz.pingliang.ww38.viennacitytours.com)联系,本网(wǎng)站将迅速给您回(huí)应(yīng)并做处理。


联系(xì)电话(huà):021-31666777   新闻、技术文章投稿QQ:3267146135   投稿(gǎo)邮箱:syy@gongboshi.com

工(gōng)博(bó)士人工(gōng)智能网
pp电子(中国游)官方在线平台
扫描二维码关注(zhù)微信
扫码反馈(kuì)

扫一扫,反馈当(dāng)前页面(miàn)

咨(zī)询反馈
扫码关注

微(wēi)信公众(zhòng)号

返回顶(dǐng)部

pp电子(中国游)官方在线平台

pp电子(中国游)官方在线平台