自然语言处理(NLP)是指使用诸如英语之类的自然语言与智能系统进行通信的AI方法。
如果您希望智能系统(如机器人)按照您的指示执行操作,希望听取基于对话的临床专家系统的决策时,则需要处理自然语言。
NLP领域涉及使计算机用人类使用的自然语言执行有用的任务。 NLP系统的输入和输出可以是 -
- 言语(说话)
- 书面文字
NLP的组成部分
在本节中,我们将了解NLP的不同组件。 NLP有两个组件。 这些组件如下所述 -
1. 自然语言理解(NLU)
它涉及以下任务 -
- 将给定的自然语言输入映射为有用的表示。
- 分析语言的不同方面。
2. 自然语言生成(NLG)
它是从一些内部表现形式以自然语言的形式产生有意义的短语和句子的过程。 它涉及 -
- 文字规划 - 这包括从知识库中检索相关内容。
- 句子规划 - 这包括选择所需的单词,形成有意义的短语,设定句子的语气。
- 文本实现 - 这是将句子计划映射到句子结构。
NLU的难点
NLU的形式和结构非常丰富, 然而,它是不明确的。 可能会有不同程度的模糊性 -
词汇含糊不清
它处于一个非常原始的层面,如单词级别。 例如,将单词“board”视为名词或动词?
语法级别歧义
一个句子可以用不同的方式解析。 例如,“他用红色帽子举起甲虫。” - 他用帽子举起甲虫,还是举起了一顶带有红色帽子的甲虫?
参照歧义
参考使用代词的东西。 例如,里马去了高里。 她说,“我累了。” - 究竟是谁累?
NLP术语
现在让我们看看NLP术语中的一些重要术语。
- 音韵 - 这是系统地组织声音的研究。
- 形态 - 这是建设从原始的有意义的单位的话的研究。
- 语素 - 它是语言中意义的原始单位。
- 语法 - 它是指安排单词来表达一个句子。 它还涉及确定单词在句子和短语中的结构作用。
- 语义 - 它涉及单词的含义以及如何将单词组合成有意义的短语和句子。
- 语用学 - 它处理在不同情况下使用和理解句子以及句子的解释如何受到影响。
- 话语 - 它处理前面的句子如何影响下一句话的解释。
- 世界知识 - 它包括关于世界的一般知识。
NLP步骤
本节介绍NLP中的分析步骤。
词汇分析
它涉及识别和分析单词的结构。 语言的词汇表示语言中的单词和短语的集合。 词法分析将整个txt块分成段落,句子和单词。
句法分析(解析)
它涉及分析句子中的单词,语法和安排单词的方式,以显示单词之间的关系。“The school goes to boy”等句子被英语句法分析器拒绝。
语义分析
它从文本中提取确切含义或字典含义。 文本被检查是否有意义。 它通过映射任务域中的语法结构和对象来完成。语义分析器忽视诸如“热冰淇淋”之类的句子。
话语整合
任何句子的含义都取决于在它之前的句子的含义。 此外,它也带来了紧接着的后续句子的含义。
语用分析
在此期间,所说的重新解释了它的实际意义。 它涉及推导需要真实世界知识的语言方面。
前提条件
如果想用自然语言处理来构建应用程序,那么上下文中的变化就会使其变得非常困难。 语境因素影响机器如何理解特定句子。 因此,我们需要通过使用机器学习方法来开发自然语言应用程序,以便机器也能够理解人类可以理解上下文的方式。
要构建这样的应用程序,我们将使用名为NLTK(自然语言工具包包)的Python包。
导入NLTK
在使用之前需要安装NLTK,它可以在以下命令来安装 -
pip install nltk
conda install -c anaconda nltk
>>> import nltk
下载NLTK的数据
现在导入NLTK后,我们还需要下载所需的数据。 它可以在Python命令提示符下通过以下命令完成 -
>>> nltk.download()
error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
pip安装会直接报错,因为某些下载的模块需要vc重新编译。而你的机器里没有c++的编译工具。
那么这是 天使来了,非常感谢这样一个网站
https://www.lfd.uci.edu/~gohlke/pythonlibs/
该网站提供了大量的
Unofficial Windows Binaries for Python Extension Packages
业界良心啊。万分感谢!
安装其他必需的软件包
为了使用NLTK构建自然语言处理应用程序,需要安装必要的软件包。如下 -
gensim
它是一个强大的语义建模库,对许多应用程序很有用。可以通过执行以下命令来安装它 -
pip install gensim
pattern
它用于使gensim
包正常工作。可以通过执行以下命令来安装它 -
pip install pattern