NLTK：Python自然语言处理基础

2026-01-28 23:00:01 5118阅读

自然语言处理（NLP）是人工智能领域中极具挑战性和魅力的方向，它致力于让计算机理解、处理和生成人类语言。而NLTK（Natural Language Toolkit）作为Python中一个强大且易用的自然语言处理库，为初学者提供了便捷的入门途径。

NLTK的安装十分简单。通过pip工具，只需在命令行中输入“pip install nltk”，就能轻松完成安装。安装完成后，我们就可以开始探索它的丰富功能了。

首先，NLTK提供了众多语料库。例如，它包含了古登堡语料库，其中有许多经典文学作品。我们可以这样获取并查看其中的文本：

NLTK：Python自然语言处理基础

import nltk
nltk.download('gutenberg')
from nltk.corpus import gutenberg
hamlet = gutenberg.raw('shakespeare-hamlet.txt')
print(hamlet[:500])

这段代码先下载了古登堡语料库，然后从中获取了《哈姆雷特》的文本并打印了开头部分。

词性标注也是NLTK的重要功能之一。它能识别文本中每个单词的词性。比如：

from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
text = "I love natural language processing"
tokens = word_tokenize(text)
tagged = pos_tag(tokens)
print(tagged)

这里先对文本进行分词，然后使用pos_tag函数进行词性标注，输出结果显示了每个单词及其对应的词性。

命名实体识别可以找出文本中的人名、地名、组织名等。示例代码如下：

from nltk import ne_chunk
sentence = "Apple is looking at buying U.K. startup for $1 billion"
tokens = word_tokenize(sentence)
tagged = pos_tag(tokens)
chunked = ne_chunk(tagged)
print(chunked)

运行这段代码，就能看到文本中被识别出的命名实体。

情感分析能判断文本所表达的情感倾向，是积极、消极还是中性。例如：

from nltk.sentiment import SentimentIntensityAnalyzer
sia = SentimentIntensityAnalyzer()
text = "This is a great product!"
print(sia.polarity_scores(text))

输出结果会给出一个包含情感得分的字典，帮助我们了解文本的情感倾向。

对于想要深入学习自然语言处理的新手来说，NLTK是一个绝佳的起点。它提供了丰富的工具和示例，让我们能够快速上手各种自然语言处理任务。通过使用NLTK，我们可以轻松地进行文本处理、分析和理解，为进一步探索更复杂的NLP技术打下坚实的基础。建议初学者先从熟悉NLTK的基本功能开始，逐步尝试不同的任务，深入理解自然语言处理的流程和方法。同时，可以参考官方文档和相关教程，不断提升自己在自然语言处理领域的能力。