使用 NLP 处理文本|基础知识
原文:https://www.geesforgeks.org/processing-text-use-NLP-basics/
前提:NLP 入门
在本文中,我们将讨论如何从在线文本文件中获取文本,并从中提取所需的数据。出于本文的目的,我们将使用这里可用的文本文件。
当前工作环境中必须安装以下设备:
- NLTK 库
- urllib 程式库
- 美丽的组合库
步骤#1: 导入所需的库
import nltk
from bs4 import BeautifulSoup
from urllib.request import urlopen
关于上述库的一些基本信息:
- NLTK 库:NLTK 库是为处理用 Python 编程语言编写的英语语言而编写的库和程序的集合。
- urllib 库:这是一个针对 python 的 URL 处理库。了解更多这里
- 美化输出库:这是一个用于从 HTML 和 XML 文档中提取数据的库。
步骤#2: 提取文本文件的所有内容。
raw = urlopen("https://www.w3.org/TR/PNG/iso_8859-1.txt").read()
因此,未处理的数据被加载到变量 raw 中。
步骤#3: 接下来,我们处理数据以移除可能存在于我们的“原始”变量中的任何 html/xml 标签,使用:
raw1 = BeautifulSoup(raw)
步骤#4: 现在我们获得“原始”变量中的文本。
raw2 = raw1.get_text()
输出:
步骤#5: 接下来,我们将文本标记为单词。
token = nltk.word_tokenize(raw2)
输出: 这是作为下一步的预处理完成的,在这里我们将获得最终文本。
步骤#6: 最后,我们获得最终文本。
text2 = ' '.join(token)
输出:
以下是完整代码:
# importing libraries
import nltk
from bs4 import BeautifulSoup
from urllib.request import urlopen
# extract all the contents of the text file.
raw = urlopen("https://www.w3.org/TR/PNG/iso_8859-1.txt").read()
# remove any html/xml tags
raw1 = BeautifulSoup(raw)
# obtain the text present in ‘raw’
raw2 = raw1.get_text()
# tokenize the text into words.
token = nltk.word_tokenize(raw2)
text2 = ' '.join(token)