学习笔记——zhon库的简介、安装、使用方法之详细攻略

学习笔记——zhon库的简介、安装、使用方法之详细攻略zhon库的简介Zhon是一个Python库,它提供了中文文本处理中常用的常量

zhon库的简介

         Zhon是一个Python库,它提供了中文文本处理中常用的常量。

包括常用常量:

中日韩文字和部首
中文标点符号
汉语句子规则表达模式
拼音元音、辅音、小写、大写和标点符号
拼音音节、单词和句子规则表达模式
诸印文字
竹音音节规则表达模式
CC-CEDICT字符

zhon库的安装

pip install zhon

学习笔记——zhon库的简介、安装、使用方法之详细攻略

 如果有pycharm直接搜索安装

zhon库的使用方法 

1、在字符串中查找CJK字符、验证拼音音节、单词或句子:

在字符串中查找CJK字符:
 
>>> re.findall('[%s]' % zhon.hanzi.characters, 'I broke a plate: 我打破了一个盘子.')
['我', '打', '破', '了', '一', '个', '盘', '子']
 
 
验证拼音音节、单词或句子:
>>> re.findall(zhon.pinyin.syllable, 'Yuànzi lǐ tíngzhe yí liàng chē.', re.I)
['Yuàn', 'zi', 'lǐ', 'tíng', 'zhe', 'yí', 'liàng', 'chē']
 
>>> re.findall(zhon.pinyin.word, 'Yuànzi lǐ tíngzhe yí liàng chē.', re.I)
['Yuànzi', 'lǐ', 'tíngzhe', 'yí', 'liàng', 'chē']
 
>>> re.findall(zhon.pinyin.sentence, 'Yuànzi lǐ tíngzhe yí liàng chē.', re.I)
['Yuànzi lǐ tíngzhe yí liàng chē.']

 中文的处理


text_chinese = '自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。'

去除标点符号

我们适应zhon.hanzi.punctuation来调用中文符号。

import re
from zhon.hanzi import punctuation
#去除标点符号
chi_nopuc = re.sub("[{}]+".format(punctuation), "", text_chinese)

中文分词

jieba分词支持不同的分词方式,本文中使用的是默认模式 

chi_token = jieba.lcut(chi_nopuc)

 去除停用词

在这里,我们得先有一个停用词的列表。这个停用词没有一个标准化的指标,我自己的停用词下载:

停用词下载链接
提取码:bs5s

#首先我们需要引入停用词
f = open(r"C:\Users\Mr.Reliable\Desktop\中文停用词.txt",'r',encoding = 'UTF-8')
stopwords_n = f.readlines()
f.close()  
#清洗停用词数据
stopwords = [sw.strip().replace('\n','') for sw in stopwords_n]
final = []
for chi in chi_token:
    if chi not in stopwords:
            final.append(chi)
print(final)

 输出的结果

学习笔记——zhon库的简介、安装、使用方法之详细攻略

 

今天的文章学习笔记——zhon库的简介、安装、使用方法之详细攻略分享到此就结束了,感谢您的阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/82755.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注