jieba分词简介_ye音节拆分怎么写

jieba分词简介_ye音节拆分怎么写目录一,什么是jieba(结巴)库?二,jieba库的使用规则三,jieba库具体使用和实例一,什么是jieba(结巴)库?字如其名,结巴库主要用于中文分词,很形象的画面想必一下子就出现在了

目录

一,什么是jieba(结巴)库?

二,jieba库的使用规则

三,jieba库具体使用和实例


一,什么是jieba(结巴)库?

字如其名,结巴库主要用于中文分词,很形象的画面想必一下子就出现在了大家的面前,结巴在说话时一个词一个词从嘴里往外蹦的时候,已经成功地模拟了我们jieba函数的处理过程!!!

其次

1:Jieba库是优秀的中文分词第三方库,中文文本需要通过分词获得单个的词语。

2:Jieba库的分词原理:利用一个中文词库,确定汉字之间的关联概率,汉字间概率大的组成词组,形成分词结果。除了分词,用户还可以添加自定义的词组。

3:jieba库提供三种分词模式,最简单只需要掌握一种————jieba分词简介_ye音节拆分怎么写

注意:jieba.cuts(s) 返回的是一个可迭代的数据类型,jieba.cuts(s)   后 使用 cut = [w for w in cut if w not in stopWords],处理中文停用词问题时 显示错误,是因为一般stopWord为list 列表[]类型,与cut迭代类型不兼容

,此时出现错误,我们应该了解到jieba.lcuts(s)函数 恰恰返回一个列表类型,此时正常运行。那么就要引入我们一下会讲到的一点jieba库的具体使用

二,jieba库的使用规则

1:jieba分词的三种模式

    精确模式:就是把一段文本精确地切分成若干个中文单词,若干个中文单词之间经过组合,就精确地还原为之前的文本。其中不存在冗余单词。

    全模式:将一段文本中所有可能的词语都扫描出来,可能有一段文本它可以切分成不同的模式,或者有不同的角度来切分变成不同的词语,在全模式下,Jieba库会将各种不同的组合都挖掘出来。分词后的信息再组合起来会有冗余,不再是原来的文本。

    搜索引擎模式:在精确模式基础上,对发现的那些长的词语,我们会对它再次切分,进而适合搜索引擎对短词语的索引和搜索。也有冗余

2:jieba库的一般函数

jieba分词简介_ye音节拆分怎么写

三,jieba库具体使用和实例

1:简单的分词


import jieba 
cut = jieba.cut(text)  #text为你需要分词的字符串/句子
string = ' '.join(cut)  #将分开的词用空格连接
print(string)

 

2:统计三国演义中的词语出场数

import  jieba

txt = open("D:\\三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)     # 使用精确模式对文本进行分词
counts = {}     # 通过键值对的形式存储词语及其出现的次数

for word in words:
    if  len(word) == 1:    # 单个词语不计算在内
        continue
    else:
        counts[word] = counts.get(word, 0) + 1    # 遍历所有词语,每出现一次其对应的值加 1
        
items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True)    # 根据词语出现的次数进行从大到小排序

for i in range(15):
    word, count = items[i]
    print("{0:<5}{1:>5}".format(word, count))

 

3:利用jiebe库的制作WordCloud

jieba分词,再对文本数据处理停用词,作为引用照片,制作词云

k# 基于TextRank算法进行关键词抽取
text=""
for item in data:
    text=text+item[0]
    # print(item[0])
cur.close()
con.close()

cut =jieba.lcut(text)
cut = [w for w in cut if w not in stopWords]
string=' '.join(cut)

img=Image.open(r'.\static\assets\img\tree.jpg')
img_array=np.array(img)
wc=WordCloud(
    background_color='white',
    mask=img_array,
    font_path="STXINGKA.TTF"
)
wc.generate_from_text(string)

#绘制图片
fig =plt.figure(1)
plt.imshow(wc)
plt.axis('off')#是否显示坐标轴

plt.show()

 

今天的文章jieba分词简介_ye音节拆分怎么写分享到此就结束了,感谢您的阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:http://bianchenghao.cn/78689.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注