您当前的位置: 首页 >  Python

彭世瑜

暂无认证

  • 1浏览

    0关注

    2791博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

Python:jieba中文分词的使用笔记

彭世瑜 发布时间:2021-03-02 18:31:41 ,浏览量:1

文档:https://github.com/fxsjy/jieba

安装

pip install jieba
分词
cut/lcut(self, sentence, cut_all=False, HMM=True, use_paddle=False)

# 参数:
sentence   需要分词的字符串;
cut_all    参数用来控制是否采用全模式;
HMM        参数用来控制是否使用 HMM 模型;
use_paddle 参数用来控制是否使用paddle模式下的分词模式

切出了词典中没有的词语,效果不理想,可以关闭新词发现 HMM=False
自定义词典

格式:

词语、词频(可省略)、词性(可省略)

示例 user-dict.txt

创新办 3 i
云计算 5
凱特琳 nz
台中
载入词典
# 载入词典
jieba.load_userdict(file_name)
修改词典
# 动态修改词典
add_word(word, freq=None, tag=None)
del_word(word)

# 调节单个词语的词频
suggest_freq(segment, tune=True)
改变主词典的路径
# 加载自定义词典
jieba_token = jieba.Tokenizer(dictionary='user-dict.txt')

# 或者 手动初始化
jieba.initialize(dictionary='user-dict.txt')

# 或者 改变主词典的路径
jieba.set_dictionary('user-dict.txt')

关注
打赏
1665367115
查看更多评论
立即登录/注册

微信扫码登录

0.0787s