博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
字数分词
阅读量:6432 次
发布时间:2019-06-23

本文共 1329 字,大约阅读时间需要 4 分钟。

s = "线程是程序执行时的最小单位,它是进程的一个执行流,\         是CPU调度和分派的基本单位,一个进程可以由很多个线程组成,\         线程间共享进程的所有资源,每个线程有自己的堆栈和局部变量。\         线程由CPU独立调度执行,在多CPU环境下就允许多个线程同时运行。\         同样多线程也可以实现并发操作,每个请求分配一个线程来处理。" print(s) def word_one(text):     return dict([(word,True) for word in text ]) print('单词分词',word_one(s)) import nltk from nltk.collocations import  BigramCollocationFinder from nltk.metrics import  BigramAssocMeasures def word_two(words, score_fn=BigramAssocMeasures.chi_sq, n=1000):     bigram_finder = BigramCollocationFinder.from_words(words)  # 把文本变成双词搭配的形式     bigrams = bigram_finder.nbest(score_fn, n)  # 使用卡方统计的方法,选择排名前1000的双词     newBigrams = [u + v for (u, v) in bigrams]     return word_one(newBigrams) print('两词分词',word_two(s, score_fn=BigramAssocMeasures.chi_sq, n=1000)) def word_total(words, score_fn=BigramAssocMeasures.chi_sq, n=1000):     bigram_finder = BigramCollocationFinder.from_words(words)     bigrams = bigram_finder.nbest(score_fn, n)     newBigrams = [u + v for (u, v) in bigrams]     a = word_one(words)     b = word_one(newBigrams)     a.update(b)  # 把字典b合并到字典a中     return a print('综合分词',word_total(s, score_fn=BigramAssocMeasures.chi_sq, n=1000)) import jieba def wold_cut(text):     fenci=jieba.lcut(text)     return fenci print('jiaba分词',wold_cut(s))

转载于:https://www.cnblogs.com/hapyygril/p/9903231.html

你可能感兴趣的文章
IntelliJ IDEA 快捷键
查看>>
qury-easyui DataGrid 整合struts2增删查该入门实例(三)
查看>>
if a point is inside a square with mathematics
查看>>
Ubuntu(Linux)使用Eclipse搭建C/C++编译环境
查看>>
skyline无插件web的数据加载解析
查看>>
python基础学习第一天
查看>>
硬盘存储双寡头之争 希捷重注中国市场或赢大丰收
查看>>
淘宝电影联合华谊的数据报告,还有哪些重要信息?
查看>>
编译安装PHP
查看>>
css position:static 的使用
查看>>
nfs永久挂载与临时挂载
查看>>
linux查看网络链接状况命令之-netstat
查看>>
我的友情链接
查看>>
UIView的layoutSubviews和drawRect方法何时调用
查看>>
mysql主从同步
查看>>
制作最简化的Linux系统
查看>>
我的友情链接
查看>>
使用List的remove方法需要的注意的问题
查看>>
Ansible的介绍、安装、配置及常用模块介绍
查看>>
编码列表
查看>>