可以下载一长篇的英文小说,进行词频的分析。
1.读入待分析的字符串
2.分解提取单词
3.计数字典
4.排除语法型词汇
5.排序
6.输出TOP(20)
7.对输出结果的简要说明。
str=open('F:\\wanghao.txt','r')#读入待分析的字符串str=str.read()#将所有大写转换为小写str=str.lower()#将所有将所有其他做分隔符(,.?!)替换为空格for i in ',.?!:': str=str.replace(i,' ')#分隔出一个一个单词str=str.split(' ')#排除语法型词汇exp={ 'is','and','that','it','a','our','have','','the','for','of','as','on','be','will','we','can','with','all','more','be','in','to','this','an','own','how','at','are','one'}word=set(str)-exp#计数字典 dic={}for i in word: dic[i]=str.count(i)str=list(dic.items())#排序str.sort(key=lambda x:x[1],reverse=True)for i in range(10): print(str[i])