python jieba分詞如何去除停用詞

2021-09-30 15:13:10 字數 1349 閱讀 2544

1樓:你還好嗎

import jieba

# 建立停用詞list

def stopwordslist(filepath):

stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]

return stopwords

# 對句子進行分詞

def seg_sentence(sentence):

sentence_seged = jieba.cut(sentence.strip())

stopwords = stopwordslist('./test/stopwords.txt')  # 這裡載入停用詞的路徑

outstr = ''

for word in sentence_seged:

if word not in stopwords:

if word != '\t':

outstr += word

outstr += " "

return outstr

inputs = open('./test/input.txt', 'r', encoding='utf-8')

outputs = open('./test/output.txt', 'w')

for line in inputs:

line_seg = seg_sentence(line)  # 這裡的返回值是字串

outputs.write(line_seg + '\n')

outputs.close()

inputs.close()

2樓:匿名使用者

-*- coding: utf-8 -*-import jieba

import jieba.analyse

import sys

import codecs

reload(sys)

sys.setdefaultencoding('utf-8')#使用其他編碼讀取停用詞表

#stoplist = codecs.open('../../file/stopword.txt','r',encoding='utf8').readlines()

#stoplist = set(w.strip() for w in stoplist)

#停用詞檔案是utf8編碼

stoplist = {}.fromkeys([ line.strip() for line in open("../../file/stopword.txt") ])

#經過分詞得到的應該是unicode編碼,先將其轉成utf8編碼

如何分辨分詞作定語,還是伴隨

做定語,肯定會有個名詞 前定語 he is the people loving me much.這裡做的是後置定語.做為一個定語從句,你可以新增一些東西,這樣就可以構成一個句子,定語從句。比如這裡可以說成 he is the people who loves me much 而作為伴隨,你會發現跟前...

現在分詞和過去分詞是怎麼用的,現在分詞和過去分詞的用法和區別是什麼啊?

現在分詞和動名詞的形式一樣,但用法不一樣,所以你會混淆,現在分詞做定語,狀語,補足語,表主動,進行,如the man speaking to my teacher is mr wang.做定語,表語時還表示事物的特徵,翻譯成令人 的。如the man is boring.或i don t like ...

be動詞的現在分詞和過去分詞怎樣使用

be動詞顧名思義他相當於半個動詞,一般跟在形容詞,但也有很多其他的用法,如被動態,be going to do 等,慢慢積累而且五年級要學這麼難得用法了嗎?可加qq,我可回答你具體問題,495322914 比如 he run on the grass,這裡試著加一個正 在,翻譯成他正在草地上跑,語句...