blinkster: web/lib/django/utils/stopwords.py@0d40e90630ef (annotated)

0 0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	1	# Performance note: I benchmarked this code using a set instead of
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	2	# a list for the stopwords and was surprised to find that the list
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	3	# performed /better/ than the set - maybe because it's only a small
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	4	# list.
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	5
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	6	stopwords = '''
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	7	i
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	8	a
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	9	an
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	10	are
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	11	as
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	12	at
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	13	be
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	14	by
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	15	for
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	16	from
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	17	how
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	18	in
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	19	is
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	20	it
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	21	of
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	22	on
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	23	or
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	24	that
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	25	the
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	26	this
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	27	to
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	28	was
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	29	what
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	30	when
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	31	where
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	32	'''.split()
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	33
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	34	def strip_stopwords(sentence):
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	35	"Removes stopwords - also normalizes whitespace"
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	36	words = sentence.split()
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	37	sentence = []
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	38	for word in words:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	39	if word.lower() not in stopwords:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	40	sentence.append(word)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	41	return u' '.join(sentence)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	42

author	ymh <ymh.work@gmail.com>
	Wed, 20 Jan 2010 00:34:04 +0100
changeset 0	0d40e90630ef
permissions	-rw-r--r--