Python公开课 - 全文检索模块Whoosh详解(2)
前言
在上一章中,我们对Whoosh做了一些基本的介绍和主要数据类型的说明。
接下来我们将阐述如何使用Whoosh对文档进行索引。
1. 创建索引对象
如果索引不存在,我们需要通过create_in()
方法来进行创建
import os, os.path
from whoosh import index
if not os.path.exists("indexdir"):
os.mkdir("indexdir")
ix = index.create_in("indexdir", schema)
对于已经存在的索引,则可以通过open_dir()
方法打开并使用:
import whoosh.index as index
ix = index.open_dir("indexdir")
当然,同一目录中,可以存在多种不同索引,通过indexname
参数来区别:
# Using the Storage object
ix = storage.create_index(schema, indexname="usages")
ix = storage.open_index(indexname="usages"
2. 删除索引对象
如果你想要删除某个索引,有两种方法:
- 再次调用
create_in()
,传入相同的目录名和indexname
参数,将会删除原有的索引 - 如果索引中只有一条记录,则可以直接删除整个索引目录
如果需要确认某个某个索引是否存在,则可以使用index.exists_in()
方法
exists = index.exists_in("indexdir")
usages_exists = index.exists_in("indexdir", indexname="usages")
3. 给文档索引
当创建好索引对象后,便可以使用索引对象中的IndexWriter
来对需要索引的文档建立索引了。
writer = ix.writer()
writer.add_document(title=u"My document", content=u"This is my document!",
path=u"/a", tags=u"first short", icon=u"/icons/star.png")
writer.add_document(title=u"Second try", content=u"This is the second example.",
path=u"/b", tags=u"second short", icon=u"/icons/sheep.png")
writer.add_document(title=u"Third time's the charm", content=u"Examples are many.",
path=u"/c", tags=u"short", icon=u"/icons/book.png")
writer.commit()
注意:
- 如果多线程同时使用
IndexWriter
对象,则会抛出whoosh.store.LockError
异常 - 如果不想提交创建的索引,则可以调用
writer.cancle()
来取消操作 - 当你操作完成,记得一定要使用
writer.cancle()
或者writer.commit()
来关闭writer
4. 删除已索引文档
可以使用IndexWriter
的四个方法来删除已经索引的文档
delete_document(docnum)
通过内部文档编号删除文档
is_deleted(docnum)
如果已经删除具有给定内部编号的文档,则返回True
delete_by_term(fieldname, termtext)
删除给定(索引)字段包含给定关键词的任何文档。比较适合id和keyword
delete_by_query(query)
删除与给定查询匹配的所有文档
5. 更新已索引文档
直接给代码示例
from whoosh.fields import Schema, ID, TEXT
schema = Schema(path = ID(unique=True), content=TEXT)
ix = index.create_in("index")
writer = ix.writer()
writer.add_document(path=u"/a", content=u"The first document")
writer.add_document(path=u"/b", content=u"The second document")
writer.commit()
writer = ix.writer()
# Because "path" is marked as unique, calling update_document with path="/a"
# will delete any existing documents where the "path" field contains "/a".
writer.update_document(path=u"/a", content="Replacement for the first document")
writer.commit()
可以看到,通过update_document()
可以对已索引的文档进行更新操作。如果文档不存在,则会add_document()
效果一致。
相关阅读
相关主题: