Python公开课 - 全文检索模块Whoosh详解(1)
前言
Whoosh是一封装好的第三方库,可以用来全文检索。非常方便的对自己的网站搭建搜索引擎。
例如,如果您正在开发一个博客网站,则可以使用Whoosh添加搜索功能以允许用户搜索博客内容。
一个示例代码
from whoosh.index import create_in
from whoosh.fields import *
schema = Schema(title=TEXT(stored=True), path=ID(stored=True), content=TEXT)
ix = create_in("indexdir", schema)
writer = ix.writer()
writer.add_document(title=u"First document", path=u"/a", content=u"This is the first document we've added!")
writer.add_document(title=u"Second document", path=u"/b", content=u"The second one is even more interesting!")
writer.commit()
from whoosh.qparser import QueryParser
with ix.searcher() as searcher:
query = QueryParser("content", ix.schema).parse("first")
results = searcher.search(query)
print(results[0])
输出:
>>>{"title": u"First document", "path": u"/a"}
Index与Schema
如果使用Whoosh,首先需要一个Index对象,而创建Index时,必须先定义Schema。在Schema中定义了了Index所包含的Field。
Field可以被索引(意味着它可以被搜索)和/或存储(意味着被索引的值与结果一起返回)。
当创建Index
时,仅仅只用创建一次Schema
。
Field类型说明
whoosh.fields.ID
该类型将字段的整个值索引(并可选地存储)为一个单元(也就是说,它不会进行分词处理)。这对于文件路径,URL,日期,类别等字段很有用。
whoosh.fields.STORED
该字段与文档一起存储,但不编入索引。主要用在搜索结果中向用户显示的文档信息。
whoosh.fields.KEYWORD
该类型设计用于以空格或逗号分隔的关键字。此类型被索引并可搜索(并可选择存储)。
whoosh.fields.TEXT
该类型用于正文。它被索引(并可选地存储)文本并存储分词位置以允许分词搜索。
whoosh.fields.NUMERIC
该类型适用于数字。可以存储整数或浮点数。
whoosh.fields.BOOLEAN
该类型用于布尔值(true / false)。
whoosh.fields.DATETIME
该类型适用于datetime对象。
whoosh.fields.NGRAM 与 whoosh.fields.NGRAMWORDS
该类型将字段文本或短语分解为N-gram。
IndexWriter说明
当创建好Index对象,就可以开始添加文档了。该对象的 writer()
方法Index返回一个IndexWriter对象。然后通过IndexWriter的add_document()
与commit()
方法将文档添加到索引库
writer = ix.writer()
writer.add_document(title=u"My document", content=u"This is my document!",
path=u"/a", tags=u"first short", icon=u"/icons/star.png")
writer.add_document(title=u"Second try", content=u"This is the second example.",
path=u"/b", tags=u"second short", icon=u"/icons/sheep.png")
writer.add_document(title=u"Third time's the charm", content=u"Examples are many.",
path=u"/c", tags=u"short", icon=u"/icons/book.png")
writer.commit()
Searcher说明
当需要检索的时候,就需要Searcher对象了。
语法如下:
searcher = ix.searcher()
with ix.searcher() as searcher:
...
通过QueryParser来解析查询字符串
# Parse a query string
from whoosh.qparser import QueryParser
parser = QueryParser("content", ix.schema)
myquery = parser.parse(querystring)
其他
Whoosh对于检索结果还有额外的功能,包括:
- 按索引字段的值排序结果,而不是按照相关性排序。
- 在原始文档的摘录中突出显示搜索词。
- 根据找到的前几个文档扩展查询字词。
- 分析结果(例如“显示结果1-20,第1页,共4页”)。