Python公开课 - 全文检索模块Whoosh详解(1)

前言

Whoosh是一封装好的第三方库,可以用来全文检索。非常方便的对自己的网站搭建搜索引擎。

例如,如果您正在开发一个博客网站,则可以使用Whoosh添加搜索功能以允许用户搜索博客内容。

一个示例代码

from whoosh.index import create_in
from whoosh.fields import *
schema = Schema(title=TEXT(stored=True), path=ID(stored=True), content=TEXT)
ix = create_in("indexdir", schema)
writer = ix.writer()
writer.add_document(title=u"First document", path=u"/a", content=u"This is the first document we've added!")
writer.add_document(title=u"Second document", path=u"/b", content=u"The second one is even more interesting!")
writer.commit()


from whoosh.qparser import QueryParser
with ix.searcher() as searcher:
    query = QueryParser("content", ix.schema).parse("first")
    results = searcher.search(query)
    print(results[0])

输出:

>>>{"title": u"First document", "path": u"/a"}

Index与Schema

如果使用Whoosh,首先需要一个Index对象,而创建Index时,必须先定义Schema。在Schema中定义了了Index所包含的Field。

Field可以被索引(意味着它可以被搜索)和/或存储(意味着被索引的值与结果一起返回)。

当创建Index时,仅仅只用创建一次Schema

Field类型说明

whoosh.fields.ID

该类型将字段的整个值索引(并可选地存储)为一个单元(也就是说,它不会进行分词处理)。这对于文件路径,URL,日期,类别等字段很有用。

whoosh.fields.STORED

该字段与文档一起存储,但不编入索引。主要用在搜索结果中向用户显示的文档信息。

whoosh.fields.KEYWORD

该类型设计用于以空格或逗号分隔的关键字。此类型被索引并可搜索(并可选择存储)。

whoosh.fields.TEXT

该类型用于正文。它被索引(并可选地存储)文本并存储分词位置以允许分词搜索。

whoosh.fields.NUMERIC

该类型适用于数字。可以存储整数或浮点数。

whoosh.fields.BOOLEAN

该类型用于布尔值(true / false)。

whoosh.fields.DATETIME

该类型适用于datetime对象。

whoosh.fields.NGRAM 与 whoosh.fields.NGRAMWORDS

该类型将字段文本或短语分解为N-gram。

IndexWriter说明

当创建好Index对象,就可以开始添加文档了。该对象的 writer()方法Index返回一个IndexWriter对象。然后通过IndexWriter的add_document()commit()方法将文档添加到索引库

writer = ix.writer()
writer.add_document(title=u"My document", content=u"This is my document!",
                    path=u"/a", tags=u"first short", icon=u"/icons/star.png")
writer.add_document(title=u"Second try", content=u"This is the second example.",
                    path=u"/b", tags=u"second short", icon=u"/icons/sheep.png")
writer.add_document(title=u"Third time's the charm", content=u"Examples are many.",
                    path=u"/c", tags=u"short", icon=u"/icons/book.png")
writer.commit()

Searcher说明

当需要检索的时候,就需要Searcher对象了。

语法如下:

searcher = ix.searcher()

with ix.searcher() as searcher:
    ...

通过QueryParser来解析查询字符串

# Parse a query string

from whoosh.qparser import QueryParser
parser = QueryParser("content", ix.schema)
myquery = parser.parse(querystring)

其他

Whoosh对于检索结果还有额外的功能,包括:

  • 按索引字段的值排序结果,而不是按照相关性排序。
  • 在原始文档的摘录中突出显示搜索词。
  • 根据找到的前几个文档扩展查询字词。
  • 分析结果(例如“显示结果1-20,第1页,共4页”)。

相关阅读


相关主题:
相关推荐
  1. 深圳福桥高级中学
  2. 东乡县王桥中学
  3. 山羊是怎么哄骗狮子的
  4. 让我们快乐些
  5. 康保县第二中学(康保二中)
  6. 幼儿园入学准备物品清单
  7. 提高网站加载速度 - Nginx配置开启Gzip
  8. Django项目中添加robots.txt的四种方法
  9. 爱睡懒觉的向日葵
  10. 18个月婴儿缺铁怎么补 - 育儿经验
  11. 启动TOGAF之前的10个步骤 - TOGAF系列教程(2)
  12. 脱单!武汉的相亲角在哪你知道吗?
  13. 爱奇艺上个人如何发布知识付费视频
  14. 百名网媒总编辑登上知音号欣赏武汉夜色
  15. 斗拐
  16. 多余的尾巴
  17. 上海市闸北区民办小小虎幼稚园 - 上海幼儿园黄页
  18. 新生儿tsh筛查弱阳性是什么 - 育儿经验
  19. 武汉一女子七天被骗220万
  20. 威海经技区老集小学
  21. 临沂市第十二中学(育新实验学校)
  22. 武汉推出越王勾践剑交通卡
  23. 微服务架构 Spring Cloud 理解与思考
  24. 增强CT后能抱宝宝吗 - 育儿经验
  25. 五个月的婴儿能不能吃水果 - 育儿经验
  26. 深圳市福田区华富街道莲花一村社区深圳银鹰第二幼儿园 - 深圳幼儿园黄页
  27. 武汉女子网上做兼职被骗六十五万
  28. 央媒聚焦!国庆假期173.78万人次打卡大美黄陂
  29. 苏州科技城外国语学校
  30. Python公开课 - 爬虫识别滑动验证码
  31. 湛江市第二十小学
  32. 贵溪县志光柏山村小学
  33. 皇城幼儿园 - 乌鲁木齐幼儿园黄页
  34. 武汉动物园火烈鸟孔雀排队打疫苗
  35. 成都市龙泉驿区成都滨河幼儿园 - 成都市幼儿园黄页
  36. 水晶街的吹梦人
  37. 湖北省宜都市第二高级中学
  38. 桂林市永福县西滨路幼儿园 - 桂林幼儿园黄页
  39. 警方通报:武汉男子持刀至五死一伤,嫌犯已跳桥
  40. Java Web Services介绍
  41. 武汉市第四十三中学
  42. 扬州市西湖实验学校
  43. 母亲的锦囊妙计
  44. Django的Cache框架(下)
  45. 衡山县第二中学(衡山二中)
  46. 奥迪客户不满加价,被武汉4S店销售群殴
  47. Python公开课 - Ubuntu 升级到Python3.6及对应的pip
  48. 武汉00后大二学妹拍视频月入七十万
  49. 荆门市龙泉中学
  50. 上海市宝山区同泰路小学
  51. 上海市嘉定区黄渡幼儿园 - 上海幼儿园黄页
  52. 合肥市长江路第二小学
  53. 上海卢湾区第一中心小学分部(卢湾一中心分部)
  54. 逃走的雪人
  55. 万东镇中心校
  56. Python公开课 - 多进程使用
  57. 青岛市市北区福州路小学
  58. 苏州木渎南行实验小学
  59. 和尚当元帅
  60. 十二个猎人
  61. 重庆巴南育才(实验)中学