Python公开课 - 全文检索模块Whoosh详解(2)

前言

在上一章中,我们对Whoosh做了一些基本的介绍和主要数据类型的说明。

接下来我们将阐述如何使用Whoosh对文档进行索引。

1. 创建索引对象

如果索引不存在,我们需要通过create_in()方法来进行创建

import os, os.path
from whoosh import index

if not os.path.exists("indexdir"):
    os.mkdir("indexdir")

ix = index.create_in("indexdir", schema)

对于已经存在的索引,则可以通过open_dir()方法打开并使用:

import whoosh.index as index

ix = index.open_dir("indexdir")

当然,同一目录中,可以存在多种不同索引,通过indexname参数来区别:

# Using the Storage object
ix = storage.create_index(schema, indexname="usages")
ix = storage.open_index(indexname="usages"

2. 删除索引对象

如果你想要删除某个索引,有两种方法:

  • 再次调用create_in(),传入相同的目录名和indexname参数,将会删除原有的索引
  • 如果索引中只有一条记录,则可以直接删除整个索引目录

如果需要确认某个某个索引是否存在,则可以使用index.exists_in()方法

exists = index.exists_in("indexdir")
usages_exists = index.exists_in("indexdir", indexname="usages")

3. 给文档索引

当创建好索引对象后,便可以使用索引对象中的IndexWriter来对需要索引的文档建立索引了。

writer = ix.writer()
writer.add_document(title=u"My document", content=u"This is my document!",
                    path=u"/a", tags=u"first short", icon=u"/icons/star.png")
writer.add_document(title=u"Second try", content=u"This is the second example.",
                    path=u"/b", tags=u"second short", icon=u"/icons/sheep.png")
writer.add_document(title=u"Third time's the charm", content=u"Examples are many.",
                    path=u"/c", tags=u"short", icon=u"/icons/book.png")
writer.commit()

注意:

  • 如果多线程同时使用IndexWriter对象,则会抛出whoosh.store.LockError异常
  • 如果不想提交创建的索引,则可以调用writer.cancle()来取消操作
  • 当你操作完成,记得一定要使用writer.cancle()或者writer.commit()来关闭writer

4. 删除已索引文档

可以使用IndexWriter的四个方法来删除已经索引的文档

delete_document(docnum)

通过内部文档编号删除文档

is_deleted(docnum)

如果已经删除具有给定内部编号的文档,则返回True

delete_by_term(fieldname, termtext)

删除给定(索引)字段包含给定关键词的任何文档。比较适合id和keyword

delete_by_query(query)

删除与给定查询匹配的所有文档

5. 更新已索引文档

直接给代码示例

from whoosh.fields import Schema, ID, TEXT

schema = Schema(path = ID(unique=True), content=TEXT)

ix = index.create_in("index")
writer = ix.writer()
writer.add_document(path=u"/a", content=u"The first document")
writer.add_document(path=u"/b", content=u"The second document")
writer.commit()

writer = ix.writer()
# Because "path" is marked as unique, calling update_document with path="/a"
# will delete any existing documents where the "path" field contains "/a".
writer.update_document(path=u"/a", content="Replacement for the first document")
writer.commit()

可以看到,通过update_document()可以对已索引的文档进行更新操作。如果文档不存在,则会add_document()效果一致。

相关阅读


相关主题:
相关推荐
  1. 成都市人北实验小学
  2. 邯郸市复兴区东邢台小学
  3. 塞翁失马
  4. 生活不易,酒在远方
  5. 北京市通州区潞河中学
  6. 武汉一女子七天被骗220万
  7. 北京市燕山前进第一小学
  8. 西安市长安区第二中学
  9. 韶关市南雄市界址中学
  10. 小天使托教中心 - 苏州幼儿园黄页
  11. 幼儿园入学准备物品清单
  12. 邮递员的童话
  13. 济南协和双语实验学校
  14. 七个月婴儿咳嗽怎么办 - 育儿经验
  15. 武汉推出越王勾践剑交通卡
  16. 莆田五中
  17. 滨州市滨城区第四小学
  18. 龙井茶的传说和发展
  19. 昆明市五华区轻机厂欣蕾幼儿园 - 昆明市幼儿园黄页
  20. 重庆市涪陵城区第三小学校
  21. 临沂市第六实验小学(罗庄区第二实验小学)
  22. 湖南省浏阳市第三中学(浏阳三中)
  23. 长沙市长郡中学
  24. 株洲市北星小学
  25. 佛山禅城区颖林学校
  26. 武汉动物园火烈鸟孔雀排队打疫苗
  27. 深圳市龙华新区观澜办事处茜坑社区观澜中心幼儿园 - 深圳幼儿园黄页
  28. 图像处理工具ImageMagick - 灰度化和二值化
  29. 宝宝湿热的表现有哪些 - 育儿经验
  30. 湖北将发放消费券 - 武汉新鲜事
  31. 细菌躲猫猫
  32. 利津县利津镇一中
  33. 沈阳市苏家屯区城郊幼儿园 - 沈阳幼儿园黄页
  34. maven中<parent>标签作用
  35. 长春市南关区园园启蒙幼儿园 - 长春幼儿园黄页
  36. 脱单!武汉的相亲角在哪你知道吗?
  37. 易中天给英雄武汉的一首诗 - 武汉新鲜事
  38. 上海市杨浦区平凉路第四小学
  39. VPS - OpenVZ主机编译代码发现内存不足的问题
  40. Python源码剖析 - Python中的整数对象
  41. 江门市培英初级中学
  42. 猫和老鼠交朋友
  43. 长沙市向家坡小学
  44. Python源码剖析 - Python中的字符串对象
  45. Python公开课 - 页面解析之XPath
  46. 大连市普兰店市鑫艺幼儿园 - 大连幼儿园黄页
  47. 警方通报:武汉男子持刀至五死一伤,嫌犯已跳桥
  48. 太原市万柏林区贝贝幼儿园 - 太原幼儿园黄页
  49. 南宁市西乡塘区相思湖外国语幼儿园 - 南宁幼儿园黄页
  50. 深圳市南山区西丽小学
  51. 康熙喝杭白菊
  52. 开荒路上
  53. 蝴蝶
  54. Python公开课 - 文件操作
  55. 小红花找好朋友
  56. Ubuntu 编译 libsodium 以支持 chacha20 加密方式
  57. 聪明的小羊智斗大灰狼
  58. Python基础 - 详解django.utils.dateparse
  59. 奥迪客户不满加价,被武汉4S店销售群殴
  60. 央媒聚焦!国庆假期173.78万人次打卡大美黄陂
  61. 武汉00后大二学妹拍视频月入七十万