Skip to content

Latest commit

 

History

History
25 lines (14 loc) · 978 Bytes

README.md

File metadata and controls

25 lines (14 loc) · 978 Bytes

tiku_sprider

帮别人写的一个题库爬虫,包括抓取试题,抓取答案,图像识别答案,抓取分类,导入数据库

  • category.py 运行可在当前目录下生成分类数据 cate.txt
    • 单线程运行 速度较慢
  • sprider.py 运行可在当前目录下生成 某个分类的 试题数据 data.txt
    • 单线程运行 速度较慢
  • sprider2.py 运行可在data文件夹下创建以每个分类编号命名的 试题数据
    • 线程池 + 队列 + 消费者生产者模型 速度较快
  • sprider_qustion 运行可抓取data文件夹内所有问题的答案数据,生成ans_all.txt
    • 线程池 + 队列 + 消费者生产者模型 速度较快
    • 自动识别图像类型的答案
  • dbsave.py 运行可将所有数据导入数据库
    • 线程池 + 队列 + 消费者生产者模型 速度较快

随手写的工具,没怎么优化。不过测试单机可以很快抓取10w+试题,答案,以及几十万图片