纯java实现的网页内容采集器采集到wordpress,简约而不简单
收集者网页采集器
基于正则表达式实现的纯Java网络内容采集器,专门为wordpress网站定制。
采集任务主类:com.zhiletu.collect.Collecter
默认定时器类:com.zhiletu.collect.UdastConfigServlet
涉及子功能:
1.正则表达式匹配文本和url
2.HTTPclient抓取网页
3.图片转格式与压缩
4.中文分词与文章高频词统计
5.定时执行采集任务
6.采集规则读取、驱动
7.采集数据存储到数据库
8.读取数据库配置文件
9.图片下载并保存到指定目录
10.对文章高频词查询百度词典,并存储到词典库
11.支持采集接口,并对返回 ...