火车采集器是一款专业的功能强大的网络数据/信息挖掘软件,通过灵活的配置,您可以很轻松的从网页上抓取文字、图片、文件等任何资源。程序支持远程下载图片文件,支持网站登陆后的信息采集,支持探测文件真实地址,支持代理,支持防盗链的采集,支持采集数据直接入库和模仿人手工发布等许多功能特点。
LocoySpider支持从任何类型的网站采集获取您所需要的信息,如各种新闻类网站、论坛、电子商务网站、求职招聘网站等。同时具有强大的网站登录采集、多页和分页的采集、网站跨层采集、POST采集、脚本页面采集、动态页面采集等高级采集功能。强大的php和c#插件支持,让您可以通过二次开发实现您所想要的任何更强大的功能。
【更新内容】
V9.0
二级代理服务器新增Socks代理
任务运行过程中可修改线程数等参数,实时调节运行速度,添加可查看任务运行当前及总体速度功能
支持SSH(SFTP文件)上传
内容提取新增JSON提取方式,提取JSON数据更加简单
插件编辑器新增C#源码文件插件,类似PHP源码插件一样,编辑后直接生效,但比PHP源码插件支持更多的插件接口
软件闪退,支持保存未完成的任务进度
新增消息机制
V9将采网址和采内容的方式合并,列表采集及内容采集使用不同队列,优化采集流程,更新数据内容的方式由Update改为insert,大幅提升采集及入库速度;
任务运行合并到统一界面,添加“实时数据”查看和“任务详情”统计;
修改了原有的无限级列表页网址获取模式,使无限级配置操作更加简单;
字段重复性对比功能不再使用数据库unique方式,改为内存Md5_16对比,更加精准;
标签数据的来源更加细致化,可设置从默认页、分页和多页的源码,URL地址及返回头信息中提取。