主要功能描述:采集网络资源自动发帖(使用命名空间,要求PHP版本不低于5.3) 后台 采集管理 顶部每个按钮说明 采集: 手动拉取需要采集的资源 接口地址host/plugin.php?id=ror_grab&act=cron_grab 拉取数据的频率最小为每小时 会有计划任务每小时执行此操作 发帖: 手动把本地保存的采集数据发到板块的帖子里 接口地址host/plugin.php?id=ror_grab&act=cron_thread 若有本地数据会根据设置里的 每次自动发帖数量 发帖子 会有计划任务每5分钟执行此操作(设置里可以关闭自动发帖) 已发贴: 展示已发到帖子的本地数据列表,可搜索和查看帖子 未发贴: 采集到本地未发帖的数据列表,可搜索、删除和审核发帖 导航: 可以添加想要采集的导航到本地的导航列表,采集任务会根据添加的导航采集相关数据 每个导航添加时必须要指定板块,同时也可以指定板块分类,会把导航数据采集到指定板块的指定分类 导航的添加列表是目前已搜录的采集资源列表,若想要采集未搜录的信息可以在反馈里提交数据给管理员 管理员会根据反馈信息适当增减搜录的采集资源列表 马甲: 设置采集数据发帖时的作者,输入uid批量添加 可以根据板块指定对应的马甲用户进行发帖 反馈: 有新的需求或插件问题可以通过反馈通知管理员 重要的反馈信息,处理结果会发到您设置的邮箱里 捐赠: 默认免费服务可以采集有限信息(每小时采集最新添加的前30个导航的最近一小时内的最新3条信息) 为了可以提供更好的服务可以通过捐赠获取更多采集信息(每小时采集最新添加的前30个导航的最近一小时内的全部信息) 捐赠之前要在设置里添加捐赠的支付宝账户 若捐赠成功一定注意点击确认捐赠按钮以便通知管理员处理,若长时间未收到处理邮件通知,可添加反馈或联系管理员 token: 捐赠成功并且管理员分配token收到邮件通知后可以通过token按钮来获取自己的token信息和采集资源站访问的登陆账户 获取token后可以在设置里添加此token信息 token信息是根据您的论坛ip进行绑定的,所以ip更换token会失效此时需要反馈给管理员处理,当然您的论坛要是走了代理ip不固定是不能申请token的
Discuz数据采集须知 1、由于采集发帖尤其有图片本地化时非常耗时,并且x2.5不支持插件计划任务, 目前的计划任务策略是全局的钩子检测触发时机,若触发会在页面以script方式延迟调用计划任务脚本, 这样做的好处是访问页面不会有延迟,弊端是只有浏览器访问论坛才会触发脚本 x3.0版本以上论坛是可以在工具的计划任务里添加系统计划任务触发的 数据采集机器人自动发帖脚本名称:ror_grab:thread_hourly.php(建议每隔5分钟执行,此时关闭设置自动发帖) 数据采集机器人采集数据脚本名称:ror_grab:grab_hourly.php(每小时执行,建议每小时的随机某一分钟执行,都是同一时间执行会导致服务器并发过高丢弃请求) 当然discuz系统计划任务也是需要有论坛访问请求才会触发的,若用户访问页面时触发可能会导致访问的页面加载有延迟 最好的解决办法是在服务器加系统计划任务 数据采集机器人自动发帖接口地址host/plugin.php?id=ror_grab&act=cron_thread(建议每隔5分钟执行,此时关闭设置自动发帖) 数据采集机器人采集数据接口地址host/plugin.php?id=ror_grab&act=cron_grab(每小时执行,建议每小时的随机某一分钟执行,都是同一时间执行会导致服务器并发过高丢弃请求) 2、关闭设置自动发帖后,默认的自动发帖和采集数据计划任务都会停掉 3、采集数据的限制会根据服务器的压力和用户需求适时调整 4、您的论坛此插件设置信息是根据论坛的服务器ip来绑定的,所以ip更换需要重新设置邮箱信息,当然要是您的论坛走了代理,ip一直变动是不能使用此插件的 5、允许发html的板块采集信息可以在设置里自定义在帖子详情页展示的样式,需要注意某个板块一旦开启允许发html,若有新发帖子并且再次关闭允许板块发html,此时的帖子将展示html源码,目前只有web版支持自定义样式 声明: 数据采集机器人只是简易的爬虫小工具,默认采集发帖是必须走审核的,自动发帖只会检测您论坛后台设置的关键词,所以若是发帖涉及到版权或信息安全问题与本插件无关 此插件是基于discuz现有框架开发的简易插件框架,后台ui采用的layui前端框架,禁止盗用本插件框架
Discuz数据采集更新记录 兼容php7 取消call_user_func调用 插件采用了比较高版本的php语法,导致一些用户安装插件不能运行,已改成常用语法 取消管理跳转页面
|