概述
+ 与验证码识别器插件合作, 为任何有需要的人群提供自动采集过程中, 解决复杂验证码挑战的能力.
立即开启免费体验,注册即送100个积分
最简单数据采集、网页采集、网页爬虫插件
最快点击3次即可轻松完成多页自动采集爬取
强大的多级网页采集,无需任何编码
可视化创建采集跨多页信息的自动规则
所有数据安全地存储在本地,具有双重保护
自动运行计划任务
无需学习python, javascript,xpath,json,iframe等技术技能
轻松匹敌亚马逊爬虫、虾皮爬虫、天猫爬虫、淘宝爬虫、京东爬虫、头条爬虫、携程爬虫、大众点评爬虫、百度查询结果爬虫、高德地图爬虫、腾讯地图爬虫、谷歌地图爬虫等
甚至迷你派可以采集其他插件显示在网页中的数据
采集器不同于传统的爬虫,采集器是一个完全受您控制的网页爬虫脚本。所有的执行规则由您定义。只需打开一个页面,让迷你派采集器插件自动识别表格数据或选择要手动抓取的元素,然后告知迷你派采集器如何在页面之间(甚至站点之间)导航(它也会尝试自动查找导航按钮)。 迷你派采集器可以智能地理解数据模式并通过自动导航页面来提取所有数据。
在线免费视频教学:https://www.bilibili.com/video/BV1nK4y1V7gT
功能列表 (持续增加优化中):
•自动表格数据识别
• 自动列表翻页识别
•多网页数据采集或转化
•采集图片到本地或者云端
• 超简单登录后内容采集
• 批量URL地址,批量关键词查询采集
• 自动iFrame内容采集支持
•数据变化监控和实时通知
•动态内容采集(JavaScript + AJAX)
•无限滚动翻页支持
•多种翻页模式支持
•跨网站抓取或数据转化
•增量数据采集
•可视化编辑采集规则
•无限数据导出到Excel或CSV文件
•国际语言支持
•高隐私
•高保密性
•无需学习python, javascript,xpath,Css,json,iframe等技术技能
•除浏览器外没有依赖性
常用场景:
*亚马逊卖家,分销商和评论分析师收集产品价格和评论
*销售人员通过专业的社交资料自动定期收集销售线索
*目标商品价格调整监控
*自由职业者自动从公共目录中收集电子邮件,地址和电话号码
*在家或远程工作的人员安全地自动执行一些与数据相关的任务
*小企业主管理自己产品在多个网站的的评级和评论跨
* SEO专业人员将采集器与SEO工具一起使用
*业务负责人寻求简单的方法来收集数据
*招聘人员定期寻找合格应聘者
*求职者寻找目标雇主的最佳工作
*市场营销专业人员分析社交媒体网站
*数据科学家采集更多干净的数据
*学生学习数据科学和数据挖掘
* 在几分钟内为 1688 销售、Zillow、RedFin 房地产经纪人或经纪人收集公共业务线索、电子邮件收集器或公共电话;
* 定义亚马逊爬虫,用于价格监控亚马逊零售卖家、电子商务分销商;
* 通过定义 Lazada scraper 或 Shopee scraper 为电子商务产品评论分析师评论监控;
* 定义 eBay scraper 以跟踪 eBay 上针对中小企业所有者和家庭企业的潜在竞争;
* 定义 Map scraper 和 Yelp、Yellow Pages scraper 以优化您的电子商务商店;
* 在 Fiverr 上为自由职业者挖掘联系人信息和新的赚钱机会;
* 用于在家或在家办公的数据输入、自动填表和数据提取助手;
* 为中小企业主自动收集评级和评论的全球速卖通卖家抓取工具;
* Shopify 卖家的网站抓取 + SEO 工具;
* 监控在 Indeed 或求职者最喜欢的雇主网站上发布的新职位;
* 协助招聘人员在 Salesforce 等潜在候选人网站上搜索线索;
* 供数据分析师进行数据挖掘和商机检测的公共商店抓取工具;
* 轻松实现谷歌地图的数据采集。
迷你派采集器是为谁准备的?
* 销售寻找线索
* 亚马逊分销商
* eBay 零售卖家
* 寻找最佳候选人的招聘人员
* 寻找最佳机会的求职者
* 试图管理评级和评论的小企业主
* 数据科学/科学家自动进行数据收集和清理
* 分析社交媒体网站的营销专家
* 亚马逊客户
* 大量使用电子邮件猎手、Rapportive 等工具来为您节省大量资金的人
* Growth hacker 寻找收集、分析和监控数据以进行因果分析的方法
* 社交媒体经理组织好友列表和电子邮件联系人
* 寻找抓取扩展以通过 webhook 与 Zapier、IFTTT 或 Workato 集成的软件工程师
迷你派采集器是如何工作?
数据采集器是一种数据提取器和转换器,可以从网页中收集电子邮件或任何其他文本。 迷你派采集器通过使用CSS选择器在HTML页面中标识信息来帮助您定义配方和作业。然后,它会按计划抓取该信息,并将结果以表格的形式存储在浏览器中,以后可以另存为CSV或XLS文件。 迷你派采集器支持UTF-8,因此可以轻松地采集英语,中文,日语,俄语,韩语等多种语言。您不需要具有编码,xml,json或xpath等IT技能。
迷你派采集器能做什么,不能做什么?
-> 迷你派采集器可以作为电子邮件爬虫运行吗?
是的。 迷你派采集器提供了一种通用的抓取方式来自由收集公共电子邮件。
-> 迷你派采集器可以完成商业机会收集工作吗?
是的。 迷你派采集器可以很好地用作业务线索抓取工具。 您可以定义规则来自动填写关键字,然后从搜索引擎搜索结果、地图搜索结果、Yelp 或 AliExpress 等公共资源中抓取业务线索。
->迷你派采集器可以充当流程自动化工具吗?
机器人过程自动化是一种流行的方法,使用户能够定义过程以自动执行一系列操作。 与基于桌面的 RPA 工具不同,迷你派采集器更像是一个浏览器自动化工具,或 axiom 或 iMarcos 等网页 RPA 工具。 除了抓取之外,您还可以定义各种动作来模拟滚动页面、单击元素或输入字段,以更高效地进行数据输入、潜在客户生成和页面监控。
-> 迷你派采集器可以充当机器人自动漫游和提取内容吗?
不可以。迷你派采集器不是机器人,不能自己做决定。 相反,迷你派采集器严格遵循您的指示。 此外,迷你派采集器只能访问您允许的内容,不会协助或便利您访问未经授权的内容。
如果 NDS 不能满足您的需求,有哪些替代方案?
如果您愿意在放弃之前给我们反馈,我们将不胜感激。 如果 迷你派采集器不是最适合您任务的工具,您可以参考许多工具:
Grepsr 具有与 迷你派采集器类似的元素查找器,以简化网页提取;
getData.IO 使您能够通过类似的过程提取网络数据;
Instant Data Scraper 可以帮助您自动检测数据并轻松开始在同一页面上进行抓取;
Import.io直接提供数据采集服务;
Listly 具有简单的步骤,只需单击鼠标即可快速检测字段;
Agency 使您能够在浏览器上定义配方,然后在服务器端执行 scarping;
Data Miner 有一个简单的用户界面,使您能够重复抓取列表;
AnyPicker简化了快速抓取多个页面的过程;
SimpleScraper 使您无需任何 HTML 技能即可选择元素,并直观地预览结果;
如果您熟悉编程,也可以选择其他应用程序或自动化扩展,例如 八爪鱼、后裔、Axiom 、 UI.Vision、Dexi等。
**重要信息**:
• 迷你派采集器是一种网页抓取工具。 所有抓取的数据始终是 *私有的* 并且只有您可以看到。 无论您使用的是我们的免费还是付费计划。
• 迷你派采集器使用您自己的计算机(浏览器),并作为仅存在于您的浏览器中的浏览器扩展程序运行。 未经明确同意,任何采集结果都不会离开您的计算机。
• 不匿名抓取任何数据。 爬虫严格遵循你定义或导入的配方,没有明确声明不会执行任何动作。
迷你派采集器不包含任何恶意软件或间谍软件。所有抓取的数据和采集任务配置都存储在您的浏览器中,并且除了您的电子邮件帐户(如果已注册)之外,没有任何数据保留在我们的服务器中。您的电子邮件地址用于登录目的和通知,未经您明确同意,绝不会将其提供给他人。 迷你派采集器通过具有强大ASE加密算法的HTTPS传输您的帐户信息。
所需的插件权限说明:
tabs:管理抓取多个网页时打开的标签
activeTab:跟踪用于创建配方的活动选项卡
webNavigation:跟踪在深入抓取多个网页时打开的选项卡
storage:存储抓取的数据和配置
unlimitedStorage:将抓取的数据存储在本地以供以后导出
Notification:需要在数据抓取任务完成时通知您
contextMenus:通过右键菜单启动辅助数据抓取食谱
Download:单击带有文件 URL 的链接时下载文件
Alarm:重复或按计划开始数据抓取配方
scripting:在目标网页上执行操作
如果新功能需要任何其他权限,NoCoding Data Scraper 将通过浏览器明确请求权限授予。
如果您有任何反馈或功能要求,请告诉我们:
service@minirpa.net
3.0.38
. 优化ConfirmIt动作: 提示信息浮动在页面中心
. 优化数据转换: 支持使用空格来作为开始和结束的标识符
. 优化工作窗口: 普通工作窗口和无痕工作窗口默认打开时处于激活状态,方便识别
. Bug修复: 连续重复记录(Unique字段区分)达到临界值时自动停止
. Bug修复: 需要输入的信息警告提示
. Bug修复: 打开字段URL动作的问题
. Bug修复: 规则搜索的问题
3.0.36
. 所有规则支持无痕模式运行[Pro]
. 公共规则运行启动界面优化
. Bug修复: 公共规则下载到'我的规则'的问题
. Bug修复: 字段数据转换失效的问题
3.0.35
. 助手规则全面升级, 任何规则都可通过右键菜单,以助手形式运行 - 对断点续采更加友好[Pro]
. 优化规则指令, 平均运行速度提升近60%
. popup规则列表装载优化, 访问更加便捷
. 停止对1.0.*版本的运行支持
. 优化:页面刷新动作默认忽略本地缓存
. 优化: 在没有采集到任何新字段数据时,输入字段也能被单独输出 - 针对批量输入时,方便找出处理失败的输入行
. Bug修复: 编辑导航新增加节点时不能自动点击跳转到新页面的问题
3.0.33
. 规则结束时,可配置自动导出数据表[Pro]
. 为部分长时间动作添加超时设定,一旦超时,自动停止规则
. 优化: 输入后回车,可以适应更多的场景
. 优化: 可以适应更多的inline JS场景
. 优化: 节点上是否设置了执行条件和导航条件在规则树上直观可视
. 优化: Excel的导出不再强制弹出saveAs窗口
. Bug修复: 自动生成的规则无法保存的问题
. Bug修复: 字段合并导致的后续输出行数据丢失的问题
. Bug修复: 带回minirpa_batch_no字段,用于多个加速器运行时的结果数据区分
. Bug修复: 提取全页html代码时的问题
3.0.31
. 新增规则测试运行:保存规则时,可以选择测试运行,在editor中显示测试运行日志,方便规则调试排错
. 新增支持节点执行设置条件,可以实现按条件跳过某些节点
. 新增动作:选择框点击 - 可以选中或者不选中所有选择了的选择框
. 批量属性字段不再强制要求以元素作为属性名,可以使用类似<前缀>_#{cur_loop_idx}#为批量属性字段的默认值,自动生成对应的唯一属性名
. 增强参数输入表指令, 选择输入表时可以直接设定参数与输入表字段之间的对应关系
. 新增规则Trigger:增加了 “规则暂停等待” - 在满足条件时,可以让规则暂停一段时间后恢复执行。比如每采集50条记录,暂停60秒
. 新增shadowRoot元素提取支持:支持手工编写CSS来对shadowRoot内元素进行访问和内容提取(逐层css之间用 '@}' 进行连接)
. 新增条件判断比较符号:数字类型的比较符号 - 整数倍于 - 用于判断某个数字是否是指定值的整数倍
. 为'处理下一块前的动作'提供更多可选的动作
. 优化规则执行过程中页面元素变化导致的后续动作执行失败
. 优化iFrame支持,在广告iFrame较多时优化iFrame内元素定位的性能
. 元素查找器的输入框调整,方便对生成的CSS进行手工编辑
. 格式化预览的HTML源代码,方便阅读
. 允许规则中的设置多个同名字段,同名的字段将只会保存最后一次获取的值
. 增强ConfirmIt动作:可以在显示信息中嵌入更多内容,方便查看
. 动作增强:部分动作支持配置只在测试运行时执行,正式运行时不执行
. 优化:更完善的规则有效性检查
. 优化:声明为不输出的字段,将不会在结果表中出现
. 优化:规则树上用不同的图标标识不同类型的字段
. 优化:可以将所有之前的字段用于设置导航条件(不仅仅当前节点字段)
. 优化:除了起始节点, 所有其它节点都可以设置导航条件
. Bug修复: 修复无法点击radio元素的问题
. Bug修复: 修复下拉选择框的目标option文本中有逗号时,无法正常工作的问题
. Bug修复: 修复规则异常终止时,无法自动停止规则的问题
. Bug修复: 指令删除时,如果对应的参数再规则内不再有被使用时没有清除的问题
. Bug修复: 元素查找器上的数据预览更新不实时的问题
来自商店的评价 (0)