灵智采集器 wish 虾皮 速卖通 亚马逊采集 noon调价 虾皮关注采集功能演示
诸如招聘委员会等网站面临一个长期存在的问题:他们的数据不断被自动化机器人窃取。
数据最终出现在其他竞争性的工作委员会上,这些委员会窃取了内容。这是一个困扰任何知识产权必须免费公开发布的网站的问题,甚至是那些有订阅模式的网站。
但是,一家专门从事检测机器人的亚特兰大安全公司已经开发了能够检测这些屏幕刮擦的软件以及数据挖掘机器人
[更多阅读:如何从Windows PC删除恶意软件]Pramana的主要产品HumanPresent检测自动化机器人,例如,将垃圾邮件输入基于Web的表单或免费注册用于垃圾邮件的电子邮件帐户
Pramana现在为HumanPresent开发了一个名为“数据挖掘和屏幕抓取预防”的模块。 Pramana的首席执行官David Crowder表示,它的主要产品遵循许多相同的原则,但已被修改用于数据挖掘场景。
HumanPresent可以通过注意人类通常与Web交互的方式并与机器人的行为进行对比。它会查看超过30个度量标准,例如键盘笔画,鼠标点击和这些操作的时间点。
HumanPresent查看单个事务,但数据挖掘模块已修改为查看定时时段,或人在网站上,Crowder说,
数据挖掘机器人往往完全绕过浏览器的用户界面。例如,一个机器人可能会请求一个包含大量数据的网页,但不会在网页上滚动或点击。如果一系列页面以这种方式打开并查看,可能意味着数据挖掘机器人已经到达。
Pramana为访问者分配一个唯一的ID,在分析访问者的行为后,可以决定是否标记访问者是否是机器人。网站运营商可以选择几种不同的方式来处理这种情况。
机器人计算机的IP(Internet协议)地址可以被永久阻止。一个正在测试Pramana的数据挖掘模块的汽车拍卖网站决定将疑似僵尸程序移动到一个“沙箱”,在那里它完全是虚假的数据。“他们确实是数据挖掘 - 它是错误的,”Crowder说。 。
其他选项包括提示网站访问者提出挑战或任务,有些机器人无法完成。
数据挖掘使公司付出巨大代价。销售优质数据的公司会发现其竞争对手会购买订阅,然后使用自动化机器人为自己的网站窃取数据。在一个例子中,一个拥有千兆字节二手车价格数据的网站发现他们的数据已被刮掉并在eBay上出售。“他们实际上是在与自己的内容竞争,”Crowder说。网站设计糟糕,使得数据抓取变得更加容易。 Crowder表示,二手车网站的URL(统一资源定位器)可以顺序修改以显示更多数据。
现在,数据挖掘模块将被包装到HumanPresent产品中,但明年年初,Pramana计划将其出售克劳德说。 Pramana将HumanPresent作为内部设备或作为软件即服务配置提供。
对于SaaS(软件即服务)产品,Pramana的技术被集成到Web应用程序中,会话信息被发回到Pramana进行分析。克劳德说,Pramana已经能够显着降低其最新版本的延迟时间。对于需要更高速度的客户,该设备可用。