新京报记者 李大伟 罗亦丹 实习生 徐子林 修改 徐超 校正 刘越
“不需求不需求,今后别再给我打电话了。”说完,代昌(化名)重重地将手机摔在了沙发上。代昌是河北邢台清河县一家民营企业的实践操控人,最近几年来,他接到的打扰电话数量显着增多。打扰电话正成为大数据年代的“恶疾”。
记者查询发现,一些所谓“大数据”公司数据来历可疑,乃至有些大数据公司并没有数据。新京报记者经过多地暗访、卧底发现,有大数据公司声称能够搜集就恣意指定网站或许App的访客手机号;另一家声称“我国互联网营销服务榜首品牌”公司的“鹰眼智客”官网则显现:“有你所需求的全部”。
7月底,新京报记者卧底“鹰眼智客”发现,其实践上是运用爬虫技能,从淘宝、京东等网站上爬取到店家手机号后,用于营销。此外,凭借该软件,经过微信邻近的人,用户可恣意设定虚拟方位后批量请求老友,还能“站街”垂钓营销。
有安全专家表明,当用户发作上网行为时会发送数据包,内含行为痕迹、手机号等信息。一旦触及某一方发作走漏,经过抓取这个数据包便能够解析出来用户的灵敏信息。网络爬虫则分为合法爬虫和歹意爬虫两种。一些所谓的大数据公司自身没有数据来历,而是经过爬虫手法获取别人的数据。
在网络空间,数据战役已进入白热化。2019年5月份,国家互联网信息办公室发布的《数据安全管理办法》征求意见稿第十五条也规则了,“网络运营者以运营为意图搜集重要数据或个人灵敏信息的,应向所在地网信部分存案。”此外,大大都网站早已对歹意爬虫构建反爬办法并作出声明严峻制止,有律师直言,“打破、绕开第三方渠道的反爬虫战略、协议时,或涉嫌不合法获取核算机信息体系数据罪、供给侵入不合法操控核算机信息体系程序东西罪。”
卧底“最全”大数据公司
淘宝、京东等多家网站数据被爬取
郑州共赢科技公司,业务员正在繁忙“杀单”。新京报记者 李大伟 摄记者发现一家名为“鹰眼智客”的大数据公司声称“我国互联网营销服务榜首品牌”。其官网声称:“有你所需求的全部”。据官网介绍,“鹰眼智客”归归于郑州共赢科技有限公司。
7月29日,新京报记者来到该公司面试地址——郑州市金水区金城世界广场A座,经过面试得到试岗资历,首要作业是推销一台包括“鹰眼智客大数据营销体系”的电脑。在约一百平方米的房间里,充溢着啪啪啪敲击键盘的声响。房间内的三十多名业务员一起组成了共赢科技的“商务部”。
据其官网显现,“鹰眼智客”体系包括QQ营销系列、微信营销系列、归纳搜集系列、论坛贴吧系列、邮件营销系列五大模块,具有218个小功用。此外,其还宣扬称“已成功为2800多家企业供给互联网营销服务,掩盖120多个职业”。其间归纳搜集系列声称可精准搜集方针客户信息,掩盖全网11大B2B渠道,4大查找引擎,7大地图,准确率达90%。
记者试岗期间使命是了解软件流程,并得到主管发的一份“终端客户谈天话术”。“终端客户谈天话术”显现,其数据来历于各大职业网站、各大渠道以及各大地图等,“像阿里、百度、腾讯等等只需在网上揭露留过痕迹的这些信息经过咱们的核心技能SPILDER多线程技能都能够给你搜集到。”
据极验产品总监程柏(化名)介绍,其核心技能实践上是网络爬虫技能。据其介绍,现在互联网盛行的网络爬虫品种比较多,信息搜集类的网络爬虫首要是脚本和模拟器类爬虫。
记者发现,“鹰眼智客精准营销体系”共包括数据搜集系列、QQ营销系列、社群论坛营销、归纳营销东西五个模块,掩盖了客户数据搜集到营销的整条产业链。
其间,数据搜集系列模块包括地图职业搜集、归纳数据搜集、阿里巴巴搜集、慧聪网搜集、单页名录归纳搜集、群众点评网搜集、淘宝商家信息搜集、我国制作网搜集、团购外卖商家搜集、阿里世界站搜集、八方资源渠道搜集、京东商家搜集十二个功用。
记者测验发现,该套软件操作非常简略,每个功用还附有相应的教育视频来辅导。7月30日,经过该软件,记者成功获取许多手机号。
以淘宝商家信息搜集为例,记者在该体系中的淘宝商家搜集功用中输入关键词“服装”后,成功搜集到北京区域淘宝卖家的82条信息,共耗时10分钟。在软件弹出框右下角还附有“导出电话铺”的按钮,搜集得到的信息包括类型(店肆等级)、掌柜称号、区域、电话、店址等多个维度。
此外,记者还对该体系的京东商家搜集、地图职业搜集、阿里世界站搜集等功用顺次进行测验,均获成功。
邻近的人有多近?
软件恣意定位,还可“站街”垂钓营销
“你得放开了玩,大声喊出来!”在记者榜首天早上上班之前,部分司理将业务员分红两支部队,轮流结对玩一种“美人与野兽”的游戏。据该公司的作业人员介绍,玩这种游戏是为了调集业务员的积极性,培育团队荣誉感。
记者发现“鹰眼智客”自带教育视频,经过该视频,记者试岗期间对东西中微信营销的八个功用逐一进行测验。以该模块中的微信定位营销功用为例,用户运用该功用需用手机模拟器登录微信。依照增加形式不同,该软件分为增加邻近的人、增加指定QQ、摇一摇、增加群成员四种。
记者查询发现,点击微信定位营销“获取经纬度坐标”,会弹出一个页面。假如在该弹出页面输入国贸方位后,用户可将坐标定位到国贸,并看到国贸区域“邻近的人”。运用该软件用户能够一起增加多个虚伪方位,也支撑多个微信号一起操作。
该套软件还有必定的反封号机制。视频教程显现,在参数设置中,用户能够自己挑选老友验证的次数、距离时间以及每个方位发送验证请求的个数。“刚刚运用的话少增加一些,比如说增加五六个,逐渐增加,最多的话增加十个以内,有一段时间距离之后再次增加。”
设置好方位及参数设定后,用户可在软件中“验证音讯”下面的空白操作区域对验证音讯进行修改。“比如说,他是经商的,你能够将验证音讯修改为‘你好,我想看下你产品’,这样的话(验证请求)经过率会更高一些。”
值得一提的是,该软件还有一项名为“站街”的功用。所谓“站街”,即“假如说不想自动增加老友,只想让邻近的人看到并增加你,就能够运用站街功用。”在方位一栏的弹出对话框中,用户只需点击“模拟器运用此方位站街”即可“站街”。
极验产品总监程柏(化名)以为,“鹰眼智客”部分功用归于黑色产业链。“这类群发功用有些是违反用户志愿的,朴实的牟利行为,像我有时候也会收到这类废物信息,多以营销为主,可是这类营销许多来历并不牢靠,或许会有其他黑色产业链和歹意引导。”
新京报记者从“鹰眼智客”作业人员处了解到,公司为了便利客户营销,还供给外呼机器人(AI电话)的服务,只需求将搜集到的电话号码导入即可。
此前,新京报曾对外呼机器人进行曝光。所谓外呼机器人,实践上是一条电话机器人体系,一天客户呼出1000通电话。随后,央视3·15晚会也对外呼机器人进行曝光,不法分子和违法科技公司经过探针盒子搜集用户隐私、大数据供给支撑、智能机器人供给外呼。
大数据怎么“精准营销”
抓取指定恣意网站或App的访客手机号
新京报记者经过查找关键词“大数据精准营销”,注意到一家名为娱加科技的大数据精准营销公司。
企查查显现,该公司全称为姑苏娱加互娱网络科技有限公司,法定代表人为吴辉。该公司成立于2018年4月19日,注册资本200万元人民币,所属职业为软件和信息技能服务业。
8月19日下午,新京报记者以保健品和网贷出售的身份与吴辉取得联系。对某些职业数据,吴辉显得谨言慎行。“保健品暂时不可,保健品现在查得比较严,归于高危灵敏职业。”吴辉告知新京报记者说。
据其介绍,该公司的获客体系非常精准。“你能够指定恣意网站或许App,只需求供给网站链接或许App的称号及下载链接,咱们就能够抓取到访客的手机号码。”吴辉说。
不过,其所供给的访客的手机号码只显现实在的前三位以及后四位,所以只能经过他们供给的体系去进行营销。“咱们会供给一个外呼体系,能够将这些手机号供给到外呼体系里边去和客户交流。”吴辉介绍。获取的中心四位被躲藏的手机号也被其称为“脱敏数据”。
此外,访客获取到的手机号也存在必定约束。“现在运营商首要做的是联通和电信的,移动的停掉了。”吴辉说。至于为何停掉移动的,对方给出的答案则是由于“移动用户太巨大了”。
除了运营商,吴辉还表明,假如用户是经过WiFi或许电脑来拜访的,也无法抓取到手机号。“它(该体系)是经过流量来拜访的,电脑端和无线网是抓取不了的,有必要经过手机通讯网络。”
为了增强说服力,吴辉主张记者“能够先花五百测验一下”。据其介绍,运用套餐为1000条起测,“咱们能够签一个费用套餐,开一个坐席,你自己去测验一下转化率是多少。”
吴辉供给给记者一份公司介绍。介绍文件对娱加科技获客体系与一般网页手机号抓取软件做了比照,比照图显现,网页手机访客抓取软件犯法,而娱加科技获客体系则为“联合联通电信运营商正式推出的产品,合法合规,安稳安全”。
8月19日,该公司倚为背书的联通和电信的客服别离对此事进行否定,称“并未供给过这种服务”。
在介绍文件中,该公司供给给某整形美容医院的服务也被做成了一份事例。事例显现,该整形医院以整形医院哪家好、玻尿酸垫下巴、昆明隆鼻、整形医院、美容医院等225个关键词,提交了本地同行等23个推行网址、31个同行座机咨询电话以及两款医美类App,要求方针客户为来自上海、年龄在16至50岁之间的女人客户。
该公司文件显现,在2019年3月,每日推送100条左右的数据,共推送3053条。其间接通1872个,意向客户873个,转化客户372个。接通率为61.31%,意向率为28.59%,转化率为12.18%,获客本钱只要百度竞价推行的六分之一。
安全研讨员Jane介绍,当用户发作上网行为时,首先向运营商发送一个数据包。该数据包经过运营商之后再传给服务商。数据包中包括有用户的上网痕迹、手机号等信息。“当其间某一方发作信息走漏时,不法分子能够运用这个数据包解析出来用户的灵敏信息。”Jane告知新京报记者。
充溢技巧的“杀单”话术
有业务员日赚近5000元
“公司现在有两种计酬方法,一种是有底薪制,底薪为1500,出售一件产品提成为10%;另一种为无底薪制,底薪为0,出售一件产品提成为25%。”共赢科技担任面试的李梦海(化名)告知新京报记者,“一般人都会挑选无底薪高提成的,赚得多。”一台包括“鹰眼智客大数据营销体系”的电脑,定价为8800元。依照定价以及提成来核算,每出售一台,业务员能够得到2200元。
据李梦海介绍,共赢科技有限公司在郑州总部共有5个小队。记者被分配到“尖刀队”。
“祝贺尖刀队甜甜出单!”7月31日下午3点50分,坐在记者右侧的甜甜忽然喊道。当业务员出单时,便会自己喊出“祝贺××队××出单!”,此时所有人便会停下案头作业为其拍手。“这是一种奖赏机制。”一名作业人员向新京报记者介绍说。
甜甜是一名新人。1992年出世的她,几个月前来到这个公司转行成为一名出售。因刚入行不久,一些“杀单”的话术她并不娴熟,当客户体现得意向较强时,较为资深的业务员便会靠拢过来进行辅导。据其描绘,她均匀每月能够成交四五单。在郑州来讲,收入非常可观。
所谓“杀单”,则是出售之间常见的行话,意为和客户成交。甜甜出单后不久,坐在记者斜对面的“马总”(昵称)也出了一单。
“这现已是他今日出的第二单。依照每单提成25%的赢利来核算的话,算上奖金,他现已赚了快5000块钱了。”甜甜说。
这种场景在记者试岗期间频频呈现。在尖刀队主管杨小峰(化名)发送给记者的一份“终端客户谈天话术”文档中,具体地记载了一些“杀单”技巧以及问答实录。记者发现,当新人有客户意向较为激烈时,司理和团队主管便会靠拢上来出谋划策,研讨怎么让顾客上钩。
据甜甜泄漏,她“杀”的客户是一位“做保健品的”。8月18日,记者联系到甜甜这位客户张娜(化名)。据其介绍,在运用“鹰眼智客”体系只是两天后,她运用多年的微信号即遭到封禁。张娜说她再也不敢用了。
合法爬虫or歹意爬虫
歹意爬虫涉不合法获取核算机信息体系数据罪
“这肯定是合规的,由于咱们不直接参加贩卖数据。”该公司担任人事的李梦海告知新京报记者说,“假如卖爬取到的数据就违法了。”
该公司的业务员王伟(化名)则给出了不同的答案。王伟向新京报记者直言了自己的忧虑。“外呼机器人是违规的,之前曾被曝光过。”王伟说。
爬虫技能是为了互联网自身信息传达而发生的。经过网络爬虫,查找引擎得悉互联网的内容。在网络安全范畴,也有经过爬虫来检测网站缝隙和网站可用性。
“爬虫技能的实质用处依然存在,像百度、谷歌之类的公司,可是互联网上面的其他黑产眼里只要利益,他们经过网络爬虫做二次数据封装和用户引流,经过数据贩卖和流量牵引牟利。从用户视角来说,损害首要有歹意营销、网络进犯(网络垂钓);从网站视点来说,损害包括网络进犯、薅羊毛、影响正常的企业服务、信息价值丢失、用户丢失。”程柏说。
中消协此前发布的《App个人信息走漏状况查询陈述》显现,约86.5%的受访者曾遭到推销电话或短信的打扰,约75.0%的受访者接到欺诈电话,约63.4%的受访者收到废物邮件,排名位居前三位。
关于此类爬虫软件,大都网站早已声明严峻制止。北京炜衡律师事务所周浩律师以为,“网络爬虫爬取数据需求恪守第三方渠道的Robots协议以及获取数据的性质具有揭露性,不得包括个人信息数据、商业秘密及国家秘密等信息数据。假如打破、绕开第三方渠道的反爬虫战略、协议时,或涉嫌不合法获取核算机信息体系数据罪、供给侵入不合法操控核算机信息体系程序东西罪。”
Robots协议也称为爬虫协议、机器人协议等,其全称为“网络爬虫扫除标准(RobotsExclusionProtocol)”。
“网站经过Robots协议告知查找引擎哪些页面能够抓取,哪些页面不能抓取。关于查找引擎来说是职业通用的爬取约好协议,但对歹意爬虫来说并没有任何约束力。”知道创宇技能总监邓金城告知新京报记者说。
据腾讯发布的《2018上半年安全专题系列研讨陈述》(以下简称陈述)显现,歹意爬虫经过剖析并自行结构参数对非揭露接口进行数据爬取或提交,获取对方本不乐意被许多获取的数据。
陈述指出,据统计,出行、交际、电商占歹意爬虫流量方针职业散布前三位,占比别离为20.87%、18.40%、13.38%。
周浩表明,《网络安全法》《个人信息安全标准》都强调了,通讯联系方法(电话号码)是重要的个人信息,非经赞同不得搜集。供给用来搜集个人信息的东西,一旦被运用必定存在违规。
技能发展倒逼法令完善
搜集重要数据或个人灵敏数据需存案
溯其根源,就是逐利。
“一些所谓的大数据公司自身没有数据来历,而是经过爬虫手法获取别人的数据。”程柏说。
反爬奋斗已悄然进入白热化。不过,“反爬”绝非易事。知道创宇404实验室副总监隋刚介绍,规划较大的公司都会有自己的反爬机制,但“有些爬虫能够绕过这些反爬机制”。
技能的不断发展在倒逼相关法令趋于完善。2019年5月份,国家互联网信息办公室发布了《数据安全管理办法》征求意见稿(以下简称“征求意见稿”)对爬虫技能有清晰的界说和规则。其间第十六条规则,网络运营者采纳自动化手法拜访搜集网站数据,不得阻碍网站正常运转;如自动化拜访搜集流量超越网站日均流量三分之一,网站要求中止自动化拜访搜集时,应当中止。
“不过,第十六条在实践操作中或许存在必定问题,对形成网络不能正常运转也未有相应的处分办法,这或许是将来需求完善的当地。”曾多次参加拟定企业隐私方针的京师上海世界总部专职律师徐延轩说。
一起征求意见稿第十五条也规则了,“网络运营者以运营为意图搜集重要数据或个人灵敏信息的,应向所在地网信部分存案。”徐延轩以为,搜集重要数据存案准则或许是未来监管的方向。