文/Wing Yan Sang
那一刻,当发现自己的自行车第一次被盗后,Wing Yan Sang终于回忆起人类那些年被自行车小偷们支配的痛苦。不过,作为一位数据大侠,忍气吞声地就这么算了可不是他的行事作风。Wing Yan Sang在自行车大数据网站上下载了超过十五万辆自行车数据,希望通过数据分析的方法帮助大家打击自行车偷盗的行为。
一切都要从那个沮丧的傍晚说起
记得在我上中学的时候,只要一放学我就会冲上6路汽车,一路坐到St.Marks的Theatre 80电影院。Theatre 80是一个温馨的独立电影院,它会播放许多经典电影,而且经常会安排连映场次,这对于一个兜里只有一点零钱的中学生来说非常划算。
Theatre 80在1994年关门,而我很幸运能够在这之前的一段时光里成为这里的常客。正是在这里,我看了我最喜欢的电影之一,维托里奥·德·西卡(Vittorio De Sica)导演的意大利新写实主义代表作《偷自行车的人》。
(图片说明:电影《偷自行车的人》剧照,图片来源:网络)
影片的剧情、音乐、表演都给我留下很深的第一印象,但小偷偷走主角自行车的一幕,却直到20年后才让我产生共鸣——因为我自己的自行车也在上班时被偷了。
和电影主角一样,我目睹了被盗的一刻,而且还徒然地尝试靠双脚把他追回来,最后我只能看着小偷的背影消失在威廉斯堡大桥,这让我很沮丧,连那个秋天傍晚逐渐变暗的天色都像是在和我作对。
这次意外过去两年后,我有机会接触到一些向丢失自行车的人们开放的数据资源。其中之一是一个2013年搭建的“Bike Index”在线自行车数据网站。来自全世界的15万辆自行车在这个网站做了登记,其中大部分来自美国,约三分之一标记着“被盗”。除了可以供人查询数据,它还和地方企业、执法部门等合作,每当一个自行车被盗时都会对事发社区发出提醒。
作为一个曾经的自行车盗窃案受害者,我决定对这些数据进行爬取和分析,看看能否发现一些有助于打击犯罪的有价值信息,也许可以帮助执法部门,或是帮助大众更好地提防小偷。
在爬取数据时,我使用了Python的Scrapy,它可以实现对HTML文件的数据爬取。Bike Index的数据库基本上由两层信息组成。第一层是网站搜索结果的一个缩略图名单(Thumbnail List),每页有10辆自行车的不同数据。点击图片或标题文字后,就到达第二层数据。这里可以看到关于这辆自行车的更多信息,以及盗窃案发生时的情况描述等。
但是,在我进行数据爬取操作的时候,遇到了不少麻烦。其中主要是模拟爬取网易的时间间隔问题。我希望爬取2012年10月到2017年10月期间美国的被盗自行车数据,总共占大约3700页搜索结果。
作为测试,我先只对第一层数据进行爬取,我把下载请求的时间间隔设为随机确定,两次下载之间的间隔会在1到3秒之间。但是,当我下载了一多半数据后,服务器就显示HTTP 403错误。于是,我在对第二层数据进行爬取时,将下载间隔固定设为3秒。但这样导致过程太慢,我不得不提前终止这个尝试。
接下来我以一小部分子页面为处理对象,不断地对间隔时间进行短缩,最终直到我将间隔时间设置为0.25秒后,HTTP 403错误不再出现。最终,爬取过程结束,我得到80%的自行车数据,包括以下维度:1.序列号、2.生产商、3.车型 、4.车型年份、5.颜色、6.大小、7.车架材料、8.丢失地点、9.上锁状态、10.如何被盗、11.丢失日期、12.事件细节描述。
在对爬取的数据进行清理后,我得到2万5千辆于美国被盗的自行车数据。除了Bike Index爬取来的数据,我还用了美国社区调查 (American Community Survey ) 提供的2015年人口数据。特定州的人口特征数据也被用来对各地进行单独分析。
丢车事件大都发生在美国西海岸
我首先做的分析是将所有丢车事件对应的邮政编码数据以地图形式展示出来。这样可以了解数据的地理分布特征。地图来自Leaflet的OpenStreetMap,下面是我制作的Shiny App的截图。当你鼠标悬浮在每个邮政编码上方时,会显示对应的城市及过去5年被盗自行车数量等信息。
从图中可以看到许多特征。沿海的大都市有很多红点,尤其是西海岸和东北海岸,这并不令人意外。让我有些惊讶的是中部大片地区只有很稀疏的红点。在图中顶部显示了失窃数量最多的三个城市,所有都在西海岸。
我们也听说过旧金山、西雅图和波特兰的大量自行车盗窃的新闻。但是,在这五年的统计中,纽约都没有出现在前三之中,这让我感到意外。事实上,纽约甚至都没有挤进前十。
受此启发,我决定以州为单位进行对比。下图是对各州按照丢失自行车数量进行可视化后的地图。从中可以更清晰地看到,这批数据并不是一个有代表性的样本,而是严重地偏向西海岸。加州、俄勒冈州和华盛顿州的案件数加在一起就占去了全部案件的60%。
数据显示,纽约州五年只丢了895辆自行车,这从纽约州的人口与全美人口的比例来看根本说不通。后来我发现,Bike Index网站的创始人都是生活在西海岸,这也许就导致,网站在一开始吸引了西海岸的社区参与进来,并且现在的用户仍然以西海岸的自行车车主为主,但其他地区可能就没有这么活跃。
大部分自行车可能都丢在“家”里
接下来,我使用描述性统计分析(Descriptive Statistical Analyses)对爬取的不同维度数据进行分析。首先是不同生产商的分布情况。前三名厂商(Trek、Specialized、Giant)大概占了被盗自行车总数的三分之一。
颜色方面,超过一半的被盗自行车是黑色或者彩色的。
季节方面,很明显,当天气变冷偷车的案件就会变少。
车锁状态方面,大约三分之一的被盗自行车使用的是链锁。第二多的是被盗时根本没有上锁,大约占20%。这最开始让我很意外,我纳闷怎么会有人不锁车呢?但当我回想了一下我自己的经历,我可以郑重声明,不给自己的私人财产上锁的行为在自行车偷盗案件中要承担很大责任——我丢车的三次里有两次就没有上锁。
关于自行车被盗的方式,超过一半是窃贼把锁剪断将车盗走。值的说明的是,在下表中,“其他“(Other)类别包括所有希望给被盗方式提供更多细节信息的案件,因此归类到这部分的案件其实也有可能与其他类别重合。
如我前面提到的,用户登记时可以提供关于丢车事件的更多细节。我很好奇在这些描述中哪些词汇会最常出现。所以,我做了词云分析。下面这张图里显示了最常出现的100个词,它们每个至少出现过50次。
可以发现,看上去很多人曾经希望用“奖金”来换回自行车。同样一个比较有趣的现象是,与“家”有关的词出现了很多,家、住宅、仓库、露台、公寓、楼、地下室等。
偷自行车也有季节性特征?
关于上面发现的偷车事件与季节的关系,我想进一步验证一下,这个季节性特点是否有统计学上的意义。因此我决定做一个假设检验。
零假设(Null Hypothesis):5年来平均每年的偷盗数量与每个季节各自的5年平均量相同。
备择假设(Alternative Hypothesis): 5年来平均每年的偷盗数量至少与一个季节的5年平均量不同。
下面是各个季节的数据:
在我进行单向方差分析(ANOVA)前,我需要保证测试的假设前提可以被满足。我们的数据中没有发现各个季节的盗车案数量会彼此依赖的现象。而且,基于下面的分位图(qq-plot),我认为各个季节的盗车案数量大致是正态分布的,它们都落在靠近一条直线的位置。
尽管理论上每个季节的数据都需要做成分位图进行分析,但我认为这个单向方差分析的结果已经足够有说服力,而且若对每个季节做分析,数据点仅有5个也会导致结果看起来很稀疏。所以我认为这样一个整体的分位图已经足够我达到测验的目的了。
最后,我进行了巴特利球体检验(Bartlett's Test )和列文检验( Levene's Test)来检测我们是否可以否定零假设。最终因为p值很高,我们无法否定零假设。
做了这些初期分析后,我做了单向方差分析。得出p值为0.0566,刚刚高过5%的界限。
因此我无法否定零假设。尽管夏天(1621)和冬天(942)的五年平均值差距很大,但看起来对于每个季节来说,每年的情况也差别很大。背后原因可能是因为Bike Index在2013年得到了一个初创企业扶持计划的融资,也许这导致了用户数的增加,进而增加了每个季节的不同年份的变化。
丢车的人都有什么特征?
接下来我想研究的问题是,那些偷车事件的热点地区与其他地区在人口特征上是否有区别。我选择对过去10年发生盗窃最多的10个郡进行分析,其中7个在西海岸。
每个郡有很多市,我按照偷车案件数量对这些市对应的邮编进行排序,然后每一个郡都按照盗车数量前1/4和后3/4进行划分。最后,我又将官方的人口统计数据与偷车数据结合进行分析。
我研究的第一个人口特征是男性在人口中的比例。如下表所示,各个郡前1/4与后3/4的差别并不大。
接下来我研究的是年龄因素。所有10个郡中,排名前1/4的地区与后3/4相比,25-34岁及35-44岁间的人口比例较高。其中25-34岁这个年龄段的差异最大。
这与我的印象吻合——与其他年龄组相比,年轻人中骑车人数所占比例越高,也越容易发生自行车被盗。
下图是库克郡(Cook County)的情况,这个郡在25-34岁区间的差异最明显,我拿它作为代表,这样可以更好地在图中呈现这个规律。
最后,我研究了种族的分布。10个郡中,前1/4的地方相较后3/4的地区,白人所占比例更高。其中Orleans Parish在这一比例上差别最为显著,如下图所示。可悲的是,在美国,收入、财富和生活方式与种族高度相关,我在想我们发现的这个结论也与此有关。
一些结论
网络爬虫的方法提供了一个对盗窃自行车问题进一步研究的机会,除此以外我们可能没有其他方式获得这些重要数据。其次,如果我没有将这些数据进行可视化程序,我可能无法发现这些数据在地理分布上是如此倾斜。要么就是说明西海岸真的是偷盗自行车犯罪的温床,要么则是因为这个网站上长久以来活跃的更多的是西海岸的人,我认为来自后者的因素更多。
有一种方法可以用来检测,就是把剩下的、包括未被盗的自行车数据也一起爬取下来,整体看一下数据是否仍然倾向西海岸。当然,如果真的是这样,那么也说明Bike Index有机会向美国其他地区扩展业务。
而对更全面的偷车贼数据进行分析时,人口特征及各种维度数据的分析也许可以对未来的治安防治工作带来些启发。比如,可以对更广泛的地理范围内进行分析,看看年龄和种族分布的不同是否真的具有广泛的统计学意义。或者也可以基于一个地理位置的人口结构特征来预测当地在某一时期可能的偷车案件数量。这样可以让警方更好地在热点地区进行执法。
偷车贼不可能被彻底清除,但是通过数据科学的方式在战略上进行防控,也许可以有助于扭转现在这个对自行车主不利的局面。
注:本文翻译自《Web Scraping Bike Index to Uncover and Analyze Stolen Bike Data》,点击“阅读原文”查看。内容仅为作者观点,不代表DT财经立场。
题图 | 站酷海洛
关于DT×NYCDSA
DT×NYCDSA 是DT财经与纽约数据科学学院合作专栏。纽约数据科学学院(NYC Data Science Academy)是由一批活跃在全球的数据科学、大数据专家和SupStat Inc. 的成员共同组建的教育集团。
数据侠门派
本文数据侠Wing Yan Sang,曾就职于仲量联行、德勤等公司,从事分析与咨询工作。Wing Yan San还是纽约数据科学学院2017年秋季毕业生。
加入数据侠
“数据侠计划”是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。了解数据侠计划详情请回复“数据侠计划”,投稿、合作请与我们联系。
举报/反馈

DT商业观察

10.1万获赞 8.8万粉丝
「 DT] 是 第 一 财 经 旗 下 传 播 与 研 究 机 构 , 关 汪 互 联 网 、 消 费 、 文 娱 、 科 技 等 领 域 , 致 力 于 通 过 洞 察 人 群 趋 势 和 商 业 逻 辑 的 内 容 和 服 务 , 帮 助 读 者 更 洁 晰 地 认 识 世 界 , 助 力 品 牌 、 企 业 更 好 地 决 策 、 沟 通 和 连 接 。
鲲鹏计划获奖作者
关注
0
0
收藏
分享