雷锋网·AI金融评论按:目前,大多数ICO不受政府法规的约束,交易平台或机构缺乏一套严密的评估体系,这也直接导致了ICO诈骗事件的层出不穷(注:典型案件可参考《史上最大ICO代投诈骗:带头人“李诗琴”疑跑路,涉案金额超6000万元》了解)。日前,香侬科技创始人、斯坦福大学博士李纪为联合美国加州大学圣塔芭芭拉分校、斯坦福大学共同提出了一种基于深度学习的加密货币ICO诈骗鉴别系统——IcoRating,以试图改善这一局面。
据悉,IcoRating系统由李纪为和其团队基于NLP技术分析了市面上共2251种数字货币而得出。他们调查了这些数字货币的各个方面,包括生命周期、价格变化和白皮书内容、创始团队、Github资料库和官网等ICO信息,从而预测并实现了识别诈骗ICO项目的0.83的精确度。
对此,该团队在论文中表示:
我们希望这项工作能够帮助投资者识别ICO诈骗项目,并自动评估和分析ICO项目。
2017年,902个基于众筹的数字货币中,45.6%已经失败
加密货币正获得前所未有的关注和理解。与中心化的电子货币和中央银行系统不同,大多数数字法币不受中央和地方机构的监管。对这些去中心化的系统的控制,可通过一个开放、持续增长的分布式账本——区块链来实现。
如图1所示,在过去三年中,数字货币的市场资本化程度得到了巨幅的提升。根据Cryptocurrency Market Capitalizations 提供的数据,加密货币的单日最高交易量已接近2017年纽约证券交易所交易量的日平均值。
图:2013年7月至2018年1月的数字货币市场资本化情况
由于其去中心化的本质,数字货币的众筹融资并不需要具备风险投资的所有必要条件,而是通过ICO来完成。ICO,也称为首次代币发售,是用区块链将使用权和加密货币合二为一,来为开发、维护、交换相关产品或者服务的项目进行融资的方式(注:参考“ICO”的维基百科)。
在ICO中,投资者用法定货币(例如美元、人民币)或其他加密货币(例如BTC、ETH)来获得众筹的加密货币。当ICO完成后,这些用于众筹的加密货币将具备货币的功能单位。新型币种在发行前,一般会先准备一个白皮书,以详细介绍这个币种的商业性、技术性和金融性特征。
从图2可以看出,ICO项目的数量从2013年7月到2017年1月一直呈现稳步增长的态势,并在2017年突飞猛进。
图:2013年7月至2018年1月的ICO项目增长情况
尽管ICO能提供公平合法的投资机会,但众筹的便利也为一些不择手段的企业通过ICO谋利创造了机会和激励机制。群涌而起的ICO,其中不乏一些项目发起人以通过众筹抬高加密货币的价值,从而快速出售货币以获利。除此之外,加密货币的去中心化本质也给政府监管带来了重大挑战。
根据Engadget数据显示,2017年,902个基于众筹的数字货币中,45.6%已经失败。从图3和图4来看,还有一个更为严重的问题。
图3和图4中,x轴上的间隔代表(ICO)价格的变化范围,而y轴上的对应值则表示ICO项目贡献的百分比。可以看出:
4.56% 现有 ICO 项目在发行半年后都遭受了价格下跌,其程度甚至超过 99.9%,而在发行一年后,这个比例上升到6.89%;约有29%的项目在发行半年后,价格下跌了80%以上,一年后,这个比例增长到惊人的39.6%。
虽然这样说可能不负责任——即每一个在发行后价格急剧下跌的ICO项目都是骗局,但在ICO前建立一个可靠的ICO信用评级系统来评估数字货币是必要而迫切的。
在这种情况下,李纪为研究团队提出了IcoRating这种基于机器学习的ICO评分系统。通过分析2251个ICO项目,该团队将数字货币的生命周期和价格变化以及各种级别的ICO信息(包括其白皮书、创始团队、Github资料库、网站等)相关联。在最佳设置的情况下,该项目能够以0.83的精确度和0.80的F1分数来识别ICO诈骗项目。
与人类设计的评分系统相比,IcoRating系统具有两个关键优势:
客观性:机器学习模型涉及的先验知识更少,可从数据中学习因果关系,这与需要大量人类专家的人类评级系统相反,而人类专家不可避免会引入偏见。不会被人为随意篡改:信用评级的结果是通过黑盒培训从机器学习模型中输出的。这个过程不用那么多的人员参与和干预。
加密货币、区块链和ICO
在李纪为这篇论文的第二个章节中,主要介绍了加密货币、区块链和ICO的相关信息。如果密切关注币圈和链圈的人士可能对这三个概念已谙熟于心。
1、加密货币
加密货币是“一种数字资产”,被视作交易媒介,通过加密技术以确保交易。大多数加密货币是去中心化的。第一个真正意义上的去中心化加密货币是比特币(也称BTC),由一个或一群不明身份的人在2009年以Satoshi Nakamoto(中本聪)之名创建。自BTC出现以后,各种加密货币蜂拥而至,其中最知名的包括Ethereum(简称ETH)、Ripple(简称RIP)、EOS和NEO。
2、区块链
加密货币的交易由区块链提供验证。人们可以将区块链视为分布式账本。它可以不断增长并永久纪录双方之间的所有交易。每条纪录都称为一个区块,包含链接到前一个区块、时间戳和交易数据的加密哈希指数。该账本以分布形式被所有参与者拥有,且记录只能在改变所有后续网络区块的情况下得到更改。当交易发生时,会广播给网络中的所有节点。区块链使用多种时间戳方案,如PoW(工作证明)或PoS(股权证明)。
区块链的概念消除了数据集中存储而带来的风险:没有集中的故障点,数据对每个参与者都是透明的。
3、ICO
如前所述,ICO是以加密货币为中心的众筹融资手段,其可为早期项目提供众筹机会,逃避风险投资家、银行和证券交易所规则的限制。它们还提供了超越风险投资或私募股权投资的投资机会,二者是早期投资机会的主导。
另一方面,由于缺乏监管,ICO给投资者带来了重大风险。不同国家对 ICO 和加密货币有不同的规定。例如,中国政府禁止所有 ICO,而美国证监会(SEC)则表示它有权对 ICO 施行联邦证券法,而委内瑞拉政府则推出了自己的加密货币petromoneda(简称石油币)。
IcoRating系统验证过程、方法
1、白皮书分析:内容差异巨大
在IcoRating系统的验证过程中,该研究团队从各种平台包括CryptoCompare、CoinMarketCap和CoinCheckup一共收集了2251个ICO项目信息。并在这些项目中获得了1317份白皮书。
表1:ICO白皮书的各项统计数据
如表1所示,其显示了ICO白皮书的各项统计数据,包括平均值、标准差,最大和最小字数和句子数。研究团队从中得出一个显著特征,白皮书的长度差异明显。最多的一份白皮书中包含6228个句子,最少38个。具体地说,随机抽样的10份白皮书中的句子数量分别为886、143、38、967、3379、6228、496、2057、3075和298。虽然白皮书的篇幅不一定能反映ICO项目的质量,但从中也能看出ICO白皮书内容的巨大差异。
李纪为研究团队在收集而来的白皮书上运行了一个隐含狄利克雷分布(Latent Dirichlet Allocation:简称LDA)模型。LDA是一种生成性的统计模型,可以将文档集中每篇文档的主题并以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布),便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。
2、IcoRating:一个基于机器学习的评级模型
在描述创始团队信息时,研究团队的数据以下述信息为蓝本:
Justin Sun,生于1990年,本科毕业于北京大学,硕士毕业于宾夕法尼亚大学,是移动社交应用陪我和TRON的创始人兼CEO,Ripple大中华区的前首席代表。获2011年亚洲周刊封面人物;2014年达沃斯全球杰出青年;2015年CNTV年度新人物;2017年福布斯亚洲Under30企业家...
研究人员的目标是自动从创始团队成员中提取最重要的特征,并将其视为NLP标签问题。为此,他们定义了5类标签:出生年份、大学、学位、公司和所获奖项,并将数据集分为不同种类进行培训、开发和测试。
IcoRating对ICO项目使用的知识非常少,但却能够从真实世界中收集的数据集中学习到各个功能的重要性。
如前所述,IcoRating是一个基于机器学习的评级模型。它使用的是监督学习模型。在标准监督学习设置中,研究人员希望找到模型 F,可使输入 x 映射至输出 y:
这个公式中,输入“x”代表“一个ICO项目”,其中包括公开可用信息的不用方面;输出“y",该值介于0到1之间,是一个二进制变量,用于指示该ICO项目是否为诈骗项目;“F”代表预测函数。
在训练期间,我们将ICO项目一年的价格变化作为训练的信号,试图通过已知的ICO信息来预测其价格变化。预测函数F由最大化预测ICO价格变化和黄金标准价格变化之间的L2差异来学习。
其中,在收集到的 2251 个项目中,研究人员收集了 1482 个项目的历史价格,且这些 ICO 项目至少实行了一年及以上(截止到本研究进行时)。
在测试期间,F(x)可预测价格变化,如果预测价格低于其ICO价格的“m”值,则可认为该项目为诈骗。在本次研究中,研究人员根据要求将“m”设置为0.01、0.1和1。
IcoRating测试结果
测试结果通过不同的特征组合来识别ICO诈骗项目的结果,这些组合由白皮书、Github资料库、创始团队、网站这四个特征任意组合而呈。
随着“m”值从0.01增加到0.1,再增加到1,诈骗项目的比例逐渐增加,精度逐渐提高,召回率也在逐渐降低。
最终测试结果显示,白皮书和Github资料库是最重要的两类特征。在m被设置为0.1和0.5时,其获得的F1分数均为0.7。通过增加更多的特征,研究人员得到了更高的精确度和更低的召回率。当将所有特征组合考虑进去时,IcoRating模型在“m值被设置为1”时,其预测的ICO诈骗项目实现了0.83的精确度、0.77的召回率和0.80的F1分数。
雷锋网·AI金融评论注:该篇论文来自于,雷锋网·AI金融评论对其进行重点编译。