BYOL轻松进行自监督学习

译者:AI研习社(季一帆)

在深度学习中,经常遇到的问题是没有足够的标记数据,而手工标记数据耗费大量时间且人工成本高昂。基于此,自我监督学习成为深度学习的研究热点,旨在从未标记样本中进行学习,以缓解数据标注困难的问题。子监督学习的目标很简单,即训练一个模型使得相似的样本具有相似的表示,然而具体实现却困难重重。经过谷歌这样的诸多先驱者若干年的研究,子监督学习如今已取得一系列的进步与发展。

29日,欧冠,巴萨VS尤文(客场)

可以看到,使用Pythorch Lightning可以方便的构建并训练模型。只需为训练集和测试集创建DataLoader对象,将其导入需要训练的模型即可。本实验中,epoch设置为25,学习率为1e-4。

映射,非线性层,将输出映射到更低维空间。

在BYOL之前,多数自我监督学习都可分为对比学习或生成学习,其中,生成学习一般GAN建模完整的数据分布,计算成本较高,相比之下,对比学习方法就很少面临这样的问题。对此,BYOL的作者这样说道:

理财子公司成立以来,在服务资本市场、优化储蓄向投资转化的过程中持续扮演重要角色。很多理财子公司今年都推出了固收+”产品模式。在保障本金稳健运作的前提下,充分享受资本市场的投资收益。目前市面上出现了多款固收+理财产品,目前来看表现都较为稳健。成为了利率下行时期,投资者“固本增收”的一个新选择。

24日,西甲,巴萨VS皇马(主场)

而兴银理财自去年年底成立以来到今年上半年,和兴业银行新发行产品数量311支,其中净值型理财产品占比50.48%。涉及现金管理、固收纯债、固收增强、项目投资、股债混合、权益投资、多资产策略、跨境投资等多个品类,并发布了海峡理财、养老金融等特色产品,为投资者提供了多样化的选择。截止6月30日。兴银理财公司取得利润是1.03亿元,位列股份行理财子公司的第二位。

短纤是纺织工业的重要原料。中国作为全球最大的短纤、纺织品产消国,受新冠肺炎疫情等多种因素影响,众多短纤企业面临销售受阻、价格波动剧烈、产业链运转不畅等问题。

日前,青海省海东市民和县官亭镇赵木川村的“黄河彩蓝”现代生态产业园里,首次种植的灵芝进入收获期。记者看到,塑料大棚内灵芝长满畦床,工作人员正收集灵芝孢子粉、采摘灵芝子实体。而收集的灵芝孢子粉,通过晾干、消毒、破壁处理后,将分装上市;灵芝子实体晾干后可直接进入市场,亩产值数十万元。民和县属青海东部门户,处黄河、湟水谷地,气候温润,被誉为青海东部的“瓜果之乡”。

5日,欧冠,巴萨VS基辅迪纳摩(主场)

收益上来看,12个月的净值型理财产品,在当下这个流动性环境,4.0-4.6%的业绩比较基准其实已经是同类产品中最高的了。按照相关人士的说法,不在乎在这个投资上赚钱,纯粹把收益让给投资者。在面向客户方面,该产品主要面对的是兴业银行的私人客户。也就是说,这款产品跟大部分银行理财客户无缘。

当然,强大的投研体系建设是理财业务的核心竞争力。脱胎于商业银行的理财子公司,在渠道和资金端方面有着无可比拟的优势,但是在大类资产研究体系与配置体系,依然有很长的路要走。

BYOL最小化样本表征和该样本变换之后的表征间的距离。其中,不同变换类型包括0:平移、旋转、模糊、颜色反转、颜色抖动、高斯噪声等(我在此以图像操作来举例说明,但BYOL也可以处理其他数据类型)。至于是单一变换还是几种不同类型的联合变换,这取决于你自己,不过我一般会采用联合变换。但有一点需要注意,如果你希望训练的模型能够应对某种变换,那么用该变换处理训练数据时必要的。

方星海表示,上市短纤期货,能为产业链企业开展现货定价和贸易活动提供“指示灯”,便于企业更好管理风险并激发内生活力;能够通过实物交割、仓单交易等机制,拓宽企业销售渠道,缓解企业资金压力,助力产业链稳定、供应链畅通。

为了实现对比方法,我们必须将每个样本与其他许多负例样本进行比较。然而这样会使训练很不稳定,同时会增大数据集的系统偏差。BYOL的作者显然明白这点:

下文我们将在STL10数据集上对BYOL进行实验验证。因为该数据集同时包含大量未标记的图像以及标记的训练和测试集,非常适合无监督和自监督学习实验。STL10网站这样描述该数据集:

接下来,我们编写编码器模块。该模块负责从基本模型提取特征,并将这些特征投影到低维隐空间。具体的,我们通过wrapper类实现该模块,这样我们可以轻松将BYOL用于任何模型,无需将模型编码到脚本。该类主要由两部分组成:

上述代码部分源自Pythorch Lightning提供的示例代码。这段代码你尤其需要关注的是training_step,在此函数实现模型的数据转换、特征投影和相似性损失计算等。

至于原因,兴业银行私人银行总经理戴叙贤解释道,“近年来,我们关注到了国内高净值人群对绿色金融服务的需求和可持续投资的兴趣日益增长,此次与兴银理财携手打造ESG理财产品,正是引导私行客户将资金更多投向可持续发展领域,精准服务实体经济,助推中国经济高质量发展的重要举措。”

不仅如此,巴萨这段赛程里,还有多场硬仗。比如10月24日,巴萨将坐镇主场,在西甲中迎战对头皇马。到了29日凌晨,巴萨又要前往客场,对阵尤文图斯。

9日,西甲,巴萨VS皇家贝蒂斯(主场)

训练结束后,舍弃目标网络编码器,只保留一个编码器,根据该编码器,所有训练数据可生成自洽表示。这正是BYOL能够进行自监督学习的关键!因为学习到的表示具有自洽性,所以经不同的数据变换后几乎保持不变。这样,模型使得相似示例的表示更加接近!

在讨论这款产品之前,有必要回顾一下ESG的相关概念

对比方法对图像增强的方式非常敏感。例如,当消除图像增强中的颜色失真时,SimCLR表现不佳。可能的原因是,同一图像的不同裁切一般会共享颜色直方图,而不同图像的颜色直方图是不同的。因此,在对比任务中,可以通过关注颜色直方图,使用随机裁切方式实现图像增强,其结果表示几乎无法保留颜色直方图之外的信息。

据统计在兴业私行的客户中,企业主投资人超过一半。通过这种标准化的产品,能够在潜移默化上企业主在日常经营中践行ESG原则,增强企业自身的社会责任意识。也是美丽中国的重要理念:既要金山银山,也要绿水青山;绿水青山就是金山银山。

之所以叫ESG理财产品,主要在于该产品将重点考虑环境(E)、社会(S)和公司治理(G)等方面的表现,通过ESG“标准筛选”“负面筛选”等多个策略,优先选择在ESG方面表现优异的市场主体。在环境因素项下,又会考虑诸如企业资源利用效率、污染物及碳排放、绿色业务占比及转型、环保信息披露等四个维度,社会因素和公司治理同理。也就是该产品的标准筛选,一共是三个方面十二个维度。

本文要点总结如下。首先也是最重要的,BYOL是一种巧妙的自监督学习方法,可以利用未标记的数据来最大限度地提高模型性能。此外,由于所有ResNet模型都是使用ImageNet进行预训练的,因此BYOL的性能优于预训练的ResNet18。STL10是ImageNet的一个子集,所有图像都从224×224像素缩小到96×96像素。虽然分辨率发生改变,我们希望自监督学习能避免这样的影响,表现出较好性能,而仅仅依靠STL10的小规模训练集是不够的。

不仅仅是颜色失真,其他类型的数据转换也是如此。一般来说,对比训练对数据的系统偏差较为敏感。在机器学习中,数据偏差是一个广泛存在的问题(见facial recognition for women and minorities),这对对比方法来说影响更大。不过好在BYOL不依赖负采样,从而很好的避免了该问题。

据悉,ESG投资策略已在欧美资产管理市场广泛应用,被机构投资者视为一种降低风险、提高收益的投资策略。而全球责任投资市场规模早在2016年就达22.89万亿美元,是一个巨大的投资市场。

BYOL的目标与对比学习相似,但一个很大的区别是,BYOL不关心不同样本是否具有不同的表征(即对比学习中的对比部分),仅仅使相似的样品表征类似。看上去似乎无关紧要,但这样的设定会显著改善模型训练效率和泛化能力:

如果,你也是位热爱分享的AI爱好者。欢迎与译站一起,学习新知,分享成长。

通过这种方式,模型准确率提高了约2.5%,达到了87.7%!虽然该方法需要更多的代码(大约300行)以及一些库的支撑,但相比其他自监督方法仍显得简洁。作为对比,可以看下官方的SimCLR或SwAV是多么复杂。而且,本文具有更快的训练速度,即使是Colab的免费GPU,整个实验也不到一个小时。

首先是数据转换增强的编码。BYOL的作者定义了一组类似于SimCLR的特殊转换:

2日,西甲,巴萨VS阿拉维斯(客场)

上述代码通过Kornia实现数据转换,这是一个基于 PyTorch 的可微分的计算机视觉开源库。当然,你可以用其他开源库实现数据转换扩充,甚至是自己编写。实际上,可微分性对BYOL而言并没有那么必要。

兴银理财发布的ESG产品,一边满足了银行高净值客户对于可持续投资和绿色金融的需求,另一方面则通过这种形式践行了ESG原则,也打响了自身的品牌。可谓是一举多得,通过渡让收益的方式,让参与方获取了最大收益。

在产品投向方面,该产品投资于固定收益类的资产比例不低于产品总资产的80%。除银行存款、债券回购、货币基金等货币市场,还有诸如国债、政策性金融债、地方政府债等资产外,符合该公司ESG筛选标准的固定收益类资产占比不低于50%。

当日,中国期市收盘大面积上涨。短纤期货“首秀”迎“开门红”,截至收盘,短纤主力合约首日现涨停。(完)

接下来,我们使用BYOL对ResNet18模型进行预训练。在这次实验中,我选择epoch为50,学习率依然是1e-4。注:该过程是本文代码耗时最长的部分,在K80 GPU的标准Colab中大约需要45分钟。

BYOL包含两个相同的编码器网络。第一个编码器网络的权重随着每一训练批次进行更新,而第二个网络(称为“目标”网络)使用第一个编码器权重均值进行更新。在训练过程中,目标网络接收原始批次训练数据,而另一个编码器则接收相应的转换数据。两个编码器网络会分别为相应数据生成低维表示。然后,我们使用多层感知器预测目标网络的输出,并最大化该预测与目标网络输出之间的相似性。

然后,我们使用新的ResNet18模型重新进行监督学习。(为彻底清除BYOL中的前向hook,我们实例化一个新模型,在该模型引入经过训练的状态字典。)

通过对比方法,同一图像不同视图的表示更接近(正例),不同图像视图的表示相距较远(负例),通过这样的方式减少表示的生成成本。

手把手教你编码BYOL

未来理财子公司将加大投研力度,会有越来越多类型的产品问世。各家银行将基于自身禀赋和优势,进行差异化的竞争。而此次兴银理财的ESG产品,无疑就是最好例子。践行绿色金融战略的同时,为满足特殊群体的需求而定制的产品,这也是未来理财子公司的竞争力之一。

而作为国内首家赤道银行的兴业银行,近年来在可持续发展方面一直走在全国前列。此次ESG产品特意选在国际臭氧层保护日,也是践行倡导可持续发展的理念的行动。在绿色金融方面,兴业银行不仅是国内首家被人民银行批准发行绿色债券的商业银行,而且一直积极践行绿色金融的理念。

二.ESG产品剖析和亮点

类似ResNet这样的模型中,ML从业人员过于依赖预先训练的权重。虽然这在一定情况下是很好的选择,但不一定适合其他数据,哪怕在STL10这样与ImageNet高度相似的数据中表现也不如人意。因此,我迫切希望将来在深度学习的研究中,自监督方法能够获得更多的关注与实践应用。

去年以来,国有大行、部分股份行和城商行纷纷设立理财子公司。不到一年的时间,已经有十多家理财子公司完成设立,并开始运行。今年以来,理财子公司的脚步依旧不停,平安银行的平银理财和江苏银行旗下的苏银理财,也纷纷宣告成立。

21日,欧冠,巴萨VS费伦茨瓦罗斯(主场)

早在2019年,联合国环境规划署正式发布《负责任银行原则》,而兴业银行成为了签署银行。由于兴业银行在金融实践、公司治理、信息披露等方面的突出表现,它也得到了MSCI行业A级别的评级。

ESG是环境(Environmental)、社会(Social)和公司治理(Governance)的简称,ESG理念起源于社会责任投资。ESG投资起源于欧美,将ESG纳入投研框架已是未来全球资产管理行业的大势所趋。

雷锋网版权文章,。详情见转载须知。

也许有人会想,我们不是应该直接比较数据转换之前和之后的隐向量表征吗?为什么还有设计多层感知机?假设没有MLP层的话,网络可以通过将权重降低到零方便的使所有图像的表示相似化,可这样模型并没有学到任何有用的东西,而MLP层可以识别出数据转换并预测目标隐向量。这样避免了权重趋零,可以学习更恰当的数据表示!

据统计,兴业银行发行的绿色债券规模已超百亿,位居国内首位。在绿色金融信贷方面,兴业银行规模已超万亿且绿色资产质量占优。

可以说此次兴银理财发行的ESG理财产品,无论是对于社会层面,还是对于投资者而言,都显得非常有意义。

三.理财子公司加速设立和布局

经训练,仅通过一个非常小的模型ResNet18就取得约85%的准确率。但实际上,我们还可以做得更好!

特征提取通过hooks实现(如果你不了解hooks,推荐阅读我之前的介绍文章How to Use PyTorch Hooks)。除此之外,代码其他部分很容易理解。

同时,我们使用监督学习方法作为基准模型,以此衡量本文模型的准确性。基线模型也可通过Lightning模块轻易实现:

由于不需要负采样,BLOY有更高的训练效率。在训练中,每次遍历只需对每个样本采样一次,而无需关注负样本。 BLOY模型对训练数据的系统偏差不敏感,这意味着模型可以对未见样本也有较好的适用性。

特征抽取,获取模型最后一层的输出。

图为种植的灵芝。石延寿 摄

AI研习社是AI学术青年和AI开发者技术交流的在线社区。我们与高校、学术机构和产业界合作,通过提供学习、实战和求职服务,为AI学术青年和开发者的交流互助和职业发展打造一站式平台,致力成为中国最大的科技创新人才聚集地。

接下来编写BYOL的训练代码。我选择使用Pythorch Lightning开源库,该库基于PyTorch,对深度学习项目非常友好,能够进行多GPU培训、实验日志记录、模型断点检查和混合精度训练等,甚至在cloud TPU上也支持基于该库运行PyTorch模型!

一.ESG概念和责任投资市场

通过Torchvision可以很方便的加载STL10,因此无需担心数据的下载和预处理。

STL-10数据集是一个用于研究无监督特征学习、深度学习、自学习算法的图像识别数据集。该数据集是对CIFAR-10数据集的改进,最明显的便是,每个类的标记训练数据比CIFAR-10中的要少,但在监督训练之前,数据集提供大量的未标记样本训练模型学习图像模型。因此,该数据集主要的挑战是利用未标记的数据(与标记数据相似但分布不同)来构建有用的先验知识。

公开报道显示:“兴银ESG美丽中国”为固定收益类定期开放式净值型产品,购买门槛是10万元,投资曲线为12个月,业绩比较基准为4.0%-4.6%,首期发行规模为5亿元。

18日,西甲,巴萨VS赫塔菲(客场)

Author: igirisukan.com