图像检索算法因何而起?
网络时代,随着各种社交网络的兴起,网络中图片,视频数据每天都以惊人的速度增长,逐渐形成强大的图像检索数据库。针对这些具有丰富信息的海量图片,如何有效地从巨大的图像数据库中检索出用户需要的图片,成为信息检索领域研究者感兴趣的一个研究方向。
什么是图像检索算法?
图像检索,简单的说,便是从图片检索数据库中检索出满足条件的图片,图像检索技术的研究根据描述图像内容方式的不同可以分为两类:
一类是基于文本的图像检索技术,简称TBIR,
一类为基于内容的图像检索技术,简称CBIR。
随着图像检索技术的发展和逐渐成熟,已经形成了多个基于图像检索的研究方向和应用场景,并且投入实用,在遥感影像、安防监控、检索引擎、电子商务、医学等方方面面起着十分重要的作用。
两类图像检索技术
基于文本的图像检索(TBIR)技术,其主要原理为利用文本描述,如文本描述图片的内容、作者等等的方式来检索图片;
基于图像的内容语义的图像检索技术(CBIR),利用图片的颜色、纹理及图片包含的物体、类别等信息检索图片,如给定检索目标图片,在图像检索数据库中检索出与它相似的图片。
基于图像的内容语义的图像检索包括相同物体图像检索和相同类别图像检索,检索任务分别为检索同一个物体地不同图片和检索同一个类别地图片。例如,行人检索中检索的是同一个人即同一个身份在不同场景不同摄像头下拍得的图片属于相同物体的图像检索,而在3D形状检索中则是检索属于同一类的物品,如飞机等。
图像检索技术的步骤
图像检索技术主要包含几个步骤,分别为:输入图片、特征提取、度量学习、重排序。
特征提取:即将图片数据进行降维,提取数据的判别性信息,一般将一张图片降维为一个向量;
度量学习:一般利用度量函数,计算图片特征之间的距离,作为loss,训练特征提取网络,使得相似图片提取的特征相似,不同类的图片提取的特征差异性较大。
重排序:利用数据间的流形关系,对度量结果进行重新排序,从而得到更好的检索结果。
深度学习与图像检索
随着深度学习的引入,基于深度学习的图像检索技术,主要是将深度学习方法应用在图像检索中的特征提取模块,利用卷积神经网络提取图片特征。主要步骤即给定一张图片,通过卷积神经网络对图片进行特征提取得到表征图片的特征,利用度量学习方法如欧式距离对图片特征进行计算距离,对图片距离进行排序,得到初级检索结果,再根据图片数据的上下文信息和流形结构对图像检索结果进行重排序,从而提高图像检索准确率,得到最终的检索结果。
推荐书籍:深度学习与计算机视觉
介绍了人工智能发展里程、计算机视觉概要、深度学习和计算机视觉中的基础数学知识、神经网络及其相关的机器学习基础、卷积神经网络及其一些常见结构,最后对最前沿的趋势进行了简单探讨等等。
欢迎关注,了解更多人工智能深度学习技术
举报/反馈

AI财智通

248获赞 289粉丝
分享python魔法、AIGC、最新arXiv论文、GitHub热门项目和量化投资等领域技术的学习笔记
关注
0
0
收藏
分享