平面图中的向量相似搜索Hides

平面图中的向量相似搜索Hides

时间:2021-1-23 作者:admin

想象一下,一个房间里有一堵墙上的屏幕,上面显示着几十个摄像头的闭路电视,就像电影中的安全办公室。在电影中,常常有一名警卫负责监视那些不可避免地睡着的屏幕,让一些不好的事情发生。尽管直觉和其他明显的“人的技能”在安全方面是有用的,但大多数人会同意,人类的注意力跨度并不适合于24小时24小时的视频监控。当然,镜头总是可以被审查的。有些事情发生了,但是很容易看到发现一些异常的东西的安全价值。

摄像机能捕捉到我们的一举一动,但谁在监视他们呢?

现在想象一下视频人工智能(AI)能够实时处理数千个摄像机馈送的应用程序。AI不断地将新镜头与历史镜头进行比较,然后根据它们的威胁级别对异常事件进行分类。人类仍然参与其中,既负责管理系统,也负责审查和应对潜在的威胁,但人工智能取代了我们的不足。这不是假设的情况智能警用无人机到智能门铃由亚马逊(Amazon)和谷歌(Google)销售的人工智能监控解决方案正变得越来越复杂、经济实惠,无处不在。

视频AI只是向量相似搜索的众多应用之一,这个过程利用人工智能分析海量、万亿规模的非结构化数据集。本文概述了矢量搜索技术,包括它是什么,如何使用它,以及开放源码软件和资源,使它比以往任何时候都更容易访问。

什么是向量相似搜索?

视频数据非常详细,而且越来越普遍,因此,从逻辑上看,它似乎是构建视频AI的一个很好的无监督学习信号。事实上,情况并非如此。处理和分析视频数据,特别是大量视频数据,仍然是人工智能挑战。与非结构化数据分析中取得的许多进展一样,这一领域最近的进展在很大程度上归功于向量相似搜索。

与所有非结构化数据一样,视频的问题在于它不遵循预先定义的模型或组织结构,因此难以按比例进行处理和分析。非结构化数据包括图像、音频、社交媒体行为和文档等,这些数据总计占所有数据的80%-90%以上。企业越来越意识到,隐藏在庞大而神秘的非结构化数据集中的关键业务洞察力,推动了对人工智能应用程序的需求,而这些应用程序可以利用这一尚未实现的潜力。

使用神经网络例如cnn、rnn和bert,非结构化数据可以转换成特征向量(也称为嵌入),这是一种机器可读的数字数据格式。然后利用余弦相似或欧几里德距离等度量来计算向量之间的相似度。向量嵌入和相似性搜索使得使用以前无法识别的数据集来分析和构建机器学习应用程序成为可能。

向量相似度是用建立的算法来计算的,然而,非结构化数据集通常是大量的。这意味着高效和准确的搜索需要巨大的存储和计算能力。到加速相似搜索减少了资源需求,采用了近似最近邻(ANN)搜索算法。通过将相似向量聚类在一起,ANN算法可以向最有可能包含相似向量的向量簇发送查询,而不是搜索整个数据集。虽然这种方法更快,但它牺牲了一定程度的准确性。利用ANN算法,向量搜索可以在毫秒内梳理数十亿个深度学习模型的洞察力。

向量相似搜索有哪些应用?

向量相似搜索具有广泛的人工智能、比如说福州软件开发和深度学习和传统向量计算场景的应用。以下是各种向量相似搜索应用程序的高级概述:

电子商务:向量相似搜索在电子商务中有着广泛的适用性,包括反向图像搜索引擎,它允许购物者使用从智能手机上捕捉到的图像或在网上找到的图像搜索产品。此外,基于用户行为、兴趣、购买历史等的个性化建议可以由依赖向量搜索的专门推荐系统提供。

实体和网络安全:视频AI仅仅是向量相似搜索在安全领域的众多应用之一。其他场景包括面部识别、行为跟踪、身份验证、智能访问控制等等。此外,向量相似搜索在阻止越来越普遍和复杂的网络攻击。例如,代码相似搜索可以通过将一段软件与已知漏洞或恶意软件的数据库进行比较来识别安全风险。

推荐引擎:推荐引擎是使用机器学习和数据分析向用户提供产品、服务、内容和信息的系统。用户行为、相似用户的行为等数据都是用深度学习的方法来生成推荐的。有了足够的数据,就可以训练算法来理解实体之间的关系,并发明自动表示它们的方法。推荐系统具有广泛的适用性,并且是人们每天都在与之互动的东西,包括Netflix上的内容推荐、亚马逊上的购物推荐以及Facebook上的新闻提要。

聊天机器人:传统上,聊天机器人是使用一个需要大量训练数据集的规则知识图来构建的。然而,使用深度学习模型构建的聊天机器人不需要对数据进行预处理,而是在频繁的问题和答案之间创建一个映射。使用预先训练的自然语言处理(Nlp)模型,可以从问题中提取特征向量,然后使用矢量数据管理平台.

图像或视频搜索:自20世纪70年代末以来,深度学习网络就被用来识别视觉模式,现代技术的发展趋势使得图像和视频搜索比以往任何时候都更加强大和方便。

化学相似性搜索:化学相似性是预测化合物性质和寻找具有特定属性的化学物质的关键,使其成为新药开发必不可少的手段。为每个分子创建特征向量表示的指纹,然后利用向量之间的距离来度量相似度。利用人工智能进行新药研发在科技行业正获得越来越大的势头,有了Bytedan(TikTok的中国母公司)开始雇用人才在战场上。

开源矢量相似搜索软件与资源

摩尔定律、云计算和不断下降的资源成本是人工智能比以往任何时候都更加普及的宏观趋势。由于开源软件和其他公开可用的资源,构建AI/ML应用程序不仅仅是针对大型科技公司的。下面我们简要介绍Milvus,一个开放源码的矢量数据管理平台,并重点介绍一些公开可用的数据集,这些数据集有助于使人工智能成为每个人都能获得的。

Milvus,一个开放源码的矢量数据管理平台

米尔弗斯是一个专门为大规模矢量数据构建的开源矢量数据管理平台.在FacebookAI相似性搜索(Faiss)、非度量空间库(NMSLIB)和烦恼的支持下,Milvus将各种强大的工具集成在一个平台下,同时扩展了它们的独立功能。该系统旨在存储、处理和分析大型矢量数据集,并可用于构建上述所有人工智能应用程序(以及更多的应用程序)。

有关Milvus的更多信息可以在网站。教程、设置Milvus的说明、基准测试和有关构建各种不同应用程序的信息可在米尔弗斯新兵训练营。有兴趣为该项目做出贡献的开发人员可以加入Milvus的开放源代码社区GitHub.

人工智能与机器学习的公共数据集

谷歌(Google)和Facebook这样的科技巨头比小人物拥有数据优势,这已不是什么秘密,一些专家甚至主张逐步数据共享任务“这将迫使超过一定规模的公司与规模较小的竞争对手分享一些匿名数据。幸运的是,有数千个公开可用的数据集可以用于AL/ML项目:

  • 人民演讲数据集: 来自ML共用的数据集提供了世界上最大的语音数据集,有超过87,000小时的转录演讲59种不同的语言。
  • UC欧文机器学习库:加州大学欧文分校数以百计的公共数据集努力帮助机器学习社区。
  • Data.gov:美国政府提出成千上万的开放数据集这跨越了教育,气候,新冠肺炎等等。
  • 欧统局:欧洲联盟统计局提供开放数据集从经济和金融到人口和社会条件的各种行业。
  • 哈佛大学Dataverse:哈佛数据中心是一个向不同学科的研究人员开放的免费数据存储库。许多数据集是公开的,而其他数据集则带有更严格的使用条件。

虽然这个列表并不是详尽无遗的,但它是发现令人惊讶的广泛的开放数据集的一个好的起点。有关公共数据集的更多信息,以及为下一个ML或数据科学项目选择正确的数据,请参阅以下内容博客帖子.

最后但同样重要的是,欢迎您加入Milvus社区,学习更多关于向量相似搜索的知识,以及它如何帮助您处理下一个人工智能应用程序!

版权所有:https://www.eraycloud.com 转载请注明出处