快速实现AI搜索!Fivetran 支持 Milvus 作为数据迁移目标

news/2024/9/28 18:09:49 标签: 人工智能, milvus

b7af500b35f863f5a5658e8848234a7a.png

3fa92a822f4e3d2d93662064764ab670.png

Fivetran 现已支持 Milvus 向量数据库作为数据迁移的目标,能够有效简化 RAG 应用和 AI 搜索中数据源接入的流程。

数据是 AI 应用的支柱,无缝连接数据是充分释放数据潜力的关键。非结构化数据对于企业搜索和检索增强生成(RAG)聊天机器人等 AI 应用有着巨大价值。随着数据量的增长,像 Milvus 这样的可扩展向量数据库对于高效搜索组织信息至关重要。

用于搜索的数据通常存储在各种地方,如云存储、商业应用和关系型数据库中。常见的方法是将这些不同来源的数据合并到同一个存储库中,将非结构化数据(如文本)转换为 Embedding 向量,同时将元数据也一同存储在向量数据库中。这样一来,AI 应用能够访问多种数据集并适应数据源的变化。

Fivetran 现已支持 Milvus 向量数据库作为数据迁移的目标,有效简化了上述流程,用户无需构建、维护和监控复杂的数据管道(Data Pipeline)。数据工程师只需轻击几下鼠标,便可以创建快速、高效且可扩展的 AI 搜索解决方案,更专注于创造业务价值,而不是管理复杂的基础设施。

dbef0755120421944812f13b3962289f.png

01.

Milvus 和 Fivetran 如何为 AI 构建基础

Milvus 是一款高性能、高度可扩展的开源向量数据库。在 Kubernetes 上部署的单个 Milvus 集群可以处理数十亿向量数据。Zilliz Cloud 是全托管的 Milvus 服务,增加了企业级特性(如 RBAC 和 SOC2 安全合规认证),并且自带专有的 Cardinal 向量搜索引擎,性能更出色。Milvus 和 Zilliz Cloud 被广泛应用于语义搜索、RAG 和多模态搜索等应用中。构建 AI 搜索解决方案的一个挑战是如何将来自各种来源的数据 Ingest 到 Milvus 中,以实现实时搜索。Fivetran 支持 Milvus 向量数据库作为数据迁移的目标,简化了将任何来源的数据 Ingest 到 Milvus 的流程,帮助企业免去管理传输的麻烦,更高效地分析数据。通过利用 Milvus 的高级向量搜索功能和简化的数据传输流程,开发者可以快速构建AI 应用,充分利用其组织来自多样数据源的数据 。

使用 Fivetran 的 Milvus 目标,您可以:

  • 通过 Fivetran 连接器(Connector)将超过 500 个数据来源的数据 Ingest 到 Milvus/Zilliz Cloud 中。

  • 使用 OpenAI  Embedding 模型简化非结构化数据的提取、加载和向量化流程。

  • 通过结构化数据列,实现在向量搜索过程中进行元数据过滤。

  • 构建近实时的搜索功能,支持增量数据同步。

02.

Fivetran 的 Partner SDK:构建自定义连接器和目标

Fivetran 的 Partner SDK 使技术供应商能够为其服务创建源或目标连接器,并与 Fivetran 的自动化数据移动平台无缝集成。Partner SDK 的关键优势包括:

  • 灵活的开发语言:基于 gRPC 的 SDK 允许使用任何支持的编程语言编写源和目标连接器,为开发者提供灵活性,以便在他们选择的语言中重用或编写新代码。

  • 降低复杂性:通过模板和本地测试环境,第三方供应商可以轻松测试和部署连接器。

  • 数据平台的新机遇:SDK 为产品开辟了新渠道,允许数据仓库、数据湖和存储平台轻松访问 Fivetran 的 500 多个连接器。

Zilliz 是 Milvus 背后的原厂,通过将其向量数据库操作紧密映射到 Fivetran 的关系型更新模型,构建了与 Fivetran 的集成。他们还简化了第三方解决方案的使用流程,例如通过 OpenAI Embedding 服务,在 Ingestion 过程中生成向量。

03.

AI 搜索演示

非结构化数据虽然通常最有价值,但也是最具挑战性的数据类型。借助 Fivetran 和 Milvus,企业可以快速且轻松地构建 AI 驱动的搜索工具,从丰富的数据集中获取洞察。

Fivetran 的全托管连接器可以自动、可靠且安全从主要的商业应用中传输数据,且支持 Schema 迁移。例如,一家公司想要为其 Slack 消息构建一个内部搜索工具。使用 Fivetran 的 Slack 连接器,数据首先被复制并以规范化格式存储在数仓或 data lakehouse(如 Snowflake)中。然后,可以反范式化、连接、分块和转换这些数据,之后可以通过 Fivetran 的 Snowflake  源连接器连接到 Milvus。只需将文本块存储在名为 original_text 的列中,Milvus 目标就会自动调用 OpenAI  Embedding 服务为文本生成向量。向量与所有其他标签一起作为标量字段存储在 Milvus 中,随后通过向量相似性搜索和元数据过滤实现高效的语义搜索。

3351ced2b8170272c89208fb6ec418ac.png

04.

总结

新推出的 Fivetran 的 Milvus 目标连接器进一步扩展了 AI 领域中的数据范围,实现了对多种数据源数据进行语义搜索。通过将来自多种数据库/数仓和商业应用的源数据 Ingest 到 Milvus 向量数据库,这种集成使得 AI 工作流变得更加轻松高效。欢迎根据设置说明使用 Fivetran 的 Milvus 目标连接器。

作者介绍

e10d9c58d5e937dc9206efe9ea2a3c49.jpeg

陈将

Zilliz 生态和 AI 平台负责人

推荐阅读

3efc192661abfaa3d9e87f6c3e66aeb3.png

d06dae875460bf575352dbc1299b178e.png

f77b450cff1f4b2a47c8c6d48aefe377.png

57bd916060bdc4ec06e8ee496d3ecfba.png


http://www.niftyadmin.cn/n/5681600.html

相关文章

如何在 Three.js 场景中创建可点击展开的标签

在复杂的可视化场景中,经常需要为 3D 对象添加可交互的标签,以便用户点击时可以查看详细信息。这篇文章将通过一个简单的案例展示,如何在 Three.js 中为对象创建可点击的标签,点击标签可以展开详细信息,再次点击可以关…

vue框架学习 -- 日历控件 FullCalendar 使用总结

最近在项目中要实现日期排班的功能,正好要用到日历视图的控件,经过对比发现,vue 中 使用 FullCalendar 可以实现相关需求,下面对使用过程做一个总结。 一. 引入 FullCalendar 控件 package.json 中添加相关依赖 "dependen…

AI与大数据的结合:如何从海量数据中提取价值

引言 在当今数字化时代,数据如同新石油,成为推动社会与商业进步的重要资源。随着物联网、社交媒体和企业运营中数据生成的激增,我们正处在一个数据爆炸的时代。然而,面对海量且复杂的数据信息,仅依靠传统的分析方法已经…

千亿数据-异地容灾-查询打印——MySQL大数据优化

1. 数据备份策略 - 定期全量备份:制定周期性的全量数据备份计划,确保数据的完整性。 - 增量备份:在全量备份之间进行增量备份,减少备份时间和存储空间。 2. 数据存储 - 分布式存储:利用分布式存储系统来存…

58 深层循环神经网络_by《李沐:动手学深度学习v2》pytorch版

系列文章目录 文章目录 系列文章目录深度循环神经网络1. 模型复杂性增加2. 训练数据不足3. 梯度消失和爆炸4. 正则化不足5. 特征冗余总结 函数依赖关系简洁实现训练与预测小结练习 深度循环神经网络 🏷sec_deep_rnn 到目前为止,我们只讨论了具有一个单…

电脑上数据丢了怎么找回来 Win系统误删文件如何恢复

无论是在工作中,还是生活中,电脑都是不可缺少的重要工具,尤其是在工作中,电脑不仅可以高效的完成工作,还可以存储工作中的重要资料。不过在使用电脑的时候,也会遇到数据丢失的情况。针对这一问题&#xff0…

网络安全等级保护 | 规范企业网络系统安全使用 | 天锐股份助力等保制度落地

在当今数字化高速发展的时代,网络安全对于企业的重要性日益凸显。而近年来,数据泄露、网络攻击等安全事件频发,给企业和个人带来了前所未有的挑战。在这一背景下,网络安全等级保护制度(简称“等保”)作为国…

游戏厅计时器ps5计算时间的软件 佳易王电玩计时计费管理系统操作教程

一、前言 游戏厅计时器ps5计算时间的软件 佳易王电玩计时计费管理系统操作教程 软件为绿色免安装版,解压即可使用。 二、软件程序教程 计时的时候,点击 开始计时按钮 开台后可设置定时语音提醒的时间 时间设置好后,点击 开启提醒 即可 三、…