【摘要】
公司作为数据库行业的领军企业,业务多元化发展成熟,同时推出向量数据库,在AI浪潮下为未来大模型数据存储与计算提供算力底座,我们认为公司的研发实力雄厚,和微软的合作将打开公司新的成长曲线,公司将乘AI东风,开启新一轮机遇。
一、大数据市场扩张,国产分布式数据库换道超车
(资料图片仅供参考)
随着互联网、物联网、5G等信息通信技术及产业的不断发展,传统产业正在经历数字化转型,全球数据量呈几何级增长态势,2017-2022年全球数据储量CAGR为23.2%。数据逐渐成为和土地、资本、劳动力、技术一样的生产要素,支撑数字经济的发展。在大数据时代,数据明显表现为以下几个特征:
1、海量的数据规模:采集、存储和计算过程中所涉及数据量都非常大;
2、多样的数据类型:数据种类和来源多样化,包括结构化、半结构化和非结构化数据,多类型数据对处理能力提出了更高的要求;
3、价值密度低:有价值数据所占比例低,需要结合业务逻辑并通过强大的机器算法来挖掘数据价值;
4、快速的数据流转:数据增长速度快,处理速度要求快,时效性要求高。
大数据市场稳健增长,软件市场占比快速提升。根据沙利文研究,2022年全球大数据市场规模预计为718亿美元,中国大数据市场占全球比例为22%(根据Wind数据,截至2022.10.31,中美平均汇率为6.65)。
2015-2022年受益于下游政企单位分析处理海量数据的需求扩张,全球大数据市场规模CAGR约为18%,中国约为26%,仍处于快速增长期。随着硬件成本的下降以及软件附加值的提升,预计软件将超过服务和硬件,成为大数据市场最主要的收入来源。
大数据技术服务于数据源到用户的全产业链条,由硬件、软件与服务实现应用。大数据技术框架包括数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。其中核心在于大数据管理平台、数据应用中间件、数据智能分析工具、大数据应用等软件。
二、AI浪潮赋能公司新机会
向量数据库作为公司最新的研发方向,将直接受益于AI浪潮的发展。
向量数据库是专门用来存储和查询向量的数据库,其存储的向量来自于对文本、语音、图像、视频等的向量化。同传统数据库相比,向量数据库不仅能够完成基本的CRUD(添加、读取查询、更新、删除)等操作,还能够对向量数据进行更快速的相似性搜索,商业价值提升明显。
向量数据库一个很重要的功能是拓展大模型的边界,分为时间边界和空间边界。
第一,时间边界的扩展,指的是向量数据库能够使得大模型LLM拥有“长期记忆”。
众所周知,目前的大模型(无论是NLP领域的GPT系列还是CV领域的ResNET系列)都是预先训练Pretrain的大模型,有着非常明晰的训练截止日Cut-off Date,这导致这些模型对于训练截止日之后发生的事情一无所知。
而随着向量数据库的引入,其内部存储的最新的信息向量能够极大地拓展大模型的应用边界,向量数据库可以使得大模型保持准实时性,提高大模型的适用性,并使得大模型能够动态调整。也就是说,向量数据库使得大模型的长期记忆得到了可能。
例如,假设一个预训练的新闻摘要模型在2021年底完成了训练,到了2023年,许多新闻事件和趋势已经发生了变化。为了使大模型能够处理这些新信息,可以使用向量数据库来存储和查询2023年的新闻文章向量。
同样,在推荐系统中,预训练的大模型可能无法识别新用户和新产品的特征,通过向量数据库,可以实时更新用户和产品的特征向量,从而使大模型能够根据最新的信息为用户提供更精准的推荐。
第二,空间边界的扩展。
指的是向量数据库能够协助解决目前企业界最担忧的大模型泄露隐私的问题。向量数据库本地部署后可以存储企业有关的大量隐私数据,在本地部署或者专有云部署大模型后,通过特别的Agent大模型可以在有保护的情况下访问向量数据库的隐私数据,进而可以在不向外网暴露公司的隐私的情况下,使得公司的业务得到大模型的助力。
第三,多模态搜索也是向量数据库的拿手好戏。
向量数据库自带多模态功能,这意味着它能够通过机器学习方法处理和理解来自不同源的多种模态信息,如文本、图像、音频和视频等,数据向量化过程使得这些不同模态数据的内部隐藏信息得以暴露,进而为多模态应用提供支持。
一个典型的应用场景是多语言搜索,向量数据库支持跨语言的信息检索,用户可以使用英语、法语、中文等多种语言搜索图书库,而无需事先对书名进行多语言翻译处理。这得益于向量表示能够捕捉到语义相似性,使得来自不同语言的查询和内容能够相互匹配。
三、投资建议
公司与微软的GPT4接口DEMO已经跑通,微软在中国的应用客户超过1000家,公司为GPT在国内的应用提供向量数据库、MLOps服务,目前业务正在谈判中。
公司计划募资15亿,投入到量化投研/知识AI助手/数据要素安全项目/数据分析大模型/研发中心建设,投入主要以算力建设为主。
无论从合作伙伴还是募投项目,公司致力于抢先占据数据库的先发优势,为大模型数据空间与计算提供算力底座。公司坚持自主创新研发,客户粘性高,且新客户拓展快,在核心信创发力赛道有较好的卡位,未来发展空间广阔。
参考资料:20230608-财通证券-星环科技-U-688031-《定增提升技术实力,把握数字化与智能化机遇》
本报告由研究助理协助资料整理,由投资顾问撰写。投资顾问:董宇(登记编号:A0740622090027)
关键词:
世界今日讯!住一晚8888元,“猪景房”为啥这么贵?
山西加快焦化行业调整升级 年内将全面关停4.3米焦炉 速递
【天天聚看点】人民银行开展1960亿元逆回购操作
白玉兰最佳女主:跟“前半生”和解
深圳福田皇岗村旧改项目确定申报主体为皇岗实业
星露谷物语春季鱼王在哪里钓 星露谷物语秋季鱼王在哪里钓|全球速读
2023“一带一路”青年创意与遗产论坛暨长沙媒体艺术节明日开幕 速看
端午粽香飘飘 市场购销两旺 全市线下消费支付金额约180亿元 要闻
无穷小量的替换(无穷小量)
天天观热点:嫡孙是什么意思啊第几代 嫡孙是什么意思
热门:就是大龙团的问题! Crisp:第三局失利是因为大龙前做的不够好
每日信息:海胆怎么处理不苦_海胆怎么处理
天天观热点:分数怎么打成上下形的_分数怎么打
金童奖官方:2005年金童奖得主梅西生日快乐_全球速看
球王生日!巴萨卡点给梅西送祝福,舆论一边倒,怒斥管理层-当前关注
宁夏银川烧烤店燃气爆炸事故4名犯罪嫌疑人被刑拘
五年最火端午收官 热门城市机票、酒店预订量均超2019年 环球热点评
一公司标志“太丑”引吐槽,回应:是董事长本人
全球通讯!亚马逊计划在未来7年内在印度再投资150亿美元。
天天热消息:如何让女生感动?用建造冰棒棒城堡的技巧,送出最完美的礼物!
RNG粉丝上台攻击EDG,称他们是软脚虾,事后公开解释原因
环球信息:莫斯科所有最重要设施已加强安保 瓦格纳总部附近没有出现执法人员
信息课电脑怎么解除控制-信息课老师把屏幕控制了 怎么解除控制_全球新资讯
早期类似《三国志2》游戏 全球球精选
焦点快报!睢宁人,端午返程拥堵路段是…
齐威王论国宝翻译及阅读答案(齐威王论国宝)
4-8,大冷门!鱼腩险创奇迹,4次攻破日本球门,中国男足却做不到
经济日报:稳步释放房地产市场需求 世界资讯
即时焦点:薛佳凝和胡歌再次传出绯闻_薛佳凝被曝新恋情
环球速看:好问则裕自用则小的意思_好问则裕自用则小的解释