当前位置：首页 > 元宇宙 > AI

谷歌 AI 推出 CardBench 评估框架：含 20 个真实数据库，更全面评估基数估计模型

来源：责编：时间：2024-09-05 16:20:27 19观看

导读 9 月 3 日消息，谷歌 AI 研究人员最新推出了 CardBench 基准，主要为学习型基数估计（cardinality estimation）满足系统评估框架需求。CardBench 基准是个综合评估框架，包含 20 个不同真实数据库中的数千次查询，大大超

9 月 3 日消息，谷歌 AI 研究人员最新推出了 CardBench 基准，主要为学习型基数估计（cardinality estimation）满足系统评估框架需求。

CardBench 基准是个综合评估框架，包含 20 个不同真实数据库中的数千次查询，大大超过了以往的任何基准。

项目背景

基数估计（cardinality estimation，简称 CE）是优化关系数据库查询性能的关键，涉及预测数据库查询将返回的中间结果数量，直接影响查询优化器对执行计划的选择。

对于选择高效的连接顺序、决定是否使用索引以及选择最佳连接方法来说，准确的卡入度估计至关重要。

这些决策会对查询执行时间和数据库整体性能产生重大影响。不准确的估计会导致糟糕的执行计划，从而大大降低性能，有时甚至会降低几个数量级。

现代数据库系统中广泛使用的基数估计技术，依赖于启发式（Heuristic）方法和简化模型，例如假设数据统一和列独立。

这些方法虽然计算效率高，但往往需要准确预测基数，在涉及多个表和过滤器的复杂查询中表现尤为明显。

最新的数据驱动方法试图在不执行查询的情况下，对表内和表间的数据分布进行建模，从而减少了一些开销，但在数据发生变化时仍需要重新训练。

尽管取得了这些进步，但由于缺乏全面的基准，因此很难对不同的模型进行比较，也很难评估它们在不同数据集上的通用性。

CardBench

CardBench 能在各种条件下对学习到的基数模型进行更全面的评估。该基准支持三种关键设置：

基于实例的模型，即在单个数据集上进行训练；

零点模型，即在多个数据集上进行预训练，然后在一个未见数据集上进行测试；

微调模型，即进行预训练，然后使用目标数据集的少量数据进行微调。

该基准测试提供两组训练数据：一组用于具有多个筛选条件谓词的单个表查询，另一组用于涉及两个表的二进制联接查询。

该基准测试包括 9125 个单表查询和 8454 个二进制连接查询，适用于其中一个较小的数据集，从而确保为模型评估提供强大且具有挑战性的环境。

例如，微调图神经网络（GNN）模型在二进制连接查询中的 q-error 中位数为 1.32，第 95 百分位数为 120，明显优于零点模型。结果表明，即使是 500 次查询，对预训练模型进行微调也能大幅提高其性能。这使它们在训练数据有限的实际应用中变得可行。

总之，CardBench 代表了在学习的基数估计方面的重大进步。研究人员可以通过提供全面、多样的基准，系统地评估和比较不同的 CE 模型，从而促进这一关键领域的进一步创新。该基准能够支持需要较少数据和训练时间的微调模型，为训练新模型成本过高的实际应用提供了切实可行的解决方案。

附上参考地址

CardBench: A Benchmark for Learned Cardinality Estimation in Relational Databases

Google AI Introduces CardBench: A Comprehensive Benchmark Featuring Over 20 Real-World Databases and Thousands of Queries to Revolutionize Learned Cardinality Estimation

本文链接：//www.dmpip.com//www.dmpip.com/showinfo-45-6704-0.html谷歌 AI 推出 CardBench 评估框架：含 20 个真实数据库，更全面评估基数估计模型

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

下一篇： Meta 公布 Llama AI 模型家族下载量数据：全球超 3.5 亿、3.1-405B 模型最受欢迎

标签：

热门焦点

拯救XR，苹果力不从心

来源 | 光子星球撰文 | 文烨豪编辑 | 吴先之苹果终于呈上了它的“答卷”。北京时间6月6日凌晨，苹果2023年全球开发者大会（WWDC）如期举行。作为苹果CEO库克口中&ld
元宇宙将会如何塑造未来的工作方式？

科幻小说家尼尔·斯蒂芬森 (Neal Stephenson) 在1992年就创造了“元宇宙”一词，但事实上，在Facebook将其更名为Meta以反映其将这一科幻愿景变为现实的战略重点之
“虚拟人”角斗场，基于“硬实力”下的人性平衡法则？

在打工人“反内卷”的当下，一众虚拟人却“内卷”了起来。从北京春晚虚拟人苏小妹与刘宇演绎歌舞《星河入梦》，央美毕业的虚拟人夏语冰登上央视节目《对话》，湖南
智能人机交互技术的春晚大考

1月初的一个早晨，京东智能客户服务产品部紧急开会，进行关于尚未对外公布的“X项目”的初讨论。1月5日，这个神秘的X项目对外公布，京东成为央视2022年春晚独家互动合
区块链产业人才发展报告

工业和信息化部作为工业和信息化行业主管部门，正在着力推进“两个强国”建设，加快推动以区块链为代表的新兴技术与实体经济深度融合。我国区块链技术和应用想要
韩国建立元宇宙生态系统，智度股份发布元宇宙社区Meta彼岸

财联社|区块链日报28日讯今日《元宇宙新鲜事》有：杭州第十三次党代会报告指出抓紧布局元宇宙等未来产业；韩国科学信息通信技术部宣布投资1.85亿美元建立元宇宙
韩国国民银行将推出韩国首个加密货币 ETF

韩国国民银行(Kookmin Bank)计划发行该国首个以散户投资者为主要关注点的加密货币投资基金。根据公告，该银行正在等待政府批准，并已建立一个准备就绪的数字资产
新闻业在元宇宙的现状和未来

“美联社有毛病吧，这真的过分了！”，一位媒体编辑在推特中愤怒地表示。这是针对一款视频NFT的批评言论之一，之后取消了此次销售，因为该视频呈现了移民穿越地中海的苦
Staking 收益翻倍？

以太坊质押可能很快就会有两倍的利润。Coinbase 估计，在 1 月份以太坊网络合并后，持有 ETH 的回报将翻倍。增长预期假设来自加密货币交易所 Coinbase 的估计是准