数据-第 5 页-一流百科

泄漏（机器学习）

简介在统计学和机器学习中，泄漏（也称为数据泄漏或目标泄漏）是指在模型训练过程中使用了预计在预测时不会出现的信息，导致预测分数（指标）在生产环境中运...

词条百科

懒惰学习

简介在机器学习中，懒惰学习是一种学习方法，在这种方法中，训练数据的归纳在理论上被推迟到对系统的查询，与急切学习相反，在急切学习中，系统试图在接受查...

词条百科

标签化数据

标签化数据标签化数据是一组被贴上一个或多个标签的样本。标签化通常采用一组无标签的数据，并在其中的每一块上增加信息标签。例如，一个数据标签可能会表明...

词条百科

实例选择

实例选择实例选择（或数据集缩减，或数据集浓缩）是一个重要的数据预处理步骤，可以应用于许多机器学习（或数据挖掘）任务。实例选择的方法可以用于将原始数...

词条百科

特征学习

简介在机器学习中，特征学习或表征学习是一套技术，允许系统自动发现原始数据中特征检测或分类所需的表征。这取代了人工特征工程，并允许机器既学习特征，又...

词条百科

特征缩放

特征缩放特征缩放是一种用于将独立变量或数据特征的范围正常化的方法。在数据处理中，它也被称为数据归一化，一般在数据预处理步骤中进行。特征缩放的动机由...

词条百科

联合学习

简介联合学习（也称为协作学习）是一种机器学习技术，它在多个分散的边缘设备或持有本地数据样本的服务器上训练算法，而不交换这些数据。这种方法与传统的集...

词条百科

特征工程

特征工程特征工程或特征提取或特征发现是利用领域知识从原始数据中提取特征（特性、属性、属性）的过程。其动机是利用这些额外的特征来提高机器学习过程的结...

词条百科

基于能量的模型

基于能量的模型基于能量的模型（EBM）是一种直接从统计物理学中导入学习的生成模型（GM）形式。GM通过分析一个样本数据集来学习一个基础数据分布。一旦经过训...

词条百科

漂移（数据科学）

漂移（数据科学）在数据科学和相关领域，漂移是指数据的演变，使数据模型无效。识别数据漂移很重要的常见领域是机器学习和数据挖掘，以及大型软件系统的维护...

词条百科

降维

简介降维，或称降维，是指将数据从高维空间转换到低维空间，使低维表示保留原始数据的一些有意义的属性，最好是接近其固有维度。由于许多原因，在高维空间工...

词条百科

数据版本控制

简介DVC是一个免费的、开源的、与平台无关的版本系统，用于数据、机器学习模型和实验。它旨在使ML模型可共享，实验可重复，并跟踪模型、数据和管道的版本。DV...

词条百科

数据增强

简介数据分析中的数据增强是用来增加数据量的技术，方法是增加已经存在的数据的稍加修改的副本或从现有数据中新创建的合成数据。在训练机器学习模型时，它可...

词条百科

数据探索

简介数据探索是一种类似于初始数据分析的方法，即数据分析师使用可视化探索来了解数据集中的内容和数据的特征，而不是通过传统的数据管理系统。这些特征可以...

词条百科

异常检测

异常检测在数据分析中，异常检测（也被称为离群点检测，有时也被称为新颖性检测）通常被理解为识别罕见的项目、事件或观察结果，这些项目、事件或观察结果明...

词条百科

算法偏见

算法偏见算法偏见描述了计算机系统中的系统性和可重复的错误，这些错误造成了不公平的结果，例如以不同于算法预期功能的方式将一个类别置于另一个类别之上的...

词条百科

算法推理

算法推理算法推理收集了统计推理方法的新发展，这些方法因任何数据分析者广泛使用的强大计算设备而变得可行。这个领域的基石是计算学习理论、颗粒计算、生物...

词条百科

机器学习

机器学习机器学习（ML）是一个致力于理解和建立'学习'方法的研究领域，也就是说，利用数据来提高某些任务的性能的方法。它被看作是人工智能的一部分。机器学...

词条百科

八千万张小图片

简介八千万张小图片是一个用于训练机器学习系统的数据集。它包含79,302,017张32×32像素的彩色图片，这些图片是在2008年从万维网上提取的，使用的是来自WordNe...

词条百科

生物医学调查本体论

生物医学调查本体论生物医学调查本体论（OBI）是一个开放的、综合的本体论，用于描述生物和临床调查。OBI为调查的设计、使用的协议和仪器、使用的材料、产生...

词条百科

知识引擎

知识引擎知识引擎是决策支持系统的一部分，它将数据与数据模型和推理规则结合起来，为想要做决策或发现相关数据的人提供一个接口。它可能涉及到使用这些模型...

词条百科

知识工程师

知识工程师知识工程师是从事在计算机系统中建立高级逻辑的科学的专业人员，以尝试模拟人类决策和高级认知任务。知识工程师提供部分或全部的知识，这些知识最...

词条百科

个性化

个性化个性化（广义上称为定制）包括定制服务或产品以适应特定的个人，有时与群体或部分个人相联系。各种各样的组织利用个性化来提高客户满意度、数字销售转...

词条百科

情境设计

情境设计情境设计（CD）是由HughBeyer和KarenHoltzblatt开发的一个以用户为中心的设计过程。它结合了人种学的方法，通过实地研究收集与产品相关的数据，合理...

词条百科

自动识别和数据采集

简介自动识别和数据采集（AIDC）是指自动识别物体，收集有关它们的数据，并将它们直接输入计算机系统的方法，无需人类参与。通常被视为AIDC一部分的技术包括...

词条百科

视觉图灵测试

视觉图灵测试计算机视觉研究是由标准的评估实践驱动的。目前的系统是通过其对物体检测、分割和定位等任务的准确性来测试的。像卷积神经网络这样的方法在这些...

词条百科

邻域操作

邻域操作在计算机视觉和图像处理中，邻域操作是图像数据上常用的一类计算，这意味着它是按照以下伪代码处理的。访问图像数据中的每一个点p，并做{N=图像数据...

词条百科

可扩展设备元数据

可扩展设备元数据可扩展设备元数据（XDM）规范是一种开放的文件格式，用于在JPEG和其他普通图像文件中嵌入与设备相关的元数据，而不会破坏与普通图像查看器的...

词条百科

误差水平分析

误差水平分析误差水平分析（ELA）是对数字数据中有损压缩（如JPEG）的压缩伪影的分析。误差水平分析的原理当使用时，有损压缩通常被均匀地应用于一组数据，如...

词条百科

Shinken（软件）

简介Shinken是一个开源的计算机系统和网络监控软件，与Nagios兼容。它观察主机和服务，收集性能数据，并在错误条件发生时提醒用户，在条件消除后再次提醒。Sh...

词条百科

1 … 3 4 5 6 7 … 12