漂移(数据科学)

在数据科学和相关领域,漂移是指数据的演变,使数据模型无效。识别数据漂移很重要的常见领域是机器学习和数据挖掘,以及大型软件系统维护。在涉及动态变化的数据和数据模型的领域,漂移检测和漂移适应是最重要的。

预测模型的衰减

机器学习和预测分析中,这种漂移现象被称为概念漂移。在机器学习中,数据模型的一个共同要素是统计属性,如实际数据的概率分布。如果它们偏离了训练数据集的统计属性,那么,如果不解决漂移问题,学到的预测可能会变得无效。

数据配置的衰减

另一个重要的领域是软件工程,在这里可以认识到三种影响数据保真度的数据漂移类型。软件环境的变化(基础设施漂移)可能使软件基础设施配置失效。结构漂移发生在数据模式变化时,这可能会使数据库失效。语义漂移是数据意义的变化,而结构没有变化。在许多情况下,这可能发生在复杂的应用程序中,当独立的开发人员引入变化时,没有适当地意识到他们的变化对软件系统的其他领域的影响。对于许多应用系统来说,它们所操作的数据的性质会因为各种原因而发生变化,例如,由于商业模式的变化、系统的更新、或切换系统运行的平台。

漂移(数据科学)

在云计算的情况下,可能影响在云上运行的应用程序的基础设施漂移可能是由云软件的更新引起的。数据漂移对数据保真度的不利影响有几种类型。数据腐蚀是将漂移的数据传入系统而不被发现。当有效的数据由于不符合应用的模式而被忽略时,就会发生数据丢失。挥霍是指当新的数据字段被引入数据处理管道的上游时,但在下游的某个地方却没有数据字段,这种现象。

不一致的数据

数据漂移可能指的是当数据库记录由于现实世界的数据随时间的变化而无法匹配的现象。这是涉及人的数据库的一个常见问题,如客户、雇员、公民、居民等。人类的数据漂移可能是由于个人数据的未被记录的变化,如居住地或姓名,以及由于数据输入过程中的错误造成的。数据漂移可能是指一个数据库的几个副本中数据元素的不一致。其原因可能难以识别。一个简单的漂移检测是定期运行检查和。然而,补救措施可能不那么容易。

0

点评

点赞

相关文章