跳到主要内容
版本:BYOC 开发指南

线性衰减

线性衰减会产生一条直线式的下降趋势,在搜索结果中终止于绝对零点。就像即将到来的活动倒计时,相关性会逐渐减弱,直到活动结束,线性衰减会随着项目偏离理想点而以可预测的、稳定的方式降低相关性,直到它们完全消失。当你希望有一个一致的衰减率和明确的截止点,确保超出一定边界的项目完全被排除在结果之外时,这种方法是理想的选择。

与其他衰减函数不同:

  • 高斯衰减遵循一条钟形曲线,该曲线逐渐趋近但永远不会达到零

  • 指数衰减保持着一条具有极小相关性的长尾,该长尾无限延伸

线性衰减独特地创造了一个明确的终点,使其在具有自然边界或截止日期的应用中特别有效。

何时使用线性衰减

线性衰减对以下情况特别有效:

用例

示例

线性方法为何效果良好

活动列表

演唱会票务平台

为过于遥远的未来事件设定明确界限

限时优惠

限时抢购、促销活动

确保过期或即将过期的优惠不会显示

配送半径

食品配送、快递服务

实施严格的地理边界

年龄限制内容

交友平台、媒体服务

设定企业年龄阈值

在以下情况下选择线性衰减:

  • 您的应用程序有自然边界、截止日期或阈值

  • 超过某一点的项目应完全从结果中排除

  • 你需要一个可预测、稳定的相关性下降率

  • 用户应该能看到相关和不相关项目之间有清晰的界限

稳步下降原则

线性衰减会产生一条直线下降的趋势,以恒定速率递减,直至精确归零。这种模式出现在许多日常场景中,如倒计时器、库存耗尽和截止日期临近等,在这些场景中,相关性有明确的截止点。

📘说明

所有时间参数(originoffsetscale)必须使用与 Collection 数据相同的单位。如果您的集合以不同的单位(毫秒、微秒)存储时间戳,请相应地调整所有参数。

Wll6bZ6c9o8W23xoTiIc7EqXnJb

上图展示了线性衰减将如何影响票务平台上的活动列表:

  • origin(当前日期):又被称为原点,表示当前时刻,此时相关性达到最大值(1.0)。

  • offset(1天):又被称为偏移量,表示“即时事件窗口”——所有在次日内发生的事件都保持完整的相关性得分(1.0),确保非常临近的事件不会因细微的时间差异而受到惩罚。

  • decay (0.5):又被称为衰减值,表示在关注范围边缘的得分——此参数控制相关性的下降速率。

  • scale(10天):又被称为关注范围,表示相关性降至衰减值的时间段——10天前的事件,其相关性得分减半(0.5)。

从直线曲线可以看出,大约 16 天以后的活动完全没有相关性,根本不会出现在搜索结果中。这就形成了一个明确的界限,确保用户只能看到在规定时间范围内即将发生的相关活动。

这种行为反映了活动规划通常的运作方式——即将发生的活动最为相关,未来几周内的活动重要性逐渐降低,而过于遥远的未来(或已经过去)的活动则根本不应出现。

公式

计算线性衰减分数的数学公式为:

S(doc) = \max\left( \frac{s - \max(0, |fieldvalue_{doc} - origin| - offset)}{s}, 0 \right)

其中:

s=scale(1.0decay)s = \frac {scale}{(1.0 - decay)}

用通俗易懂的语言来解释一下:

  1. 计算字段值离原点的距离:fieldvaluedocorigin|fieldvalue_{doc} - origin|

  2. 减去偏移量(如果有的话),但结果永远不能小于零:max(0,distanceoffset)\max(0, distance - offset)

  3. 根据您的比例和衰减值确定参数ss

  4. ss中减去调整后的距离,然后除以ss

  5. 确保结果永远不低于零:max(result,0)\max(result, 0)

ss计算将您的缩放和衰减参数转换为分数达到零的点。例如,当衰减值为0.5且缩放值为7时,分数将在距离为14(缩放值的两倍)时恰好达到零。

使用线性衰减

线性衰减可应用于 Zilliz Cloud 中的标准向量搜索和混合搜索操作。以下是实现此功能的关键代码片段。

📘说明

在使用 Decay Ranker 之前,你必须首先创建一个包含适当数字类型字段(如时间戳、距离等)的集合,这些字段将用于衰减计算。有关包括 Collection 设置、 Schema 定义和数据插入的完整工作示例,请参考教程:实现基于时间的搜索结果重排

创建一个衰减排序器

在您的集合设置了一个数字字段(在本示例中,event_date 表示从现在起的秒数)之后,创建一个线性衰减排序器:

📘说明

时间单位一致性:使用基于时间的衰减时,确保 originscaleoffset 参数使用与您的 Collection 中的数据使用相同的时间单位。如果您的 Collection 中的数据以秒为单位存储时间戳,则所有参数都使用秒。如果使用毫秒,则所有参数都使用毫秒。

from pymilvus import Function, FunctionType
import time

# Calculate current time
current_time = int(time.time())

# Create a linear decay ranker for event listings
# Note: All time parameters must use the same unit as your collection data
ranker = Function(
name="event_relevance", # Function identifier
input_field_names=["event_date"], # Numeric field to use
function_type=FunctionType.RERANK, # Function type. Must be RERANK
params={
"reranker": "decay", # Specify decay reranker
"function": "linear", # Choose linear decay
"origin": current_time, # Current time (seconds, matching collection data)
"offset": 12 * 60 * 60, # 12 hour immediate events window (seconds)
"decay": 0.5, # Half score at scale distance
"scale": 7 * 24 * 60 * 60 # 7 days (in seconds, matching collection data)
}
)

定义 Decay Ranker 后,您可以在搜索请求中将其传递给 ranker 参数来应用它:

# Apply decay ranker to vector search
result = milvus_client.search(
collection_name,
data=["music concerts"], # Query text
anns_field="dense", # Vector field to search
limit=10, # Number of results
output_fields=["title", "venue", "event_date"], # Fields to return
# highlight-next-line
ranker=ranker, # Apply the decay ranker
consistency_level="Strong"
)

Decay Ranker 也可应用于结合多个向量字段的混合搜索操作:

from pymilvus import AnnSearchRequest

# Define dense vector search request
dense = AnnSearchRequest(
data=["music concerts"],
anns_field="dense",
param={},
limit=10
)

# Define sparse vector search request
sparse = AnnSearchRequest(
data=["music concerts"],
anns_field="sparse_vector",
param={},
limit=10
)

# Apply decay ranker to hybrid search
hybrid_results = milvus_client.hybrid_search(
collection_name,
[dense, sparse], # Multiple search requests
# highlight-next-line
ranker=ranker, # Same decay ranker
limit=10,
output_fields=["title", "venue", "event_date"]
)

有关混合搜索操作的更多信息,请参阅多向量混合搜索