为内容分配曝光量涉及到关于曝光和点击建模问题,以及内容的未来点击量预测问题。内容曝光、点击和播放等构成了一个复杂的非线性混沌系统,不仅取决于内容质量本身,也取决于内容更新时间、更新策略和用户点击习惯等。传统的统计预测模型无法阐述外部环境的各种干扰因素以及系统的混沌特性,即无法从机理上描述系统本质。针对此问题,我们首先通过分析新热内容的历史曝光点击日志,使用常微分方程建立了新热内容曝光敏感模型,即 pv-click-ctr 模型(简称 P2C 模型)。在 P2C 模型基础上,结合各场景和抽屉的曝光资源约束,给出一种曝光资源约束下的多目标优化保量框架与算法。

优化算法_算法优化是什么意思_算法优化工程师岗位职责

图2 保量策略框架

内容曝光敏感度模型

通常情况下,点击 PV(click)随曝光 PV 增大而增大,即高曝光带来高点击。但是,内容消费者数量有限,给同一个消费者针对单一内容重复曝光并不会带来更多的点击量。这种点击“饱和”现象可从内容的历史曝光点击日志观察得到。受此现象启发,我们根据内容曝光 PV 和点击 PV 历史数据特点,建立一种能够描述内容点击量随曝光量变化趋势的常微分方程( , ODE)模型,即 pv-click-ctr (P2C) 模型,整体结构如图3所示。

算法优化工程师岗位职责_优化算法_算法优化是什么意思

图3 P2C 模型整体架构图

一个内容由于自身因素和外部环境的限制,对应的点击量存在最大值或饱和值 ym。当给定一个曝光量 x 时,存在唯一的点击量 y 和饱和度 k。对于一个点击量 y,饱和度 k 定义为当前点击量和饱和值的差距与饱和值的比值,即

对于任意一个内容,随着 pv 的增大,click 饱和度减小,且单位 pv 带来的 click 增量(简称 click 增量)与当前 click 比值呈下降趋势。也就是说,click 增量与饱和度存在正相关关系,可用下式表示。

其中,r 为正相关系数。根据式(2),可以得到 click 随 pv 增长的常微分方程模型。

对式(3)分离变量后两端进行积分,可以得到

其中,x0和y0分别为初始 pv 和 click。

对于式子 (4) 中的参数 r 和ym,可采用最小二乘法拟合。这里首先需要对历史 pv 和 click 数据以及参数进行过滤和预处理。

(a)样本点过滤原则。分别在日历史 pv 和 click 数据序列选取最大递增子序列;

(b)参数预处理。由于点击量饱和值ym的数量级通常很大,而相关系数 r 数量级通常很小,为了避免“大数吃小数”的现象,分别对这两个参数进行数据变换,即:ym®log10(ym),r ® er;

(c)样本点预处理。为了避免最小二乘法在拟合参数时陷入局部最优,分别对历史样本(click 值 y,pv 值 x)进行数据变换,即:x ®log10(x),y ®log10(y)。经过参数拟合过程,可得到单一内容 pv-click 函数关系。进而可进行 pv-click-ctr 预测,这里可采用有限差分的数值解法预测,也可将数据点代入式子(4)预测。

保量模型&算法

基于上一节建立的 P2C 模型,本节任务是在各场景和抽屉曝光资源有限的情况下,给出每个内容近似最优的曝光量。整体方案流程如下图:

算法优化工程师岗位职责_优化算法_算法优化是什么意思

图4 保量模型整体架构图

第一,基于 pv-click-ctr 预测的常微分方程(ODE) 模型,针对内容池中每个内容,采用最小二乘拟合 ODE 中的两个参数:click 饱和值ym和 click 随 pv 的固有增长率 r。从而给出每个内容 pv-click 函数关系;

第二,基于给定的优化目标和约束条件,可建立 pv 分配的多目标非线性优化模型。在将业务问题抽象为数学模型之前,有必要对模型中的符号进行说明,如下所示:

变量

说明

xijk

内容i在抽屉j中的坑位k分配到的pv量

所有抽屉的pv总量

rij

内容i在抽屉j中click与vv的正相关系数

C(Sj)

抽屉j对应的总曝光pv

f(·)

P2C模型预测函数

表1: 保量模型符号说明

优化算法_算法优化工程师岗位职责_算法优化是什么意思

上述模型的优化目标包含两个:多场景 vv 最大化,内容池内容 ctr 方差最小。需要注意的是,这里的 ctr 方差最小是曝光公平的一种形式化描述,用以平衡“过曝光”和“欠曝光”。约束条件分别表示了场景、抽屉、坑位和内容的曝光 PV 约束。由于目标函数我们采用数值方法求解,使得上述优化模型无法运用传统的基于梯度的算法求解。而进化算法提供了一种解决方案,这里选取遗传算法(GA)求解。需要说明的是,GA 中的适应值函数计算采用了 P2C 模型。

实验结果

我们选取多个新热内容,分别给出 P2C 模型的预测效果以及保量模型的离线效果。这里的评估指标是均方根误差 (RMSE) 和绝对误差百分比(APE)。分别采用 P2C 模型和平滑 ctr 方法*预测新热内容的点击量。从表中可以看出 P2C 模型可以有效预测点击量,在 RMSE 方面优于平滑 ctr 方法。

* Wang, Wei Li, Ying Cui, Zhang, and Mao. 2011.Click rate for rare in . In : and . IGI , 1–12.

算法优化工程师岗位职责_算法优化是什么意思_优化算法

算法优化是什么意思_算法优化工程师岗位职责_优化算法

线上实验部分,我们建立了分桶实验。基准桶采用人工策略保量;实验桶采用本文提出的策略,实验过程中关注和对比基准桶和实验桶每日投放效果(CTR方差、策略在场景上的整体CTR等)。以下给出30天和7周的保量效果数据,与人工策略结果对比发现,保量策略在 CTR 方差和场景整体 CTR 方面均有不同程度的提升。特别地,在 CTR 方差方面,保量策略效果非常明显,平均相对提升+50%。

优化算法_算法优化是什么意思_算法优化工程师岗位职责

算法优化是什么意思_算法优化工程师岗位职责_优化算法

总结&展望

内容保量策略旨在解决流量资源有限与需求过多之间的矛盾,为各内容提供一种优化的曝光量建议,使得各场景的曝光资源能够产生更大价值。本文针对新热内容的多场景VV保量需求,提出了一种资源约束下的保量模型和算法框架,此框架整体由预测和优化两阶段构成。我们在部分场景进行了离线测试及分桶实验,实验结果反映了本文策略的可行性和有效性。未来需要持续探索和完善的有很多方面,如 PUV 保量、保量冷启动问题等。

优化算法_算法优化是什么意思_算法优化工程师岗位职责

———END———
限 时 特 惠: 本站每日持续更新海量各大内部创业教程,永久会员只需109元,全站资源免费下载 点击查看详情
站 长 微 信: nanadh666

声明:1、本内容转载于网络,版权归原作者所有!2、本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。3、本内容若侵犯到你的版权利益,请联系我们,会尽快给予删除处理!