基于特征工程方法的电影评分影响因素重要性分析

时间：2024-06-18

程纯

(安徽大学经济学院,安徽合肥 230601)

1 引言

近年来,华语电影市场越发呈现出百花齐放的盛态。得益于各种观影渠道的兴盛和视频播放技术的升级,人们在日常观影时也有了更大的选择空间,此时电影评分成为了大多数人选片时考虑的重要指标之一。出于各种需求,国内出现了众多电影评分平台,例如豆瓣、猫眼、时光网等。其中豆瓣作为起步最早、用户粘性最大的平台,其电影评分一度成为大家评价电影质量的标杆。豆瓣评分机制将用户总体评分除以评分人数,得到样本评分均值作为总体均值的估计量,具有较好的统计性质。因此有理由认为豆瓣电影评分反映了电影品质的真实情况,这也是本文选择豆瓣电影评分的基础。

学术界对于电影相关预测的研究主要集中在电影票房预测、观影人数预测、评分预测等。其中大多数研究集中在电影票房预测,其开始时间早,因此取得了很多不错的研究成果。目前针对电影评分的研究较少,但已经有部分研究者将票房预测的研究方法应用于评分预测中。Matthew Rodrigue(2010)对比了逻辑回归模型和多项式模型在26个变量上的选择效果,实验结果表明前者的预测准确性更高。Karl Persson(2015)收集了IMDb网站上好莱坞电影的属性特征信息,包括电影类型、预算、制片人和导演、明星影响力等特征,随后使用随机森林回归模型和支持向量回归机模型对特征信息进行建模,得到电影评分的预测模型,结果表明前者的性能优于后者。

周文乐等(2015)综合了时间和用户评分特征,提出了一种基于对分网络的评分预测模型;文中考虑到了用户相似性,利用谱聚类方法得到不同的用户兴趣组,最后利用邻居用户的评分信息对未知项目做出预测,其原理类似现在常用的推荐系统方法。刘明昌(2017)使用的混合预测模型在电影特征信息指标之外,添加了豆瓣电影用户评分和相似电影推荐这两项影响因素,结果表明改进后的模型在预测精度上有了较大幅度的提高。陆君之(2018)从导演、编剧、主演、电影类型、国家地区五个维度来构建电影的特征向量,对比了随机森林、DT算法及GBDT算法等算法模型的误差,结果表明随机森林模型的预测性能明显优于其他模型。周如彪等(2019)以豆瓣Top250影片为研究对象,通过建立多元线性回归模型验证得出:编剧评分对电影评分影响最显著。

综合以上文献可以发现,研究者在电影评分预测方面的创新点主要分为变量选取的创新和算法模型的改进,但是在明确哪些变量对评分影响更为重要时常常表意不清。而本文的创新点主要表现在三个方面:一是变量选取:除大众广泛认可的导演、演员、编剧、类型等影响电影评分的因素外,还考虑了大众关注度、电影语言特征、电影时长等因素。二是使用了特征工程方法对定性变量重新赋值,使之前杂乱的文本特征转化为可度量的影响因素。三是通过选取不同模型,输出了各模型的变量重要性排名,综合各模型结果得到影响电影评分的最主要因素。

2 建模机理与数据准备

2.1 电影评分机理分析

目前电影评分机制的研究方法主要分为以下三类:

(1)基于用户评分。即通过分析用户的评分信息,得到其观影偏好和评分习惯,进而对新电影评分做预测。

(2)基于电影特征。收集影响电影评分的相关特征,选择合适的预测模型。

(3)基于相似电影推荐。电影推荐系统的常用方法,通过计算目标电影与其他电影的相似度,进而得到预测评分。

本文采用第二种方法,首先需找出影响评分的电影特征。目前学界对于影响电影评分因素的研究较少,参考电影票房预测的研究结论并结合日常经验,本文将影响因素分为以下四类,即:演职人员特征、出品方特征、电影自身特征和大众关注度特征,具体分析见表2。

表2 电影评分影响因素

2.2 数据准备

通过爬虫获得截至2019年3月的豆瓣华语电影数据,共14个变量,13960条记录。简单浏览华语电影数据集后发现评论人数较少的影片有较多的字段缺失,并且其主创团队没有其他的作品;这使得在下一步中对变量赋值时无法计算或计算不正确,因此本次试验仅选择影评数量超过300的影片。对华语电影数据集进行数据选择和数据整理后,总计有552部影片作为最终的建模数据。

结合2.1节的分析选择相应变量,使用特征工程方法对变量进行处理。

2.3 特征工程

观察建模数据集可以发现,表1中的特征预处理方式在本次试验中都有所涉及。其中,电影类型、导演、编剧和主演字段全部以文本形式呈现,此类定性特征不能直接使用,需要将定性特征转换为定量特征。通过生成新的衍生变量,将文本数据转化为数值型数据,以便更好地建立模型。

查阅资料后发现,对导演、编剧和主演进行赋值较为困难,常用的赋分方法有两种:一是根据其获奖情况进行统计,二是基于其之前执导或者参与的影片评分来统计。在本文中,由于涉及演职人员较多,且近年来对于电影从业人员设立的奖项愈发繁多,笔者也无法明确辨别哪些属于含金量较高的奖项。基于以上考量,本次实验选择“电影评分”作为导演、编剧、主演相关影响力的衡量指标。

各变量解释和具体赋值过程如下:

(1)导演执导水平

以某导演执导电影所获得的评分均值作为导演执导水平特征。

(2)编剧水平

对于同一位编剧,选择由该编剧主创的所有电影剧本的电影均值为该编剧的评分。从数据集可以看出,一部电影的编剧往往不止一人,电影剧本也分为原创剧本和其他成名作品改编。良好作品的呈现靠的是群体的群策群力,因此相对于某一位编剧的重大影响力,取均值似乎更能代表实际情况。选取一部电影排行前五的编剧,计算评分均值。

(3)演员表现力

选用演员参与拍摄的所有电影作品计算该演员评分。

S表示第 i 位主演的评分均值;

ω表示第 i 位主演在此部电影的权重。

考虑到一部影片的参演人数较多,有时可多达十几位。一来排名靠后的演员对电影的最终评分影响甚微;二来给计算带来极大的难度。综合考虑下,本文结合电影宣发时对主演排名的先后,权重设置如表3所示,若参演人数多于 5 位,则从第6位开始不考虑其对电影的影响。

表3 演员权重表

由于导演、编剧、演员三个特征的赋值过程较为相似,我们分别选出10位展示经均值计算处理后的结果,如表4所示。

表4 导演、编剧、演员个人评分表(部分)

从表4中可以看到,各演职人员的个人评分总体上符合大众认知。其中参演电影次数较多的个人,其评分当然更加准确。如果参与电影数太少,例如《流浪地球》的主演屈楚萧,他只参演过一部影片,那流浪地球的豆瓣评分就是该演员的个人评分,这可能对接下来的建模造成不良影响。

(4)是否为联合发行

引入哑变量,制片国家/地区为两个及以上时,为变量赋值为1。单个地区赋值为0。

(5)发行年份

结合之前的分析,年份较早的电影容易获得高评分;同时随着电影技术和经济水平的不断发展,大众审美变化越来越快。根据电影发行年份大致分布情况,将电影发行年份划分以五个阶段:1990年之前,1990至1999,2000至2009,2010至2014及2015年之后。类别编号为1-5。

(6)影片类型

通过爬取豆瓣Top250的影片数据,对受大众欢迎的电影类型进行可视化分析,从图1可以清楚看到剧情片遥遥领先。类型前五分别是:剧情、爱情、喜剧、犯罪和冒险。可见人们在观影选择方面,一则偏好具有强烈的戏剧冲突、令人肾上腺素飙升的犯罪和冒险片;其次是喜爱给人带来欢乐、促使多巴胺分泌的喜剧和爱情片。根据图1表示的观众偏好给各类型电影打分,如表5所示。

图1 豆瓣Top250电影类型

表5 影片类型对应得分

(7)电影时长

根据日常经验分析可知,合适的电影时长可以改善人们的观影体验,时长太长或太短似乎都不太受大家喜爱。将电影时长划分为如下区间: 0-90,90-120,120-150和150以上,单位为分钟;所对的类别编号为1-4。

(8)电影语言

华语电影整体以普通话和粤语为主,但也有部分地方方言。方言能够带来不一样的影片效果。从数据集上可以看到该变量多为“普通话/粤语/北京话”形式,为定性变量。对含有方言的电影赋值为1;为粤语/普通话的影片赋值为0。

2.4 变量选择和命名

表6 电影评分影响因素

结合2.1和2.3节对引入回归模型的变量进行选择和命名,对分类变量进行因子型转化,使其在引入回归模型时会自动转化为虚拟变量形式。

3 模型构建

回归分析是预测模型的最常用方法之一,其主要目的是确定因变量与自变量之间相互依赖的定量关系,基于变量特征选择合适的回归模型。

3.1 相关性分析

表7 连续变量相关系数表及其显著性检验

在建立模型之前需探究因变量与自变量的相关关系,连续型变量和分类型变量相关性有不同的分析方法。首先计算本次试验中连续型变量的相关系数。由于Pearson线性相关系数要求连续变量的取值服从正态分布,本实验不符合该要求,故选择Spearman秩相关系数。输出相关系数矩阵及其对应的相关系数显著性检验表,如表7所示。

从表7可以看出,华语电影评分与演员、编剧和主演相关性较强,同时这三个变量间也存在较强的相关性,这里考虑到特征工程赋值的原因。从相关系数显著性检验结果来看(原假设为变量间不相关,即相关系数为0)。第一列p值皆小于0.01。因此拒绝原假设,有理由认为因变量与所选自变量之间具有相关性。

对于分类变量,本试验数据不服从正态总体假设,且各类别数据独立。对于二分类和多分类变量分别使用Wilconxon秩和检验和Kruskal-Wallis检验,判断电影评分在各类别组间是否存在差异,输出结果如表8所示。

表8 组间差异非参数检验

可以看出除了publisher(是否为联合发行)变量不能拒绝电影评分在各类别表现相同的原假设外(p>0.05),其他分类变量皆可拒绝原假设,即认为电影评分均值在语言、发行年份、电影时长变量的各类别间存在显著差异。

从以上的相关分析中猜测预测变量间存在多重共线性,即使用的多个预测变量之间存在线性相关关系,此时多元线性回归模型已不再适用,因为其重要假定之一就是回归模型的解释变量之间不存在线性关系。

表9 自变量VIF检验结果

对多重共线性的处理方法包括:删除次要变量、改变变量形式、选择其他回归方法等。在本次试验中,存在强多重共线性的三个变量是导演、编剧和演员,这是模型中的重要因素,不可直接删除。结合相关性分析结果,删除变量short(短评数量)和publisher(是否为联合发行),将剩余的9个变量作为最终的预测变量建立回归模型(处理为虚拟变量后为14个变量)。

3.2 回归模型选择

一般来说,构建的模型由线性函数组成的回归问题就可以称之为线性回归,即认为输出值是输入变量的线性组合。首次从回归分析中最基础、最简单的多元线性回归模型入手,其优点包括:易于建模、形式简单、可将因子型变量直接纳入模型并具有较好的解释性。对于多重共线性问题,轻度多重共线性对参数估计的影响较为有限,故而可以尝试使用多元线性回归建模。除多元线性模型之外,笔者还希望寻找既可以处理多重共线性问题,又能够对变量进行筛选、给出变量重要性排序的模型;基于以上分析,本文将使用多元线性回归、LASSO回归和随机森林回归三种方法进行建模。

3.2.1 多元线性回归

多元线性回归使用普通最小二乘法来求解模型的最小损失函数,通过最小化残差平方和寻找最佳的模型参数。在R中完成下列操作:划分训练集和测试集比例为7∶3,训练集中包含观测386个,测试集中观测数为166。生成多元线性模型,输出结果如表10所示。

表10 多元回归分析输出结果

R中对分类变量的处理是将其定义为因子型变量,读取时以第一类别为比较标准,引入虚拟变量。在发行年份(year)变量中,类别1为1990年之前。根据回归系数,可得出类别2(1990至1999)的评分略高于类别1外,其后的发行年份(2000至2009,2010至2014及2015年之后)的评分总体表现为逐年走低,这也印证了本文之前的猜想:大众评分越来越严格,新发行电影想要获得高评分愈加困难。在影片时长(time)变量中,结果显示电影时长对电影评分为负向影响,与预估的结论不一致。可能的原因包括:变量本身设置不佳、模型设定有误等。

time1-2.08E-011.37E-01-1.5230.128552 time2-4.05E-011.54E-01-2.6330.008828**time3-4.37E-012.60E-01-1.6790.093908.language3.75E-011.04E-013.6160.00034***comment2.23E-063.78E-075.9087.84E-09***long -5.01E-053.11E-05-1.6090.108518变量显著性标记(对应不同显著性水平):0‘***’ 0.001‘**’ 0.01‘*’0.05‘.’0.1‘ ’ 1模型判定系数R2:0.7663, 调整的R2: 0.7575

从多元线性回归结果来看,模型可以为研究者反映一些信息。但本文目的为筛选出对电影评分预测最有效的指标;由于变量的量纲存在差异,此模型的回归系数没有参考意义,因而选用相对权重来衡量变量相对重要性,如表11所示。

3.2.2 LASSO回归

使用程序包glmnet,glmnet包在计算λ值之前首先对输入进行标准化,然后输出非标准化系数。指定响应变量的分布为gaussian,因为它是连续的;指定alpha = 1,表示进行LASSO回归。使用K折交叉检验找到最优的λ,将λ=0.138代入预测,同时输出LASSO回归对应的变量系数,见表11。

图2 LASSO回归系数收缩图

图2展示了LASSO回归的作用过程,同时反映出变量的重要性排序。其横轴表示压缩的惩罚系数(λ值取对数),纵轴表示变量系数的变化,每条线代表一个特征。LASSO回归可以通过观察曲线到达0的前后顺序,决定选择哪些特征进入模型。图2中,最先舍去的变量是9/13/14(year4、comment、long);随后是10/8/4/11/12(time1、year4、type、time2、time3),其次是6/5/7(year1、language、year2),最后是3/1/2(starring、director、writer)。

3.2.3 随机森林回归

随机森林算法对于特征之间相关性不敏感,同时可以处理多种类型的变量。这就表明在对电影评分进行预测时,随机森林回归有较好的表现。使用randomForest( )函数构建随机森林模型,同时查看变量重要性。本文选IncMSE为度量标准,等价于均方误差;输出结果如表11所示。

表11 变量重要性和模型预测性能比较

4 变量重要性排序

基于3.2节的分析,分别列出多元线性回归、LASSO回归、随机森林回归对变量显著性的度量指标,分别是:相对权重、变量系数和变量重要性(IncMSE);根据输出结果,按照变量的重要性程度,为变量排序。同时对比以上三种模型在测试集上的均方误差MSE和决定系数Rscore,其分别描述了模型的预测精度和拟合优度,结果表明随机森林回归作为非参模型,较参数模型具有更好的泛化性能。

在表11中,“.”代表该变量对应的系数为0,即LASSO回归模型未选择该变量。综合三种模型的排序结果,编剧水平、导演执导水平和演员表现力是电影评分的最主要影响因素;并且相对于导演执导水平和演员影响力,编剧水平对电影评分影响更大。这就说明了对于一部好的电影,大家更加关注电影整体情节是否精彩。

模型结果还表明:大众关注度高和电影中含有方言对评分影响是正向的,但其对最终评分的影响较为有限。此外,是否为联合发行、电影时长变量对电影评分的影响不大。

最后需要探讨的是“电影类型”变量,从模型结果可以发现其对评分的影响似乎没有文章开头预想的那么大。重新查阅数据集后笔者思考出现这种情况的主要原因是:数据集中的电影类型为豆瓣官方自动生成,存在不能识别全部电影类型的可能。这就使得一部本来可以有六七种类别标签的影片,最终只显示其主要类型(两种以下);而有些影片,其类型相对完整,所得的类型评分也相对较高,如此就导致了电影类型变量在模型中的作用程度估计错误。

5 结论

本文首先利用特征工程方法为原始数据集中的定性变量赋值,从赋值结果来看,符合大众预知。在模型变量选择方面,尽量多地考虑到了影响电影评分的各方面因素,并选择了合适的变量对相关特征进行衡量。最终选用的三个模型中,随机森林回归模型效果最佳,建议研究者选用。

最终结论表明:对电影评分进行预测时,首先应考虑编剧水平、导演执导水平和演员表现力;并且应赋予编剧水平较大的比重。建议未来的电影市场多多发现和创造优秀的电影剧本,培养和鼓励更多优秀的编剧人才。对于电影创作团队而言,在电影拍摄中更加注重如何讲好电影故事,而非在名导光环、参演明星上下过多功夫,这点在流量明星评分不敌优秀演员上已得到验证。

其次还需考虑电影的大众关注度特征、语言特征和发行年份,大众关注度高及电影中含有方言等其他元素对电影评分影响是正向的。对于新上映和未上映影片,可将“想看人数”作为大众关注度的衡量指标。相应的,电影制片方和发行方在注重电影宣传的同时,还需在影片细节、语言新意、多种元素引入等方面下功夫。现今,大众审美水平不断提升、观影口味愈发苛刻已经是既定趋势,这就要求电影工作者与时俱进,以更严格的标准去创作和审视一部作品。