国内最专业的IT技术学习网

UI设计

当前位置:主页 > UI设计 >

一部电影能否大卖?用机器学习来精准预测吧

发布时间:2019/09/12标签:   电影    点击量:

原标题:一部电影能否大卖?用机器学习来精准预测吧
片子数据库(TMDB)为片子数据供给了一个API,人们能够从该数据库中下载数据。那末,在仅晓得片子上映前的局部信息的情形下,能否能猜测片子的评分和票房?甚么参数最能猜测一部好的或最卖座的片子?采纳甚么声威或用甚么演员能否能关心猜测片子票房?咱们随机地在90%的片子上做了一个模子,并在剩下的10%的片子上测试了该模子。而关于这些测试模子的片子: 正确地猜测片子票房存在必定的挑衅性。依照生手的说法,在片子刊行前,只晓得无关片子的一些现实,这个模子( R² = 0.77)能够做出正确的猜测——比方,片子公司能够提早决议能否在一段时光内刊行一部片子。 猜测片子评分更加艰苦。假如和仅猜测每部片子的均匀评分(失掉 R² 值为 0.53)比拟,咱们或者能够做得更好一些。 晓得Denny Caira吗?片子摄制组被以为是在评分猜测中辨别片子优劣的要害要素,也是好评和差评片子间最大的差别。摄制组对片子优劣的影响水平比演员要大很多。 咱们发觉了一些有味的货色。上面能够检查与高分和高票房片子最相干的演员名单。一部电影能否大卖?用机器学习来精准预测吧数据一部电影能否大卖?用机器学习来精准预测吧数据标志得很好,但会波及太多细节。咱们作以下总结: 片子数据库是基于片子界树立的,其数据由民众供给,因而,并非全部数据都确切存在或非常正确。比方,该数据库中有900多个收益值缺失。 疏忽了一些无用变量,比方片名和主页。明显这些变量并不能用于猜测片子能否胜利。 一些变量因为某些起因被移除:(1)出品国,由于此中的信息存储在出品公司;(2)原版言语,由于该局部重要为白话,除了多数破例;(3)受欢送水平,由于很显明这是片子上映后权衡的。作为输出项的变量为: 估算 题材列表 上映日期——分为年份和日期 言语列表 上映时长 出品制造公司名单 演员声威 摄制团队声威 要害词——提醒用户的要害词列表。固然,一些要害词只要在片子上映后才会晓得,但并没有流露太多。代表性要害词是“基于小说”给出的。用于猜测模子的变量有: 用户投票(相似于IMDb评级,本文称为“评分”) 用户讲演的票房支出(本文称为“票房/支出”)数据预备源链接: https://github.com/rian-van-den-ander/explorations/tree/master/film_success/data_prep.py成绩1:票房数据不敷好 咱们移除了零支出行,共900行。如许做并欠好,但不能经过零支出行猜测片子票房。 咱们调剂了票房支出以顺应通胀。最后,咱们认为这并不会有甚么差别,但现实大将R²值进步了0.02。成绩2:怎样表现上映日期? 咱们决议将变量分为详细年和一年中的详细天。分为详细年是由于票房支出确定与天下生齿和社会形式相干。分为一年中的详细天是由于片子票房能够与圣诞节或暑期等时光上映无关。这么做是无效果的,由于用一年中的详细天猜测票房支出是猜测模子中前30个主要变量。一个更大的成绩3:很多是JSON列表 一些专栏有内置的列表:每种题材、要害词、出品制造公司、言语、演员声威、摄制组现实上都是题材、要害词等的列表。咱们所知的呆板进修并不能处置这些数据。 必需创立一个新的库来将这些列表转换成顺应模子的专栏,这个进程称为分类特点编码。 这发生了一个新的成绩:有太多的演员,摄制组职员和要害词,电脑难以处置。因而,必需限度每个输出列的值。这对模子来讲不太好,由于咱们当初只选了500名最一般的演员,500名最强演员,100个要害词和100个片子制片厂。不外,这一成绩能够经过把处理计划托管在云端,并在模子练习中投入更多精神,或投入更多耐烦而失掉处理。JSON演员列表行就如以以下举的一样:[{"cast_id":242,"character":"JakeSully","credit_id":"5602a8a7c3a3685532001c9a","gender":2,"id":65731,"name":"SamWorthington","order":0},{"cast_id":3,"character":"Neytiri","credit_id":"52fe48009251416c750ac9cb","gender":1,"id":8691,"name":"ZoeSaldana","order":1},....

版权信息Copyright © 银河官网 版权所有    ICP备案编号:鲁ICP备09013610号