20年美赛C题数据集解读与O奖论文思路
1 问题重述(中文)
1.1 背景
在其创建的在线市场中,亚马逊为客户提供了对购买进行评分和评价的机会。个人评级-称为“星级”-使购买者可以使用1(低评级,低满意度)到5(高评级,高满意度)的等级来表示他们对产品的满意度。此外,客户可以提交基于文本的消息(称为“评论”),以表达有关产品的更多意见和信息。其他客户可以在这些评论中提交有帮助或无帮助的评分(称为“帮助评分”),以协助他们自己的产品购买决策。公司使用这些数据来深入了解其参与的市场,参与的时间以及产品设计功能选择的潜在成功。
阳光公司计划在在线市场上推出和销售三种新产品:微波炉,婴儿奶嘴和吹风机。他们已聘请您的团队作为顾问,以在与其他竞争产品相关的客户提供的过去评级和评论中识别关键模式,关系,度量和参数,以:
1)告知其在线销售策略;
2)识别潜在的重要设计功能,以增强产品的合意性。
阳光公司过去曾使用数据为销售策略提供信息,但他们以前从未使用过这种特殊的组合和数据类型。阳光公司特别感兴趣的是这些数据中的基于时间的模式,以及它们是否以有助于该公司制造成功产品的方式进行交互。
为了帮助您,阳光公司的数据中心为您提供了该项目的三个数据文件:hair_dryer.tsv,microwave.tsv和pacifier.tsv。这些数据代表在数据指示的时间段内在亚马逊市场上出售的微波炉,婴儿奶嘴和吹风机的客户提供的评分和评论。还提供了数据标签定义的词汇表。提供的数据文件包含您应用于此问题的唯一数据。
1.2 要求:
- 用数学证据、有意义的定量或定性模式、关系、度量和参数分析来识别、描述和支持所提供的三个产品数据集。这些在星级评论和帮助等级之内和之间的参数将帮助阳光公司在他们的三个新的线上市场产品销售中取得成功。
- 用您的分析来解决阳光公司市场总监的以下具体问题和要求:
a.确定评级和评论的数据度量,一旦他们的三种产品在线上市场销售,这些数据对阳光公司来说是最有用的信息。
b.识别和讨论每个数据集当中基于时间的度量和模式,这些度量和模式可能表明一个产品的声誉在线上市场上正在上升或下降。
c.确定基于文本的度量和基于评级的度量的组合,来最好地表示潜在成功或失败的产品。
d.具体的星级会引起更多评论吗? 例如,在看到一系列低星评级之后,顾客是否更有可能发表某种类型的评论?
e.文本评论的具体质量描述(如“热情”,“失望”等)与评分水平是否密切相关? - 给阳光公司的市场总监写一封一到两页的信,总结您团队的分析和结果,包括您的团队最有信心推荐给市场总监的结果的具体理由。
你提交的内容应包括:
- 一页摘要表
- 目录
- 一封一到两页的信函
你的解决方案不得超过20页,加上摘要、目录和信函最多不得超过24页。
数据集定义:
每行代表划分为以下几列的数据。
● marketplace(string):撰写评论的市场的2个字母的国家/地区代码。
● customer_id(string):随机标识符,可用于汇总单个作者撰写的评论。
● review_id(string):评论的唯一ID。
● product_id(string):评论所属的唯一产品ID。
● product_parent(string):随机标识符,可用于汇总同一产品的评论。
● product_title(string):产品的标题。
● product_category(string):产品的主要消费者类别。
● star_rating(int):评论的1-5星级。
● helpful_votes(int):有帮助的投票数。
● total_votes(int):评论获得的总票数。
● vine(string):基于客户在Amazon社区中撰写准确而有见地的评论所获得的信任,邀请他们成为Amazon Vine Voices。亚马逊为Amazon Vine成员提供了供应商已提交给该程序的产品的免费副本。 Amazon不会影响Amazon Vine成员的意见,也不会修改或编辑评论。
●verified_purchase(string):“ Y”表示亚马逊已验证撰写评论的人在亚马逊上购买了该产品,并且没有以大幅度折扣购买该产品。
●review_headline(string):评论的标题。
●review_body(string):评论文本。
●review_date(bigint):撰写评论的日期。
1.3 数据集概览
-
吹风机数据:
数据大小:11470 rows × 15 columns
时间跨度:2002/03/02——2015/08/31
去重后购买用户数量为:11348。
说明该商品的复购性小,只有122/11348比例(1%左右)的用户进行了复购行为。
统计性描述: -
微波炉数据:
数据大小:1615 rows × 15 columns
时间跨度:2004/6/19——2015/8/31
去重后购买用户数量为:1612
说明只有3名用户出现了复购行为。不到1%。
统计性描述: -
婴儿奶嘴数据
数据大小:18939 rows × 15 columns
时间跨度:2003/04/27——2015/08/31
去重后用户数量:17661
说明有7%左右的用户发生了复购行为,即:1278名用户发生了复购行为。
统计性描述: -
可以发现,三个数据集时间跨度基本一致。但在相同时间段内,销售数据却有极大差别。
1.4 解题思路
其实题目的要求可以总结如下:
- 找出有用的信息。
- 识别和讨论产品基于时间的声誉。
- 将文本与评级的度量结合使用,预测产品的失败与成功。
- 星级与评论之间的关系。
- 文本情感与评分水平是否密切相关。
可以看看O奖论文是怎么做的。后续我也会做该题,并将成果发布在博客里。
2 O奖论文:Riddle of Sphinx: Cracking the Secret of Amazon’s Ratings and Reviews
2.1 摘要
We have witnessed the rise of mass online marketplaces. For example Amazon, one of the biggest online platforms, is worth around $ 915 billion. Guided by the customer obsession principle, it provides an opportunity for the customers to rate the products from 1 to 5. Moreover,buyers can submit a text-based message, namely review, to express their feeling towards the products. The massive data of those ratings and reviews offer a wealth of information remained to be mined. Analysis of text-based messages or rating-based values has received wide attention, yet there is not a method severs as the combination of both, especially for the case of an online marketplace.
【译】
当今时代,我们见证了在线电商巨头的崛起。现在的巨头之一,亚马逊,市值已到9150亿美刀。在顾客痴迷原则的指导下,它为顾客提供了将产品从1评分到5的机会。此外,购买者可以提交基于文本的消息,即评论,以表达他们对产品的感觉。这些评级和评论的海量数据提供了大量信息,有待挖掘。 对基于文本的消息或基于评级的值的分析已引起广泛关注,但是,没有一种方法可以将两者结合起来使用,特别是对于在线市场而言。
To address the above-mentioned challenge, we propose a novel CE-VADER hybrid model for sentiment analysis in reviews, classifying messages into five groups of strong positive, weak positive, moderate, weak negative and strong negative. Empirical results indicate that the proposed five-group classification model correlates to the five-star rating system well. Then a state-of-art informative evaluation model is proposed as the combination of the text-based and rating-based measures. We pick out 1% most informative reviews and ratings of each product to evaluate the properties and propose sales strategies.
【译】
为了解决上述挑战,我们提出了一种新颖的CE-VADER混合模型,用于在评论中进行情感分析,将消息分为强阳性,弱阳性,中度,弱阴性和强阴性五类。 实证结果表明,提出的五组分类模型与五星级评级系统具有很好的相关性。 然后,提出了一种最新的信息评估模型,该模型是基于文本的评估和基于评分的评估的结合。 我们选择每种产品的1%最有用的评论和评分,以评估属性并提出销售策略。
We propose the “reputation” rate based on the differential equation model in the literature to evaluate the reputation of the product. Then we employ an Auto Regression (AR) model as the time series forecasting method to predict future “reputation” rate and the potential success or the failure of each product. AR model shows high accuracy on the validation set with a maximum Root Mean Square Error (RMSE) of 0.131. Pacifiers have a good reputation and predicted to be successful while microwaves and hair dryers have bad reputations and predicted to fail. The results show relevance with the proportions of the continuous five-star or one-star rating sequence. Lastly, we analyze specific words and descriptors to find their correlation to the ratings.
【译】
我们在文献中提出基于微分方程模型的“声誉”率,以评估产品的声誉。 然后,我们采用自动回归(AR)模型作为时间序列预测方法来预测未来的“声誉”率以及每种产品的潜在成功或失败。 AR模型在验证集上显示出很高的准确性,最大均方根误差(RMSE)为0.131。 奶嘴具有良好的声誉,并有望成功,而微波炉和吹风机的声誉较差,并预计会失败。 结果显示与连续五星级或一星级评级序列的比例相关。 最后,我们分析特定的单词和描述符,以找到它们与评级的相关性。
According to our empirical results, we propose some confident sales strategies and recommendations for the online marketplace, e.g., the timing choice of introducing products into market, targeted adjustment according to star ratings, etc. We write a letter to the marketing director of Sunshine Company to summarize our analysis and results, together with our recommendations.
【译】
根据我们的经验结果,我们为在线市场提出了一些充满信心的销售策略和建议,例如,选择将产品引入市场的时机选择,根据星级进行有针对性的调整等。我们写信给阳光公司的市场总监以总结我们的分析和结果,以及我们的建议。
Our framework shows a strong accuracy, robustness. It can be easily implemented to other data with our source codes.
【译】
我们的框架显示出强大的准确性,鲁棒性。 使用我们的源代码可以轻松地将其实现为其他数据。
Keywords: Text-Based Measure, Informative Text Selection, Reputation Quantification, Sales Strategy Formation.