早报大事 >什幺书会畅销?数据比你知道得更多 >

什幺书会畅销?数据比你知道得更多

2020-06-16 11:11| 发布者: 早报大事| 查看: 933| 评论: {php} echo

执行编辑:林婷娴
美术编辑:张语辰

「数据分析」结合「机器学习」,探勘书市商机

谁在买书?买什幺书?这是规划出版与行销计画时,需考量的因素,过去仅能用专业经验判断,现在透过资料分析与机器学习,可以用客观的科学辅佐主观的决策。中央研究院资讯科学研究所陈昇玮研究员,带领资料洞察实验室,找出书籍销售数据中潜藏的商机。

资料科学:先搞懂如何发生,再让它发生什幺书会畅销?数据比你知道得更多
资料分析的四个阶段:描述、诊断、预测、指示。(

资料分析并非输入数据、按下Enter键,就能得到立即性的结果,其工作至少可分为四个层次:

描述:了解眼前发生了什幺,例如读者是什幺样貌 诊断:用电脑来诊断眼前这件事为何发生,例如某些书籍的销售为什幺特别好 预测:未来会不会发生某件事,例如预测新书的销售表现 指示:如何促进某件事在未来发生,例如建置自动荐购系统或上架小工具,帮助提升新书销售;或是帮书籍做更合适的命名以及封面设计

分析原始资料就像在砂砾中淘金,虽然不用冒着日晒雨淋的痛苦,但需长时间与电脑折腾,结合数学、统计、机器学习、资料探勘与资料视觉化的专业,整理资料的逻辑,找出隐藏在数据中的含意。若遇到非结构化的资料,在分析前尚需花额外的心力半自动或手动地将之转换为结构化资料,才能使用分析技术来处理。但正因资料分析可以找出隐藏在数据中的洞察、辅助人类的思维,是一门值得投资心力的科学。

中研院陈昇玮团队与博客来合作,将2014年12月至2016年3月间的匿名购书资料,结合政府资料开放平台的数据,包含各个地区的综合所得税申报情况、教育程度、2016 年总统大选得票数等,探讨购书行为和读者生活型态的相关性,将不同购书客群之间的「差异性」数据化,藉以回答谁在买书、买什幺书、什幺书会畅销等问题,进而将资料科学的思维引入出版界,让出版人不用再只是凭着经验及感觉选书及做书。

什幺人在买什幺书?什幺书会畅销?数据比你知道得更多
博客来各类购书读者:性别x年龄(资料区间为2014年12月至2016年3月间)(

从博客来的匿名消费资料,显示读者基本样貌与购书兴趣为:男性较多购买自然科普、电脑资讯和商业理财的书籍,女性较多购买亲子教养、饮食、童书和青少年文学。长辈较多购买童书、宗教命理和医疗保健的书籍,而年轻人较多购买轻小说、漫画和语言学习的书籍。

一样米养百样人,一种书也养百种人

在规划出版与行销策略时,有一个盲点常被忽略:

过往看销售报表与会员资料时,经常会把读者视为只有一种样貌:例如财经读者就是白领阶级。但陈昇玮与团队定义「差异式读者样貌分析」,一层一层深入子类别探勘资料,证实同一个书籍类别亦存在「多重客群」。

以「小说」这个大类别为例,爱看「小说」的不会只是同一群人,例如都是戴着眼镜的文青。同性爱小说和爱情小说的读者主要是年轻人,而历史武侠和文学研究的小说,读者群以长辈为主。若进一步深入分析武侠小说中的「金庸」这个子类别,更存在两种主要客群:15岁以下的青少年和40~50岁的中年人。

这反应出一个课题:出版与行销规划需更分众、更精準,无论是沟通的宣传语言、购买的行销版位,皆需考虑多重客群的存在。

什幺书会畅销?数据比你知道得更多
博客来读者样貌差异:文学小说类别(资料区间为2014年12月至2016年3月间)(
从购书数据一窥社会现象

世间男女情爱纠葛,李组长眉头一皱发现事情并不单纯,这种社会议题不只在电视剧或新闻中出现,也显现于购书行为中。

在商业理财的类别,存在许多教导如何成功的书,数据显示25岁以前偏好购买「生涯规划」类的成功经验书籍,而30岁之后改买如何「致富」的成功指导书籍,显示30岁大关是人生觉悟的交叉点,与其花时间规划生涯却前途迷茫,快速致富还比较实际,但也可能因为30岁之后除了养自己也要养家人,肩膀压力更重了。

另一方面,低收入族群偏向购买「投资理财」、「网路创业开店」的书籍,高收入族群则偏向购买「传记」、「快乐学」的书籍,显现M型社会下两种不同人生方向与思维,有钱人需要学习如何快乐,而中产阶级正朝着累积财富努力。

若将男性与女性消费者购买的书籍类别和数量,以书籍关键字作成文字云,明显看出男女想法大不同。在「心理励志」这个书籍类别中,男性多关注「把妹、正妹、搭讪」,书中自有颜如玉是从古至今不变的智慧。而女性多关注「幸福、疗癒、女人」,显示现今女人越来越懂得要爱自己,是个乐见其成的社会风气。

什幺书会畅销?数据比你知道得更多
博客来读者性别偏好的差异:心理励志类为例(资料区间为2014年12月至2016年3月间)(
什幺书会畅销?数据比你知道得更多
博客来读者性别偏好的差异:饮食类为例(资料区间为2014年12月至2016年3月间)(

无论是卖书或餐饮业,都值得注意年轻人与长辈的喜好差异。「甜点、鸡尾酒、厨艺、咖啡」相关书籍热销,与近来市场上年轻族群的甜点学校、咖啡开店热潮相辅相成。而长辈较喜欢「健康、养生、好吃」相关书籍,对于市场而言,开发同时符合健康及好吃需求的餐饮,是显着的商机。

陈昇玮与团队以「书名关键字」,找出关键字与畅销书之间的相关性。在医疗保健类发现,「养生」这个关键字不受读者欢迎,反而是「名医、改善、疗法、奇蹟」这类关键字能抓住读者的眼球与荷包。也许这反应出一个医疗保健现况:在一秒钟几十万上下的今日,人们不注重花费时间经营的健康之本──日常养生,而是在症状出现时追求速效的医疗结果。

什幺书会畅销?数据比你知道得更多
书名关键字与销量的相关性:以博客来医疗保健类别为例(资料区间为2014年12月至2016年3月间)(
什幺书会畅销?数据比你知道得更多
书名关键字与销量的相关性:以「轻鬆」为例(资料区间为2014年12月至2016年3月间)(

「文字」在不同环境中,会发挥不同力量。同一个书籍关键字,在不同书籍类别中,会产生不同的销售表现。例如,「轻鬆」这个字是行销时常使用的关键字,彷彿在告诉消费者一旦买了这个产品,就能豪不费力地享受好处。对于「轻鬆投资、轻鬆存钱、轻鬆提升业绩」这类轻鬆致富的愿景,读者们的想法是「反正我是信了」。但如果在不努力就没有收穫的语言学习类别,就算告诉读者「轻鬆说英语、轻鬆搞定文法、轻鬆学日文」,销量显示读者们不会买单。

哪些书会畅销?除了财神,也能问问电脑

以上内容尚处于资料分析的「描述」和「诊断」阶段,真正有意义是分析的第三阶段「预测分析」,藉由机器学习技术自动归纳出书籍销量与各式书籍属性的相关性,进而建立销售表现的预测模型。

什幺书会畅销?数据比你知道得更多
书籍销售表现的预测模型(

在「预测分析」这个工作阶段中,陈昇玮团队运用「书籍属性」、「书名关键字」及「上市前的市场状况」来发展畅销书预测的模型,以文学小说类别测试,其畅销书的预测準确度可以接近八成。预测分析的最终目的为「指示型分析」,也就是资料分析的第四个工作阶段,透过程式的指示提供最佳化建议,例如书名及副标怎麽下、书介如何编排、预览图片要放哪几张、如何订价及折扣等等,协助拉近书籍与目标消费者的距离。

有时资料分析的结果很残酷,会显示过去在编辑与行销上的直觉是不符合现实的,有时则能佐证某些观察的可信度。资料科学及人工智慧技术,并非为了取代人类而生,最重要的观念是:从经验导向的世界换位思考,以客观的资料事实及科学方法,辅助决策的进行,提高决策的正确机率。

现在,无论在出版业、零售业或电子商务领域的你,準备好用「资料科学」突破过往的认知了吗?



图文推荐

推荐阅读