用数据品咖啡,407杯咖啡数据教你如何区分咖啡等级和风味
澎湃新闻
原标题:用数据品咖啡,407杯咖啡数据教你如何区分咖啡等级和风味
大数据文摘出品来源:Medium
编译:睡不着的Iris
尝遍世界各地不同的咖啡,我好奇风味差异如何影响咖啡评级。尽管知道咖啡等级会影响口感,但我依旧喜欢一些等级较低的咖啡。
看了下两个咖啡评级数据库,撇去地区差异,我始终搞不明白风味能起到什么样的作用。
因此,我选取Sweet Maria's数据库进行分析。虽然数据库里有每杯咖啡的风味评级,但我首先提取了咖啡的Q级分。接着,我提取了所有豆子的风味评级数据,最终得到一个比原先稍大的数据库,其中有407杯咖啡的数据。
杯测评分(修正Q分)
大数据文摘出品来源:Medium
编译:睡不着的Iris
尝遍世界各地不同的咖啡,我好奇风味差异如何影响咖啡评级。尽管知道咖啡等级会影响口感,但我依旧喜欢一些等级较低的咖啡。
看了下两个咖啡评级数据库,撇去地区差异,我始终搞不明白风味能起到什么样的作用。
因此,我选取Sweet Maria's数据库进行分析。虽然数据库里有每杯咖啡的风味评级,但我首先提取了咖啡的Q级分。接着,我提取了所有豆子的风味评级数据,最终得到一个比原先稍大的数据库,其中有407杯咖啡的数据。
杯测评分(修正Q分)
构建任何数据库,我们都需要花费时间做数据清洗和数据检查。此处,我用Q级分画了一张雷达图,我用原先代码生成了一张扩展的辅助指标评分图。对于咖啡风味数据,为了便于提数,我做了一定的修正。
分析:风味分布
分析:相关性
相关性用于描述两个变量之间的相似程度。相关性高不代表一个变量对另一个变量有什么影响,当发生变化时,两个变量变化趋势相同。我认为一些评级变量最开始具有很高的相关性,因为它们是从不同角度表示咖啡口感。相关性可以是正向(趋势相同)的或负向(趋势相反)。0则表示两个变量没有相关性。
显而易见,杯测分数与花香味指标最相关,许多风味指标都与明亮度杯测指标具有较高的相关性。但奇怪的是仅有27%的咖啡有花香味(要么一点都没有)。
分析:主成分分析(PCA)
主成分分析法(PCA)是将一组变量映射至新的维度空间,原始变量在新空间用新维度表示。简单数据集在不失真的情况下实现了降维,这样,每个Q级分(Sweet Maria’s评分)不需要使用所有的评分项,仅用11个维度表示即可。或许你只需要用到三个或主要成分。
让我们看看所有变量,不出所料,杯测总分是第一主成分,是最主要的影响变量。然而,在鉴别咖啡豆时,风味成分最主要的变量。
此项工作,仔细对比咖啡评级(杯测评级)和风味评级的差异。我发现,评测咖啡产区或加工工艺时,风味等级比咖啡评级更具代表性。咖啡评级应该与风味指标相互独立,而且Sweet Maria’s杯测方法对特定风味不会出现严重偏差。风味偏差最大的是花香味,但它没有其他杯测参数那么强的相关性。
相关报道:
https://towardsdatascience.com/a-review-of-coffee-data-grades-and-flavors-5ccb6fc51941
志愿者介绍
原标题:《用数据品鉴咖啡,407杯咖啡数据教你如何区分咖啡等级和风味》