钉子の次元

Dimpurr – 千里之行,始於足下。

BigDataGumi 一期小记 – 浅尝爬虫数据抓取和简单可视化分析 (PySpider)

这学期在学校选修了一门名为「大数据分析技术导论」的公选课,课上纲领性的介绍了目前正处风口的大数据时代的特点,数据挖掘技术的操作过程和实际应用,并从统计分析基础和数据分析工具介绍两方面介绍了一些实践性质的内容。因为是导论性质的课程,课堂内容侧重介绍和应用的性质居多,而对围绕 Hadoop 和 Spark 的实际大数据技术栈,只简单按分类介绍了 MapReduce 、 NoSQL 类数据库、数据集成等常用工具的功能和使用场景,除了最后一节课以 Weka 为例示范了简单的数据集统计分析和经典机器学习模型训练,其他并没有深入讲解到实践操作部分。

作为课程考核的一部分,在分析论文、利用数据集进行分析实验两个选题中,我选择了后者。因为不可能有合适的平台练习分布式存储、批处理和持续集成,最后决定自己爬取一份数据,把简单数据可视化分析的流程跑通。中间踩坑的过程非常多,实际上大部分的想法都没有成功,但是尝试的过程中,对大数据领域工作流和技术栈的加深了解,应该算是达到了这个导论课本身的意义。

BigDataGumi 动画评分数据可视化分析

BigDataGumi 动画评分数据可视化分析

这篇文章记录了利用 Bangumi 番组计划 (bgm.tv) 网站的动画条目和评分数据,进行数据统计分析的项目「BigDataGumi」的初步进展,包括设计网页爬虫抓取数据、利用可视化分析工具尝试获取有价值信息的实际操作部分。一些没有实现的想法和没有呈现在结果中的可能的学习方向,也会作为学习经历的一部分记录。项目的下一步想法是训练一个 tag-orinted 的机器学习模型,能够计算动画的 STAFF 构成和 TAG 标签属性对评分影响的权重,并根据 STAFF 和 TAG 数据预测新番的最终稳定评分,在撰写本文时仍在进行中。

尽管这个项目目前的进展不怎么大数据,不过如果你和之前的我一样从未接触过数据挖掘这个领域,从这篇文章你可以看到简单的数据爬取和可视化分析的操作流程,并且了解到数据分析部分领域的概貌。涉及到的都是非常粗浅的内容,见笑。 READ MORE →

动画「ef – a tale of memories.」:把不想忘记的思念融进心愿 ……

本文原载于 Bangumi.tv Dimpurr » 日志 » 「把不想忘记的思念融进心愿 ……」

词不达意。

很多次看完动画都有提笔一写的冲动,最近的一次大概还是「结城友奈」。那时都选好了头图,甚至拟好了标题,却无法动笔。

心中的所思所想太过混杂;自己混乱的文字,能否传达出丝毫?抑或是只有彻头彻尾的反效果?我想叙说的那些事情,我真的做好的准备了么?还是徒增笑料,成为自己都不愿意回看的文字?我知道自己经常带着极强的偏好和预设去代入故事;我知道自己特别喜欢按自己的口味截取和曲解动画;我知道我的关注点很可能与很大一部分人不同。我不知道自己是否已经可以理直气壮的说出自己想说的内容,而不必担心自己笨拙的描述让人误会了内涵。

但是这次如果我不写,我根本无法称自己看完了一季 ef ;如果我不动笔,那么那部我眼中的 ef 便无处存在。

ef – a tale of memories.

相比别的话题作,对于 ef 一开始并没有太多预设的了解。只知道是 GalGame 游戏改;知道还算出名, Bangumi 排名和评价也算挺高。后来无意间跳跃着看了下第一集,才知道是大沼心监督,为出色的表现手法惊叹过后,并没有太弄懂故事的主题,于是决定等有时间了再补。其间依稀听说过原作 minori 的一些故事,然而也并没有留下特别深刻的印象。

READ MORE →