飞鲸投研 > > 贝壳号 > 正文

台湾学者研究表情包做情感分析，数据集包含3万条推特，最难的竟然是道歉！

贝壳号 | 发布于2021-06-03

自然语言最美妙和最可恶的地方都在于它是有歧义的

例如同样一句话，以不同的语气说出来，可能是完全不同的含义。

例如使用微信打字交流，或者发一条朋友圈，朋友们错误地领会了你的感受，那可真是太尴尬了。

但是当你加入了表情包，就相当于说话中带了语气和表情，那文本的情绪就很好判断了。

显然，研究文本和表情包之间的关系，也属于自然语言处理(NLP)领域。

来自台湾的研究人员提供了一种在社交媒体论坛和语言研究数据集上进行情绪分析的新方法——通过分类和标记动画 gif 来呼应发送的文本。研究论文已经上传到arxiv上。

台湾学者研究表情包做情感分析，数据集包含3万条推特，最难的竟然是道歉！

由台湾国立清华大学的 Boaz Shmueli 领导的研究人员，使用 Twitter 内置的 gif 表情包数据库作为一种指数来量化用户反应的情感状态，避免了一个情绪检测模型需要应对多种语言的情景，同时还能判断用户是否是真的在讽刺，或从模糊、过于简短的文本中识别核心情绪的类型。

台湾学者研究表情包做情感分析，数据集包含3万条推特，最难的竟然是道歉！

论文中将 gif 表情包的使用描述作为一种新型的标签，这些类型在 NLP 情感数据集中还不存在，并指出现有的数据集要么使用情感的维度模型（例如表达的情感持续时间、反馈结果等维度进行分析），要么使用离散情感模型（情感标签），这两种模型都不能揭示文本内在真实情感的状态。

例如一个推文下的回复 gif，可以揭示推文下的真实情感。暖男大白在线安慰。

台湾学者研究表情包做情感分析，数据集包含3万条推特，最难的竟然是道歉！

论文中同时发布了一个包含30,000条讽刺推文的数据集，其中包含了 GIF 的反应

这种方法为 NLP 提供了一种与其他现有文献不同的区别: 一种区分感知情绪(读者从文本中识别出来的情绪)和诱导情绪(读者对文本的反应体验到的情绪)的方法。

对于一个想要分享自己痛苦情绪状态的帖子的安慰回复来说，当这个回复中没有文本只有一个表情来说，一个适当的 GIF 是有意义的简化（无需语言表达），并且能表达出明确的意图，这些研究集中在 GIF 回复的类型。

例如，像“这太残忍了，伙计”、“这是一种耻辱”或“ Awww”这样的回复反应，包含了潜在的、模糊的意图，但是 Twitter 上有数百个拥抱类的 gif ，某些拥抱可以进一步解释表达者的含义，更明确的解释空间。

台湾学者研究表情包做情感分析，数据集包含3万条推特，最难的竟然是道歉！

尽管如此，在任何单一的gif 回应中，像大白的拥抱，还有许多其他的情绪或观点指示图，包括多种类型的影响状态，还包括对回复者和原始推文之间关系的家庭假设的立场。

这样看来，拥抱也是十分复杂的行为

台湾学者研究表情包做情感分析，数据集包含3万条推特，最难的竟然是道歉！

ReactionGIF 数据集来源于 Twitter 上每个可用反应类别的前100个 gif，形成了一个包含4300张动画图像的数据库。

如果一个 GIF 出现在不止一个类别中，那么在图形用户界面中位置更靠前的表情，具有更高的权重。

出现在多个类别的图像由反应相似度（reaction similarity）来度量哪个情感类别更加匹配。

然后利用层次聚类和平均链接发现情绪和表情之间的密切关系

台湾学者研究表情包做情感分析，数据集包含3万条推特，最难的竟然是道歉！

数据集是通过对30000条推文应用这种方法生成和标记的

由于Reaction类别具有丰富的情感信号，允许研究人员在积极和消极反应类别集群的基础上，增加额外的情感标签数据集，并添加情感标签与专门的反应-情感映射范式，基于三个人类评估者对样本推文的少数服从多数来找到真正的情感类别。

雅虎和华尔街罗彻斯特大学之前的工作处理 gif 的标注，但没有引入这篇论文中讨论的推特中包含的文本，也没有任何情感类别，纯粹是语义上的分析。

来自台湾的研究人员通过4种方法对数据集进行了评估: RoBERTa，卷积神经网络(CNN) 和GloVe、逻辑回归分类器，以及简单多分类器。

结果清楚地表明了每一类的置信度的权重都很高，认可、赞同和同情最容易辨认(也最具代表性) ，而道歉最难评估，也许因为这包括一些挖苦的情绪。

台湾学者研究表情包做情感分析，数据集包含3万条推特，最难的竟然是道歉！

RoBERTa模型在情感反应预测、情绪诱导预测和情绪诱导预测三种评价方法中得到的测试平均值最高

研究人员观察到，在基于 nlp 的情绪和情绪分析中，识别诱导情绪是最具挑战性的任务之一，并且使用反应 gif 作为代理为以后的项目提供了收集大量廉价的、自然产生的、高质量的情感标签的可能性。

尽管这项研究专注于嵌入到 Twitter 用户体验中的一个非常特殊的 gif 位置，但是这项研究认为这种方法可以推广到其他的社交媒体平台，以及即时通讯平台，并且有可能在情感识别和多模式情感检测等领域使用。

编辑按：本文转载至微信公众号 “新智元”,贝壳投研经授发布

飞鲸投研从多维度分析，整理了一份《成长50》的名单，可以关注同名公众号："飞鲸投研"：feijingtouyan，进行领取（点击复制）

Tags：新智元界面

相关推荐

该文观点仅代表作者本人，飞鲸投研系信息发布平台

/阅读下一篇/

时代呼唤数学家

24小时热榜

脱水研报

内生外延双驱动,签约中石化，检测龙头华测检测好在哪？

公司成立于2003年，公司是一家集检测、校准、检验、认证及技术服务为一体的综合性第三方机构，在全球范围内为企业提供一站式解决方案，主要从事工业品、消费品、生命科
如何分析企业的成长性？还是得看公司公告呀！

你知道影响公司成长性的因素有哪些吗？学习成长性分析，最好的学习资料是研报、书籍还是其它的什么？个人拙见，看公司公告就足够了。不论是证监会问询函还是招股说明书，里
上半年营收58亿，布局新能源电连接，公牛集团享受成长红利！

2021H1收入58.20亿元（+41.6%），净利润14.21亿元（+76.9%）。电连接、墙壁开关、LED照明、数码配件分别增长32%、61%、62%、31
帝亚吉欧入主，定位清晰，水井坊能否走出独立行情？

水井坊前身是全兴股份，原主导产品全兴大曲历史底蕴深厚，具有纯正的名酒血统。全兴大曲不仅是川酒六朵金花之一，也是中国老八大名酒之一，在1963年、1984、198
古井贡酒：起了大早赶了晚集

近年来白酒行业体制机制改革推进明显加速，五粮液、汾酒等均通过各自方式实现国改推进，实现经营改善。其中五粮液三年定增落地，销售端和管理端不断变革。汾酒签订国改目标

名家观点

龙头大师兄|暴跌，跑不跑？

一隐秀路大佬就是这波主多南天的主力，今天下午又再度拉回，从同花顺超级盘口看它从水下一路点火，要不是大盘太弱了大概率能走出地天，上次也是在一片绝望中隐秀路大佬引导
老丁说股|下周反弹有预期，但关键的底在哪？

这一周的弱势，始于外资的大幅出逃，不过，周五的弱势，却怪不了人家，参考下北上资金，尽管深港通有一定流出，但也谈不上很大，沪港通更是流入的，所以，周五的弱，纯属于
龙头大师兄|茅台何时止跌？

以岭药业：这个票近期是一路小快步上行，到了今天终于是走了加速，明天溢价问题不大，但周四涨停也说明短线资金进来了，短期估计短线资金还会关注这里，明天预计冲高问题不
老丁说股|短期多方不怂，歇一歇再反弹

10月份已到了最后几天，三季报也进入到了最后的集中披露，而这个时候，就要注意下不及预期的雷股了。怎么规避不及预期的可能雷股？如果对个股基本面不是很了解，还真没什
老丁说股丨二次止跌临近，只需注意一前提

第二段，就是11点之后，不管是中午前的强反击，还是午后的回落，以及随后的僵持，跟北上资金的节奏几乎完全同步了，这意味着，多空双方都选择了观望，然后，才有了北上资

热点题材

中国移动百亿规模光缆集采启动、行业供需结构有望改善，通信光缆概念股可关注

特发信息（000070）、亨通光电（600487）等。
工信部表态、进一步完善动力电池回收利用制度，电池回收概念股可关注

点评：我国新能源汽车市场保有量与日俱增，而作为新能源汽车核心的动力电池用量水涨船高。业内人士表示，目前国内首批进入市场的汽车动力电池已经迎来“报废期”。尽管政策
中国游戏产业年会召开、元宇宙游戏概念股可关注

昆仑万维（300418）表示，旗下Opera游戏浏览器加上游戏引擎是向开放的元宇宙迈出了第一步；顺网科技（300113）将对两个已落地运营的边缘计算产品进行全
小型核电全球首堆开建、颠覆性技术助推碳中和，核电概念股可关注

业内认为，SMR在安全性、多用途、灵活性方面具有大型核电不可替代的优势，如建造时间只需3年（大型核电站5年以上）、高安全性可以建于大城市周边（大型核电站应急规划
充换电产业大会即将召开、新基建关键一环，换电概念股有望爆发

点评：充电桩是新基建重点投资方向，是电动汽车产业发展的基础设施和关键一环。世界各国都在将对电动汽车的补贴向充电设施建设转移。财政部、工信部等四部委发布关于进一步

台湾学者研究表情包做情感分析，数据集包含3万条推特，最难的竟然是道歉！

自然语言最美妙和最可恶的地方都在于它是有歧义的

论文中同时发布了一个包含30,000条讽刺推文的数据集，其中包含了 GIF 的反应

这样看来，拥抱也是十分复杂的行为

然后利用层次聚类和平均链接发现情绪和表情之间的密切关系

数据集是通过对30000条推文应用这种方法生成和标记的

RoBERTa模型在情感反应预测、情绪诱导预测和情绪诱导预测三种评价方法中得到的测试平均值最高

24小时热榜

最新资讯