聊聊方法：在线民族志研究如何获取样本数据？社论前沿减肥健身 56健康网

　　引言：蓬勃发展的互联网环境为民族志研究提供了丰富的机会和素材，但目前研究并未完全展开，很重要的原因是一般性方法论的缺失，导致初期研究没有门路。专注于人群和数据深层次信息挖掘的民族志研究者，常常感到被大量在线资源所压制，因此更多选择专注于非常小的在线样本。这篇文章试图通过对在线博客的系统性抽样方法的讨论，拓展在线定性研究方法的应用范围，并重点强调在初步调查中可能遇到的技术及伦理障碍，以及潜在的解决方法。

　　3、定性分析方法，这是民族志研究者利用在线网络进行研究时最常使用的方法。通常会使用地理上有界的社区（例如学校团体）作为在线研究的主体。定性方法也被运用到探索沉浸式和相对独立的虚拟世界（例如魔兽世界）的民族志研究中，在这里研究者成为了参与者以及分析的镜头。此外用户在社交网站/平台上的行为研究是当前在线民族志研究的热点之一。然而，在这些研究中，多数并没有执行系统性的抽样方法，极大地影响到样本的代表性和分析结果的普遍性。以博客为例，主要的障碍在于，存在着多个博客平台互动（WordPress、Blogger等）和内容类型丰富等特点，造成传统抽样方法的不适用，目前研究者们普遍采取的缓解策略有：①缩小样本量；②使用其他的数据收集形式；③专注于对同一博客不同时间点的帖子的纵向分析；③采用滚雪球等非随机抽样方式。本文作者认为，这些方法并没有触及方法论本身，无法实现真正的抽样优化。

　　研究通过对个案——美国减肥博客的民族志研究的数据抽样过程的介绍，提出了在线民族志研究实行系统性抽样的可行方案，重点聚焦于三个议题：1、在线质性研究中，可以使用怎样的系统抽样技术？2、系统抽样面临的技术障碍有哪些，以及应该如何克服？3、在线质性研究存在哪些伦理困境，研究人员可以采取哪些策略来应对？

　　过往研究指出，减肥话题的博客内容，一般可以由其选择的减肥方式不同而分为：节食、运动、手术等，并且博主选择博客记录的动机也存在着差异性：建立减肥社区相互激励督促、减肥成功后“炫耀”成果及传授秘笈等。同时，当前社会对肥胖者的刻板印象并未消除，很多博主通过自嘲式的幽默口吻来叙述自己的减肥历程，事实上是通过自我陈述的方式机智地建构着在线读者对其形象的认知。因此减肥方式的多样性，以及博主对这一过程的叙述风格，都带来了复杂而时有冲突的方法论和伦理挑战。

　　本文作者在进行这项研究时，首先在抽样之前建立了初步的包含和排除标准。挑选位置为居住在美国，或在“关于我”界面填写了国籍为美国的用户；另一个指标是仅收集那些直接参与减肥话题讨论、记录减肥进程、讨论肥胖耻辱等话题的博客，包含了自我认定为减肥博客和讨论过减肥话题的博客两类。因为选择了个人博文，而非博客账号本身作为分析单元，所以情况更为复杂样本。而具体抽样策略共有四个阶段，如下图所示：

　　第一阶段，由研究者根据过往研究结论，列出与话题相关的高频关键词（人为判断），作为种子（seed），例如“体重歧视”、“节食餐单”等，使用Google对关键词进行搜索，生产一个非系统性的随机抽样样本。注意，这些词汇提供的非随机样本并不包含在最终样本中，仅用作试点分析，生成第二阶段至第四阶段数据收集/搜索所需的关键术语（经验数据支撑）。

　　第二阶段，基于第一阶段分析获得的12个高频术语，查询其在三大搜索引擎：Google、Bing和Yahoo中的分布情况，搜索引擎内及跨搜索引擎的重复结果仅记录一次。最终收集到112篇符合标准的博客文章。

　　第三阶段，在第二轮112篇博文基础上进行迭代搜索，使用purposive sampling （目的抽样）来扩展样本博客的多样性，尤其是性别、地理位置、宗教信仰及其他在过往研究中被认为是对肥胖和减肥态度有重要影响的人口学因素，第三轮收集的筛选标准与第二轮一致。尽管减肥在美国受到了广泛关注，但人们的表达即表达的关切程度是明显不同的，这也是采取目的抽样的原因。这一步骤中，又有86篇博文纳入到样本中。

　　第四阶段，使用DuckDuckGo对先前生成的搜索短语再进行一轮搜索。这是一款不会根据用户的人口统计信息或搜索历史来优化搜索结果的搜索引擎。目的在于验证前述抽样结果的代表性。在这一阶段又产生了36篇博文样本。

　　因此最终研究获取了来自234位不同博主的234篇博文。为了确保样本的多样性以及进一步的分析需要，同时收集了博主的地域即背景信息。

　　对234篇博文的数据分析，采取了 Bernard, Wutich, and Ryan (2016)的定性主题编码法（thematic coding methods）。同时，研究还收集了234个样本在2005-2015十年间的减肥主题的更新状况。收集了这10年1月和6月的相关博客条目（前者是新年计划，后者是进入到泳衣季），通过纵向分析探讨了博主对体重和减重态度的变化。

　　简单来说，这份研究采取的系统性抽样策略为：用“种子”搜索词来对在线文本进行抽样，生成经验性的搜索短语（1阶段）；随后使用迭代抽样策略(2-4阶段)，以确保样本的系统性和代表性。这之中遇到的技术障碍有：

　　1、搜索引擎本身算法的影响，也就是说搜索引擎呈现的结果排序可能并不仅仅依据研究给出的标准。例如基于Google的搜索结果就可能受到其PageRank算法的影响，显示出系统频繁链接的内容优先级更高。此外，浏览器基于用户“历史浏览记录”优化推送搜索内容也会对研究样本的提取产生一定的影响，称之为“cookies”。研究的解决策略是引入第三方搜索引擎，例如DuckDuckGo来克服。

　　2、与搜索引擎算法相称的搜索词很难以经验性和系统性的方式生成。多义词、同义词和垃圾邮件等因素，使得构建相关的关键词非常困难。本文案例的策略是，首先使用关键词的非系统性和非正式性列表（例如减肥博客和体重歧视）作为“种子”来定位和分析第一轮博客文章。然后，这些博客帖子的内容用于创建自然语言和关键词所构成的搜索短语（例如“我的减肥斗争”、“节食体验”等），这些来源于“经验数据”的搜索短语相较于原始的关键词（研究者列出的），更具统计科学性，同时为了过滤无效的广告文本，另一个策略是仅收集个人博主的博客内容，但事实上仍然无法避免普通用户博文被忽略的问题（写作策略和关键词选取的应修）。而对于未来研究而言，开发一套能够记录和纠正这些可能的错误来源的系统方法，将是推进研究方法改进的重要一步。

　　1、博客的隐私性和社交性的边界模糊，因此研究者仅选择了对公众开放的博客。

　　3、尽管研究人员回根据博客中列出的高度私人性故事来对作者进行匿名处理，这种处理方式仍然带有道德风险。因为匿名化实际上可能会抹去博主对于分享行为是否存在风险的主观认知信息，并且与博主个人的建构线上身份和交流圈的尝试相悖。本研究的策略是，尽可能引用博客原文来表述。当然，如果研究人员追求更为嵌入式的民族志研究，则可能会直接向被调取者询问隐私级别。

　　4、另外，由于用户可能拥有多个社交平台账号，而各账号之间可能会出现互相关联的现象，那么研究人员使用博主的其他（如Twitter）账户信息来确认其本人的人口统计学信息和减肥历程的描述真实性，是否符合道德和方法论上的可接受原则呢？在这份研究中的策略，是坚持了机构伦理审查委员会（IRB）提供的原始参数，并且只专注于博客，但作者也承认这种方式是非常人为的，因此文章建议研究人员可能需要与IRB进行更为密切和持续的对话，以便在研究方法和网站的选择上能够更灵活地应对网络空间的互动性和动态性特征。

　　本文阐述了一些线上民族志研究可能遇到的关键性技术障碍和伦理挑战，旨在借由对减肥博客研究的数据收集和分析过程的阐述，抛砖引玉，激发学界更为广泛的关注和讨论，讨论如何以更为系统性和可复制的方法收集博客及其他在线文本数据，同时做到尊重和保护内容的生产者。