发布日期:2026-01-23 00:11 点击次数:64


词频分析在质性研究中真的能揭示出有意义的洞见吗?如果你本能地持怀疑态度,这并不奇怪。
词频分析的本质就是“数词”,乍看之下似乎与质性研究所强调的诠释精神背道而驰。然而,当你深陷数十份访谈稿、数百份政策文件或成千上万条网络评论时,往往容易“只见树木,不见森林”。词频分析提供了一种“拉远镜头”的方式:它能描绘反复出现的语言,浮现隐藏的主题,并提示你哪些片段值得更细致地检视。
本指南将手把手教你高效使用MAXQDA的“词频”工具。借助取材于常见研究情境的真实案例,你会直观的看到词频分析如何支持一种更具探索性与反思性的研究流程。
如何使用本指南
1. 快速浏览:了解“词频”工具能做什么,以及为何值得把它纳入你的工作流程。
2. 按步骤操作:跟着指引完成一次词频分析,从设置到运行,亲手做出自己的词频统计。
3. 解读结果:跳到“结果解读”部分,把冰冷的数字转化为有温度的洞见。
4. 高效技巧:在“结果表快捷操作”里掌握省时窍门,让后续处理更轻松。
5. 应用灵感:浏览“用例”板块,看看真实场景中的示例,激发你的研究创意。
6. 进阶玩法:深入“词典”与“Go 词表”等高级功能,做更聚焦、更精细的分析。
7. 反思与避坑:阅读“超越数字”章节,识别常见误区,用反思性实践确保发现始终有意义。
8. 只想要关键点?直接跳到“一句话总结”,30秒get关键信息。
1. MAXQDA的“词频”工具能做什么
MAXQDA在其MAXDictio模块中内置了专门的“词频”工具。该功能会扫描你选定的文本,统计其中出现的不同词汇,并以可排序的表格形式呈现每个词的出现频次。无论是访谈稿、焦点小组记录、田野笔记、社交媒体抓取内容、政策文件还是电子表格,它都能轻松应对。
简而言之:你只需选定数据、运行工具,便能立即看到哪些词在你的数据集中占据主导、它们出现了多少次,以及具体出现在何处。最重要的是,这一切都可以通过直观的点击式界面完成。
2. 在MAXQDA中运行词频分析
当你准备好亲自尝试词频分析时,请依次点击MAXDictio › 词频(Word Frequencies)。此外,你也可以在 MAXDictio 菜单中点击“词频”标签,并选择仅统计出现在“词典(Dictionary)”或“Go 词表(Go Word List)”里的词汇;这些选项稍后会有详细说明。
启动工具后,会弹出“词频选项”窗口(如下图所示),你可以在其中根据项目需求设置分析参数。

运行词频分析时,请按以下步骤操作:
a. 选择分析范围
开始前先界定需要统计哪些文本。
• 已激活的文档:只聚焦特定文件,例如仅统计初级受访者的访谈,或仅查看初创公司的招聘广告。
• 已检索的片段:仅分析当前显示的已编码片段。
• 全部文档:若未设置任何筛选,MAXQDA将纳入所有文本。
• 忽略元素:可通过勾选框排除链接、邮箱地址或其他噪音,尤其适用于网页数据或导出的访谈稿。
这一步能帮助你精准衡量真正重要的内容,避免无关信息干扰结果。
自反性检查
检查范围:
仅激活特定文件本身就是一种理论抉择。务必确保所选范围与研究问题相符,而非图一时方便。请在备忘录中用一句话概述:为何纳入这些文档,又为何排除其他文档。
b. 跨组比较
选择如何按项目中的不同部分来拆分词频统计。
• 按文档:发现异常值或由个别文件驱动的特定词汇。
• 按文档组或文档集:比较诸如“第一波访谈”或“30岁以下受访者”等组别。
• 按焦点小组发言人:对比不同角色或参与者(仅在焦点小组数据中可见)。
• 按代码:探究特定主题或分析类别中所使用的语言(仅当分析“已检索的片段”时可用)。
这些拆分方式能够揭示整体汇总视角下无法看到的模式。
c. 微调输出
通过控制计数方式,使结果更贴合研究问题。
{jz:field.toptypename/}• 最小字符数:忽略短小的填充词(如将最小字符设为4,即可跳过 “the” 或 “and”)。
• 停用词表:套用或自建词表,剔除常见却无实质意义的词汇(如招聘广告里的 “team”、法律文本里的 “section”)。
• 大小写敏感:如需区分专有名词或缩写,可将 “Research” 与 “research” 分开计数。
• 词形还原:决定是否把词形变体合并(如将 “gave、given、gives” 都归为 “give”),还是保持各自独立。这在“把握总体趋势”与“捕捉细微差异”之间提供了选择。
设置妥当后,输出结果会更简洁,也更易于解读。
自反性检查
词形还原:
将 “regulate、regulated、regulation” 等形式合并,在法律或政策文本中可能改变其含义。请自问:在你的研究情境里,这些形式是否在概念上确实等同,还是应当分开处理?把决定原因写入项目备忘录。
停用词:
停用词表并非“中性”。移除看似“无信息量”的高频词,实际上会影响哪些模式最终可见。请记录你删掉了哪些词、为何删除,并分别运行一次“使用停用词”和一次“不使用停用词”的分析,观察结果有何变化。
3. 解读词频分析结果
接下来就是最有趣的部分:弄清结果的含义,并用它指引你的后续分析。
点击OK后,MAXQDA会处理数据并生成一张“词频表”。

顶部栏
窗口最上方会给出分析范围与规模的概要:已分析的文档数量、已解析的总词数、不同词汇的总数,以及类符-形符比(type-token ratio,即独特词汇数 ÷ 总词数;这是衡量词汇多样性的粗略指标,且对文本长度敏感)。更多细节可查阅MAXQDA 手册。
表格列
常见列包括:词汇(Word)、词长(Word length)、频次(Frequency)、占总词百分比(% of total)、排名(Rank)、出现该词的文档数(Documents)、文档占比(Documents %)。具体显示哪些列取决于你的分析设置;右击表头即可自定义列的显示。
提示
如果启用了词形还原,将鼠标悬停在某个词上即可查看被合并的词形变体(如上图所示)。对于已合并的词,会出现一个图标 ;把鼠标停在对应行上,就能看到哪些词被归并在一起。
以下策略可帮助你理解这些数字:
• 寻找主导词与反复出现的主题
高频词往往指向核心议题、文化关键词或被反复提及的关切。例如,招聘广告中可能高频出现 “team”“flexibility”“benefits”;访谈稿里受访者可能反复提及 “trust”“fairness”“stress”。这些数据告诉你话语的重心落在何处,但要弄清“为何”如此,仍需回到原始语境细读。把词频当作深入阅读的入口,而非独立结论。
• 跨组、跨代码比较
当你在结果中选择区分显示时,MAXQDA会分别列出每个词在不同文档、组别、集合或编码片段中的出现次数。借此可比较各子群体或主题间的用词差异。例如,在焦点小组研究中,可按发言人区分,比较不同参与者的词汇使用;在政策研究中,可按章节代码区分,观察哪些段落更强调特定概念。这些细分能揭示总体词频无法呈现的微妙差异。
• 用词频指导编码
频次模式可以为编码决策提供线索。若某个词高频出现且与研究问题高度相关,可考虑为其单独设立代码;反之,某个罕见却在理论上至关重要的术语,则可能提示你需要更有针对性地搜索或细读。你甚至可以直接在词频表中创建文档集,查看关键词在数据中的分布,从而锁定值得深入分析的片段。
• 借助词性过滤
MAXQDA允许按词性(名词、形容词、动词等)过滤词频表。当你关注特定语言类型时尤其有用:研究情绪色彩时可聚焦形容词;追踪行动或主体能动性时则可关注动词。通过缩小范围,可减少噪音,使输出更契合分析目标。“词类(Word Types)”选项窗口中,你既可指定文本语言,也可选择要纳入分析的词性。
• 利用表格列发现模式
MaxQDA的结果表不止提供词频。词长、占总词百分比、排名、“出现文档百分比(Documents %)”等列都能提供额外线索。你还可以切换单元格中显示的指标,把频次换成排名、文档数或文档百分比,这在跨文档集或发言人组比较时尤其实用。例如,某词在A组排名很高,却仅在B组偶尔出现,就可能揭示值得关注的差异。并非所有分析视图都开放这些选项,但只要可用,就能为你的解读增添新维度。
迭代式流程
词频分析绝非一次性“数数字”。它可以贯穿整个研究流程:从早期识别关键词,到不断细化编码,再到最终呈现精炼的可视化成果,每一步都为解释增添新的深度。
深入案例:让数字“活”起来
为了把前面的内容融会贯通,我们来看一张示例词频结果表。

上表展示了2001–2021 年间六篇美国总统就职演说中出现频率最高的前 10 个名词,并按文档分别呈现。这种设置既聚焦于富含概念的词汇,又便于对各演说者进行横向比较。
从分析角度看,这种方法在“广度”(整个语料中的高频词)与“精度”(各文档间的差异)之间取得了平衡。追踪名词有助于捕捉核心主题和象征性词汇;如果你的研究关注主体能动性、情态或评价立场,则可以改选动词或形容词进行过滤,因为不同词类能为同一段话语提供独特的切入视角。
仔细研读后,可以发现几条有用的规律:
• 核心词汇奠定体裁基调
“nation(国家)”一词出现在全部六篇演说中,总频次最高,提醒我们总统就职演说首先是“国家身份”的仪式性话语。它的一致性使用折射出“团结”与“归属”的基本词汇。你也许无需为“nation”单独编码,但它的存在为整个话语设定了基准。
• 有些词穿越时间,有些词停留原地
“people(人民)”“country(国家)”“world(世界)”横跨所有文档,表明演说者始终关注集体主体与全球定位。相反,“freedom(自由)”在布什2001年的演说中陡增(25 次),到拜登 2021年却已消失。这种升降需结合语境细读:是政治意识形态、历史节点,还是修辞策略使然?
• 异常值值得深究
“citizen”一词的分布极具差异:在布什2005年的演讲中出现9次,而在拜登2021年的演讲中仅出现1次。这种偏斜往往指向局部化的主题,如对公民责任的强调,或对政府与公众关系的特定框定。点击进入这些片段并细读,异常值通常承载着鲜明的意识形态分量。
• 高频未必等于高价值
像 “today”“day” 这类词虽出现频繁,但多为仪式性标记,作用在于凸显场合而非承载主题核心。把词频当成向导而非价值判定:有些词是脚手架,有些词才是信号。
• “文档占比”揭示使用广度
“文档占比”列显示某一术语在全部文档中的分布广度。“nation”“people”“country”在 100% 的演讲中都有出现,而 “freedom” 和 “day” 仅在6篇中的5篇出现。差异虽小,但在小样本里可能暗示语气或主题焦点的转变。当你需要区分“共有词汇”与“特定时代/特定讲话者的用语”时,先看这一列。
• 把频次当起点,而非终点
当一个词因高频、缺席或位置突兀而引起注意时,继续用 Keyword-in-Context 或 Word Explorer 等工具追踪其在句中的具体用法或与其他词的关系。词频帮你俯瞰森林;真正诠释始于踏入林间。若想深入了解MAXQDA的Word Explorer,可阅读我们关于该功能亮点的博客文章。
这类表格之所以宝贵,在于它将大量话语结构压缩成易读形式,兼顾宏观模式识别与微观细读可能,是高效混合方法文本分析的关键。
请记住:
词频表只能把你引向可能需要进一步探究的现象,它们本身并不能告诉你这些现象在语境中的意义。
4. 结果表中的快捷操作
• 在结果表中右键单击任意词汇即可:
– 将其加入停用词表或词典;
– 激活包含该词的所有文档;
– 基于搜索结果创建文档集;
– 在Word Explorer中打开该词,以便深入查看语境。
• 拖拽合并相似词汇
将概念相关的词拖到一起即可合并;合并后的行会显示∑图标,悬停可查看包含的所有词。如需撤销,点击表格工具栏的 ↶ 撤销箭头即可。
• 点击“词云”图标
一键生成可视化词云,便于展示或快速捕捉核心语言模式。
• 双击词汇
打开详细的“搜索结果”窗口,查看该词在所有语境中的具体出现位置。在此窗口中,你可以:
– 自动编码搜索结果,或
– 将“每篇文档出现次数”保存为变量。
5. 不同数据类型的应用场景
为了展示MAXQDA词频工具的多场景适用性,下面通过几个真实案例进行说明。
招聘广告中的招聘趋势
探索词汇选择如何在招聘话语中反映组织文化。
假设你正在研究科技招聘广告中雇主如何描述远程办公。将近期招聘启事导入 MAXQDA,激活后运行词频分析,发现“remote”“hybrid”“team”等词高居榜首。若按文档组(如初创公司vs.成熟企业)细分,则发现小公司更强调“flexibility”“innovation”,而大机构更突出“benefits”“career development”。
这种词汇差异暗示了不同的组织文化与招聘策略:初创公司凸显自主与创业身份,大企业则强调体制化稳定。词频分析在此揭示了企业如何以招聘语言塑造自身身份与价值观,并促使研究者进一步探究工作条件在修辞上如何被建构以吸引不同劳动力群体,同时反思广告价值与实际工作实践之间的一致性或错位。
发现参与者的用词
看看单词频率如何揭示照护叙事中的代际差异。
在一项关于照护的研究中,你可以对“挑战”这一编码下的片段做词频分析。结果中,“time(时间)”“support(支持)”“stress(压力)”“family(家庭)”等词最为常见。若按发言人细分,则显示:年轻参与者更常提到 “time” 和 “workload(工作量)”,而年长参与者更关注 “health(健康)” 和 “support”。
这些模式提示,照护责任在不同代际中的体验与表述存在差异。对年轻受访者而言,张力主要出现在有偿劳动与非正式照护之间;对年长者来说,焦点则转向健康衰退与情感网络。这类差异可进一步编码,或纳入理论框架,用以探讨年龄相关的角色冲突。
社交媒体中的行动主义
追踪行动话语如何通过高频词建构紧迫与正义。
分析某环保运动的社交媒体评论时,可在“忽略”选项中排除超链接与用户名,并应用停用词表过滤平台特有词汇。统计后发现,“climate(气候)”“justice(正义)”“youth(青年)”“future(未来)”反复出现。
这些高频词暗示话语围绕“代际紧迫”与“道德诉求”展开。其中“justice”与“youth”的突出与气候正义修辞高度契合,强调不平等、责任与时间赌注。与其将这些词视为独立发现,不如把它们的频次当作线索,深入探讨情感与时间如何在行动传播中被调动,从而通向话语或框架分析的进一步研究。
政策文件与法律文本
利用词频比较不同国家语境下的政策范式。
在一项比较政策分析中,你可以按国别将环境法规分组,并以“组别”为单位拆分词频统计。结果表可能显示:一国高频使用 “sustainable(可持续)”“renewable(可再生)”,另一国突出 “compliance(合规)”“obligation(义务)”,第三国则聚焦 “innovation(创新)”“incentives(激励)”。
这些词汇差异可能映射出不同的政策逻辑:或强调可持续性、或侧重监管、或倚重市场激励。词频分析在此提供了一种早期手段,用以捕捉政策框架的差异,并为后续有针对性的编码方案或深入的比较话语分析提供指引。
6. 进阶功能:词典与Go词表
如前所述,除了简单计数,你还可以限定分析范围,只统计“词典(Dictionary)”或“Go 词表(Go Word List)”中列出的特定词汇。两种做法都能让你聚焦于理论驱动的查询,而无需在全部词汇中“大海捞针”,从而支持演绎或溯因分析策略。
词典(Dictionaries)
当你选择MAXDictio › 词频 › 词频(仅统计词典中的词)时,MAXQDA 会把计数范围限定到当前激活的用户自定义词典中的词汇。若你已预先设定类别,如“气候相关术语”“技能关键词”或“政治修辞”,就可用此功能在全数据集里精准追踪这些类别,而不会被无关词汇干扰。
对质性研究者而言,词典不仅是过滤工具,更是“可操作化的概念框架”。精心构建的词典能体现你的理论取向。例如,研究民族主义的话语分析项目可把“领土”“人民”“威胁”设为类别,并为每类列出同义或相关词汇。只要把词频统计限定在这些契合分析视角的词条上,就能更精确地绘制话语模式、追踪意识形态,或检验并完善理论假设。
MAXQDA中的“词典”是按你自定义类别整理的有序搜索项集合。它们既可以是简单的关键词列表,也可以是包含子类别、匹配规则(区分大小写、整词匹配等)的复杂层级结构。词典可在不同项目间复用,支持从Excel或TXT文件导入,并可在数据探索过程中随时交互式扩充。
如需获取创建、整理、导入和管理词典的详细操作指南(含跨项目复用及与编码系统关联的方法),请查阅MAXQDA用户手册中的“词典管理”章节。
Go词表(Go Word Lists)
当你选择 MAXDictio › 词频 › 词频(仅统计Go词表中的词)时,MAXQDA会只统计当前激活Go词表里列出的词汇。其思路与停用词表相反:不是排除不需要的词,而是仅保留你关心的词。
对于质性研究者来说,Go词表能让词频分析更具理论聚焦性。事先指定哪些词与研究问题相关,就能过滤掉词汇噪音,直接呈现与你概念框架契合的模式。无论你关注的是“justice(正义)”“risk(风险)”还是“governance(治理)”,把统计范围限定在既定词汇上,都能更精准地追踪这些主题。
当语料庞大或噪声较多、进行跨案例比较、或采用演绎式编码策略时,Go词表尤其实用。在纵向或多站点研究中,使用统一的 Go 词表还能确保不同数据集通过同一词汇视角进行分析。
如需完整的停用词表与Go词表管理说明,请查阅MAXQDA用户手册。
7. 解读数字之外的内容:常见误区与反思性实践
词频分析是一把利器,但若使用不当,反而可能遮蔽意义,而非揭示意义。下列要点解释了为何频次统计会误导,以及如何在MAXQDA中避免这些陷阱。
频次误导的五大原因
• 量化错觉:把“出现得多”直接等同于“意义重要”,易将频次当结论,而非进一步诠释的线索。
• 多义与语境:同一个词(如 “stress”)既可指生理压力,也可指语法重音,甚至双关。频次把不同语用情境混为一谈,可能放大无关的谐音,却掩盖关键差异。
• 结构性沉默:边缘群体往往通过“缺席”“委婉说法”或“被忽略”的方式在数据中显现。他们的诉求之所以词频极低,正是因为权力关系压制了公开表达。
• 体裁惯例:高度仪式化的文本类型(如官方演讲)充斥程式化措辞,使频次偏向文体支架,而非实质主题。
• 词汇差异:屈折变化丰富或复合词活跃的语言,会把语义分散到多种表面形式,导致单个词频偏低,跨语言比较尤为复杂。
实操保障策略
• 反复核查语境:发现值得关注的词后,立即启动MAXQDA的“关键词语境(Keyword-in-Context)”或“词汇探索器(Word Explorer)”。在编码或解释前,至少阅读其前后各五句话。
• 反思式记录决策:每做一次停用词、词形还原或 Go 词表的调整,都在项目备忘录中写明理论依据(如“将 regulation/regulatory 合并,以追踪法律框架”)。这样既留下可追溯的决策轨迹,也便于日后复盘。
• 组间对比:对不同的文本子集(如“初级员工” vs. “高管”)运行同一分析。若某词在一组高频、在另一组罕见,这种反差往往映射视角差异或权力关系。
• 检查遗漏主题:把最小字符数调低、暂时关闭停用词,再做一次测试。若出现新主题,说明先前过滤过度;若结果无显著变化,则原设置基本合理。
• 追踪罕见但理论相关的术语:为理论上重要却低频的词单独建码,并用MAXQDA 的变量或编码统计功能追踪其分布,确保不遗漏“少数却关键”的模式。
8. 一句话总结:既见森林,也见树木
MAXQDA的词频工具帮你先画出整片森林的地图,让你在树木间不迷路。它告诉你哪里树冠最密、哪里小径分叉、哪里空地值得驻足细看。但地图不等于徒步路线,所以随身带着它,再回到语境细读,记录每一步决策,并不断调整行进方向。
词频分析的真谛不是跟着最大的数字跑,而是把它们当作面包屑一路追踪。借助 MAXQDA的词频功能,你能锁定真正重要的语言模式:无论是发现反复出现的术语、凸显群体间差异,还是找出值得细读的段落。
关键在于:
1) 精确定义分析范围;
2) 用停用/Go词表或词典等工具精炼计数;
3) 回到语境再下结论。
高频词只是提醒你该往哪儿看,意义只有在跨组比较、反思“出现与缺席”并记录决策轨迹后才会浮现。
简言之:
把频次当路标,而非终点。只要配合细致的编码与语境阅读,一张词频表就能成为你深入数据的有力入口。
现在就行动:
1. 打开MAXQDA,对你的一小部分数据运行词频分析;
2. 启用“按组区分”功能;
3. 选出三个对你有意义的词;
4. 用 Keyword-in-Context 逐一查看;
5. 写一段 5 行备忘录,记录理解有何变化。
若备忘录空空如也,换一组设置再跑一次,直到写出内容为止。