心理测试:建设，管理，效度|学校工作助手

心理测试:

心理测试是我们使用标准化测试的心理学的分支，构建它们以了解个人差异。

心理测试是指使用心理测试的术语。它是指心理测试的所有可能的用途，应用和潜在的概念。

测试：

测试被定义为一系列问题，基于哪个信息。

心理测试:

心理测试是一个客观的和标准化衡量行为样本。

要么

心理测试是通过语言或非语言行为的样本，对一个特征的一个或多个方面进行定量或定性的标准化测量。

心理测试的目的：

在心理学和教育学中，测试的目的有两个方面。

首先，它试图在两个或两个以上的特征方面比较同一个人。
第二，两个或两个以上的人可以就同一特征进行比较。这种测量方法可以是定量的，也可以是定性的。

良好测试的特点：

对于科学声音的测试，它必须具有以下特征;

客观性：

测试必须具有客观性的特征，即它必须不受主观因素的影响，以便专家之间对测试项目的意义和评分有完全的人际一致。这里的客观性指的是测试的两个方面

客观性的物品：

通过物品的客观性是指物品应该以这样的方式被扣除，以至于它们被所有正在接受测试的所有人的方式被解释为完全相同的方式。为了确保物品的客观性，物品必须具有呈现阶段的均匀性（升序或下降）。

得分的客观性：

评分的客观性是指测试的评分方法应该是标准的，这样不同的专家在不同的时间进行评分，可以保持完全的一致性。

可靠性：

测试也必须是可靠的。可靠性是“测试的自相关”。它表明当施用试验时所获得的结果的程度是一致的。一次或多次在同一样品上具有合理差距。在单一给药中获得的结果的一致性是在测试和重新测试时获得的测试和一致性的内部一致性的指标是时间一致性的指标。

因此可靠性包括内部常量以及时间一致性。要称为声音的测试必须是可靠的，因为可靠性表示测试中获得的分数的程度不含标准化的这种内部缺陷，这可能产生测量误差。

有效性:

有效性是测试声音的另一个先决条件。有效性表示测试衡量与一些外部独立标准相比它打算衡量的程度。换句话说，它是测试与一些外部标准的相关性。

标准应该是独立的，应该被视为通过测试来衡量的特征或能力的最佳指标。通常，测试的有效性依赖于可靠性，因为产生不一致结果（可靠性差）的测试通常不会与一些外部独立标准相关联。

规范:

测试也必须由某些规范引导。规范是指“给定考验的代表性样本的平均性能”。有四种常见类型的规范;

年龄规范
级别规范
百分位规范
标准分数标准。

根据目的和用途，测试构造器准备测试的任何上述标准。规范有助于解释分数。在没有规范的情况下，测试所得的分数没有任何意义。

实用性:

从完成，长度，评分等中所采取的时间的角度来看，还必须是可行的。换句话说，测试不应冗长，得分方法不得难以困难，也不才能完成一个高度专业的人。

"测试构造的一般步骤"

开发一个好的心理测试需要深思熟虑和健全地应用已确立的测试构建原则。在进行测试构建的实际工作之前，测试构造者要对测试的主要目标和测试的目标人群做出一些宽泛的决定，并指出测试可以使用的可能条件及其重要用途。

这些初步决定具有深远的影响。例如，测试构造者可能决定构造一个针对十年级学生的智力测试，主要目的是诊断学生的操作和组织能力。在决定了以上的初步事情之后，测试构造器将继续执行以下步骤:

规划
为考试写题目。
初步管理试验。
可靠性的最终测试。
最后的有效性测试。
准备最终测试的规范。
制备手动和再生测试。
规划:

测试建设的第一步是仔细的规划。在此阶段，测试构造函数解决了以下问题;

该构念的定义:

拟测试要测量的构造的定义。

测试目的:

提交人必须清楚地阐明测试的广泛和具体目标。这是前瞻性用户（例如职业顾问，临床心理学家，教育家）以及他们将使用测试的目的或目的。

人口：

什么将是考试的适当年龄范围，教育水平和文化背景，谁会发现它需要进行测试？

测试内容:

测试的内容是什么？这种内容覆盖范围是否与现有测试的内容覆盖不同于相同或类似的目的而产生的？这种文化特定吗？

测试格式：

作者必须决定项目的性质是什么，即决定测试是否是多项选择，真假，创造性的响应或其他一些形式。

说明类型：

什么是写入或口头交付的指示类型？

测试管理:

测试是否可以单独或组合给药？该测试是否可以为计算机管理设计或修改。应考虑详细介绍初步和最终管理的协议。

用户资格和专业能力：

管理或解释测试是必要的特殊培训或资格？

可能的长度，时间统计方法：

测试构造者必须决定完成测试的可能长度和时间。

抽样方法：

什么是采样I-E随机或选择性的方法。

伦理和社会考虑:

对该测试给药导致的考生是否有潜在的损害？建议的测试程序内是否有任何保障措施，以防止对参与使用此测试的任何人的任何伤害。

分数的解释:

评分将如何解释？考生的分数是否将与标准组中的其他人进行比较，或者他们将用于评估特定内容区域的掌握？为了回答这个问题，作者必须决定建议的测试是否是标准引用或常规参考。

测试手册和复制:

规划还包括复制总数和手册的准备。

写项目:

单品:

一个不经常被分解成任何小单元的问题或任务。(1953:15豆)

示例：算术平均值可以是项目，操纵任务可以是物品，机械拼图可以是物品，同样是失眠也可以是测试的项目。

测试中的物品就像原子一样，它们是不可分割的。

题型写作的第二步是准备考题。项目写作要从提前完成计划开始。如果测试构造器决定准备作文测试，那么作文项目就会被写下来。

但是，如果他决定构建客观测试，他写下了替代响应项，匹配项，多项选择项，完成项，简短答题项目，项目的图形等的客观项目，这取决于目的，他决定写下任何这些客观类型的物品。

项目写作的先决条件:

项目写作本质上是一种创造性的艺术。没有固定的规则来指导和保证好项目的写作。这很大程度上取决于项目作者的直觉、想象力、经验、实践和独创性。然而，如果物品编写者想要写出好的和合适的物品，就必须满足一些必要的先决条件。这些要求简要讨论如下;

关于主题的命令：

项目作家必须具有彻底的知识并完全掌握主题。换句话说，他必须完全熟悉所有的事实，原则，误解，特定领域的谬误，以便他可以编写良好和适当的物品。

充分意识到人口：

项目作者必须充分了解测试对象。他还必须知道这些人的智力水平，以便他可以操纵项目的难度水平，以适当调整他们的能力水平。他还必须能够避开无关的线索，从而做出正确的反应。

熟悉不同类型的项目:

项目作者必须熟悉不同类型的项目及其优点和缺点。他还必须意识到好的项目的特点和常见的可能错误的书写项目。

语言命令：

项目作者必须有大量的词汇。他必须知道一个词的不同意思，以便在书写时避免混淆。他必须能用最简单的语言表达物品的意思。

专家意见：

在写下物品后，必须向一组主题专家提交给他们的批评或建议，然后必须正式修改。

培养丰富的思想来源:

道具作者还必须为道具培养丰富的创意来源。这是因为想法不是在大脑中自动产生的，而是需要某些因素或刺激。这些因素的共同来源是教科书、期刊、讨论、访谈问题、粗提纲和其他教学材料。

好商品的特点:

项目必须具有下列特征:

明晰：

一个项目的措辞应该是这样一种方式，即对项目作者和参加测试的考生来说，其含义都没有歧义。

适度困难：

该项目不应该太容易或太难。

辨别力量：

它必须有辨别能力，也就是说，它必须清楚地区分那些拥有这种特质的人和那些没有这种特质的人。

到目前为止：

读：

家庭研究:心理学、人类学、社会学

它不应该关注主题内容的琐碎方面，也就是说，它必须只衡量知识或理解的重要方面。

不鼓励猜测：

尽可能地，它不应该鼓励受试者的猜测。

阅读中清楚：

它不应该在阅读中呈现任何困难。

独立的含义:

它不应该这样的意义依赖于另一个项目和/或它可以通过参考另一个项目来回答。

物品写作的一般指南：

写项目是一个精确的问题。这可能更像计算机编程，而不是写一篇散文。题目作者的任务是将一大群不同背景经验、环境暴露和能力水平的考生的注意力集中在一个单一的想法上。在这种情况下，措辞要极其谨慎。项目作者必须保持在一些一般的指导方针，是必不可少的编写好项目。这些都列在下面;

项目的清晰度:

编写测试项目的清晰性是一个项目被认为是好的主要要求之一。项目不能写成“文字谜题”。他们必须能够区分那些有能力和没有能力的人。这是可能的，只有当项目已经写在简单和清楚的语言。这些项目不能是对考生语言理解能力的测试。

项目作者应该非常谨慎，特别是在写客观项目时，因为每一个这样的项目或多或少提供了一个孤立的知识，在那里清晰度的问题更严重。如果客观项目是一个模糊的项目，就会造成理解上的困难，并对项目的有效性产生不利影响。写作项目含糊不清可能是由于一些原因，如思维差和项目作者的能力不足。

应避免使用非功能词:

非功能单词不得包含在项目中，因为它们往往会降低项目的有效性。非功能性词语指的是那些对考生的适当和正确选择响应的贡献没有贡献。商品作家通常包括这些词，以试图使正确的答案不太明显或提供良好的分心。

避免无关的准确性：

项目作者必须确保避免无意中包含在项目中的不相关的准确性。这种不相关的准确性反映了项目作者较差的批判性思维能力。他们也可能导致考生认为陈述是真实的。

难度级别应该适应：

试题对考生来说不能太容易或太难。试题的难度应与考生的理解程度相适应。虽然只有在使用了一些统计技术之后，才能准确地决定题的难度值，但一个有经验的题作者能够事先控制难度值，使其适合于考生。

在某些目标类型的道具中，如多选择道具和匹配道具，玩家很容易提高或降低道具的难度值。一般情况下，当回答选项同质时，题目的难度值会增加;而当回答选项异质时，除了正确选项外，考生很可能很快就会选择正确答案，因此难度会降低。

项目作者既要考虑理想考生的特点，又要考虑典型考生的特点。如果只考虑典型考生(人数较少)，而忽略理想考生，试题就很有可能难到离谱。

避免使用千篇一律的词语:

必须避免在主句或备选答案中使用刻板的词汇，因为这有助于死记硬背的学习者猜测正确答案。而且，这些刻板的词汇并不能区分真正了解和理解这个主题的人和不了解这个主题的人。因此，陈规定型的词语并不能提供一个适当的、具有歧视性的指标。摆脱搜索这些词的最明显的方法是用不同的方式解释这些词，这样那些真正知道答案的人就能理解意思。

必须避免无关紧要的线索：

必须避免无关紧要的线索。这些有时以多种形式提供，如Clang关联，口头关联，答案的长度，在均匀箔中保持不同的箔，给出相同的正确答案顺序等。通常，这种线索往往会降低难度水平项目是因为它们提供了一个简单的轨道路线。

常见观察是，谁不了解正确答案的考生，选择这些无关紧要的线索中的任何一个。因此，项目作家必须特别注意避免这种无关紧要的线索。实际上，总是，所有的决心也必须避免，因为它们也是无关的线索到正确答案的线索，尤其是在两种替代物品中。

必须避免使用联锁物品:

必须避免互锁物品。互锁物品，也称为相互依存物品，是可以通过参考其他项目来回答的项目。换句话说，当正确地响应物品时取决于任何其他项目的正确响应，该项目构成互锁或独立项目的示例。例如：

社会测量是一种用于研究群体效果结构的技术。真/假
这是一种投射技术。真/假
它是由莫雷内等人开发的。对/错

上面的例子说明了相互关联的项目。只有当考生知道第1项的正确答案时，才能给出第2项和第3项的答案。这些问题应该避免，因为它们没有给考生提供一个平等的机会来回答这个问题。

东西的个数：

项目编写器也经常面临确定确切物品数量的问题。事实上，关于这个问题没有艰难和快速的规则。之前的研究表明，我通常与测试的所需可靠性系数相连的物品数量。研究表明，通常需要25-30个二分项目使可靠性系数高达0.80，而使用多点项目需要达到相同的可靠性所需的物品。

这些是项目分析后应该保留的最小项目数。一个项目编写者应该始终写两次最终保留的物品数量。因此，如果他想要30个项目在最终测试中，他应该写入60件物品。

在速度测试中，要写的题目的数量完全取决于测试构造者的直觉判断。根据他以前的经验，他决定在规定的时间限制内可以回答若干问题。

项目安排:
物品被删除后，他们被一些专家审查由商品作家自己，然后按照它们在最终测试中出现的顺序排列。通常，项目以越来越多的难度顺序排列，具有相同形式（例如替代形式，匹配，多项选择等）并将与相同的内容物交换在一起。

初步的管理:

在进行测试管理之前，至少有三位专家进行评审。当测试记录下来，并根据专家的建议和批评进行修改后，测试就可以进行试验了。

试训/预试训:

第一次测试被称为实验性试演或预试演。实验试验的样本量为100。

实验试验的目的是歧管。据康拉德（1951年）称，任何心理和教育检测的实验试验的主要目的如下：

确定模糊性和弱点：

找出项目的主要弱点、遗漏、歧义和不足之处。

确定每个项目的难度级别:

实验试验有助于确定每个项目的难度级别，这反过来有助于最终形式的适当分布。

决定了时间限制

有助于确定考试的合理时间限制。

确定适当的测试长度。

确定测试的适当长度。换句话说，它有助于确定要包含在最终形式中的项目数。

识别方向上的弱点。

在测试方向或指示方面识别任何弱点和模糊性。

适当的试用：

第二个初步管理称为PROPER TRYOUT。在这个阶段，测试交付给400个样品，必须与测试对象相似。

正确的尝试是为了项目分析进行。项目分析是选择用于测试最终组成的辨别项目的技术。它旨在获得有关项目的三种信息。那是;

物品难度：

物品难度是正确接听项目的考生或个人的比例或百分比。

物品的歧视力：

这些物品的区分能力是指，任何一件物品在多大程度上能够成功地区分那些拥有较大数量特征的人和那些拥有最少数量相同特征的人。

干扰的有效性:

确定非功能性的分散组。

最后的试验:

第三个初步管理被称为最后的试演。最后给药的样本至少应该是100个。在这一阶段，项目分析后选取项目，构成最终形式的测试。它的目的是确定前两次初步管理可能没有发现的小缺陷。

最终的管理表明，当它将在其实际打算的样本上施用时，测试将如何有效。因此，初步给药是一种“连衣裙排练”，提供了一种关于试验管理程序及其时间限制的最终检查。

最后试用后，应再次考虑专家意见。

最终测试的可靠性

实验或经验试验的基础，测试最终由所选物品组成，最终测试再次施用新鲜。为此目的，我们检查测试的可靠性，表示分数的一致性。

简单单词，它定义为测量一致的程度。如果研究中的发现一致地复制，那么它们是可靠的。

信度也指测试的自相关。相关系数可用来评估信度;如果一个测试是可靠的，它应该显示出高度的正相关。

读：

亨廷顿氏舞蹈症:病因、症状、检测

类型的可靠性

内部可靠性
外部可靠性

内部可靠性;

内部可靠性评估测试中不同项目结果的一致性。

外部可靠性;

外部可靠性是指测量在不同用途之间的差异程度。

错误的可靠性:

由于其他一些因素也会影响可靠性，例如:

噪音
健康
时间

可靠性总有5%的误差，这是可以接受的。

错误的类型

随机误差
系统误差

随机误差

在每次测量中都存在随机误差，并且经常是不确定度的主要来源。这些错误没有特定的可确定的原因。这些错误不可能完全消除或纠正。这是由许多不可控制的变量造成的，这些变量是人类每次分析中不可避免的一部分。这些变量是不可能识别的，即使我们识别了一些，它们也无法测量，因为它们中的大多数都很小。

系统误差

系统误差是由仪器、机器和测量工具引起的。它不是由个人决定的。系统错误是可以接受的，我们可以修复和处理它。

寻找可靠性的方法:

以下是检查可靠性的方法

两次试验法的
复本
分裂 - 哈尔夫方法

两次试验法的方法:

它是最古老和常用的可靠性测试方法。重测法评估测试的外部一致性。适当的测试包括问卷调查和心理测试。它衡量测试在一段时间内的稳定性。

一个典型的评估包括在两个不同的场合给参与者同样的测试。在两个测试中，从头到尾每一项都是一样的。第一次测试的结果需要与第二次测试的结果相关联。如果得到相同或类似的结果，则建立外部可靠性。

测试的时间很重要，如果持续时间太短，那么参与者可能会回忆起第一次测试的信息，这可能会影响结果。或者，如果持续时间太长，参与者可能在某些重要方面发生了改变，这也可能导致结果的偏差。

心理测试的效用和价值会随着时间的推移而降低，因此应该对测试进行修订和更新。当测试没有修改时，可能会出现系统错误。

替代形式：

以替代形式，将两种等同的测试形式施用于同一组考试。个人给出了一种形式的测试，经过一段时间后，该人给出了相同测试的不同版本。然后相关的两种形式相关以产生等同的系数。

积极点

以替代形式没有交易等待时间。

消极的观点

做两个水平相当的测试是一项非常紧张和危险的任务。

分型半方法：

分型半方法评估测试的内部一致性。它测量测试所有部分的程度同样有助于测量的内容。测试在技术上被扫描到奇数甚至形式中。这背后的原因是当我们制作测试时，如果我们在另一半的半场和（11,12， - 20）中放置（1,2,20），那么难度越来越难以提高物品问题/物品将转到一组，所有难题/物品将转到第二组。

当我们拆分测试时，我们应该以相同的格式/主题拆分。多个问题 - 多个问题或空白 - 空白。

测试效度:

它指的是测试索赔衡量其声称衡量的程度的程度。

如果测试是可靠的，那么它没有必要有效，但如果测试有效，那么它必须可靠。

有效性类型：

外部有效性
内部效度

外部有效性：

它是研究结果可以推广到不同的情况，不同的人群，不同的环境，不同的条件等程度。

内部有效性：

它基本上是一项研究在多大程度上没有缺陷，测量中的任何差异都是由于一个自变量。

类型的有效性

表面有效性
构建有效性
Criterion-related有效性
表面有效性

面部效度是由对项目的审查决定的，而不是通过使用统计分析。没有正式的程序来调查面子的有效性。相反，任何观看考试的人，包括考生，都可能对考试是否在衡量它应该衡量的东西产生有见地的看法。虽然让测试看起来有效显然有一定的价值，但仅凭表面效度不足以确定测试所测量的是它声称要测量的东西。

构建有效性：

它意味着正确使用构造（概念，想法，概念）。构建有效性寻求理论概念和特定测量设备或程序之间的协议。

例如，智能测试现在每天必须包括多种智能的措施，而不是仅仅是逻辑数学和语言能力措施。

标准相关的有效性:

它指出，标准应该由教师事先明确定义。它必须考虑到其他教师的标准才能被标准化，它还需要证明一个测量或程序与另一个已经被证明有效的测量或程序相比的准确性。

规范:

当心理学家设计一个测试用于各种各样的环境时，他们通常通过建立规范来建立一个比较的尺度。

常模被定义为代表某一特定群体的大样本的平均表现或分数。规范准备有意义地解释在测试中获得的分数，如我们所知，在测试中获得的分数本身并不传达被测量的能力或特征的意义。但如果将这些与标准进行比较，就能立即得出有意义的结论。

类型的规范:

年龄规范
等级规范
百分位规范
标准分数规范

所有这些类型的规范并不适用于所有类型的测试。考虑到测试的目的和类型，测试构建者为测试开发一个合适的规范。

年龄规范

年龄标准表明了在测试进行时不同年龄的不同样本的测试者的平均表现。

如果正在考虑的测量值以英寸为单位，例如我们知道儿童的得分（高度）将以各种速度逐渐增加，因为年龄到青少年的年龄上升。

实足年龄的孩子的智力能力的性能在一个有效的测试表明他或她的平均智力类似其他年龄的孩子据说常态的心理年龄群中,他或她的成绩下降了。

这里的推理是，与年龄年龄无关，可以预期具有相同精神年龄的儿童，可以阅读相同水平的材料，解决同样的数学问题，以及具有类似判断程度的原因。但有些人抱怨心智年龄的概念过于广泛，虽然一个6岁的孩子可能会像一个12岁的智力表演，但是6岁可能并不是非常相似在社会，心理上，否则的平均12岁。

等级规范：

年级标准是为了表明考生在一个给定的学校年级的平均考试成绩而设计的，年级标准是通过对一系列连续年级水平的孩子的代表性样本进行测试而制定的。

和年龄标准一样，年级标准在小学年龄的孩子中也有广泛的应用，这里的想法是，孩子们学习和发展的速度不同，但在某些方面是可以预测的。

等级标准的一个缺点是，它们只对完成学业的年月数有用。它们对尚未上学或失学的儿童几乎没有适用性。

百分位数：

百分位数系统是对考试分数进行排名，表明分数从低到高的比例高于给定的分数。百分位数是指在测试或测量中低于某一原始分数的人所占的百分比。一个更熟悉的测试性能描述，百分比正确的概念，必须区别于百分位数的概念。

百分位是指考生所占比例的转换分数。

百分比正确是指原始分数的分布 - 更具体地，对回答正确乘以数百的物品数量并除以总项目数。

由于百分位数很容易计算，因此它们是组织测试数据的流行方式，并且非常适用于各种测试。

标准分数规范：

当原始分数转换成公式时，它成为标准分数。

例如，在论文中获得的分数可能是100%，只适用于特定的领域，但当它们转换为GPA时，它们就成为标准分数。

准备手动和再生测试：

测试构建的最后一步是编写测试手册。在手册中，测试构造者报告测试的心理测量特性、规范和参考文献。这对考试管理的程序、评分方法和时间限制给出了明确的指示。

它还包括说明书以及材料排列的细节，即物品是否已以随机顺序或以任何其他顺序排列。测试构造函数最终订单用于打印测试和手册。

引用这篇文章:威廉·安德森(学校工作助手编辑团队)，“心理测试:建设，管理，有效性”，在SchoolWorkHelper, 2019,//www.chadjarvis.com/psychology-testing-construction-administration-validity/．

帮助我们用旧的散文修复他的笑容，需要几秒钟！

-我们在找你以前的论文、实验和作业。

- 我们将在我们的网站上审核并发布它们。
广告收入用于支持发展中国家的儿童。
- 通过操作微笑和微笑火车，帮助支付腭裂修复手术。

6评论

心理测试：建设，管理，有效性

"测试构造的一般步骤"

-我们在找你以前的论文、实验和作业。

相关的帖子

作者：威廉·安德森(Schoolworkhelper编辑团队)