查看文章 - 江苏科技期刊网

第三方科技评价是由不存在利益关系的第三方开展的科技评价，独立性和公正性是其基本要求。在政府制定政策的过程中，科技界的意见和建议是影响政策的重要因素之一。传统上，科技界主要依靠科学家的主观经验为政府决策提供依据。近年来，美国、英国、澳大利亚、新西兰等国家逐步重视第三方提供的定量证据对政府决策的支撑作用。为此，呼吁科技界作为政府决策之外的第三方，就政府决策相关的科学问题进行评价，并提供定量的决策依据。当前，中国推行第三方科技评价，需要结合国内实际问题，密切关注国际上第三方科技评价的理论、方法、支撑决策等前沿趋势，并结合中国实际，就推行第三方科技评价提供相关政策建议。

1.1 研究背景和意义

传统上，科技界主要依靠科学家的主观经验为政府决策提供依据。随着政府职能转变，科协作为一个联结政府和科技界的学会，可以在第三方科技评价中承接政府转移职能，完善传统的评价理论和方法，就政府决策相关的科学问题进行评价，并提供定量的决策依据。

本课题着重对近年来国内外第三方科技评价在提供定量决策依据、开展过程评估、开展影响评估、有效支撑决策等方面进行调研和分析，并结合江苏省实际，就推行第三方科技评价提供相关政策建议。

1.2 国内外研究现状

从国际上来看，美、英等主要科技发达国家逐步重视第三方提供的定量证据对政府决策的支撑作用，普遍形成了比较成熟的第三方科技评价的理论和方法。这些理论和方法主要围绕三个方面开展。

（1）第三方科技评价基础数据平台搭建研究和实践：旨在构建一个公正权威的数据平台，如美国于2011年启动的STARMETRICS项目，搭建一个科研资助机构和大学共享的科研管理数据平台和政策研究数据平台，这些基础数据平台是跨部门的，基本涵盖美国主要的科研资助机构和大学。该方法在美国商业、政府部门及公共政策等领域得到了有效的应用。2013年3月,奥巴马政府宣布推动大数据相关产业发展,并将数据定义为“未来的新石油”。未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家战略优势和核心资产。IBM公司认为,“数据将成为一切行业当中决定胜负的根本因素,成为人类至关重要的自然资源”。它已抛弃了PC（person computer）,转向了发展软件和服务,将更专注于大数据分析带来的业务增长点。德国经济部认为目前已进入了新一轮产业革命时期。第一次产业革命由蒸汽机引领,第二次由电气化引领,第三次由信息技术引领,第四次将由虚拟—自然融合系统（Cyber Physical System, CPS）引领（例如,在3D打印技术支持下,已出现了定制生产、创新设计、动态组织、协同制造的生产模式）。中国已经有各类基础数据平台，如，学术数据库、专家库、机构知识库、成果库等，但是各平台间存在主管单位不同、数据异构等壁垒，缺乏统一的规划和管理，基础数据未得到充分应用，借鉴其在美国应用的成功经验，可推动第三方科技评价对中国科技决策的支撑。

（2）第三方科技评价中关于评价方法的研究和实践：旨在提高科技评价的科学性和社会效益，如美国的快速循环评价（Rapid-CycleEvaluation，RCE），该方法是基于大数据的实时评价方法，可通过对海量数据的搜集和挖掘，提供实时的评价或监测数据，为政策制定提供更可靠的数据支撑。英国的科研质量评价（ResearchAssessmentExercise，RAE），指出要重视科研活动对经济和社会的广泛影响，将评价内容从科技界内部延伸到了科技界外部，在经济和社会范畴上开展影响评价，体现了科技界对于纳税人问责科技投入的一种必要回应。美国国家科学基金会（NSF）将同行评议的评议标准进行了重大修订，形成了包括科学意义和广泛影响性这两个主要的价值评议标准。其中，科学意义仍然坚持传统的普遍性原则，但是广泛影响性则强调项目对于社会可能产生的正面影响，影响评价体现了一种有别于传统科技评价的价值导向。国内已有各类学科评价、大学评价等一些针对高校科研的评价体系和实践、针对863等重大科技项目的第三方评价监理、优秀博士论文政府（教育部）委托第三方民间机构评价等，但是这些评价由于缺少系统的理论的支持和方法的创新，使第三方评价始终处在从实践到实践的过程，第三方评价深度得不到升华。

（3）第三方科技评价支撑决策的组织制度研究和实践：旨在推动第三方科技评价结果在决策中的应用。从美国来看，美国建立起庞大的科技咨询系统，成为继司法、行政、立法、监管部门之后的“第五部门”。这套科技咨询系统涵盖国会、政府和大学、智库。我国各级政府部门也会采用隶属政府的内部评估机构、高校评估机构或临时成立的联合评估委员会等形式对相关科技项目进行评估，但存在评价过程的管理和监督、评价方法的公正和有效、评价结果的透明和权威等方面的问题。加强第三方科技评价支撑决策的组织制度建设，推动第三方科技评价结果在决策中的应用，消除科学家与政策制定者之间存在的文化、语言、环境等诸多差异，有利于第三方科技评价的结果进入决策。

2. 评价基础数据建设

科学的评价应基于客观的事实和数据，故而应构建跨越科研资助机构、科研执行机构等相关部门的基础数据平台。近年来美国政府积极采取措施，推动科技界为政府决策制定提供可信的第三方科技评价，以此作为推进决策科学化的重要方式。2005年，时任美国总统科技政策办公室主任的Dr.Marburger在第30届美国科技促进会的年度科技政策论坛上，指出了传统上依据经验判断的决策方法的弊端，并倡议发展科技政策的方法学（ScienceofSciencePolicy,SoSP），目标是发展一套定量化"可视化"逻辑化的方法和工具，使得科学家作为政府之外的第三方能够为政府决策提供有效支撑。SoSP的兴起，从本质上讲是要求美国科技界为政府决策提供依据时不能仅仅依靠个人主观的经验判断，而应提供客观的定量数据。这些定量数据有些是科技内涵的数据，例如汽车尾气排放的具体标准"控糖尿病药物入市所应达到的生化指标等。第三方科技评价时这类数据的量化表达是科学家们能够做到的。但是，另一些决策所需的定量依据，例如科研机构创新能力的变化，大学招生质量的变化等，长期缺乏相关基础数据的积累和定量的分析方法，因而第三方科技评价往往难以给出客观的量化的数据。为此，第三方科技评价提供量化的决策依据，需要开展大量的基础性工作。

本课题将调研基础数据平台数据来源类型（如科研资助机构和大学提供自身科研管理系统中的数据）、数据存储结构（兼容结构化和非结构化的数据、基于本体的知识库构建）、数据利用模式（如数据定级和分类管理）等内容，以期为构建第三方科技评价提供准确、可靠、权威的基础数据库提供方法论支持。

2.1数据来源

（1）政府网站

自2009年起，美国(data.gov)和英国(data.gov.uk) 相继上线了国家开放数据平台网站，加拿大、法国、挪威、肯尼亚、韩国、新加坡等国家和地区也建立起了政府开放数据平台，开启了全球开放政府数据的浪潮。中国的上海、北京作为最早开展开放数据工作的地方政府，自2011年起便开始了相应可行性调研、政策制定和平台建设。自上海市于2012年6月首先上线试运行“上海市政府数据服务网”之后，其他地方如北京、佛山、南海、武汉等也陆续推出了开放数据平台网站。在国家层面上，国家开放数据平台的建设也提上了议程。2015年两会期间，李克强总理在回应有关开放数据的相关提议时说道:“政府掌握的数据要公开，除依法涉密的之外，数据要尽最大可能地公开，以便于云计算企业为社会服务，也为政府决策、监管服务。”2015年5月，马凯副总理也强调要“共促数据开放，让大数据惠及更多民众”、“要加快建立政府开放数据平台,优先开放高价值数据，鼓励基于开放数据开展应用创新，让大数据惠及更多民众，要制定鼓励政策，引导更多非公共数据向社会开放。

对策：江苏省作为科技文化强省，应该开放政务数据，以及相关受政府资助的机构数据，比如各类学会协会及科研管理部门的数据，提供不同层次的公众数据服务，便于普通民众和科研人员根据需求获取数据。

（2）科研机构网站

目前江苏省拥有数百家各类科研机构，科研机构既是数据使用单位，又是数据产出单位，目前的普遍情况是各自为政，形成数据孤岛，造成大量科研数据的重复和浪费，不利于科技进步和学术繁荣。目前江苏省有相关单位内部在积极构建机构知识库，对单位的人员、成果、项目、数据等进行保存和揭示，一般由科研机构的科研管理部门牵头进行相关信息的收集。下表是对目前科研机构知识库构建的调研说明。

表1 科研机构知识库构建调研说明

	问题	原因	对策
1	资源内容建设质量参差不齐	没有统一的资源收割标准	加强顶层设计，完善建设标准
2	交互性功能差	系统设计用户友好考虑不足	借鉴国际成熟软件，如DSpace、Notefirst、Fedora、Dataverse等
3	资源提供者积极性不高	对机构知识库构建工作认可度不高，利益驱动不足	加强对科研人员的引导和宣传，争取行政部门的支持

2.2数据存储模式

开展第三方科技评价的数据源的存储方式是否灵活规范，关系到科技评价活动实施的可操作性以及评价结果的可信度。数据源包括结构性数据和非结构性数据。目前数据存储标准和模式主要分结构性数据存储、非结构性数据存储，需要制定不同的标准。表2列出了目前国内外常用的结构化数据存储标引标准。其它特殊的信息如数字图像、地理信息、档案信息、技术报告等均有各自特定的标引标准。

表2 常用数据标引标准

	数据标引标准	存储字段	适用领域	发布单位
1	数字图书馆标准与建设规范	名称、创建者、主题、描述、出版者、其他责任者、日期、类型、格式、标识符、来源、语种、关联、时空范围、权限	机构知识库构建	国家图书馆
2	都柏林核心元数据元素集DCMES	Title, Creator, Subject, Description, Publisher, Contributor, Date, Type, Format, Identifier, Source, Language, Relation, Coverage, Rights	电子资源	OCLC，NCSA

目前越来越多的机构采用本体（Ontology）构建的方法对信息资源进行存储，本体是引自哲学概念，主要研究对客观世界事务的抽象表述，即“本体是共享概念模型的明确的形式化规范说明”。利用本体思想和方法来构建科技评价数据库的优势在于可以将评价的标准和规则映射到本体的属性和关系，用一系列丰富的结构关系和非结构关系，如泛化、继承、聚合和实例化，为软件应用程序提供精确的领域模型。

2.3数据利用模式

在对数据进行标引和存储的时候，应该考虑数据的分级（表2中的权限、Rights），在具体实施的时候，可以通过本体设计，对数据采用灵活的分级访问设置。具体包括：登录控制、URL权限控制、数据集查询权限控制、数据集决策权限控制等。

2.4本章小结

当前，从国家到省区，从市县到社区，信息化工作开展得如火如荼。评价基础数据建设是信息化的具体实施实例，是顺利开展第三方科技评价的基础，涉及到数据的来源、存储和利用各个方面，需要借鉴国内外相关经验，由点及面逐步开展相关工作。

3. 评价方法与实践

本章将对国内外其它领域应用比较成熟的评价理论和方法进行梳理和分析，将其引入第三方科技评价领域，给出适合我省实际情况的第三方科技评价技术和指标体系。

3.1评价理论

（一）基于统计决策的综合评价理论

综合评价理论的产生和发展与决策科学、统计科学的产生和发展是密不可分的。早在1888年Edgeworth在Journal of the Royal Statistical Society上发表”Statistics of Examinations”的学术论文，开始讨论考试中不同部分内容应如何加权的问题)；Spearman在British Journal of Psychology上发表“Correlation of Sums or Differences”的论文，讨论了在统计综合过程中不同加权的作用)德国经济学家Laspeyres提出拉斯拜尔指数(简称拉氏指数，Laspeyres Index)，即用所选择的基期价格或数量来衡量当期的价格或数量。这些统计学中的思想和方法成为综合评价理论与方法早起的雏形。经济学和运筹学的发展推动了决策科学的快速发展。意大利经济学家Pareto于1896年提出了Pareto最优的概念，实现了决策由单目标到多目标的转变，掀开了多目标决策理论（Multiple Objective Decision Making, MODM）的序幕；Neumann和Morgenstern于1944年在其著作“Game theory and economic behaviour”一书中讨论了多个决策者的多目标决策问题；Charnes, coper 和Rhodes提出数据包络分析方法(Data Envelopment Analysis, DEA)，DEA方法是一种非参数统计方法；Roy研究并提出了ELECTRE方法。这些研究都推动了多准则决策（Multiple Criteria Decision Making，MCDM）理论与方法的进一步发展。Hwang和Yoon首次明确地将MCDM分为多目标决策（MODM）和多属性决策(Multiple Attribute Decision Making, MADM)两种类型；随后Dyer等展望了多准则决策和多属性效用理论未来年的发展；Yang Jianbo和Singh Madan提出用证据推理的方法解决不确定性多属性决策问题。这些研究都进一步发展了多属性决策理论。多属性决策理论综合考虑决策方案的属性来解决将来未发生的多个备选方案的排序和优选问题。这与多指标多方案的综合评价问题在研究对象、目标测度和作用功能上具有很多相似点。因此，多准则决策理论尤其是多属性决策理论的发展催生了基于决策思维的综合评价理论的发展，基于统计决策的综合评价理论的核心是统计和决策，是用统计和决策的思想来解决多个多指标综合评价方案在将来、现在或未来某一个时间点或时间段的排序和优选问题。

（二）基于政策科学的综合评价理论

20世纪50年代，随着政策科学在美国的发展、对政策及其内容的评估已经成为政策分析和政策科学中的一个重要内容、综合评价在政策分析中取得了广泛的应用，经过半个世纪的发展、在政策科学领域内形成了实证主义评估理论，后实证主义评估理论和建构主义取向的综合性评估理论，其中、实证主义评估理论是以美国的彼得·罗西、霍华德·弗里曼、马克·李普希研究的项目评估方法和技术、以及美国学者托马斯·戴伊提出的基于“政策效用”的政策评估为代表，实证主义评估理论强调通过专业技术收集、加工和处理来自社会公众的信息和要求、要求评价者和相关利益者保持价值中心、以事实为中心、将事实和价值隔离开来、通过实证和技术相结合获取政策和措施的实施效果、效率和效益。方易指出实证主义评估理论的缺陷是过分强调运用技术手段解决社会和政治问题、用高度精准化和数学抽象的符号表示、把公共政策等社会问题放在了非政治化的角度。后实证主义评估理论以英籍奥地利裔的卡尔·波普尔、美国的库恩·豪斯和亚历山大为代表、该理论是将评估者和相关利益者的价值判断、价值取向和个人情感的合理性考虑进来、将社会事实与价值取向结合起来、运用实证分析和规范分析相结合的评估方法评估政策和相关措施在落实和执行过程中的效果，后实证主义评估理论的缺陷是以语言或话语界定客观存在、过分注重人的价值判断、，价值取向和价值观念、易形成“人类中心主义”的思想。建构主义取向的综合性评估理论关注的是政策与相关措施在评估过程中的多方需求与多元互动、综合了对效率与公正性的共同关注、以及多种评估技术与方法的综合运用，以Guba和Lincoln于1989年在《第四代评估》一书中提出的“第四代评估理论”和弗兰克·费希尔于1995年在《公共政策评估》一书中提出的“实证辩论”为代表，该理论主要强调多方分析和多元互动、要求评估要经历“复述-分析-批判-再复述-再分析”等不断的辩证过程。进入21世纪以来，随着中央政府向地方的放权（契合了目前我国推出和施行的”简政放权”），社会公共服务中非政府组织的大量参与，公众对社会服务诉求的增加，以及对社会公共服务的质量和效率要求更高，这些变化都对社会科学中的综合评价提出了更高的标准和要求。Fredericks等认为在新的形势下、基于政策科学的综合评价理论应该更多的注重多方沟通、建立更加互信的机制来满足多方需求。

（三）基于一般社会科学的综合评价理论

站在一般社会科学的角度（包括政策科学），已形成了参与式评价理论、基于价值的评价理论和基于事实的评价理论三个比较有代表性的综合评价理论体系。其中，参与式评价理论（Participatory Evaluation Theory, PET）是由Cousins和Earl提出的1992年提出的，1998年Cousins and Whitmore对此理论作了进一步发展。该理论是对传统的利益相关者评价模型（The Stakeholder Evaluation Model）的扩展，它强调在项目评估过程中要求训练有素的专业评估人员要与有实践背景的决策者、肩负项目责任的组织成员以及对项目具有强烈兴趣的个体保持良好的互动合作来开展社会研究。参与式评价又分为实践参与式评价（Practical Participatory Evaluation，PPE）和变革参与式评价（Transformative Participatory Evaluation，TPE），其中实践参与式评价的核心是强调评价结果的利用，认为评价要与项目的计划、组织、实施和相关决策紧密结合；而变革参与式评价的核心是赋权，认为评价者与参与者是合作伙伴关系，但参与者是最终的决策者。Greene研究了基于价值的评估理论（Values-Engaged Evaluation Theory，VEET），该理论像一个沟通的桥梁确保所有合法的利益相关者有兴趣参与到某个特定项目的好处或价值的讨论和相关决策中去，从而能够持续的改进项目，同时通过评价活动来满足所有利益相关者的信息渴求。总得来说，基于价值的评估理论旨在在所有利益相关者中间倡导一个开放和包容的对话环境，接受并协调价值冲突而不是去逃避价值冲突。在评价活动的具体实施过程中，所有利益相关者要与评价者一起协商讨论评价问题的选择、评价标准的确定、数据的收集以及评价结果的进一步分析和解释。Mark等提出了基于事实的评估理论（Emergent Realist Evaluation Theory，ERET），该理论要求评估者与项目利益相关者一起从事有价值和有代表性的事件或活动中去提高对不同价值的理解，增加项目中提出的一些社会观点的意识，增强对项目内部因果机制的理解。与参与式评价理论（PET）和基于价值的评估理论（VEET）不同的是，基于事实的评估理论（ERET）存在一个显著的缺陷就是缺乏一个特别明确的、正式的作用机制去促进评价对项目和政策的改进，以及最终对社会发展的改善。参与式评价理论、基于价值的评价理论和基于事实的评价理论提出和发展以来，在项目管理和社会科学领域得到了较广泛的应用。进一步地，Mark等从评价的特征、评价者的认知、评价活动的组织、评价过程的实施、评价结果的运用等方面对这三个理论进行了比较。

（四）其他相关综合评价理论

瑞典著名学者韦唐（Vedung E.）归纳和研究了同行评议、生产率、成本-效果-成本-收益、目标获取、侧面影响、用户导向、相关利益者、自由评估和综合评估等10种评估模型；美国著名的评估大师丹尼尔▪斯塔夫比姆同其他25位研究人员一起合著了《评估模型》（Evaluation Models, 2000），在该书中他们对20世纪中后期50年左右所产生的评估模型进行了总结，他们归纳出假评估、问题（方法）取向的评估、改善（绩效）问责取向的评估和社会议题导向（倡议）的评估、4类22种评估模型，并指出21世纪最适用的评估模式主要包括决策（绩效）问责的评估、消费者导向的评估、认可制度、实际利用为焦点的评估、以委托人中心的评估、民主审议、建构主义者、个案研究等9种评估模型；赵丽艳和顾基发对东西方的评价理论与方法进行了比较，指出西方的评价理论主要包括四种模型：始于20世纪50年代末期的目标模型（Goal Model），始于60年代初的系统资源模型（System-Resource Model），始于70年代的多行动者模型（Multi-Actor Model）和始于80年代早期的文化模型（Culture Model），这四种模型在组织效能的定义和评价过程上存在一定的差异。他们进一步地将这四种发源于西方的评价模型与顾基发提出的“物理-事理-人理”.的评价模型进行比较；Levin借助控制论的思想去解决评价者和被评对象之间的信息不对称问题。Sridharan和Nakaima给出了实施综合评价的十个步骤；Johson和Rallis等研究了综合评价的可信性与可靠性问题等等关于综合评价基础理论的研究很多在这里很难逐一罗列和评述。

3.2评价方法

综合评价方法是综合评价的核心问题，是获取综合评价结论的重要途径和工具。据不完全统计，目前国内外综合评价方法有几十种甚至上百种之多。在这里我们将重点讨论国内外一些常用的比较经典的方法，这些常用的综合评价方法大致可以分为定性评价方法、定量评价方法、基于统计分析的评价方法、基于目标规划模型的评价方法以及多方法融合的综合评价方法等五类。

（一）定性评价方法

定性研究是评价者根据对评价对象的观察和分析，通过哲学思辨和逻辑分析，运用语言或文字来描述事件、现象和问题，并对评价对象的特征进行信息分析和处理。常用的定性评价方法有专家会议法、直接评分法和Delphi方法等。定性评价方法的特点是充分利用评价者（专家）的知识、经验、直觉或偏好直接对评价对象作出定性结论的价值判断，比如评价等级、评价分值、评价次序等。这类评价方法在战略层次的决策，不能或者难以量化的对象系统，或对评价的精度要求不是很高的对象系统中较常用。

（二）定量评价方法

定量评价方法是评价者围绕被评对象的特征，利用数据或语言等基础信息对被评对象进行综合分析和处理并获取评价结果的方法"在系统评价时，不仅要处理结构化。可定量等确定性因素和信息，而且还要处理大量非结构化、语言型、模糊、随机、灰色、贫数据等不确定性因素和信息。为了处理这些确定性和不确定性信息，产生了如层次分析法（AHP），网络层次分析法（ANP），模糊数学方法（包括模糊综合评价、模糊积分、模糊模式识别和模糊ANP等）、灰色关联分析法（Grey Incidence Analysis, GIA）、证据推理方法（Evidential Reasoning， ER）、可拓综合评价方法、熵权法（Entropy Analysis，EA）、人工神经网络分析方法（Artificial Neural Networks, ANN）等定量评价方法。这类方法在综合评价过程中应用相对比较广泛，基本囊括了一些可以解决结构化和数据化等确定性信息的方法，也可以解决一些非结构化、语言型、随机型、灰色、模糊等不确定性信息的方法。

（三）基于统计分析的评价方法

按理说，基于统计分析的评价方法也属于定量评价方法，将这类方法单列出来，是因为这类方法具有很强的统计学背景。前面介绍过，综合评价最早可能起源于统计应用中，早期的简单加权思想（Simple Additive Weighting, SAW）就是典型的基于统计分析的评价方法。经过发展，基于统计分析的评价方法常用的有主成分分析法（Principal Component Analysis, PCA）、因子分析法（Factor Analysis）、聚类分析法等.基于统计分析的评价方法主要是利用相关变量之间的相关性或相似性来进行排序，其特点是需要依赖大量的统计数据作为支撑，该类方法比较适宜于经济分析和统计分析中.

（四）基于目标规划模型的评价方法

基于目标规划模型的评价方法，主要是基于多目标决策和多属性决策的思想，利用运筹学中的目标规划模型，对评价方案进行择优的方法。常用的方法有ELECTRE方法、数据包络分析法（EDA）、Topsis方法等。这类方法比较适合于多目标和多属性决策领域，其特点是择优而非排序。

（五）多方法融合的评价方法

上面介绍的都是单一的评价方法，多方法融合的评价方法是指利用不同评价方法在处理指标构建，指标赋权或评价信息上的不同特点优势，将多个不同的评价方法同时运用于一个综合评价问题中，以提高综合评价的质量。主要包括组合赋权方法、组合评价方法（特指对多个不同评价方法获取的评价值的组合）、多个信息集成方法的融合方法以及基于赋权方法和信息集成方法的融合方法等。其中，组合赋权方法、多个信息集成方法的融合方法以及基于赋权方法和信息集成方法的融合方法较受学术研究者的偏好，而组合评价方法的研究主要集中于国内的少数学者，尚未形成主流。

（六）基于大数据的评价方法

近年来，美国政策制定的科学化进程推动了一种名为快速循环评价（Rapid-CycleEvaluation,RCE）的第三方科技评价方法的诞生。该方法是一种基于大数据的实时评价方法，可通过对海量数据的搜集和挖掘，提供实时的评价或监测数据，为政策制定提供更可靠的数据支撑。目前，该方法在美国商业"政府部门及公共政策等领域得到了有效的应用，但在中国尚未得到充分研究和应用。区别于长周期评价的是，快速循环评价可有效识别和实时搜集政策实施（或试行）过程中的信息，在政策措施（如科技政策、科技项目）实施后进行频繁、有规律的评价，其基本特点在于“快速”和“循环”快速是指快速识别政策的影响和反馈信息，循环是指评价过程的迭代性质，即通过不断的实时评价提供及时反馈，从而不断完善政策，减少不必要的时间和资金成本，并且提前掌握政策的初步评价。

3.3评价实践

“第三方评估”主要分为：高校专家评估、专业公司评估和民众参与评估三种。

(一)高校专家评估

这是由高校中的专家学者作为“第三方”接受地方政府委托的评估模式。比如甘肃省政府委托兰州大学中国地方政府绩效评价中心进行的省内各级政府非公企业工作绩效评估；杭州市政府邀请浙江大学亚太休闲教育研究中心对首届世界休闲博览会的工作进行整体评估；还有华南理工大学公共管理学院课题组对广东省市、县两级政府进行的整体绩效评价等。

(二)专业公司评估

这是由专业组织作为“第三方”参与政府绩效评估的模式。比如厦门市思明区政府引入福州博智市场研究有限公司进行群众满意度评估；上海市闵行区邀请市质量协会用户评估中心对区政府各部门进行评估。一。还有2006年，武汉市政府邀请世界著名的管理咨询机构麦肯锡公司作为第三方对政府绩效进行评估。武汉市政府全面采用麦肯锡咨询公司设计方案对政府工作进行绩效评估。这种由商业公司来制定政府目标考核办法的举措。完全不同于党委、政府制定考核办法的模式。

(三)民众参与评估

这是普通科研人员或者一般民众随机或自由参与评议科研工作的模式。依据民众参与途径的不同，在具体形式上还可以细分为三种形式：一种是科研管理机构随机抽访的作为“第三方”，如到相关学术会议会场发放问卷(调查表)、或者采用计算机辅助电话访问系统进行电话调查等。另一种是在广场等公共场所随机拦截市民作为“第三方”，这种方式也称为“窗口拦截”。还有一种就是网上评议，这是指网民自觉接受相关机构网上的问卷调查，而不是网民的自由发帖评议。

前两种评价由于有详实的数据支撑、系统的评价流程、专业的评价团队，评价结果可信度高，但是相应成本也较高。后一种评价方式更加灵活，可以作为前两种评价的补充。

3.4本章小结

上述综合评价理论和方法的研究，都为促进综合评价理论与实务的发展起到了巨大的推动作用，每一种理论和方法论的产生和发展都有其独特的历史背景和领域特色，也有其一定的适用性。然而，目前国内外对综合评价理论与方法体系的研究大多过分重视对理论与方法的改进，以及对具体应用对象需求的过分关注，反而忽略和混淆了评估的真正目的，没有正确理解和区分事前评估，事中评估与事后评估，以及自评估与他评估等，给数据的不当使用和数据造假提供了机会，最终造成评估结果偏离甚至背离了评估目标，再加上大数据等新兴信息技术的发展，改变了人类社会的生产方式，生活方式和思维方式，进而也对管理决策环境和综合评价环境产生了新的影响。因此我们需要对评价理论与方法进行一些新的思考。

（1）要正确理解和区分事前评估，事中评估和事后评估。根据评估在整个活动中所发生的时间节点，将评估分为事前评估，事中评估和事后评估，其发生的时间节点，评估的目的以及其依赖的数据不同。其中，事前评估具有如下特点：评估发生在评估事件发生之前，评估依赖的数据是历史经验数据，专家的经验判断或实验仿真数据，对评估事件预期发生的风险，收益等进行预判（示例，政策是否应该出台？政策出台预期能解决什么问题，取得什么效果？政策出台后会面临哪些潜在的风险等？）。事中评估具有如下特点：评估发生在评估事件整个活动过程中，评估依赖的数据是活动中已经产生的数据，评估的目的是对评估事件发生过程的监控（示例，政策执行和落实的情况如何？政策是否需要纠偏等？）。事后评估具有如下特点：评估是发生在评估事件结束之后，评估依赖的数据是整个活动过程中产生的数据，评估的目的是对评估事件完成的预期目标，产生的效果进行现实测量（示例，政策的落实和执行取得了哪些效果？政策是否完成了预期的目标？应该实施哪些奖惩等？）。

（2）要正确理解和区分自评估和他评估。根据评估者与被评对象是否一致、可将评估分为自评估与他评估，其评估的目的、数据的来、评估结果的利用方式等具有较大的差异。其中，自评估、简单地说就是自己对自己进行评估，评估者与被评对象是一致的。包括，员工的自我认识与评价、组织的管理者对组织的经营状况进行评估、政策制定者或执行者对政策的执行情况和实施效果进行评估。自评估具有如下特点：1评估目的是为了自我认识、找出问题以便更好地进行自我提升和完善；2评估数据是由被评对象提供的内部数据、或由被评对象协助收集；3评估结果可以不对外公布，只是为组织内部下一步的决策提供支持；4考虑到“第三方”的专业性，组织也可以委托“第三方”进行“自评估”（这种情况下，评估者依然是自己、“第三方”仅相当于一个专业技术人员）。他评估，简单地说就是由他人对自己进行评估，或者自己对他人进行评估，评估者与被评对象是不一致的。包括，组织内部上级对下级的评估，下级对上级的评估，组织外部对组织内部的评估（第三方评估：委托第三方评估和独立第三方评估、其中、国内的第三方评估大部分采用的都是委托第三方评估形式、这些委托机构大部分是国务院或地方政府直属的事业单位或高校等；独立第三方评估如美国兰德公司、布鲁金斯学会、现代问题研究所等公共评估机构）。他评估具有如下特点：1评估目的是为了进行考核，监督或制衡等:2评估数据由评估者收集、而不是由被评对象提供，一般地，数据可来源于已公开等易获取的公共数据；3评估结果可以对外公布或向上级提交，以作为奖惩等决策的依据；4“第三方评估”作为一种特殊的“他评估”，一般具有独立性、专业性和权威性。

（3）要研究互联网与大数据等新兴信息技术环境下综合评价理论与方法的新发展。物联网、云计算、大数据与互联网等新兴信息技术的发展突飞猛进，加快改变了人类的思维方式与交流方式，也进而改变了人类社会的生产方式和生活方式。在互联网与大数据时代，随着移动互联网、智能终端、社交媒体、电子商务平台和互联网的快速发展，必然会产生海量具有规模性、高速性、多样性和重要价值的大数据资源，这不仅为综合评价提供了大量宝贵的数据资源，也改变了评价所需数据的获取方式。另外，互联网提供了更加开放和实时的参与和分享环境，这不仅能吸引到更多的主体参与到评价过程中，也便于综合评价结果的实时运用。上述的改变都为推动综合评价理论与方法的新发展带来了难得的机遇。

（4）要注重对综合评价方法稳健性的研究。稳健性主要包括评价结果的可信性、可靠性、有效性和保序性等用来反映评价方法信度与效度的测量指标。由于一般情况下，很难找到综合评价最有效的评判标准（评价结果的真实值），因此对综合评价方法的稳健性研究存在较大的难度，目前针对这方面的研究还不系统。未来的研究可探索多种因素组合变化对评价结果的影响进行全局敏感性和稳健性分析方法。

（5）"要注重对不同评价方法评价结论的非一致性问题的研究。不同的评价方法其本身的逻辑结构，数量结构和运作机理各异，方法本身有其各自的适用范围和领域，而目前针对评价方法的针对性研究比较少。在评价过程中、经常会出现用不同的评价方法，得出的评价结论存在非一致性的问题，虽然组合评价方法会降低单一评价方法非一致性的程度，但是不同的组合评价方法又会产生新的非一致性问题。未来的研究可通过大量的试验和测试来探索常用的评价方法其应用环境的针对性问题，从根本上排除针对同一个评价问题需要作多种方法选择，造成评价结论的非一致性。

（6）要注重对综合评价指标体系的构建原则、构建过程与构建方法的研究。评价指标是综合评价问题中一个重要的要素，是综合评价的核心和依据。在综合评价问题中，如果没有一套科学的评价指标体系，无论收集到的数据如何真实客观，采用的评价方法如何前瞻科学，数据处理的如何精妙准确，其所得到的评价结果必然会偏离评价目标。进一步地，基于此评价结果所作出的管理决策不仅不会有效地服务于管理实践、改善管理过程和提升管理效果，甚至会错误地引导管理实践过程，产生消极负面的管理效果。因此，构建一套科学的综合评价指标体系，是进行科学有效评价的前提。现实实践中，由于事物本身的复杂性和评价目的的多样性，决定了评价指标体系的复杂性与多变性，综合评价指标体系的构建是一项复杂性的工作。这种复杂性主要体现在：一是对象系统本身的复杂性，二是对象系统的多样性，三是评价目标的多样性，四是指标的定义和选取较抽象化，五是评价活动的动态性。因此，有必要从指标体系的构建原则、构建过程与构建方法等角度，研究一套指标体系构建的范式，为综合评价问题中指标体系的构建提供指导和参考。

（7）要注重对综合评价方法的智能化发展及应用趋势的研究。随着人工智能、知识工程、神经网络、计算机技术和通信技术等传统计算机信息技术的日趋成熟，以及互联网、云计算和大数据等新兴信息技术的快速发展，未来应探索综合评价方法的智能化发展及应用。基于这些信息技术的基础上，综合评价方法未来的发展方向应包括：1评价知识库和数据库的建立，应借助信息技术收集和整理专家的知识、经验和评价数据样本，一方面可以减少数据的重复收集，减少人力、物力和财力浪费，另一方面可以集结丰富的数据库资源，提高数据的可靠性；2设计和开发有效的综合评价计算机支持系统，从综合评价的流程出发，研究设计并开发一套有效的人机交互的智能化综合评价计算机支撑系统，以满足综合评价所需的通用性、规范性、交互性和快速性的要求；3研究将传统的评价方法与庞大的大数据资源以及云计算强大的数据处理能力进行对接，丰富和发展综合评价方法。

4. 评价组织制度建设

一般认为，第三方科技评价是促进科学家在决策制定中发挥作用的一种手段。然而，由于科学共同体与社会群体的价值取向不同，第三方科技评价本身并不必然保证评价结果能够有效进入决策程序，政府在决策制定时的价值取向往往是政治过程的结果。第三方科技评价支撑决策制定需要特定的体制和机制保障。本课题将调研目前国内相关部门组织架构以及国外相关政府和机构的组织模式和制度保障，研究如何构建组织制度才能有利于第三方科技评价的结果进入决策。

4.1国外组织制度建设

从发达国家来看，美、英等国早在二战之后就科技支撑决策的关键性理论问题展开了广泛探讨。理论研究表明，第三方科技评价的结果应用于决策制定时所面临的挑战是由于科学研究的复杂性、不确定性以及决策制定的价值属性等因素共同决定的。正是由于第三方科技评价的结果应用于决策时面临着挑战，以美英等国为代表的发达国家，纷纷为科技评价结果进入决策建立起不同特色的制度保障。

（一）美国

近年来美国政府积极采取措施，推动科技界为政府决策制定提供可信的第三方科技评价，以此作为推进决策科学化的重要方式。美国建立起庞大的科技咨询系统，成为继司法"行政"立法"监管部门之后的“第五部门”。这套科技咨询系统涵盖国会"政府和大学"智库。在美国国会系统中，众议院和参议院都分别设有一些科技相关的常务委员会，如众议院科学技术委员会和参议院的商业"科学和运输委员会。此外，国会还设有国会研究服务中心"国会技术评估办公室等支撑机构，主要对国会与科技相关的请求做出回应。美国政府系统则建立了以总统科学顾问为首的白宫科技政策办公室（OSTP）、总统科学技术顾问委员会（PCAST）和国家科学技术委员会（NSTC）的政府内部科技支撑体系，被称为美国政府政策制定过程中的担负科技支撑的“四架马车”。

此外，美国决策体系活跃着大量科技智库，例如美国科学促进会"美国科学院"美国工程院"、美国人文与科学院"布鲁金斯学会、"兰德公司及相关大学等。这套多元化的科技咨询体系，为美国科技界在决策制定中发挥第三方科技评价功能提供了重要平台。

（二）英国

与美国有所不同，英国设立了多个层面的首席科学顾问制度，它是英国推动科技支撑决策的重要组织设置。在内阁层面，政府首席科学顾问（GovernmentChiefScientificAdviser,GCSA）直接向内阁秘书长和英国首相提供科学与工程建议。

政府首席科学顾问由首相任命，任期5年，可以连任。自2011年以来，随着英国政府对“基于证据的决策制定”的重视，各政府部门开始设有首席科学顾问，以协助政府首席科学顾问一起为首相及其他部门的决策者提供科学咨询，并且每个政府部门均为部门的首席科学顾问配有固定的支持其工作的研究团队。可以说，英国的这套首席科学顾问制度为连接科学界与决策者、发挥第三方科技评价结果的合理使用起到了重要桥梁作用。当然，作为议会制国家，英国同样在议会系统设有科技支撑机构，如归属于下议院的议会科技办公室。同时，英国大学和民间智库如英国皇家学会"英国皇家工程院"英国社会科学院也在推动第三方科技评价对决策支撑方面发挥了各自作用。

（三）日本

日本科技政策的最高决策机构是综合科学技术会议 (CSTP), 日本科技决策的具体操作平台是文部科学省, 设有三个有关科技管理部局, 即科学技术、学术政策局、研究振兴局、研究开发局。日本政府各省厅内部都设有相应的科学技术审议机构 , 如文部科学省的科技学术审议会、经济产业省的产业技术审议会、国土交通省的运输技术审议会等。这些科学技术审议机构既是本部门的科技决策机构,又是部门长官的咨询机构。日本科技决策咨询系统包括官方咨询系统和民间咨询系统。

《科学技术基本法》是支撑日本科学技术体系的基本法律。该法规定了日本在发展科学与技术方面的基本国策和大政方针, 要求增强忧患意识, 加强基础研究, 推进基础研究、应用研究和开发研究的协调发展, 强调国家与地方及民间团体的协调和产、学、官的联合等。该法还明确规定:“政府要根据国家科技政策的最高审议机构—综合科学技术会议的讨论精神制定科学技术基本计划”, 这为日本政府制定科学技术基本计划、进行科技决策提供了基本法律依据。《科学技术基本计划》也是日本科技决策的法律依据。

4.2国内组织制度建设

我国各级相关政府部门每年投入大量人力、物力针对科技计划项目开展组织管理工作，牵扯了政府部门过多的精力，但在许多情况下，科技计划项目的管理效果并不尽人意。因此，近年来，我国各级政府开始尝试一种新的管理模式，即在科技计划项目的管理中引入第三方组织，帮助政府分担一部分的项目管理工作。例如，乌鲁木齐市于2003年出台了《乌鲁木齐市科学技术计划项目监理实施办法（试行）》，并随后出台了《乌鲁木齐市科学技术计划项目监理实施细则》，旨在推动乌鲁木齐市科技计划项目的有效实施，并加强乌鲁木齐市科学技术计划项目的监督管理力度，规范监督程序；福建省在2004年出台了《福建省科技重大专项监理暂行办法》，以加强省科技重大专项实施过程的监督管理工作，客观评价重大专项的实施效果，保证重大专项/专题合同的有效执行；南京市于2005年出台了《南京市重大科技计划项目监理办法（试行）》，也是为了加强南京市重大科技计划项目实施过程的监督管理工作，保证重大科技计划项目合同的有效执行。2006年，在国家科技部颁布的《国家科技支撑计划管理暂行办法》中，也明确提出：“……积极引入第三方科技服务机构对项目或课题执行情况、组织管理、配套条件落实、经费管理、预期前景等进行独立的评估监督。评估意见作为项目、课题调整或撤销的重要依据。”在2006年出台的《国家高技术研究发展计划（863计划）管理办法》中也指出：“863计划定期对领域、专题和项目的执行情况与绩效进行第三方独立评估，并将评估结果作为研究内容和经费调整的重要依据。”2007年，国家文物局在开展《国家文物局关于国家科技支撑计划课题的管理制度研究》课题的基础上，出台了《文化遗产保护领域国家科技支撑计划课题第三方评估咨询管理暂行办法》，并于2007年下半年正式启动了第三方组织的评估咨询工作，对国家文物局组织管理的四个国家支撑计划项目（含15个课题）进行评估咨询，这标志着我国政府在重大科技项目引入第三方进行管理和监督进入到实质性的操作阶段，这是我国科技项目管理领域中的重要创新。

4.3本章小结

我国科技计项目管理面临着诸多问题，引入第三方评估咨询机制后，不仅可以减轻政府部门科技计划项目管理的负担，而且能够提高科技计划项目的实施绩效。在确定第三方评估咨询制度的过程中，关于第三方组织的定位、第三方组织与另外两大主体的关系以及第三方评估咨询的权力范围等问题是影响评估咨询机制的关键。此外，科技计划项目第三方评估咨询制度的有效运行，不仅取决于机制本身的设置是否合理，同时也在很大程度上依赖于一些有力的保障措施。因此，我国科技计划项目第三方评估制度必须通过制定法规来予以确定，通过在法规中明确第三方组织的遴选程序与标准、相关主体的职责、第三方组织评估咨询的内容和程序以及责任的划定等，规范并引导第三方组织以及项目主管单位和项目承担单位在科技计划项目评估咨询中的行为，确保评估咨询活动的顺利有效开展。

5. 调研结论与建议

5.1 调研结论

国内外大量的综合评价基础理论的研究为综合评价的实务和应用提供了深厚的理论支持和方法支撑。根据综合评价现有理论的研究现状和发展趋势，研究认为综合评价理论在未来的发展过程中应注意以下三个问题：一是综合评价应以目标为导向，首先要厘清评估的真正目的，然后再确定是进行事前评估、事中评估还是事后评估，是选择自评估还是他评估。因为不同的评估框架下，评价指标的选取、数据的来源以及结果的运用都存在较大差异。二是要考虑互联网与大数据的发展对综合评价理论与方法带来的影响，探究基于互联网和大数据等新兴信息环境下的综合评价理论与方法。三是注重对综合评价指标体系的构建、综合评价标准的确定、综合评价结果的稳健性、综合评价结论的非一致性、评价信息存在相互依存与反馈关系等相关具体问题的研究。

首先，政策制定部门应转变决策理念，摒弃经验至上的决策方式，发挥第三方科技评价支撑决策的作用。这种新模式的基本特点是科技界作为政府系统之外的第三方，为政府决策提供定量的数据和方法。在此模式下，政府应当投入资金建立跨越科研资助机构、科研执行机构等相关部门的基础数据平台，科学界则应发展提供定量决策依据的方法和手段，为政府决策的科学化提供支撑。

其次，应加强第三方科技评价中关于过程评价方法和影响评价方法的研究和实践。近些年国际上兴起的快速循环评价等过程评价方法具有很好的借鉴意义，有助于政策试行过程中及时发现问题，调整政策方向。第三方科技评价走出传统上只注重直接产出的象牙塔模式，将范围更广“周期更长”实际意义更大的效果和影响纳入评价，则有助于科技与经济两张皮的问题解决。

最后，应加强第三方科技评价支撑决策的组织制度建设，推动第三方科技评价结果在决策中的应用。先进国家的经验表明，有效的组织系统对于充分发挥科技在决策中的作用是十分必要的，如美国白宫科技政策办公室、英国的首席科学家制度。这些组织的设立，有利于消除科学家与政策制定者之间存在的文化“语言”环境等诸多差异，有利于第三方科技评价的结果进入决策。需要指出的是，尽管第三方科技评价支撑决策是发展趋势，但是，科学并不能解决所有的问题，尤其在面对科学不确定“社会价值冲突”具有高度风险且较为紧急的议题时，决策制定者既应当考虑科学依据，也应当考虑公众和利益相关者的意见。

5.2 评价方案建议

在我国科技评价不断发展的今天，在政府职能转变、科技评价体系不断完善的前提下，江苏省科技协会作为第三方组建相应领域的“科技评价中心”具有一定的必要性和可行性，主要表现在江苏省科技协会长期以来以学会名义申请上级单位课题，并资助省内相关调研课题，具有承担科技评价职能的科研能力和组织能力。科协承担第三方科技评价职责是科协自身发展的需求，也是完善我国科技评价体系的必然要求。

科协接受评价的来源可以包括：科技项目评价、科技人员评价、科技成果评价、标准制定、技术鉴定、科研机构评价等。

科协组建第三方评价中心应本着以下原则：

循序渐进、分步实施的原则。首先进行基础数据建设，可以借鉴目前高校系统中已经开始实施的机构知识库构建方法，开发和提供机构知识库系统平台，收割高校和科研机构的相关数据。同时发挥科协在链接政府与科技界中的桥梁作用，将政务系统中的相关数据纳入到科协智库中。
统筹协调、经济有效的原则。统筹安排各部分的内容，加强对评价工作的统筹兼顾，减少重复评价。公开相关评价信息，共享评价结果，降低评价成本。
公开透明的原则。对评价制度、程序、方法及结果通过评价平台等有效形式予以公开，接受各方有效监督。
重点突破，以点带面的评价实施原则。将某一方面的科技评价作为科协的重点评价内容，比如通过科技期刊学会对科技期刊进行评价，并由此引申到科技创新评价等，通过对某几方面科技评价内容的不断完善，树立某一面公信力评价的标杆，从而带动其他评价方面不断扩大。

在以上原则指导下组建科协第三方“科技评价中心”，应从以下方面着手准备：

购置和搭建基础设施

从物理设施上，开辟“科技评价中心”专用办公场所，设立专人负责，购置相关办公设备。

从软件设施上，借鉴高校机构知识库建设经验，委托开发“科技评价中心”的智库平台，为数据收割做准备。

2.组建专家库

科技评价专家库的建立和利用对科技评价起着相当重要的作用，专家库的建立需要按照一定的程序来进行，一般是由同行或单位推荐专家名单－基本情况登记－资格归类－审查程序－入库待用，最终形成专家库。在入库前要注意对具体专家相关描述字段进行完整的定义，便于后期针对不同评价目标，对专家进行灵活的选择。该项工作可以与已有其他专家库系统进行借鉴和共享。

3.确定评价对象

“科技评价中心”扮演“第三方”主体的角色，评价任务的主要来源是政府行政职能转移、科技协会自主开展相关评价、其他机构委托评价等，作为省级机构，在争取承担科技评价职能初期，应首先明确评价目的、标准及评价方法，不同科技评价划分依据、角度不同，划分类别不同，所采用的评价方法、建立的评价指标也不同。

4.评价指标体系构建

构建评价指标体系是一个复杂的过程，在明确评价对象后，应进行评价指标体系初选，一般采用专家库进行德尔菲法、专家打分发等定性方法。

初选指标后，一般采用定量分析方法对初选指标进行进一步的分析筛选，主要使用的方法有：层次分析法、因子分析法、主成分分析法等统计方法进行指标权重的确定，进一步完善、细化各个评价指标体系。

5. 评价模型方法

评价指标体系确定之后，应选择合适的评价方法进行综合评价。目前应用较广泛的科技评价模型和方法有定性的德尔菲法、专家评议法等，定量的如多目标决策方法、模糊综合评价方法、灰色关联分析方法等。

“科技评价中心”可以根据实际接收的评价项目的特点选择合适的科技评价模型方法进行评价，以体现“第三方”科技评价的客观公正性。

6. 工作流程制定

在确定了“科技评价中心”的评价目的、指标体系、模型方法等内容后，要保证评价中心的高效运行，形成相对完善的综合科技评价体系，完善的工作流程必不可少。建议流程如下：

评价准备：签订委托协议，组建评价小组，配置必须的资源；

评价设计：针对具体的评价内容（科技人才评价、项目评价、成果评价等）提出具体的评价方案、编织各种评价所需的表格，确定评价指标体系，遴选评价专家成立专家委员会；

评价实施：评价信息的获取（基础数据库、相关报告、设计发放调查问卷、访谈、实地调研、各种证明材料、各种报表等），专家委员会依据评定目的原则鉴别、筛选所采集的信息，运用所设计的评价指标、方法分析数据；

评价分析与总结：平衡各种影响因素的影响，撰写评估报告提交评价需求方；

评价结果公布：以适当的方式在一定范围内公示，公布评价结果，受理申诉，接受评价相关主体的监督。

7.相关制度制定

“科技评价中心”的正常运行，有效履行“第三方”科技评价工作任务，应当有一定的工作制度作为基础和保障，除了构建专家库所需遵守的随机原则、定期更换原则、回避制度、信用制度外，还应建设相关的收费制度、财务管理制度、保密制度、工作人员守则来进一步完善“科技评价中心”的制度体系。

通知公告

相关文章

第三方科技评价理论与方法调研报告

1. 总论