首页>科技论文

民主党派结构界别特色的智能大数据分析

发布时间:2020-02-17 所属栏目:科技论文

  摘 要:本文采用大数据和人工智能技术手段,拟合规律公式,通过分析某省九三学社全体社员的数据样本发现:社员结构界别特色明显,存在主体界别占比缓慢下降、新的社会阶层界别发展迅速、科学研究界别发展人数下降较快、高层次人才发展困难4个主要特点。提升结构界别特色,应坚持主体界别和中高级知识分子特色,培养高层次人才;放缓新的社会阶层界别发展速度,改良新发展社员结构;加大发展科学研究界别人士力度,培育科技精英。

  关键词:民主党派;结构界别特色;大数据;机器学习;多项式拟合

  中图分类号:D613 文献标识码:A 文章编号:2096-3378(2020)01-0092-12

  《理论导报》(月刊)创刊于1987年,是中共江西省委宣传部主管、中共江西省委讲师团主办、全国公开发行的省级综合性政治理论月刊,已连续14年被评为全国省级讲师团系统优秀期刊。自创刊以来,始终坚持正确的理论导向,以经济建设为中心。

  我国的各民主党派力图保持结构界别特色。然而,各民主党派在组织发展上试图保持长期坚持的结构界别特色时遇到了共性问题,如主体界别人数比例下降、新的社会阶层人士明显增多等[1],导致有观点认为长期坚持的结构界别特色难以维系[2-3]。准确分析民主党派结构界别特色的发展状况,有助于发现问题,进而精准施策。目前,学界针对民主党派结构界别特色的分析,多采用简单传统的统计分析方法,尚未发现运用大数据及人工智能技术作此项研究。现状统计和未来趋势分析正是大数据及人工智能技术的长项[4],运用先进信息技术和算法有助于探讨统战领域相关问题。本文运用大数据和人工智能技术,以某省九三学社全体社员数据为样本,对社员发展总量及界别特色作出量化分析。

  一、研究路线和关键技术

  (一)研究路线

  1.准备工作。(1)准备1台开发用的PC服务器。采用云服务器,以便安装数据库服务软件并开展大数据、人工智能计算服务。(2)从九三学社某省委获取全省的社员数据。九三学社某省委在脱敏处理后,提供了屏蔽社员姓名的全省社员原始数据。(3)准备好大数据与人工智能的分析软件工具。采用TensorFlow作为软件工具,Anaconda3 Spyder作為集成开发工具。(4)准备好大型关系型数据库系统。采用SQL Server 2017作为数据库开发平台。

  2.以全省社员数据为样本开展定量研究。研究工作重点包括3个部分,以下的第1个部分是其他两个部分的基础。(1)作数据分析。包括数据清洗、数据分析、结果呈现。(2)发现问题,描述问题的程度。(3)提出解决对策。对策可供统战部门和九三学社某省委组织发展工作决策参考。

  3.编制软件程序。(1)研发SQL数据清洗程序。使用SQL Server数据导入工具获取社员Excel数据,生成SQL Server二维表格,建立ER(Entity Relationship,实体关系);编制SQL代码消除异常数据的影响。处理的最为典型的问题是数据录入存在明显偏差(如社员入社时间在1944年以前或2019年启动研究的时间点以后等)、数据不规范(如界别字段为空、职称级别字段为空等)。(2)研发Python人工智能程序。主要包括获取数据的程序代码、分析数据的程序代码和展现数据的程序代码。其中分析数据的程序代码相对复杂,主要运用了多维数组、多项式拟合的机器学习算法,挖掘数据规律,开展数据预测。

  (二)关键技术

  研究用到的关键技术是人工智能中的多项式拟合机器学习算法,主要是运用TensorFlow中的Scikit-learn库的多项式拟合算法[5-7]。本文的做法是先将已获得的社员数据集分为训练数据集和测试数据集两部分,编制程序用流水线技术计算出1-10阶多项式的准确度,按比例设置测试数据集,通过10次交叉验证计算绘制学习曲线,选择准确度收敛的阶数,根据阶数拟合出多项式公式[8-10]。最后用得到的多项式公式作数据预测。

  该多项式拟合算法采用公式(1)计算成本函数[11]:

  拟合出的多项式应尽可能地使该成本函数更小,并且准确度收敛在60%以上[12]。由于本文的研究内容不涉及分类问题,不必作查准率和召回率的分析[13]。

  二、数据分析

  九三学社的章程写明社员“以科学技术界高、中级知识分子为主”,结合对九三学社历史、组织发展的通常做法及九三学社界别特色的理解,本文将九三学社的界别特色具体界定为以“科教文卫”(科技、高等教育、基础教育、文化、卫生)界别组成为主体界别,社员普遍拥有中级或中级以上职称[14-15]。本部分将从社员发展总量的数据分析与预测、界别特色的数据分析与预测、中高级知识分子数据分析3个方面展开。

  (一)发展总量数据分析与预测

  截至2019年5月30日,某省九三学社共有社员6 927人。社员数据库中未登记入社时间的52人,2019年已发展社员200人(全部登记了入社时间),故2018年及以前共发展社员6 675人。由于研究启动时间原因,2019年发展的社员数据不作为社员发展总量数据分析与预测的原始数据。

  1.发展总体数量数据分析与预测

  根据每年社员发展数据可以看出,1980年以前发展的社员数量很少,1980—1990年之间经历过10年的振荡期(发展人数激增和骤降),自1990年后又开始逐步上升。

  因此,可以认为1990年以前是社员人数发展的振荡期,1990年以后进入稳步发展期。通过实验发现由1944—2018年的社员发展数据不能拟合出一个训练数据集和测试数据集在精确度上均收敛的多项式。为了建立能预测2019年及2019年以后发展社员数据的模型,取1990年以后的社员发展数据作为训练数据集和测试数据集。

  本文采用了最小二乘法和多项式来拟合历年社员发展数量的曲线,通过Python的机器学习库Scikit-learn中的LinearRegression工具和Pipeline工具10次交叉验证数据集,绘制了将1990—2008年的29年社员发展数据作为训练数据集和测试数据集的学习曲线(如图1、2、3所示)。从这3个图可以看出,测试数据集比例为40%、50%时,1阶、2阶、3阶多项式的准确度均无法收敛,呈过拟合状态,如采用更高阶的多项式模型会更加过拟合。如图3所示,当测试集占比为60%,1阶多项式的测试集、训练集的准确度收敛于72%,2阶和3阶多项式的准确度均呈过拟合状态。故选定多项式的阶数为1,即简单的直线线性关系。经拟合,线性方程为:

  公式(2)中,y为发展社员数量,x为年份。本文将公式(2)称为“某省九三学社社员发展数量公式”,可用于预测2019年及2019年以后的社员发展数量,预测准确度为72%。据公式(2)预测,某省九三学社2019年社员发展数据为315人,2020年为323人,2021年为331人。

  2.滚动发展总体比例数据分析与预测

  下面通过社员滚动发展总体比例情况作分析与预测。社员发展滚动比例计算公式(3)如下:

  公式(3)中,R_n表示第n年的社员滚动发展比例,S_n表示第n年的社员发展数量,S_i表示第i年的社员发展数量,∑_1^(n-1)?S_i 则表示第1至n-1年的累计社员发展数量。

  根据公式(3)计算出历年社员滚动发展比例如表2所示。

  可以看出,某省九三学社社员滚动发展的比例同社员发展的数量一样,在1990年以前是振荡期,滚动发展比例不稳定。1990年以后进入相对稳定期,2005年以后滚动发展比例保持在5%左右。为便于预测分析,本文参照社员发展总数量预测的做法展开多项式拟合,发现拟合不出理想的多项式,示例的学习曲线如图4所示。

  从示例中可以看出,在采用5阶和10阶多项式拟合时,训练数据准确度很高,10阶多项式的准确度接近100%,但看不到测试数据的准确度曲线,说明为严重的过拟合现象。积累的数据不足,找不出理想模型。

  (二)界别特色数据分析与预测

  1.界别特色总体数据分析

  某省九三学社的社员数据中有159人未登记界别数据,其余的6 768名社员共来自16个界别,界别分布的情况如图5和6所示。从图中可以看出,科学研究、高等教育、基础教育、文化艺术、医药卫生这5个界别(合称为主体界别或“科教文卫”)所占人数及比例分别达到4 613人、66.6%(包括未知界别人数)。表3列出了主体界别的人数及占比情况,从表中数据来看,主体界别特色总体上仍然明显,仍以“科教文卫”为主,其中高等教育、科学研究、医药卫生3个界别排名前3。

  2.按年度的界别特色数据分析

  在总体数据分析基础上,从滚动发展比例、每年发展人数变化两个角度分析数据。在九三学社某省委的社员数据库中有159人未登记界别数据,53人未登记入社时间,因此实际上有212人为无效数据,故共计6 715人为按年度界别特色数据分析的有效数据。其次,考虑到启动研究时2019年暂未到期,分析时不考虑2019年的发展社员数据。

  为关注重点界别,取排名前5的界别、主体界别(“科教文卫”)及总体情况作为分析对象对比,下面按有效数据分析发展人数和滚动发展比例。发展人数的所有年份折线图和1990年以后的发展人数折线图分别如图7和图8所示。从这两个图可以看出,主体界别(“科教文卫”)与所有界别的发展人数折线图很接近,2015年以后新的社会阶层界别发展人数增长较快,但科学研究界别发展人数在下降且较快。因此本文重点关注4个方面的2015年以后的发展人数数据,如表4所示。

  经过实验发现,对自1990年以后的主体界别人数数据作拟合不能得到准确度收敛的拟合多项式,但对自1990年以后的新的社会阶层界别人数数据作拟合可以得到准确度收敛的拟合多项式。如图9所示的学习曲线示例,这是测试集比例占20%的实验结果,阶数为1、3时过拟合,阶数为2时测试准确度和训练准确度在83%收敛,因此,选择阶数为2。

  经拟合,2阶多项式方程为:

  公式(4)中,y为新的社会阶层界别社员发展数量,x为年份。可将公式(4)称为“某省九三学社新的社会阶层界别社员发展数量公式”,用于预测2019年及以后的社员发展数量,准确度为83%。据公式(4)预测,某省九三学社2019年新的社会阶层界别社员发展数据为54人,2020年为58人,2021年为63人。本文将1990—2018年的新的社会阶层界别社员发展折线和“某省九三学社新的社会阶层界别社员发展数量公式”绘制在一张图中,如图10所示。

  至此,本文获得了两个计算公式,即“某省九三学社社员发展数量公式”和“某省九三学社新的社会阶层界别社员发展数量公式”,据此预测未来的情况,如图11和表5所示。

  根据预测,2019年以后,新的社会阶层界别滚动发展比例会逐年减小,但年度占社员总数的比例会逐年上升,至2029年新的社会阶层界别人数将达到1 252人,当年占社员总数的比例将达到12.5%。

  3.主体界别特色数据分析

  如前所述,本文已对主体界别的发展人数作了分析,但未对滚动发展比例和当年占比作出分析。

  从图12、13可以看出,1980年以前发展的社员几乎都是主体界别,之后比例逐年下降,滚动发展比例总体上自1995年呈缓慢下降趋势。近10年的具体数据如表6所示。可以看出,从2009—2018年的10年间主体界别占比共下降了4.8个百分点。尽管如前文所述,对主体界别发展人数拟合失败,但可以对主体界别占比作数据拟合。经实验,采用1阶多项式即可取得很好的拟合效果,准确度达到97%,如图14所示。

  从图14可见,测试准确度和训练准确度快速收敛。得到的拟合公式(5)如下:

  本文称公式(5)为“某省九三学社社员主体界别占比公式”。据此,可预测出未来20年的主体界别占比,至2028年时,预计主体界别占比为67.4%;至2038年时,预计主体界别占比为64.6%。总体呈缓慢下降趋势,但仍能保持主体界别特色。

  (三)中高级知识分子数据分析

  可将中高级知识分子理解为具有中级或中级以上职称的人员。当前某省九三学社社员的职称等级分布情况如图15和16所示。当前正高职称、副高职称、中级职称人数分别达到801人、1 984人、3 846人,占比分別为11.6%、28.6%、55.5%;中级及以上职称人员共计6 631人,占比95.7%,为绝大多数。接下来考察新发展的社员中各种职称的人数情况,如图17和18所示。

  考虑到数据库系统中登记的职称信息是当前状态,不能反映历史变更情况,本文尽量考察1990年以后新发展社员中的各种职称人数。从图18可以看出,近年来中级职称社员人数增长较快,总体呈增长趋势;正高职称社员发展速度放缓;早些年初级职称社员发展得较少,近年来其发展速度缓慢增长。各种职称近5年发展的人数如表7。

  三、问题梳理与建议

  根据前文的分析,对某省九三学社社员的结构界别特色情况及问题总结如下:

  (一)主体界别特色仍然明显,以“科教文卫”为主,但主体界别占比呈缓慢下降趋势。根据获得的公式(5),至2038年时,预计主体界别占比为64.6%,将比2018年再下降3.9个百分点。

  (二)新的社会阶层界别发展迅速,将成为九三学社社员的主要界别之一。根据获得的公式(4),新的社会阶层界别滚动发展比例会逐年减小,但年度占社员总数的比例会逐年上升,至2029年新的社会阶层界别人数将达到1 252人,当年占社员总数的比例将达到12.5%。

  (三)科学研究界别发展人数在下降且速度较快,2018年仅发展了10人。本研究虽然不能拟合出该界别的多项式公式,但可以明显看出其近3年的快速下降趋势。

  (四)保持了中高级知识分子特色,但高层次人才发展困难,近5年发展人数为个位数。从数据分析可以看出,近些年大量发展中级职称社员,初级职称发展人数上升,正高职称发展人数呈下降趋势。总体上,当前社员内中高级职称人数比例仍较高,为95.7%,保持了中高级知识分子的特色。

  针对上述情况及问题,对某省九三学社的社员发展提出以下对策建议:

  (一)坚持主体界别和中高级知识分子特色,培养高层次人才。在保持中高级知识分子特色的前提下,总体上偏向发展主体界别(科教文卫)人士。在加大正高职称人员的数量和比例上,一方面要想方设法发展代表人士、有影响力的主体界别、正高职称人员加入九三学社;另一方面应促进中级职称、副高职称的社员成长,如采取社员导师制、社内精英人才培养计划等。

  (二)放缓新的社会阶层界别发展速度,改良新发展社员结构。建议放缓发展新的社会阶层界别人士,一方面促进已发展的新的社会阶层界别人士成长成才,转化为主体界别人员或成长为代表性人士;另一方面应重点发展主体界别人士。

  (三)加大发展科学研究界别人士力度,培育科技精英。考虑到科学研究界别一直是九三学社社员产生代表人士的主要领域、一大批从事前沿技术的老前辈为九三学社获得了崇高的社会声誉和影响的历史现实,一方面应在新社员发展上注重发展科学研究界别人士,另一方面应在科学研究领域培育人才,采取多种形式促进其发展,如举办前沿科技论坛形成社会影响和吸引科学研究界别人士,广泛宣传九三学社的科学研究界别代表性人士,发挥已在科学研究界别有声望的老社员的影响力和作用等。

  参考文献:

  [1] 桑晨奔.论吸收新社会阶层对民主党派组织发展的影响[D].上海:复旦大学,2013.

  [2] 唐长久.政党适应性理论的民主党派组织发展界别特色问题研究[J].求索,2013(5):262-264.

  [3] 刘晓琳.新时期九三学社自身建设问题研究——以山东省九三学社为例[D].济南:山东大学,2015.

  [4] 邓子云,何庭欽.区域人工智能产业发展战略研究[J].科技管理研究,2019(7):32-43.

  [5] 黄永昌.scikit-learn机器学习:常用算法原理及编程实战[M].北京:机械工业出版社,2018.

  [6] 邓春林,杨柳,王涵之.高校网络群体性事件舆情演化规律初探——基于多项式拟合的定量分析[J].现代情报,2016(5):16-20.

  [7] Ziyun Deng,Tinqing He,etc.A Multimodel Fusion Engine for Filtering Webpages[J].IEEE Access,2018(6).

  [8] 薛理,杨树文,马吉晶,刘燕.多项式拟合的尺度不变特征变换改进算法[J].遥感信息,2019(4):54-61.

  [9] 李振昌,李仲勤.滑动式切比雪夫多项式拟合法在BDS精密星历内插中的应用[J].测绘工程,2019(4):49-53.

  [10] 万新军,宾博逸,吕宋,等.基于Zernike多项式拟合的非球面点云数据自动调平[J].光学技术,2019(2):170-175.

  [11] 吴桐,张阳阳,孙妍艳,等.一种基于改进外点法的多项式拟合解法[J].大地测量与地球动力学,2019(1):57-60.

  [12] 王雪标,张奇松.利率期限结构静态拟合方法研究[J].商业研究,2018(12):116-124.

  [13] 刘金钊,王同庆,陈兆辉,等.利用滑动窗口的多项式拟合算法进行重力位场区域-剩余异常分离[J].武汉大学学报(信息科学版),2018(10):1478-1482.

  [14] 彰显九三学社界别特色 助推科技创新政策落地[J].民主与科学,2018(2):9.

  [15] 唐长久,周密.民主党派在组织发展趋同中保持自身特色的思考[J].湖南省社会主义学院学报,2018(6):38-39.

内容推荐