时间:2022-05-26 06:17:50
序论:好文章的创作是一个不断探索和完善的过程,我们为您推荐十篇银行舆情工作总结范例,希望它们能助您一臂之力,提升您的阅读品质,带来更深刻的阅读感受。
2010年4月13日,住建部出台的《关于进一步加强房地产市场监管完善商品住房预售制度有关问题的通知》(建房〔2010〕53号)明确要求:各地要加快完善商品住房预售资金监管制度。尚未建立监管制度的地方,要加快制定本地区商品住房预售资金监管办法。商品住房预售资金要全部纳入监管账户,由监管机构负责监管,确保预售资金用于商品住房项目工程建设;预售资金可按建设进度进行核拨,但必须留有足够的资金保证建设工程竣工交付。《成都市商品房预售款监管办法(试行)》于同年9月30日印发,同年11月1日,成都市正式实施商品房预售资金监管。2015年10月9日,成都市城乡房产管理局印发《成都市商品房预售款监管办法》,完成对原办法的修订。
成都市实施商品房预售资金监管6年有余,但成都市在建商品房项目烂尾情况仍未得到完全杜绝,由商品房预售项目烂尾引发的也时有发生。在梳理成都市部分预售项目烂尾的成因时发现,部分烂尾项目开发商存在挪用预售资金的情况。因此,进一步完善和加强商品房预售资金监管尤为必要。
1.加大监督检查及惩处力度
监督检查是悬挂在开发企业头顶上的达摩克利斯之剑,让开发企业紧绷守法遵规之弦。除常态例行检查之外,加强飞行检查,即在被检查单位不知晓的情况下进行的启动慎重、行动快的检查,以此及时掌握真实情况,让监管部门做到心中有数。此外,还可采取重点检查手段。在当今信息传播手段日益简便快捷、制度日益完善的情况下,及时根据舆情及情况,重点检查舆情反应大、突出的项目。
2.采取有效措施对违法行为予以严厉打击
根据《成都市商品房预售款监管办法》,开发企业不按规定缴存、使用预售款以及利用其他账户替代预售款专用账户的,由市、县房产行政主管部门责令限期改正;情节严重或逾期仍不改正的,按照《城市商品房预售管理办法》的相关规定对违法行为予以行政处罚。监管银行未履行监管协议约定职责,除承担相应法律责任外,由主管部门予以公示不得再在本市从事商品房预售款监管事宜,并将有关情况抄送银行业主管部门。根据《城市商品房预售管理办法》,开发企业不按规定使用商品房预售款项的,由房地产管理部门责令限期纠正,并可处以违法所得3倍以下但不超过3万元的罚款。在当前高企的房价面前,法定的罚金金额对开发企业而言几乎可忽略不计,换言之,罚款对于开发企业违法行为基本上毫无震慑力。监管部门除责令开发企业限期改正等告诫类措施外,可采取暂停网签、暂停受理新预售许可申请等行政管理措施。
《成都市商品房预售款监管办法》仅由房产管理部门单独制定,银行业管理部门未参与联合发文,该办法对监管银行的违规行为惩处规定不够强硬,威慑力不足。在实际操作中,房管部门将银行存在的预售款监管违规行为书面函送银行业主管部门后,违规银行受到的惩处力度很小甚至零惩处。因此,在对监管银行进行督促、指导,促使银行全面履行监管职责的同时,房管部门可建立黑名单制度,采取暂停或终止受理存在严重违反《成都市商品房预售款监管办法》规定行为的商业银行与任何开发企业签订的包含《预售款监管协议》在内的预售方案审查申请。
3.要加强技术创新,进一步优化监管手段
进一步优化和完善房管金融信息服务交互平台并建立预售款监管信息系统,将取得商品房预售许可证的商品房实时交易备案情况与银行监管账户的实时入账情况进行匹配计算,监察入账情况;将资金使用计划、工程进度计划纳入信息系统以规范预售款拨付,并通过信息系统自动监察各个预售项目预售款收支,同时通过设定资金足额量、资金拨付额与资金使用计划及工程进度匹配度等风险控制指标建立预警机制,对超过风险控制线的预售款暂停拨付并启动现场督察程序。通过技术创新,实现预售款监管从入账到拨付全流程、动态化、规范化的全面监控。此外,可通过预售款监管信息系统实现对全部预售项目预售款监管进行大数据分析,通过监管大数据对参与预售款监管的各商业银行监管能力及服务水平进行考核,为建立监管银行优胜劣汰的淘汰机制提供基础条件。
4.加强合同备案审查,防止虚假交易、确保预售款纳入监管
《城市商品房预售管理办法》规定:商品房预售,开发企业应当与承购人签订商品房预售合同。开发企业应当自签约之日起30日内,向房地产管理部门和市、县人民政府土地管理部门办理商品房预售合同登记备案手续。长期以来,成都市对预售商品房合同备案的审查主要是采取开发商自主备案、房管部门严管备案变更及注销的模式,事前及事中监管较松,事后监管较严。在这种模式下,开发企业通过备案系统进行虚假备案以达到变相融资(通过备案到债权人或担保人名下作为融资担保)、恶意逃避查封(由于只能查封在房管系统中开发企业名下未售房源,开发企业可自行将房源备案至相关主体名下造成房源全部售完的假象导致无房可封)、捂盘惜售(操作手法类似恶意逃避查封)等虚假交易的目的,由于这些虚假交易并未存在真实购房款,对这些虚假交易房源的预售款监管也无从谈起。此外,部分开发商在购房人支付首付款或全部购房款时,通过非监管银行POS机等渠道将这些资金打入其他账户,绕开预售资金监管,为开发企业挪用现售资金提供了便利。
因此,为避免上述不良行为的发生并确保预售款监管实现全面覆盖,加强合同备案审查尤为必要。在购房资格审查通过后(如有该项审查),开发企业可通过房管系统的开发企业用户端进行预售商品房合同拟定,但在完成备案前,开发企业应当将购房人的付款凭证及资金进入预售款监管账户的证明资料提交房管部门进行购房真实性及预售款入~审查,待审查通过后,房管工作人员通过房管系统房管用户端解除备案限制,开发企业方可完成合同备案。
二、进一步完善预售商品房质量保证机制
在建工程烂尾往往是开发商实力较弱、资金链断裂造成,相较而言小型开发企业开发项目发生烂尾或存在商品房质量问题的风险要比大型开发企业要高。住建部出台的《关于进一步加强房地产市场监管完善商品住房预售制度有关问题的通知》(建房〔2010〕53号)明确要求:暂定资质的房地产开发企业在申请商品住房预售许可时提交的预售方案,应当明确企业破产、解散等清算情况发生后的商品住房质量责任承担主体,由质量责任承担主体提供担保函。质量责任承担主体必须具备独立的法人资格和相应的赔偿能力。由于该通知未明确规定质量责任承担主体赔偿能力的审查标准,各地在实际执行预售商品房质量保证机制时仅对质量责任承担主体提供担保函做形式审查,对于该主体是否具有赔偿能力无法做出判断,造成了该机制的实施基本上流于形式。因此,作为承担实际监管职责的房管部门可结合地方实际进一步完善预售商品房质量保证机制。房屋质量责任承担主体应当具有较为雄厚资金实力及管理运营经验,可从工商注册实缴资本金、近段时期(如近3年)账户资产情况、成立时间(如不低于5年)、主营范围等维度考量。同时对房屋质量责任承担具有较大风险的主体类型进行排除,例如:暂定资质的房地产开发企业不能作为其他房地产企业开发项目的房屋质量责任承担主体。
三、进一步完善信息公开机制
房地产市场存在明显信息不对称,开发企业具有项目信息主导优势,往往会对相关不利信息予以屏蔽或隐瞒,购房人获得预售项目相关信息的来源及渠道较为缺乏。由于信息不对称,购房人在信息不充分的情况下作出的购房决策可能存在盲目性。因此,在不涉及商业机密的前提下,尽可能展现作为交易商品的房屋相关信息,需要进一步完善信息公开机制。
1.信息渠道分散
房地产开发产业链条长,涉及的政府部门及公众部门多,各部门独自自身掌握的信息,导致房产相关信息渠道分散,购房人全面收集相关信息费时费力。例如:工商主管部门掌握开发企业经营信息、建设主管部门掌握开发项目工程建设信息、房管部门掌握开发项目销售信息、银行主管部门掌握开发企业及其实际控制人的信用信息等,购房人若要全面调查了解到所有相关信息,需要到各个政府主管部门查询、核实,费时费力的同时还不一定能得到全面信息。
2.信息不及时、不全面
一些主管部门存在对监管中掌握的信息不及时、不全面的情况。一些信息仅在工作总结中草草带过,对于购房人而言,获得的信息越及时、越全面,越有助于其做购房决策。
3.信息聚合程度低
相关信息渠道分散及信息不及时、不全面导致了信息聚合程度低,极大增加了购房人整理、利用这些信息的难度。
为了进一步增加房地产市场信息透明度,应加强顶层设计,进一步完善信息公开机制。
关键词:
潜在狄里克雷分配;主题模型;Kmeans++聚类;聚簇评价;热点话题
0引言
作为Web 2.0技术迅猛发展的产物,网络论坛使人们能更多地参与到日常话题的互动中,因此论坛成为了重要舆情的发源地与传播地。及时地发现舆情有利于政府部门的治国理政,也为企业的发展决策、危机公关处理等提供了舆论向导,因此热点话题挖掘成为了舆情监测领域的一个重要研究方向。
对于热点话题挖掘的问题,相关研究人员进行了大量的研究。丁伟莉等[1]对博客用向量空间模型建模后使用SinglePass算法进行聚类来发现其中的话题;邱立坤等[2]在对网络论坛中文本数据用向量空间建模并聚类后利用点击数与评论数对结果排序来发现热点话题;王伟等[3]对用传统向量空间模型表示的网页信息用OPTICS(Ordering Points To Identify the Clustering Structure)聚类算法进行两次聚类来发现热点舆情。以上研究中都用到了向量空间模型表示文本,它并没有融入语义信息,这会使得语义不相关的信息出现在同一聚簇中,从而造成了主题信息的丢失,影响了聚类的效果。席耀一等[4]与刘嵩等[5]在对论坛话题追踪时利用知网语义库为词汇加入了语义信息,并用它作为文档表示模型来计算文档的语义相似度[6],这种方法在很大程度上缓解了主题丢失的问题,但论坛信息的快速更新使得这种融入了监督成分的方法仍然不能达到理想的效果,而且维护知网语义信息也是个难题。刘霄等[7]通过利用概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)主题模型为Twitter数据建模来发现突发的热点话题,PLSA成功地利用概率统计的方法来为文本建模,但它并没有在文档与主题的层面上给出一个合适的概率模型,PLSA中文档的主题分布与主题中词的分布是模型的参数,它们会随着文档增多而增加,这样它只能生成给定文档集合上的模型,在新的文本加入时还要重新训练,另外当训练集有限的情况PLSA还可能会出现过度拟合的现象[8]。
本文热点话题挖掘的研究对象是网络论坛数据集,它不同于新闻网页中经过专业编辑处理过的文本,它有着自己的特点:1)口语化,帖子者来自不同的地方,也有不同的经历与背景,在表达同一观点时措辞会有很大不同,经常会有错别字或网络新词汇产生,这就使得词汇噪声较多;2)篇幅差距较大,有些帖子的论述比较多,另一类只通过帖子的标题来传达信息,这会造成词汇矩阵稀疏的问题。
针对以上研究中的不足以及论坛文本数据的特点,本文采用潜在狄里克雷分配(Latent Dirichlet Allocation,LDA)主题模型对论坛文本数据建模,在对数据集进行聚类基础上提出基于主题聚簇的评价方法对聚簇进行排名。该方法在考虑主题的关注度同时,还对聚簇内部所含主题的突发性与主题纯净度加以考虑。通过对最有可能出现热点话题的聚簇进行信息抽取后设计话题展示的方法来完成热点话题挖掘任务。
1系统整体框架
对论坛文本集预处理后用LDA主题模型建模,将文本表示由高维词汇空间映射到了低维主题空间,这样就去除了词汇噪声的影响,之后用处理规模相似的训练集进行聚类实验,从对聚类的速度与效果两方面考虑得出合适的主题噪声阈值与聚类中心数目,然后用优化聚类中心选择的Kmeans++算法对主题空间中表示的文本集合进行聚类,之后通过主题聚簇用评价方法对出现热点话题可能性赋予权重,最后从最有可能出现热点话题的聚簇中用本文提出的描述方法提取出热点话题信息作为展示。
2论坛热点话题挖掘
2.1论坛文本建模
2.1.1LDA主题模型
LDA主题模型是一种三层贝叶斯概率模型,是Blei等[8]在2003年提出的,它的目的在于以无监督的学习方法从文本集合中发现其中隐含的语义信息。
根据LDA模型的描述,文本集合可以按以下算法生成。
2.1.2模型求解
LDA主题模型求解模型的过程就是在给定模型参数的条件下,最大化式(2)中描述的每个文档的生成概率的问题:
p(w|φ,α)=∫p(w|φ,θ)p(θ|α)dθ (2
LDA模型求解是困难的问题,很难有精确的解法。实践中常用到的有两种不精确的解法:一种是基于变分法的EM(EstimationMaximization)算法求解[8];另一种求解方法是Gibbs Sampling[9],它是MCMC(Markov Chain Monte Carlo)方法的一种,其理论基础是马尔可夫链收敛定理,通过构造符合马尔可夫链细致平衡条件的状态转移矩阵,让任意给定的初始分布通过转移矩阵迭代转移,使其收敛到目标分布。Gibbs Sampling算法采样公式推导起来简单而且实际应用中运行效果也十分理想。
Gibbs Sampling求解方法采用了与式(2)提到的方法所不同的思想,它不直接将φ与θ作为模型参数来估计,而是先计算后验概率p(z|w),再对模型隐含变量进行估计。以下是Gibbs Sampling算法求解LDA模型变量的步骤。
2.1.3论坛文本建模
本文采用了JGibbsLda[10]LDA建模工具对预处理后的论坛文本数据进行建模分析。参考文献[11]中LDA主题模型参数的经验值,取α=50/K, β=0.1,其中K为指定的潜在主题数,Gibbs Sampling的次数N设为1000。
Gibbs Sampling算法结束时会产生两个矩阵:
大小为M×K的文档——主题分布矩阵,其中M为论坛文档集数目;大小为K×Nw的主题——词的概率分布矩阵,其中Nw为文档集中词汇表的大小。
2.1.4主题噪声去除
通过对文档集主题分布矩阵观察发现,每个主题分布中会出现一个或几个突出的主要主题,其他次要的主题所占的比重可以忽略。为了突出主要主题的影响,采用了以下规则对主题噪声进行去除:假设每个文档的主题分布中概率值最大的为主要主题记作Tmain,它的概率记作P(Tmain),设定阈值δ,对于除主要主题外的其他任何主题Ti,如果P(Ti)
2.2主题空间Kmeans++聚类
传统的Kmeans聚类算法中,聚类中心的选择是个关键的步骤。大多数用到的随机选择的方法会导致每次聚类的结果有差别而不能很好地反映聚类的真实情况,所以对映射到低维主题空间的论坛数据采用优化聚类中心选择的Kmeans++算法[11]对论坛数据进行聚类。Kmeans++算法如下:
设D(x)为文档x到已有的聚类中心中最近的距离;X为数据点集合;
步骤1从X中随机选择一个点作为第一个聚类中心c1;
步骤2以概率分布D(x)2/∑Xx=1D(x)2选择数据点x∈X,并将它作为新的聚类中心ci,更新D(x);
步骤3重复步骤2直到找到K个聚类中心;
步骤4执行标准的Kmeans聚类算法对数据进行聚类。
对于最优聚类中心数的确定,可以在已知处理数据集规模条件下进行聚类实验,从中心数的设定对聚类质量与速度的影响选出最优值。
2.3主题聚簇评价方法
为了发现热点话题,本文提出了一种主题聚簇评价方法对出现热点话题的可能性进行权重赋值。
假设聚类中心各个主题分量的概率分布矩阵表示如下:
其中:C为聚类中心数;K为主题数;p(k,c)表示主题k分配在聚类中心c的概率,k∈K,c∈C且对于任意c∈C,∑Kk=1p(k,c)=1。
尽管聚类算法已经将主题描述不相关的帖子分开,但依然存在一些主题,它们在每个簇中的分布情况非常均衡,这样的主题因为其普遍性而少了突发的特征,本文采用主题在各聚簇中的分布均衡情况来描述主题突发性。
定义1设C为聚类中心总个数,p(k,c)为聚类中心c中主题k的概率分布值,那么主题k突发度PromDeg(k)定义如下:
PromDeg(k)=∑Cc=1(p(k,c)-∑Cc=1p(k,c)/C)2/C(7
当得到了各个主题的突发度后,将各维度中主题的突发度与其所占的概率加权求和,很容易得到总的主题突发度,用它作为衡量聚簇主题突发性的标准。
定义2假设PromDeg(k)表示主题k的突发度,p(k,c)为聚簇c中第k维主题的概率值,其中k∈K,K为主题数,那么聚簇c的主题突发度为:
PromDeg(c)=∑Kk=1PromDeg(k)p(k,c)(8
在主题聚簇中,可以将聚簇表达的信息表示为在主题上一定概率的混合,纯净度高的聚簇可以更清楚地表达主题信息,而热点话题聚簇会因为其主题的聚集趋势明显而使得纯净度高。信息熵是信息论中度量信息量的概念,系统的状态分布越有序,信息熵越小。以聚簇的主题信息熵为依据,定义衡量聚簇主题纯净度的标准。
定义3假设K为主题数,p(k,c)为聚类中心c在第k维主题的概率,那么聚簇主题纯净度Purity(c)为:
其中γ为平滑值,防止主题信息熵为0。
为了衡量聚簇的热度,融入人为参与因素,赋予聚簇不同的关注度权重,文本采用单位时间内点击数与回复数来对聚簇的关注度进行描述。
定义4假设T2为采集时间,T1为发贴时间,φ为调整回复数与点击数的权重,repNum、clickNum分别是帖子的回复数与点击数,N为聚簇中包含的帖子总数,那么聚簇c关注度AttenDeg(c)为:
AttenDeg(c)=1N∑Nn=1(φ*repNumn+(1-φ)*clickNumn)T2-T1(10
将聚簇主题突发度、主题纯净度、关注度三个评价标准综合进行考虑可以得到每个聚簇含有热点话题可能性的归一化的评价公式:
S(Cj)=PromDeg(Cj)AttenDeg(Cj)Purity(Cj)∑Cc=1PromDeg(c)∑Cc=1AttenDeg(c)∑Cc=1Purity(c)(11)
其中Cj代表了第j个聚类。
2.4热点话题提取
对聚簇按出现热点话题的可能性排序后,通过找出与聚类中心所描述的主题拟合程度最高的帖子,并抽取出最能描述热点话题的标签,来完成热点话题挖掘的工作。
由于聚类中心反映了聚簇中的平均的主题分布情况,通过找出与聚类中心语义相似度最大且关注度最高的帖子作为包含热点话题的帖子样例。本文使用JensenShannon散度[12]来计算帖子主题分布与聚类中心之间的拟合程度。JensenShannon散度公式如下:
DJS(PC)=12∑Kk=1P(k)lbP(k)M(k)+C(k)lbC(k)M(k)(12)log的底是多少,请明确。
其中M(k)表示两概率分布中同一维度上的概率均值,可用式(13)来表示:
M(k)=12(P(k)+C(k))(13)
其中:P为帖子在主题空间的概率表示,C为聚类中心在主题空间的概率表示,K为主题空间的维数。
最后找出聚簇中占比重最大的主题,统计出在此主题下出现频率最高且出现概率最大的若干个词汇作为热点话题的标签化描述。
3实验与结果分析
3.1主题噪声阈值与聚类中心数的确定
对主题空间中表示的文本进行聚类时,不同的主题噪声阈值与不同的聚类中心数目选择会对聚类的质量与速度产生不同的影响,而目前并没有合适的规则对两个值进行选择。通过对不同的主题噪声阈值与聚类中心数进行训练,选择出最优的聚类参数。
聚类效果的评价标准采用平均聚簇内误差平方和(Average Sum of Squared Errors,ASSE),值越小表示了聚簇内部的样本点越集中,聚类质量越高,其形式如式(14)所示:
ASSE=∑Cc=1∑Nn=1xcn-xc2/C(14)
其中:xcn 为聚类c中的第n个样本点,xc为聚类中心。
实验中选择了2763篇论坛帖子作为训练集,聚类采用Kmeans++算法,主题噪声参数范围设为[0,1],聚类中心的数目选择为[5,100]。图3与图4分别显示了不同的主题噪声与聚类中心选择对聚类质量与速度的影响。
实验结果表明:聚类中心选择不同值时,当主题噪声阈值在区间[0,0.7)时,聚类结果的ASSE值会显著降低,阈值在区间[0.7,1)时,ASSE值不会发生明显变化,为了考虑次要主题对话题描述的意义,将主题噪声阈值设置为0.75;图4中的峰值显示当主题噪声阈值设置过大,聚类中心数目较少时聚类时间开销较大且不稳定,当阈值过小,聚类中心数目多时也会出现相同的状况,考虑到聚类质量相对较优的情况下,参照图中时间开销较低的区域,将聚类中心数目选择为50,这样就可以在保证聚类质量同时提高聚类算法效率。
3.2聚簇评价与热点话题发现
本文采用的实验数据来自用户活跃的天涯论坛的经济论坛、股市论坛、理财前线、房产观澜这4个版块,通过网络爬虫采集了从2013年7月1日到7月5日的帖子共11200篇。采用LDA主题模型对预处理后的数据进行建模,主题个数K取100,模型的参数选择原则为2.1.3节中所述。主题噪声阈值设为0.75,之后将数据用Kmeans++算法进行聚类,聚类中心数N设为50,最后对主题聚簇用评价方法对出现热点话题的可能性进行权重计算。
为了详细分析主题聚簇评价效果,在图5中列出了2013年7月2日当天排名前4的聚簇各评价因子权重。从图中分析得出:虽然有些主题聚簇的突发性与纯净度得分高,但关注度很低,可以判断这是一类灌水贴,不能当作热点话题;而热点话题的特征是关注度高,而且突发度与主题纯净度得分也比较高。图中标注的是排名最高的4个话题聚簇的主题词依次是:大盘、板块、期货;货币、流动性、银行;百姓、货币、物价;收益率、期限、风险。
4结语
本文基于LDA主题模型与Kmeans++聚类算法,提出了一种在论坛中挖掘热点话题的方法。主要工作总结如下: