상장폐지 예측3(Modeling)_Data Analysis/Analaze Delisting Stock
kr·@seohj·
0.000 HBD상장폐지 예측3(Modeling)_Data Analysis/Analaze Delisting Stock
지난 포스팅까지 분석에 필요한 데이터를 전처리해보았습니다. 오늘은 지금까지 준비해온 데이터를 토대로 분석을 진행해보겠습니다. > 전처리 과정을 소개하기 앞서 제가 이번 분석에서 사용한 분석 툴을 잠깐 소개드리겠습니다. 제가 사용한 툴은 [Rapid Miner](https://rapidminer.com/)인데요. 프로그래밍을 하지 않더라도 drag and drop방식으로 이루어지는 아주 쉬운 툴입니다. 개인이 쓰는데는 무료이므로 혹시나 RapidMiner를 이용하시는 분들은 [다음 카페](http://cafe.daum.net/rapidminer)를 이용하여 알아보시면 좋을 것 같습니다ㅎㅎ. # 의사결정트리 가장 먼저 의사결정트리알고리즘을 사용해보았습니다. 의사결정트리는 쉽게 설명하자면 분할 조건에 따라 모델의 조건을 하나씩 추가해가는 모델입니다. 의사결정트리 모델은 조건을 추가해 갈수록 나무가 가지를 생성하는 것 같은 모습을 나타냅니다. 이번 분석에서는 C5.0와 CART를 사용하였는데요, 알고리즘에 대한 상세한 설명은 다음 블로그에서 잘정리 되어 있더라구요 참고하시면 될 것 같습니다. [의사결정트리의 종류](http://gentlej90.tistory.com/91). ### C5.0  설명을 위해 모델링에는 사전 가지치기를 적용하지 않았습니다. 조건의 깊이도 4개까지만 허용하였습니다. C5.0의 결과를 보시면 1차적으로 가장 중요한 요인은 __자기자본__입니다. 2차 요인은 __감사의견__과 __매출액__이구요, 3차 요인은 __매출액순이익율__, __소액주주지분율__, __매출액__이 있었습니다. ### CART  CART도 마찬가지로 모델생성시에 사전가지치기를 적용하지 않았으며 조건의 깊이는 4개까지 허용하였습니다. 모델생성 결과 1차요인은 __감사의견__, 2차요인은 __자기자본__, 3차요인은 __매출액순이익율__과 __부채비율__이 있었습니다. # 로지스틱 회귀(Logistic Regression)  회귀분석은 분석이나 예측모델 생성 시 많이 쓰이는 통계 기법입니다. 그 중 [로지스틱 회귀](https://ko.wikipedia.org/wiki/%EB%A1%9C%EC%A7%80%EC%8A%A4%ED%8B%B1_%ED%9A%8C%EA%B7%80)는 다양한 연구에서 검증을 위해 가장 많이 쓰이는 기법입니다. 유의수준 95%를 기준으로 p-value를 살펴보았습니다. p-value 0.05이하인 변수는 4개( intercept는 bias입니다. )입니다. 유의 수준이 높은 순서대로 __매출액순이익률__, __감사의견__, __부채비율__, __주가/시가총액__이 유의변수로 추출되었습니다. ### 결과 논문에서 추출한 변수들 중에서는 __매출액순이익률__과 __부채비율__이 유의변수로 추출되었습니다. 특히 매출액 순이익률은 3개의 모델 모두에서 유의 변수로 추출되었습니다. 나머지는 모두 상장폐지 기준에서 추출한 변수가 유의변수로 추출 되었습니다. 그 중 __감사의견__은 3개의 모델에서, __자기자본__은 2개의 모델에서 추출되었네요. 이번 분석은 다음과 같은 시사점을 제시합니다.  ###### _보고서: 최근 5년동안의 유가증권시장 및 코스닥시장의 상장폐지 현황_ _ _고태경연구원(KCGS 한국기업지배구조원)_ 위의 보고서는 주식시장의 상장폐지 사유를 빈도 수로 정리하였습니다. 코스닥 코스피 모두 __자본잠식__과 __감사의견__이 주된 상장폐지 사유입니다.(피흡수 합병은 자발적 상장폐지로 이번 분석에서는 제외 하였습니다.) 그리고 자본잠식과 감사인 의견 거절로 부터 추출한 자기자본과 감사의견은 분석결과, 유의한 변수로 나타났습니다. 이는 데이터가 결과에 잘 반영되었다고 볼 수 있습니다. 하지만 나머지 상장폐지 사유에 대해서는 사례가 너무 적어서 유의변수로 나타나지 않았다고 볼 수 있습니다. 실제로 이번 분석에 차별화를 두기 위해 추출한 __소액주주 지분율__은 C5.0 모델에 3차 요인으로 나타날 뿐 다른 모델에서는 유의변수가 아니었습니다.  또한, __소액주주지분율__은 상장폐지에 대하여 반대의 관계를 가졌습니다. 코스닥 상장폐지 기준에 따르면 개인주주의 지분율이 10%미만이면 관리종목으로 지정됩니다. 따라서 분석 전, 상장폐지종목들은 __소액주주지분율__이 낮을 것이다라는 가설을 가지고 분석을 진행하였습니다. 하지만 C5.0모델에서는 __소액주주 지분율__이 0.506보다 크면 상장폐지가 된다는 결과가 나타났습니다. 저는 이에 대해서 추가로 조사를 했고, __정리매매__로 인해 이러한 결과가 나타났다고 판단했습니다. __정리매매__는 상장폐지종목으로 분류되고 7일동안 주주들이 자신의 권리를 포기할 수 있는 기간을 말합니다. 사실상 자신의 종목이 상장폐지가 되었는데 더 이상 가지고 있을 필요가 없죠. 하지만 정리매매 기간에 모든 주식이 휴지조각이 되는 것은 아닙니다. 주식이 상장폐지되더라도 회사의 주식 자체가 사라지는 것이 아닌데다 실적이 좋아지면 재상장할 수도 있기 때문입니다. 즉 회사가 회생할 때를 노려 주식을 싼값에 매수하는 투자자들이 존재합니다. 이 때문에 정리매매 종목을 사들이는 대부분의 투자자들은 이른바 ‘한탕’을 노리고 투자하는 이가 대부분입니다. _특히 정리매매 기간 동안엔 상한가와 하한가 제한 폭이 없기때문에 대주주의 지분율은 줄어드는데 반해 소액주주의 지분율은 올라가는 것입니다._ [관련 뉴스기사](http://magazine.hankyung.com/apps/news?popup=0&nid=01&c1=1002&nkey=2017042401117000291&mode=sub_view) 오늘은 상장폐지종목에 대하여 분석을 해보았는데요, 다음은 이를 바탕으로 예측모델을 만들어 보겠습니다