화장품 소비자의 차별화된 기호가치 소비 브랜드군에 대한 담론의 비교분석: 텍스트 마이닝을 중심으로

A Comparative Analysis on Discourse Reviews about Differentiated Semiotic Value Consumption Brand Groups in Cosmetics Consumers: Focusing on Text Mining

化妆品消费者差异化记号价值消费品牌群体话语比较分析: 以文本挖掘为中心

Article information

Asian J Beauty Cosmetol. 2024;22(2):273-300
Publication date (electronic) : 2024 June 30
doi : https://doi.org/10.20402/ajbc.2024.0009
1Byuckkang Liberal Arts College, Kyungwoon University, Gumi-si, Gyeongsangbuk-do, Korea
2School of Start-up & Assets Convergence (Marketing), Changwon National University, Changwon, Gyeongsangnam-do, Korea
3College of Business Administration, Dong-A University, Busan, Korea
송만석1,, 조윤재2, 임미주3
1경운대학교 벽강교양대학, 경상북도 구미시, 한국
2창원대학교 미래융합대학, 경상남도 창원시, 한국
3동아대학교 경영학과, 부산, 한국
*Corresponding author: Man Seok Song, Byuckkang Liberal Arts College, Kyungwoon University, 70 Gangdong-ro, Sandong-eup, Gumi-si, Gyeongsangbuk-do 39160, Korea Tel.: +82 54 479 1274 Fax: +82 54 479 1029 Email: consulting89@hanafos.com
Received 2024 February 19; Revised 2024 May 14; Accepted 2024 June 3.

Abstract

목적

본 연구는 저가색조화장품과 고가색조화장품 그리고 수입색조화장품으로 세분화된 이들 세분시장은 과연 차별화된 정체성으로 포지셔닝되어 있으며, 색조화장품 브랜드군 세분시장 간에는 어떠한 유사도와 차이점을 가지고 있을까?에 대한 의문으로 시작하였다.

방법

본 연구를 수행하기 위해 Python version 3.10.6 프로그램을 이용하여 네이버 쇼핑몰의 색조화장품 카테고리에서 기호가치 소비한 소비자의 담론을 크롤링하였으며, 전처리 과정을 거쳐서 워드클라우드 분석, N-gram 분석, 토픽 모델링 분석, 유사도 분석, 그리고 감성분석을 시행하였다.

결과

텍스트 마이닝 분석과정에서 많은 흥미로운 것을 발견하였는데, 그 중 하나는 혁신적 소비자들이 참여하는 짧은 시간내에 이루어지는 라이브 방송을 통해 구매하는 새로운 유통경로에 대한 발견과 저가색조화장품과 수입색조화장품 세분시장에서 휴리스틱스적인 결과는 다르나 유사한 담론의 패턴을 사용하고 있었으며, 세분화된 각 세분시장은 차별화된 포지셔닝을 가지고 있는 것으로 나타났다.

결론

비교 연구 대상인 기호가치 소비한 저가 화장품, 고가 화장품, 수입 화장품의 색조 화장품 이용 소비자 그룹은 각기 다른 정체성을 가지고 있어 브랜드 세분시장과 포지셔닝이 다르며 소비자들의 선택 속성 또한 다르기 때문에 국내 색조 화장품 산업의 방향성을 제시하는 동시에 마케팅 전략에 활용할 이론적 기초자료를 제공할 수 있으며, 각 비교 연구 군에서 얻게 되는 연구 결과에 따라 색조 화장품 브랜드 세분시장 별 시장경쟁력 강화를 위한 경영전략 및 마케팅 전략에 폭넓은 실무적 시사점을 제시할 수 있을 것이다.

Trans Abstract

Purpose

This study began by investigating the similarities and differences among segmented markets within the color cosmetics industry, which are subdivided into low-cost color, high-priced, and imported color cosmetics, positioned as differentiated identities, and what are the similarities and differences between the segmented markets of the color cosmetics brand group.

Methods

To perform this study, we used Python version 3.10.6 to crawl discourse from attracting value-driven consumers in the color cosmetics category on Naver Shopping Mall. After that, we completed the pre-processing steps and then conducted Word Cloud analysis, N-gram analysis, Topic Modeling analysis, Similarity analysis, and Sentiment analysis.

Results

The text mining analysis showed several interesting findings. Notably, we found a new distribution channel where innovative consumers make purchases through live broadcasts performed within a short period. Furthermore, the analysis indicated that while low-priced and imported color cosmetics submarkets showed different logical results, they utilized similar discourse patterns. Furthermore, each segmented submarket was observed to possess a distinct positioning strategy.

Conclusion

The consumer groups that utilized the taste value, the subject of comparative analysis, and used the low-cost, high-value, and imported color cosmetics have different identities. Consequently, the market segmentation and positioning of these brands differ, and consumer preferences vary. This allows us to outline the direction of the domestic color cosmetics industry and provide basic theoretical materials for marketing strategies. According to the research results obtained from each comparative research group, it will be possible to present a wide range of practical implications for management and marketing strategies to strengthen the market competitiveness of color cosmetics brand segments.

Trans Abstract

目的

本研究始于一个关于以下问题:低价彩妆、高价彩妆、进口彩妆这些细分市场是否具有差异化身份定位, 彩妆品牌团体细分市场之间有哪些相似之处和差异?。。

方法

本研究采用Python 3.10.6版本程序抓取Naver商城彩妆品类消费偏好值的消费者话语,通过预处理,进行了词云分析、N-gram分析、主题建模分析、相似性分析和情感分析。

结果

文本挖掘分析过程中发现了很多有趣的事情,其中之一就是发现了创新型消费者在短时间内通过直播购买的新分销渠道。此外,分析还发现,低价彩妆和进口彩妆虽然逻辑结果不同,但话语模式相似。 此外,据观察,每个细分子市场都拥有独特的定位策略。

结论

利用口味价值这一比较分析的对象,使用低价、 高值、进口彩妆的消费群体有着不同的身份。因此,这些品牌的市场细分和定位不同,消费者的偏好也不同。 这使我们能够勾勒出国内彩妆行业的发展方向,为营销策略提供基础理论素材。根据每个比较研究小组获得的 研究结果,将有可能对管理和营销策略提出广泛的际影响,以加强彩妆品牌细分市场的市场竞争力。

Introduction

소비자는 수많은 제품의 정보 중에 자신의 자아 이미지와 일치하는 브랜드에 대해 더 호감을 느끼게 되며 이러한 욕구 충족 때문에 현재의 자아 이미지와 일치하는 브랜드에 긍정적인 태도와 구매의도를 가지며(Sirgy et al., 2000), 자아를 표현하고자 하는 과정에서 제품을 상징적 의미로서의 자아 표현 욕구 충족으로 제품을 이용하기도 하고, 이러한 재화 소비활동을 통해 자아를 촉진하고 발전해 나가며(Grubb & Grathwohl, 1967), 제품을 구매할 때 제품의 기능적 가치보다는 사회적 가치의 상징성을 더 중요시하여 소비를 통해 자신의 정체성 및 이미지를 표현(Lassar et al., 1995)하여 특정 브랜드에 대한 자아 일치성이 높은 소비자 집단은 브랜드 애착과 거래 지속 의도와 추천의도 역시 높다.

현대의 소비가 갖는 의미는 사회적인 커뮤니케이션의 한 과정이자 계층의 분류 및 사회적 지위의 차별화의 과정이라 할 수 있으며, 상품은 사용가치와 교환가치뿐만 아니라 상징적 의미인 기호가치를 지니며(Baudrillard, 1972), 사용가치는 소비의 전제조건에 불과하며 기호 가치가 현대사회에서 소비의 진정한 의미라고 할 수 있다(Lee, 2011).

브랜드 구매와 관련한 대부분의 연구에서 이론적으로 소비자에 대한 욕구와 욕망을 정의하고 있지만, 내면 깊숙이 감추어진 펀더멘탈(fundamental)을 분석하는 것은 사실상 불가능하기 때문에 많은 연구에서는 소비자의 구매심리를 측정하기 위해 시장자료를 이용하거나 설문조사를 한다. 그런데, 표적고객에 대한 설문조사는 다차원적이고 복잡한 개념이기 때문에 자칫 잘못하면 편향될 가능성(Baker & Wurgler, 2007; Da et al., 2014)이 있으며, 시장자료 또한 펀더멘탈과 관련성(Da et al., 2014)이 있어 엄밀한 관점에서 측정하기 어려운 측면이 있다.

기존의 화장품 브랜드 구매와 관련한 대부분의 선행 연구는 화장품 이용 소비자의 브랜드 선택 속성에 대해 지각하는 정도를 파악하여 어떠한 속성이 구매의도에 영향을 미치는가를 규명하는 소위 소비자의 절대적 가치평가와 종속변수로서 충성도나 구매의도 또는 만족도와의 인과관계를 제시한 연구와 화장품 브랜드 속성에 대한 탐색적 연구들이었다(Namgung et al., 2017; Kim & Hwang, 2016; Yoo et al., 2006; Park & Lee, 2015; Hwang, 2011).

이러한 선행 연구는 브랜드 강화전략을 위해 복합적으로 접근하여야 하는 의사결정 시스템으로서의 전략적 시사점을 제공하기에는 제한적이며, 부족함이 따를 수밖에 없기 때문에 이와 같은 문제해결을 위해 비정형 데이터(unstructured data) 분석에 사용되는 자연어 처리(natural language processing, NLP) 방법을 적용하게 되면, 많은 양의 텍스트 자료에서 내제된 주제와 감성을 추출할 수 있기 때문에(Hu et al., 2019) 기호가치 소비 후 고객이 담론 형식으로 남긴 리뷰 분석을 통해 어떠한 주제가 이야기되고 있는지, 각 주제는 어느 정도의 빈도로 언급되고 있으며, 각 주제에 대한 감성의 크기가 어느 정도인지 분석할 수 있어 근래에 와서는 NLP 분석이 화장품 이용 소비자에 대한 담론 분석(Song, 2021; Song et al., 2022)에도 많이 도입되어 적용되고 있다.

구매 후 고객이 담론 형식으로 인터넷과 소셜미디어에 남긴 비정형 텍스트 빅데이터는 연구자의 개입이나 편견이 반영되지 않은 자의적인 데이터로 공존하고 있어 고객 리뷰는 제품 또는 서비스에 대해 사용자의 솔직한 생각을 알 수 있는 중요한 정보 원천으로 자리 잡고 있기 때문에(Kostyra et al., 2016), 많은 연구자와 기업은 고객 리뷰를 지능적으로 분석하여 전통적인 연구 방법을 보완하고자 시도하고 있으며(Trenz & Berger, 2013), 이러한 빅데이터를 이용한 계량적 분석(Lee & Rha, 2015)을 통해 전통적 분석의 한계를 보완하는 근거를 마련해 주고 있으나 소비재에 대한 텍스트 마이닝 연구의 대상을 살펴보면, 대부분 단일 브랜드에 대한 연구로 이루어지고 있어 브랜드 군에 대한 전반적인 고객 심리를 파악하여 제시한 연구는 상당히 부족하며(Kim & Son, 2019), 차별화된 화장품 브랜드 군 세분시장의 유사도와 차이점에 관한 연구 또한 부족한 실정이다.

본 연구는 기호가치 소비한 색조화장품 이용 소비자가 구매 후 소셜미디어에 담론 형식으로 남긴 개별 정서 반응인 리뷰를 저가색조화장품 브랜드 군 세분시장과 고가색조화장품 브랜드 군 세분시장 그리고 수입색조화장품 브랜드 군 세분시장 영역으로 나누어 크롤링(crawling)하여 전처리 과정을 거친 후 텍스트 마이닝 기법의 하나인 자연어 처리 방법으로 워드클라우드 분석(wordcloud analysis), N-gram 분석(N-gram analysis), 토픽 모델링 분석(topic modeling analysis), 그리고 감성 분석(sentiment analysis)의 과정을 거치면 세분화된 색조화장품 브랜드 군 세분시장 간에 어떠한 유사도와 차이점이 있으며, 차이점이 있다면 이들 분석으로 밝혀낼 수 있을까? 에 대한 의문으로 시작하였다.

이 구상의 실현을 위해 화장품 이용 소비자가 가장 많이 이용하는 대표적인 소셜미디어인 네이버 쇼핑을 선정하여 담론 형식으로 장기간에 걸쳐 존재하는 소비자의 경험 가치인 개별 정서 반응으로 남겨진 리뷰 빅데이터를 Python version 3.10.6 프로그램을 이용하여 크롤링하였으며, 각 연구 목적에 맞는 분석 방법으로도 활용하였다. 차별화된 색조화장품 브랜드 군 세분시장인 저가색조화장품과 고가색조화장품 그리고 수입색조화장품 세분시장에 대한 구성요소에 대해 느꼈던 담론의 분석을 통해 색조화장품 브랜드 군 세분시장의 속성 평가와 기호가치 소비와 관련한 감성 단어의 분석을 유의미한 커뮤니케이션 가치 단어로 파악하고, 크롤링한 빅데이터를 텍스트 마이닝 분석 방법인 워드클라우드 분석으로 Figure 1Figure 2 그리고 Figure 3으로 나타내었으며, N-gram 분석으로 Figure 4의 A와 B, 그리고 C로 나타내었으며, 토픽 모델링 분석으로 Figure 5Figure 6 그리고 Figure 7로 나타내었고, 그리고 감성 분석의 결과로 Figure 8과 같이 도출하였다.

Figure 1.

Low-cost color cosmetics wordcloud analysis results.

Figure 2.

High-cost color cosmetics wordcloud analysis results.

Figure 3.

Imported color cosmetics wordcloud analysis results.

Figure 4.

Trigram analysis results of low-cost color cosmetics (A), high-cost color cosmetics (B) and imported color cosmetics (C).

The different node sizes are determined by dynamic scaling based on the weight of each node. Nodes with higher word frequencies are represented larger, while those with lower frequencies appear smaller. The size of each node has been configured to visually reflect these differences in frequency.

Figure 5.

Low-cost color cosmetics LDA analysis results.

Figure 6.

High-cost color cosmetics LDA analysis results.

Figure 7.

Imported color cosmetics LDA analysis results.

Figure 8.

Sensitivity analysis results.

의문에 대한 문제 해소를 위해 본 연구의 수행 방법인 워드클라우드 분석과 감성 분석의 결과로 나타난 그래프와 표를 보면 유사도와 차이점이 쉽게 판단되나 N-gram 분석과 토픽 모델링 분석의 결과를 보면 유사도와 차이점에 대한 분석을 유추하기 쉽지 않기 때문에 이들 분석과 함께 추가적으로 색조화장품 브랜드 군 세분시장 간의 유사도와 차이점 확인에 대한 보완적인 검증을 실시하고자 한다. 분석 방법으로는 트라이그램 분석 결과와 토픽 모델링 분석 결과를 이용하여 코사인 유사도(cosine similarity) 분석과 유클리디안 거리 유사도(euclidean distances similarity) 분석 기법을 도입하여 Table 5Table 6의 결과와 같이 이들 세분시장의 유사도와 차이점에 대한 정량적 분석을 추가로 시행한다.

Similarity analysis among segmented color cosmetics markets using trigram analysis results

Similarity analysis among segmented color cosmetics markets utilizing LDA analysis results

이를 통하여 기업이 목표로 하는 포지셔닝이 과연 정체성에 맞게 세분시장 별 차별화가 잘 정의되어 있는지 또는 브랜드 군이 비차별화 되어 소비자에게 포지셔닝되어 있는가를 비교분석을 통하여 살펴볼 수 있다는 점에서 본 연구는 선행 연구와의 또 다른 연구의 차별성을 가질 수 있다. 이는 설문조사와 직접 면담을 통한 심층 인터뷰보다 크롤링한 소셜 텍스트 데이터를 이용하여 분석해 보는 것이 의미있는 연구가 될 것이라고 제안한 Kim (2018)과 동일한 맥락을 가지며 학문적 접근방법으로서뿐만 아니라 소비자의 잠재된 욕구와 욕망 분석으로 펀더멘탈 측정도 가능하여 서비스 질적 향상을 포함하는 사회 기여도 측면에서도 매우 탁월한 접근방법이라고 할 수 있다.

본 연구에서는 비정형 데이터를 분석하는 대표적인 텍스트 마이닝 기법인 워드클라우드 분석, N-gram 분석, 토픽 모델링 분석, 유사도 분석, 그리고 감성 분석을 통해 연구를 진행하고자 한다.

Methods

1. 크롤링

크롤링은 검색 로봇으로 불리는 웹페이지 수집 프로그램을 이용하여, 인터넷상에 공개된 웹 사이트의 웹 페이지를 순회하며 웹 페이지 정보를 수집하는 행위를 지칭한다(Kang, 2022). 예컨대 구글의 뉴스 서비스 방식은 검색 로봇을 이용하여 다른 웹 사이트에 게재된 뉴스 기사를 크롤링한 정보를 이용하여 뉴스 기사 페이지로 구성하여 링크 정보를 제공해 주는 형태를 취하게 되는데 인터넷에서 정보수집을 위해서 일반적으로 사용되는 기술이다. 그러나 이러한 크롤링은 다른 사람의 정보처리 장치 또는 정보처리 조직에 침입하거나 기술적인 방법으로 다른 사람의 정보처리 장치가 수행하는 기능이나 전자기록에 함부로 간섭하는 일체의 행위인 해킹(hacking)과는 차별된다(Yu, 2007).

본 연구에 있어서 크롤링이란 웹 페이지에 담긴 필요한 데이터를 추출하는 과정을 의미하는 것으로 많은 시간과 노력이 소요되는 과정이다. 네이버 쇼핑몰 웹 페이지에 접속하여 연구 목적에 따른 크롤링 대상 품목을 선정하고 연구자가 원하는 내용 대상을 파싱(parsing)하여 리뷰를 가져오는 과정으로 웹 검색엔진의 주요 구성요소인 웹 페이지 모음에 대해 색인을 생성하고 검색 요소와 일치하는 웹 페이지를 찾는 역할을 하며, 웹 페이지에 대한 정보와 검색하려는 검색어, 정보를 분류하는 등의 처리를 할 수 있는 각종 모듈이 요구되며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데에도 사용한다.

네이버 쇼핑몰에서 제공되는 화장품 구매 후 리뷰의 모든 정보는 공개된 정보이기 때문에 정보를 수집할 때 영리활동 목적으로 웹 크롤링을 진행하는 것은 분쟁 소지가 있을 수 있으나, 본 연구를 위한 웹 크롤링은 순수 학문 활동으로 분쟁과 같은 문제 소지가 없어 해당 정보 주체들이 명시한 정보 활용에 관한 제한사항을 탐색, 숙지하였고 민감 정보가 없음을 재확인하는 과정을 거쳤다.

웹 크롤링은 각종 서비스 및 데이터 세트(data set) 구축을 위한 기반이 되는 데이터를 자동으로 수집한다는 점에서 빅데이터 인공지능 관련 기술에서 필수적인 요소에 해당하며(Kwon et al., 2021), 일반 으로 공개된 웹 페이지의 URL에 접근하여 HTML 코드를 분석하고 인덱싱하는 방법으로 진행하는 과정을 통하여 웹 사이트를 항상 최신 상태로 유지하고 관리할 수 있도록 도움을 주게 되며(Chung, 2022), 이러한 웹 크롤링 기술은 연구 목적 활용과 비즈니스 활용 그리고 서비스 제공 등을 위하여 공개된 데이터를 수집하고 활용하는 데 사용된다(Kim, 2020).

본 연구를 위한 검색 키워드는 연구 대상 영역인 저가화장품, 고가 화장품, 그리고 수입화장품의 세분시장 영역에서 “색조화장품”으로 키워드를 통일하였으며, “리뷰 많은 순”으로 정렬하여 각 세분시장 영역에 걸쳐 크롤링 작업을 진행하였다.

2. 데이터 전처리 및 연구 가설의 설정

본 연구의 분석 과정을 위해 1단계 데이터 크롤링, 2단계 텍스트 데이터의 전처리, 3단계 자연어 처리 과정인 텍스트 분석을 거쳐서 4단계 시각화 및 추론 과정으로 진행하였다.

1단계인 텍스트 데이터 자료 수집을 위해서는 화장품 이용소비자가 구매 후 남긴 담론 형식의 리뷰가 가장 많이 존재하는 네이버 쇼핑몰에서 빅데이터 정보를 수집하는 크롤링 프로그램은 오픈 소스(open source) 언어로서 R과 함께 가장 활용도가 높은 개발 언어이며, 플랫폼이 가장 잘 구축되어 있는 파이썬(Python version 3.10.6)프로그램에 직접 코딩하여 수집하였다.

2단계인 텍스트 전처리를 수행하는 이유로는 정보의 중복성과 불필요한 정보가 많기 때문에 후속 작업인 3단계 텍스트 분석과 4단계 시각화 및 추론 과정을 원활히 진행하기 위해서는 필수적으로 수행하여야 하며, 추출된 데이터의 양이 많을수록 소요 시간이 많아지고 반복 횟수가 증가하게 된다. 또 추출된 텍스트 정보는 일정한 규칙을 포함하고 있기는 하지만, 연구자가 필요로 하는 데이터규칙으로 변환시키는 작업으로 이해하면 된다.

본 연구는 자동화 처리가 주요 목적 중 하나이지만 연구자의 수작업이 실제로 많이 들어갈 수밖에 없는 것은 필연적이다. 그 이유 중 하나는 본 단계가 가장 중요한 과정의 하나인 형태소 분석을 수행하기 때문이다. 텍스트 전처리 과정에서는 형태소에 따른 분석이란 의미는 텍스트 마이닝 과정에서는 필수적이며 연구의 방향성을 달리할 수 있다. 명사 외 다른 품사를 포함하여 분석이 이루어지면 문서가 함의하는 다른 결과가 도출되기도 하며 연구 목적과는 맞지 않으며 필요없는 복잡한 분석 결과를 도출하기도 한다.

이 과정에서 일반적인 텍스트 데이터들을 컴퓨터가 처리하기 쉽도록 변환하는 작업으로 특정 단어와 관련된 문서들을 신속하게 검색할 수 있도록 인덱스(index) 파일을 만들며, 자연어 처리 분석을 위해 크롤링한 데이터에 대하여 불용어 처리, 구두점 제거, 불필요한 부호와 기호, 숫자 제거, 그리고 공백 제거를 실시하였다.

본 연구를 위한 분석을 위해 명사, 형용사, 부사, 동사 등의 품사를 포함하거나 제거하는 다양한 분석 방법을 본 연구에 앞서 사전 연구 분석으로 진행해 본 결과는 대부분의 텍스트 마이닝 분석 연구에서 명사만을 추출하여 사용한 선행 연구의 결과와 같이 명사만을 이용한 분석의 결과가 본 연구의 목적과 가장 이상적으로 합치하였다.

텍스트 전처리 3단계에서는 텍스트의 의미 도출에서 상대적으로 낮은 저 빈도 명사와 한 단어로 이루어진 글자 그리고 불용문자들은 제거하였다. 이 과정 역시 연구의 타당성에 영향을 미치지 않는 일반적 범주의 텍스트 수준에서 선택하고 제거하는 과정을 거쳤다.

마지막 단계로 4단계 시각화 및 추론 과정에서 선행 연구와 기존 활용되고 있는 모듈을 본 연구 과정에 맞게 프로그래밍 전환 과정을 거쳐 진행하였다. 진행 과정으로는 해당 데이터를 이용하여 연구의 목적에 맞는 의미를 연결하고 시각화하며 빈출 단어를 정리하고, 네트워크를 통한 관계 분석의 그래프와 중심성을 나타내고, 토픽과 키워드 추론하며, 소비자의 감성을 분석하는 과정으로 진행하였다.

소비자가 구매 후 소셜미디어에 담론 형식으로 남긴 개별 정서 반응인 리뷰를 저가색조화장품 브랜드 군과 고가색조화장품 브랜드 군 그리고 수입색조화장품 브랜드 군의 세분시장 영역으로 나누어 크롤링하여 전처리 과정을 거친 후 텍스트 마이닝 기법인 워드클라우드 분석, N-gram 분석, 토픽 모델링 분석, 그리고 “감성 분석 등의 기법을 적용하게 되면, 세분화된 색조화장품 브랜드 군 세분시장 간에 어떠한 차이점과 유사도가 있으며, 차이점이 있다면 이들 분석으로 밝혀낼 수 있을까?”에 대한 의문으로 본 연구를 시작하게 되었다.

다양한 텍스트 마이닝 분석 방법을 적용하여 고객이 색조화장품 세분시장을 선택하는 요인을 분석하는 프로파일을 분석함으로써 색조화장품 세분시장이 가지고 있는 정체성과 고유한 특성을 파악할 수 있어 특성에 맞는 색조화장품 시장의 효율적 운영을 위한 전략적 대안을 제시하고자 한다. 이를 위한 연구 가설은 다음과 같다.

연구가설 1. 색조화장품 세분 시장에 남겨진 담론의 워드클라우드 분석을 통하여 나타난 결과는 세분시장에 따라 고유한 정체성은 차이가 있을 것이다.

연구가설 2. 색조화장품 세분 시장에 남겨진 담론의 트라이그램 네트워크 분석을 통하여 나타난 노드는 세분시장에 따라 고유한 정체성은 차이가 있을 것이다.

연구가설 3. 색조화장품 세분 시장에 남겨진 담론의 토픽 모델링 분석을 통하여 나타난 주요 키워드는 세분시장에 따라 고유한 정체성은 차이가 있을 것이다.

연구가설 4. 텍스트 마이닝 분석으로 도출된 결과를 이용하여 유사도 분석을 수행한 결과는 세분시장에 따라 고유한 정체성은 차이가 있을 것이다.

연구가설 5. 색조화장품 이용 소비자의 구매 후 느끼는 감성은 세분시장에 따라 고유한 정체성은 차이가 있을 것이다.

3. 워드클라우드분석

전처리까지 완료된 데이터를 활용하여 연구 대상 영역별 노출 빈도수가 높은 단어 300위까지를 대상으로 추출하여 그 결과를 비교 분석하였다. 워드 클라우드 분석은 최근 소비자학 연구 분야인 텍스트 시각화 기법 중 대표적인 트렌드 방법으로, 비정형 데이터를 그래프의 형태로 시각화하여 각 단어의 크기가 빈도 또는 중요성으로 쉽게 파악될 수 있도록 하여 나타나게 해주는데, 워드클라우드의 중심부로 갈수록 빈도수가 높은 단어이며, 외곽에 배치되거나 글자 크기가 상대적으로 작은 것은 빈도수가 낮은 단어를 나타내는 것으로(Song, 2021), 방대한 양의 텍스트 정보를 다루는 빅데이터를 분석할 때 전체 텍스트 데이터의 특징을 한눈에 직관적으로 알 수 있게 하는 특성이 있어 키워드 분석 시 많이 사용하고 있다.

분석되어 나타나는 그래프 그림에서 키워드의 빈도에 따라 출력되는 문자의 크기가 결정됨으로써 직관성이 우수한 워드클라우드 분석 기법(Seo & Lee, 2019)은 비정형 텍스트 데이터 분석 과정에서 불용어를 제거하고 시각화하는 분석하는 기법으로, 사전에 휴리스틱스(heuristics)에 의해 전처리 과정을 거쳐서 정제된 데이터를 본 연구를 위해 도입한 파이썬 프로그램으로 어휘들을 추출하고 출현 빈도수를 계산한 다음 시각화되어 분석한다. Figure 1, Figure 2, 그리고 Figure 3의 워드클라우드 분석 결과는 출현 빈도수가 높은 단어는 크게 표시되고 그래프의 중앙에 위치하게 되며, 각 각의 단어는 크기와 색상으로 구분되어 표시된다. 여기서 출현 빈도수가 높은 단어는 일반적으로 중요도가 높고 관심도가 높은 것으로 전제한다.

4. N-gram 분석 본 연구를 위한 분석 방법 중 연속된 정형 표현의 추출 분석을 위해 Ngram 분석을 도입하고자 한다. N-gram 분석은 n개 단어의 연쇄를 확률적으로 표현하여 실제로 표현된 문장의 기록을 확인할 수 있어 응용언어학에서 오랫동안 사용하던 언어 처리 방식으로 ‘n’은 n개로 연속된 언어 요소를 말하며 코퍼스(corpus)에서는 n개의 언어 요소 단위를 하나의 토큰(token)으로 간주한다. n이 2이면 두 개의 언어 요소가 연속된 것으로 바이그램(bigram)이라고 하고, 세 개의 단어 즉, n이 3요소가 연속된 것은 트라이그램(trigram)으로 한다. 바이그램과 트라이그램의 차이는 바이그램은 텍스트에서 “I love”나 “natural language”와 같은 형태로 두 개의 연속된 단어를 나타내며, 트라이그램은 “I love python”이나 “natural language process” 와 같은 형태로 세 개의 연속된 단어를 나타낸다.

N-gram은 단어 연관성 분석 기법의 하나로 문서 내에서 해당 단어와 함께 출현하는 단어들을 분석하고 추출하여 해당 단어와 어떤 단어들이 관련된 연결성을 가진 내용으로 구성되어 있는지를 보는 방법으로 텍스트에서 연속적으로 나타나는 연쇄된 N개 문자열을 말한다. 빈도 분석을 통해 추출된 단어가 원래 자기 자리에 있던 순서가 무시된 채 처리되어 단어가 가지는 의미가 제대로 표현되지 못하는 것을 보완하기 위하여 인접한 단어들을 2개 혹은 그 이상으로 묶어 표현하는 순열 기법이다. 예를 들면, ‘상승’, ‘증가’ 단어는 ‘집값-상승’, ‘금리-상승’, ‘거래량-증가’, ‘압력-증가’와 같이 지시하는 대상과 쌍으로 묶여서 추출할 경우 해당 텍스트 내에서 의미를 명확히 파악할 수 있다(Park & Suh, 2015).

이와 같은 N-gram의 우수성으로 Jung et al. (2017) 등은 N-gram 원리로 인접 연결 단어를 통해 영화의 관객 반응을 나타내는 단어를 추출하였으며, Jang (2024) 역시 빅데이터 텍스트마이닝 분석을 통해 패션산업에 있어 지속가능성과 디지털 실행에 대해 형성되고 있는 소비자 인식과 주요 의제를 파악하는 연구를 위해 N-gram 분석을 도입하였고, Moon (2015)은 인문학의 빅데이터 사례 연구, 그리고 Yoon (2019)은 학술지의 서론에서 이동 마디별 다단어 단위를 추출하여 N-gram 분석을 통한 학술적 정형 표현을 제시한 연구를 수행하였다.

그리고 N-gram 분석 방법에서 트라이그램은 구문 해석에서 문장 내 단어들의 구문 구조를 상대적으로 더 잘 이해할 수 있게 하고, 문장의 문법적인 특징을 정확히 파악할 수 있으며, 다음에 나올 단어를 예측하는 데에도 정확성을 가질 수 있다. 이는 자동 완성이나 다음 단어 예측과 같은 응용에서 효과적으로 이해할 수 있도록 하여 자연어 처리 및 기계학습 알고리즘의 성능을 향상할 수 있는 강력한 도구로도 활용도가 높아 본 연구의 목적에 적합한 분석 방법으로 적용하였다.

이러한 이유로 트라이그램을 사용하게 되면 더 많은 정보를 넣을 수는 있으나, n을 계속해서 추가하게 되면 벡터가 커지는 과적합의 문제를 가져올 수 있기 때문에 보통의 연구에서는 Figure 4의 A와 B 그리고 C와 같이 트라이그램 정도까지 도입하는 것이 일반적인 사례다.

5. 토픽 모델링

토픽 모델링은 분석에 앞서 적합한 토픽의 수와 키워드 수를 정하기 위해 잠재 디리클레 할당(latent dirichlet allocation, LDA) 모형 분석 툴(tool)을 이용하여 연구 목적에 맞는 최적의 토픽 모델 수를 알아보기 위해 사전에 텍스트 데이터에서 텍스트 열을 추출하여 사전과 코퍼스 생성하는 텍스트를 토큰화하여 리스트로 저장한 후 토픽 수 범위에 대해 일치도 점수(coherence score)를 계산하는 전처리 과정을 거치게 된다. 이때 토픽 수는 일치도 점수 계산을 통하여 최적의 토픽 수가 나타나게 되는데 일치도 점수가 그래프로 시각화되어 가장 높게 나타난 최적의 토픽 수를 찾아 토픽 모델링 분석할 코드에 반영하여 적합한 키워드 수의 적용과 함께 수행하게 된다.

토픽 모델링 결과를 해석하는 것은 주제 모델링의 목적과 데이터에 따라 달라질 수 있으나 주어진 결과를 기반으로 하는 해석적 측면을 위해 분석의 한계와 이를 극복하기 위한 과정을 설명할 필요가 있다. 동일한 어휘라도 맥락에 따라서 상이한 의미를 지니는 점을 고려하여야 하는 키워드 탐색법의 한계를 넘어 토픽 모델링 기법이 방대한 텍스트 뭉치로부터 특정 분야의 텍스트를 추출하는 작업에서 키워드 탐색 방법의 대안이 될 수 있다(Nahm, 2016)고 하지만, 이 역시 LDA 분석은 한 개의 단어(형태소)를 기준으로 쪼개어 분석하기 때문에 도출된 단어를 통해 주제를 유추할 수밖에 없어 구체적으로 어떤 맥락에서 해당 단어가 쓰였는지, 어떤 담론의 리뷰 형식으로 작성되었는지는 확인할 수 없다는 한계가 있다(Yang, 2018).

Figure 5, Figure 6, 그리고 Figure 7의 문서 집합 내에서 주제를 도출해 줄 뿐만 아니라, 개별 주제들이 서로 어떻게 연결되어 있는지, 그리고 시간에 따라 어떻게 변화하는지를 분석할 수 있는 기법이다. 이는 토픽 모델링 분석 과정에서 잠재 디리클레 할당을 통해 연구자가 설정한 문서를 통계적으로 처리하여 각 문서에 어떠한 주제들이 존재하는지를 밝히는 확률적 토픽 모델 기법(Blei, 2012)의 하나로서, 사후 확률 추론 방식인 LDA 분석 과정을 통하여 텍스트 데이터 내에 단어들이 서로 연관성이 있다는 것을 가정하고 단어가 나타나는 환경에 따라 주제를 도출하게 된다(Cho et al., 2018).

토픽 모델링은 사전에 설정한 토픽 수에 따라 결과가 상이하게 도출되기 때문에 토픽 수는 토픽 모델링에서 중요한 역할을 한다. 그러나 모델을 평가하는 방법이 존재하지만, 해석의 용이성 때문에 연구자 주관에 따라 토픽 수를 결정한다면 객관적인 통계적 방법으로 잠재적 정보를 추출한다는 토픽 모델링의 장점에 모순이 생길 것이다. 따라서 토픽 모델링을 평가하는 일치도 점수를 활용하여 토픽 수를 결정하는 것이 더 적절하다고 판단하기도 한다(Yun et al., 2019).

토픽 모델링을 적용한 선행 연구에서 사전에 설정한 토픽 수에 대한 근거를 제시한 연구는 찾아보기 쉽지 않다. 토픽 모델링을 제안하고 분석하는 연구에서 적용하는 일치도 점수를 중심으로 연구하는 것도 사실이지만, Blei et al. (2003)은 통계적으로 최적의 토픽 수를 탐색하는 것은 사실상 무의미하다고 제안하였다.

LDA 알고리즘은 문서, 단어 등 관찰 변수(observed variable)를 통해 문맥, 문서의 구조 등 잠재된 변수(hidden variable)를 추론하는 방법으로 전체 문서 집합의 주제, 문서별 주제 비율, 각 단어가 각 주제에 포함될 확률 등을 파악할 수 있는 것으로(Park & Song, 2013), 군집화 분석 기법이 하나의 문서에 하나의 토픽으로만 할당되는 것으로 파악하여 분석하는 것과 다르게 LDA는 하나의 문서에 여러 개의 토픽이 존재하는 것으로 분석하기 때문에 현실적으로 더 적합한 모델로 평가받고 있으며(Kim et al., 2017), 내용 분석 방법에서도 Park & Song (2013)은 토픽 분석에 대한 한계점을 극복할 수 있기 때문에 빅데이터에서 잠재된 토픽을 찾아낼 수 있는 점에서 유용하다고 하며 우수성을 강조하였다.

수행한 일치도 점수(coherence score) 분석에서 도출된 토픽 수는 저가색조화장품의 경우 이상적인 최적 토픽 수가 2개로 나타났으며, 고가색조화장품의 경우 7개, 그리고 수입색조화장품의 경우 11개의 토픽 수가 적절하다는 일치도의 값을 얻을 수 있었으나, 본 연구의 목적은 차별화된 기호가치로 소비한 색조화장품 브랜드 군 세분 시장의 유사도와 차이점에 대해 상호비교하는 것에 높은 가중치를 두었기에 너무 많은 토픽 수와 적은 토픽 수는 해석에 있어 너무 복잡하고 단순하여 세분화된 세분시장 영역 간의 비교 해석에 어려움이 따를 수 있어 토픽 수가 7개로 나타난 고가색조화장품을 기준으로 비교 연구 대상인 전체 세분시장의 토픽 수를 7개로 동일하게 적용하였으며, 키워드 수는 토픽별 15개의 키워드로 확정하여 상호비교하고 평가하는 것으로 연구를 수행하였다. 제시된 Figure 5, Figure 6, 그리고 Figure 7에 나타났듯이 색조화장품 세분시장 영역별 토픽을 나타내는 각 버블(bubble) 원그래프는 연구의 목적에 맞게 상호 겹치는 토픽이 없이 차별화되어 나타났다.

6. 유사도와 차이점 분석

색조화장품 브랜드 군 세분시장 간에 어떠한 유사도와 차이점이 있을까? 에 대한 의문의 해소를 위해 정성적 분석뿐만 아니라 단순한 텍스트 마이닝 분석 방법으로는 표적된 세분시장의 포지셔닝을 유추하기가 쉽지 않기 때문에 추가로 색조화장품 브랜드 군 세분시장 간의 유사도와 차이점 확인을 위해 유사도 분석을 도입하여 보완적으로 검증을 실시하고자 한다.

유사도를 측정하는 방법의 선택은 연구 목적과 대상에 따라 달라지나 일반적으로 유사도 측정 방법 중 코사인 유사도 측정 방법을 가장 많이 연구에 도입하여 분석하고 있다(Yang et al., 2019; Yoon & Kim, 2011). 코사인 유사도의 측정은 일반적으로 두 문장의 벡터 공간 모델상에서 문장을 벡터로 간주하여 두 벡터 간의 거리와 코사인 값을 구함으로써 유사도를 측정할 수 있으며, 세분화된 색조화장품 세분시장에서 담론 형식으로 남겨진 리뷰를 하나의 개체로 취급하여 유사도 분석을 통해 각 브랜드 군이 차별화된 포지셔닝을 유지하고 있는가를 확인할 수 있을 것이다.

유클리디안 거리 유사도 분석 또한 유사도 분석을 위해 많이 사용하는 방법으로 분석 방법은 실제 거리라는 의미에 가장 부합하는 직선거리를 측정하는 것이며, 제곱합의 제곱근을 계산하여 측정하는 것으로(Vijaymeena & Kavitha, 2016), 평면에서 두 점 사이의 직선 거리를 N 차원 공간으로 확장하였을 때 두 점 사이의 거리를 피타고라스 방식을 통하여 구현하며, 자연어 평가 기반에서 추천 모델에도 사용한다(Choi et al., 2020). 2차원 또는 3차원 공간에서의 거리를 계산할 수 있어서 머신러닝이나 데이터 분석에서 자주 사용되는데, 이는 데이터 포인트들 사이의 거리를 측정하는 데 사용되기 때문이다. 예를 들어, 클러스터링 알고리즘에서는 유클리디안 거리를 이용하여 데이터 포인트들이 얼마나 가까이 있는지, 또는 얼마나 멀리 있는지를 판단한다.

코사인 유사도는 두 벡터 간의 코사인 각도를 이용하여 구할 수 있는 두 벡터의 유사도를 의미하는 것으로 값의 범위는 -1부터 1까지 이며, 1에 가까울수록 유사도가 높다는 것을 나타내며, 반대로 -1에 가까울수록 두 벡터가 서로 음(陰)의 방향으로 유사하다는 것을 나타내고, 0은 두 벡터가 서로 독립적이며 아무런 유사성이 없음을 의미하는 것으로 길이가 다른 문맥 벡터들 사이의 차이를 정규화해 준다는 점에서도 유용하다. 유클리디안 거리 유사도는 두 점 사이의 직선 거리를 계산하는 방법으로 두 벡터 간 거리의 유사도를 의미하는 것으로 값이 작을수록 두 데이터 간의 유사성이 높다는 것을 의미한다.

본 연구를 위한 색조화장품 브랜드 군 세분시장의 유사도와 차이점 분석을 위한 코사인 유사도 분석과 유클리디안 거리 유사도 분석의 도입은 서로 반대의 특성을 가지고 있기 때문에 이 두 유사도 분석을 동시에 수행하면, 유사도를 더욱 정확하게 측정할 수 있다. 예컨대, 코사인 유사도는 두 벡터 방향의 코사인 각도에 의한 유사성을 측정하는 것으로 두 벡터의 크기에 덜 민감하여 크기가 다르더라도 방향이 같으면 유사도가 높게 측정되는 경향이 있어 텍스트 문서의 크기가 다른 경우에 더 적합하며, 유클리디안 거리 유사도는 두 데이터 포인트의 실제 거리를 측정하므로 두 벡터가 가까울수록 유사도가 높게 측정되어 수치 데이터에 더 적합하다. 따라서 서로 다른 이 두 가지 유형의 유사도 분석을 동시에 수행하게 되면 이와 같은 서로 반대적인 특성은 상호보완적인 작용을 하게 되어 유사도와 차이점 분석에 대해 더욱 정교한 분석 결과를 얻을 수 있을 것이다.

세분화된 색조화장품 브랜드 군 세분시장의 유사도와 차이점의 분석을 위해 선행 연구에서 제기한 것과 같이 서로 반대의 특성이 있어 상호보완적인 작용을 할 수 있다는 코사인 유사도 분석과 유클리디안 거리 유사도 분석을 동시에 도입하여 도출된 Table 5Table 6의 결과를 중심으로 색조화장품 브랜드 군 세분시장에 대한 유사도와 차이점을 살펴본다.

7. 감성 분석

감성 분석을 위해 감성 사전을 이용하는 것은 기본적인 방법의 하나이다. 감성 사전은 단어 또는 구(phrase)의 감성을 미리 단어들이 갖는 긍정적, 부정적, 중립적인 감성을 미리 정의하여 텍스트 데이터에서 이 단어들의 빈도나 위치를 바탕으로 감성을 판단하지만, 이 방법은 실제 텍스트에서는 문맥을 고려하지 않기 때문에, 문맥에 따라 단어의 감성이 바뀔 수 있으므로 제한적일 수 있다. 예를 들어, '아니다'라는 부정적 단어가 ‘나쁘지 아니하다’라는 긍정적 문맥에서 사용되면, 감성 사전만을 사용하는 방법은 이를 정확히 판단하기 어렵기 때문이다.

이러한 문제는 문맥을 고려하지 못하면 특정 분야의 주제를 다루는 도메인에서 특정적인 감성이나 신조어, 비속어 등에 대한 감성을 잘 파악하지 못하고, 또한 감성 사전의 품질은 분석 결과에 큰 영향을 미치게 되므로 이런 한계를 극복하기 위해서 현재는 추가로 딥러닝 기반의 감성 분석 방법이 널리 사용되고 있는데, 대표적인 방법이 Bidirectional Encoder Representations from Transformers (BERT)와 같은 트랜스포머(transformer) 모델을 이용하는 방법과 TF-IDF를 사용하여 텍스트 데이터를 벡터화하여, 로지스틱 회귀 분류 모델을 학습하여 감성 분석을 수행하는 방법 등이 있다.

이들 분석 간에는 많은 장⋅단점이 존재하는데 BERT와 같은 트랜스포머 모델은 문맥을 고려하여 텍스트를 이해하므로 문맥에 따른 감성의 변화를 더 잘 파악할 수 있으며, 여러 에포크(epoch)에 걸쳐 모델을 훈련함으로써 성능을 점진적으로 향상할 수 있고, TF-IDF는 텍스트 데이터를 벡터로 변환하는 방법의 하나로서 감성 분석에 사용되는 피처를 생성하는 데 사용될 수 있어서 단어의 빈도와 문서 내에서의 중요도를 동시에 고려하므로 텍스트 데이터의 특성을 잘 반영할 수 있지만, 희소한 단어에 대해서는 과대평가할 가능성이 있다.

본 연구에서는 감성 분석의 심도있는 분석과 감성 분석에 대한 일반화 성능을 높이기 위해 BERT 감성 분석도 실시하여 도출된 결과를 상호 비교하며, 감성 분석을 보완하는 데 도입하고자 한다. 이를 위한 분석의 진행 과정은 첫째, 모델의 일반화 성능을 평가하기 위해 훈련 데이터는 모델 학습에 사용하며, 테스트 데이터는 학습된 모델의 성능을 평가하는 데 사용하기 위해 전체 데이터에서 훈련 데이터와 테스트 데이터로 나누어 분석하였다. 이는 모델의 훈련 데이터가 과적합(over fitting)되는 것을 방지하기도 한다. 본 연구에서는 전처리 후 분석에 유효한 로우 데이터의 80%를 훈련 데이터로 하고 20%를 테스트 데이터로 나누어 각각 분석하였으며, 감성 분석에 대한 신뢰성의 확보와 정밀도 그리고 재현율의 검증을 위해 에포크 분석을 추가로 실시하여 감성 분석에 대한 과적합 방지, 모델의 학습 상태 파악과 모델의 학습 상태 파악까지 검출할 수 있었다.

둘째, 감성 분석의 목표가 텍스트의 감성을 분류하는 것이므로 훈련 데이터에는 각 세분시장에서 담론으로 이루어진 텍스트의 사전 전처리 작업 과정을 거쳐서 긍정, 중립, 부정으로 라벨링(labeling)하는 것이 필요하며, 이를 바탕으로 모델이 학습하게 된다. 그리고 마지막으로 에포크를 통한 반복 학습의 과정이 필요하게 되는데, 에포크는 전체 훈련 데이터를 한 번 모두 사용하는 주기를 의미하는 것으로 여러 에포크를 거쳐 훈련하면 모델의 성능이 점차 향상되며, 각 에포크 후에는 테스트 데이터를 사용하여 모델의 성능을 평가하고, 필요하다면 학습률의 하이퍼 파라미터(hyper parameter)를 조정하면서 학습을 진행한다. 이렇게 BERT 모델의 학습과 검증 과정을 진행하면, 감성 사전을 이용한 기존의 분석 결과를 보완하거나 성능을 향상할 수 있다.

여기서 ‘훈련 데이터의 비율’과 ‘테스트 데이터의 비율’은 데이터 세트 내에서 긍정, 중립, 부정의 감성이 차지하는 비율을 나타내는 것으로 로우 데이터의 분포를 반영한 것으로, 이 비율은 BERT 모델의 학습에 미리 반영되어 있어 이에 따라 모델이 학습되었다는 것을 의미한다. 그러나 이 비율의 자체는 얼마나 잘 예측하는지의 모델 성능과는 다르다. 모델의 성능은 ‘손실’과 ‘정확도’를 통해 측정되며, 각 에포크에서 모델이 얼마나 잘 학습하고 있는지를 나타낸다. 즉, 데이터의 비율이 미리 결정되더라도 모델이 이를 얼마나 잘 학습하느냐는 모델의 성능에 따라 달라지는 것으로 첫 번째 에포크에서의 성능과 두 번째 에포크에서의 성능 사이의 차이는 모델이 데이터의 패턴을 점점 더 잘 학습하고 있음을 보여주는 것이다.

따라서 에포크에 따른 성능 변화는 모델이 각각의 감성을 얼마나 정확하게 분류하고 있는지, 그리고 이 성능이 시간에 따라 어떻게 변화하는지를 보여주는 중요한 지표이며, 이를 통해 모델이 학습 과정에서 성능이 향상되고 있음을 확인할 수 있다.

Results and Discussion

소비자가 기호가치 소비하여 담론 형식으로 남긴 색조화장품의 리뷰를 크롤링한 결과는 다음과 같다. 네이버 쇼핑에서 2022년 12월 1일부터 2022년 12월 27일까지 담론 형식으로 수년간 남겨진 색조화장품에 대한 리뷰를 연구 대상 세분시장 영역별로 나누어 각 세분시장에서 시장 점유율 선두를 차지하고 있는 브랜드를 연구 대상으로 선정하여 크롤링하였다.

저가색조화장품의 경우 저가색조화장품을 대표하는 에뛰드를 대상으로 하였으며, 고가색조화장품의 경우는 고가색조화장품 국내 시장 점유율 1위인 헤라를 대상으로 하였으나 수입색조화장품의 경우에는 단일 브랜드로 하기에는 수집한 데이터의 양이 부족하여 샤넬, 디올, 입생로랑, 랑콤, 그리고 아르마니 색조화장품을 대상으로 크롤링하였다. 수집된 이들 데이터를 본 연구에 활용하기 위해 필수적인 전처리 과정을 거친 후의 분석 가능한 유효 담론의 수는 저가색조화장품 경우에는 9,371건이었으며, 고가색조화장품 경우에는 14,226건이었고, 그리고 수입색조화장품의 경우에는 14,962건을 분석 대상으로 하였다.

1. 워드클라우드 분석 결과

워드클라우드 분석이란 텍스트 마이닝 분석 방법 중 시각화 도구 중 가장 많이 활용되는 방법으로 문서의 키워드, 개념 등을 보다 직관적으로 파악할 수 있도록 핵심 단어를 시각적으로 돋보이게 하는 기법이다. 다시 말하면, 많이 언급될수록 단어를 크게 표현해 한눈에 들어올 수 있게 하는 기법이며, 주로 방대한 양의 정보를 다루는 빅데이터를 분석할 때 데이터의 특징을 직관적으로 도출하기 위해 많이 활용된다(Wu, 2023).

비교 연구를 위해 크롤링한 저가색조화장품, 고가색조화장품, 수입색조화장품의 워드클라우드 분석 결과 그래프의 그림은 Figure 1, Figure 2, 그리고 Figure 3으로 나타났으며, 이를 빈도 분석의 결과와 함께 상위 20위까지의 빈도를 가진 주요 키워드의 비교를 위해 Table 1로 나타내었다. 세분화된 브랜드 군 세분시장의 모두에서 나타난 주요 키워드는 ‘구매’, ‘느낌’, ‘발림’, ‘배송’, ‘사용’, ‘생각’, ‘제품’, ‘지속’, ‘커버’, ‘컬러’, 그리고 ‘피부’ 등으로 연구 대상 전체 세분시장에서 나타나 이들이 기호가치 소비를 위한 색조화장품 구매의 주요한 속성이 되는 것임을 알 수 있었으며, 각 세분시장에서 ‘에뛰드’, ‘헤라’, 그리고 ‘디올’ 등의 브랜드 명이 상위 20위의 빈도 내에 포함되고 있어 이들 세 개의 브랜드가 각 세분시장의 담론 중에서 많이 회자하고 있음을 알 수 있었다.

Top 20 Keywords and frequency of wordcloud analysis

그리고 Table 1의 전체 세분시장에서 하나뿐인 키워드로 나타난 것은 저가색조화장품 세분시장에서 ‘발색’, ‘에뛰드’, ‘웜톤’, 그리고 ‘팔레트’ 등이 나타났으며, 고가색조화장품 세분시장에서는 ‘마스크’, ‘블랙’, ‘사은품’, ‘쿠션’, 그리고 ‘헤라’ 등이 나타났고, 수입색조화장품 세분시장에서는 ‘디올’, ‘샘플’, ‘선물’, ‘아주’, ‘정말’, ‘추천’, 그리고 ‘파운데이션’ 등이 나타났다.

‘가격’의 경우 저가색조화장품 세분시장에서 담론으로 남겨진 리뷰를 크롤링하여 분석에 유효한 담론 리뷰 수 총 9,371건 중 가격이 언급된 담론 건수 3,417건이었으며, Figure 8의 감성 분석의 결과에서 나타난 부정적인 요소로 포함되어 나타난 ‘가격이 아쉽다’와 ‘더 낮은 가격을 원한다’는 표현도 있었지만, 대부분이 ‘가격이 좋다’는 표현이었으며, 이는 Figure 4의 저가색조화장품 트라이그램 분석의 연이어 사용된 연결어 분석에서 나타난 것과 같이 가격은 ‘성과’, ‘밀착’, ‘사용’, ‘표현’ 등과 상호 연결되어 가성비가 좋다는 표현으로 구성되어 있었다.

고가색조화장품 세분시장에서 빈도수 높은 상위 5위까지의 누적된 단어의 빈도는 상위 20위까지의 누적된 단어 빈도수에서 42%를 차지하고 있는 것으로 나타났다. 이들은 ‘쿠션’, ‘컬러’, ‘헤라’, ‘구매’, ‘사용’ 등의 키워드 순으로 나타났으며, 다른 세분시장과 비교해 볼 때 ‘헤라’ 브랜드에 대한 충성도를 잘 표현하고 있는 것으로 나타났다. ‘컬러’는 색조화장품을 연구 대상으로 하였기 때문에 각 세분시장에서 공통으로 높은 빈도로 나타났으며, ‘구매’와 ‘사용’ 또한 각 세분시장에서 높은 빈도로 나타났다. 고가색조화장품 세분시장에서 ‘헤라’라는 브랜드 폭에서 ‘쿠션’이 갖는 높은 충성도의 의미는 다른 브랜드 군 세분시장 영역과 비교해 볼 때 아주 높은 수준이며, 트라이그램 분석과 토픽 모델링 분석 등의 결과에서도 보여주듯이 높은 수준의 평판과 충성도를 확보한 감히 넘지 못할 진입장벽 수준으로 보인다.

수입색조화장품 세분시장에서 담론으로 남겨진 리뷰를 크롤링하여 분석에 유효한 샘플 수는 총 14,962건으로 이 중에서 가격이 언급된 것은 5,190건으로 나타났으나, 아쉽게도 Figure 4의 C 트라이그램 구성요소 노드로는 나타나지 않았지만, 담론으로 나타난 내용을 살펴보면 저가색조화장품의 경우와 다르게 실제로는 상대적으로 고가격 군에 속하지만 ‘가격이 좋다’, ‘저렴한 가격에 구매를 잘했다.’ 라는 표현으로 구성되어 있었다. 이와 같은 모순되게 보이는 담론의 해석은 기호가치 소비에 의한 휴리스틱스로 이해하여야 할 것이며, 유사도 분석에서 저가색조화장품과는 가격에 대해 표현된 로우 데이터의 펀더멘탈은 다르지만, 담론이 표현된 패턴이 유사하게 나타났기 때문에 고가색조화장품보다는 저가색조화장품의 유사도가 오히려 높게 나타나는 현상과 무관하지 않다.

따라서 색조화장품 세분 시장에 남겨진 담론의 워드클라우드 분석을 통하여 나타난 결과는 세분시장에 따라 고유한 정체성은 차이가 있을 것이다라는 연구가설 1은 채택되었다.

2. N-gram 분석 결과

N-gram 분석은 단어와 함께 출현하는 단어들을 분석하고 추출하여 해당 단어와 어떤 단어들이 관련되는 연결성을 갖고 내용을 구성하는지를 보는 방법으로 빈도 분석을 통해 추출된 단어가 원래 자기 자리에 있던 순서가 무시된 채 처리되어 단어가 가지는 의미가 제대로 표현되지 못하는 것을 보완하기 위하여 인접한 단어들을 2개 혹은 그 이상으로 묶어 표현하는 순열 기법이다. 예를 들면, 저가색조화장품 트라이그램 분석에서 나타난 트라이그램 형태인 ‘애교살’, ‘표현’, ‘브러쉬’의 단어는 ‘애교살’- ‘표현’- ‘브러쉬’와 같이 연속된 3개의 어휘로 지시하는 대상과 쌍으로 묶여서 추출할 경우 해당 텍스트 내에서 “애교살 만들 수 있는 색조합이 들어 있는 건 정말 좋은 것 같아요! 같이 온 브러쉬는 부드럽고 크기도 적당해서 좋아요.”, “애교살 키트 젤 써보고 싶었는데 완전 신기해요.”, “이 팔레트 하나면 애교살까지 다 표현할 수 있어서 좋아요!” 등의 의미를 명확히 파악할 수 있다.

각 세분시장에서 가장 높게 나타난 트라이그램 연결어로는 저가색조화장품 세분시장에서 ‘웜톤’, ‘정말’, ‘찰떡’은 가장 높은 23개의 빈도를 가지고 있는 것으로 나타났으며, 고가색조화장품 세분시장에서 는 ‘헤라’, ‘블랙’, ‘쿠션’의 트라이그램 연결어가 260개의 높은 빈도를 보이고 있었으며, 수입색조화장품 세분시장에서는 ‘배송’, ‘아주’, ‘배송’의 트라이그램 연결어와 ‘아주’, ‘배송’, ‘아주’의 트라이그램 연결어가 각각 224개의 높은 빈도를 가지고 있는 것으로 나타났다.

Table 2의 색조화장품 브랜드 군 세분시장 트라이그램 연결어 빈도 분석 결과를 보면, 저가색조화장품의 경우 전반적으로 낮은 빈도의 트라이그램을 보이고 있었으며, 연결어 빈도가 높게 나타난 것은 “웜톤, 정말, 찰떡(23회, 1위)”, “유튜브, 보고, 생각(21회, 2위)”, “피부, 타입, 커버(21회, 2위)”, “역시, 에뛰드, 평생(21회, 2위)”, “에뛰드, 평생, 피부(21회, 2위)”, “밀착, 조금, 가격(21회, 2위)”, “제일, 은색, 구입(21회, 2위)”, “인생, 파운데이션, 단종(21회, 2위)”로 나타나 대상 브랜드인 에뛰드가 가지고 있는 전반적인 특성을 잘 나타내고 있는 것으로 보인다. 자신이 구매한 에뛰드 색조화장품 제품 브랜드의 폭에 있는 구매한 상품이 자신에게 찰떡같이 잘 맞으며, 자기 피부에 잘 맞으니 단종시키지 말아 달라고 하는 담론이 자주 언급되는 것으로 나타났다. 이들 내용을 축약해 보면, 기호가지 소비로 구매한 브랜드가 가성비가 뛰어나며, 높은 충성도를 가지고 있으며, 구매자의 최애템으로 평생 사용할 것이며, 브랜드 자체가 인생이라는 표현으로 자신을 박제하여, 긍정적으로 평가하고 있는 것으로 해석할 수 있다.

Co-occurrence frequency of trigram keywords in the segmented color cosmetics market

고가색조화장품의 트라이그램 연결어 빈도 상위 5위까지는 Table 2에 나타난 것과 같이 “헤라, 블랙, 쿠션(260회, 1위)”, “기존, 블랙, 쿠션(61회, 2위)”, “리뉴얼, 블랙, 쿠션(53회, 3위)”, “블랙, 쿠션, 사용(44회, 4위)”, “블랙, 쿠션, 리뉴얼(42회, 5위)”로 나타났으며, 이는 모두 헤라의 블랙 쿠션과 관련된 연결어로 기호가치 소비로 구매한 소비자로부터 높은 빈도로 언급된 불랙 쿠션이 많은 사랑을 받고 있는 것으로 평가할 수 있다. 가격이라는 키워드는 전체 유효한 14,226건의 담론 중 346건의 담론이 있었으나 트라이그램 연결어로 많이 나타나지 않고 “구매, 가격, 정말”의 1개의 연결어로만 나타났다. “가격이 쬐끔 비싸다”, “가격이 내려간다면”, 이라는 표현도 있었지만, 대부분이 “저렴한 가격”, “착한 가격”, “합리적인 가격”이라는 표현으로 존재하였다. 이러한 것은 저가색조화장품의 담론에서도 나타난 내용인데 이러한 비교 대상 세분시장 영역에서의 가격이라는 표현은 기호가치 소비의 휴리스틱스로 이해하여야 할 것이다.

수입색조화장품 세분시장 브랜드 군에서 트라이그램 빈도가 높은 연결어를 살펴보면, “배송, 아주, 배송(224회, 1위)”, “아주, 배송, 아주(224회, 2위)”, “루즈, 립스틱, 베스트(106회, 3위)”, “립스틱, 베스트, 옵션(106회, 3위)”, “압솔뤼, 루즈, 크림(106회, 3위)”, “하나, 사고, 개인정보(90회, 6위)”, “색력, 발림, 구성(75회, 7위)”, “조합, 여러가지, 메이크업(75회, 7위)”으로 나타났다.

많은 담론의 리뷰 댓글에서 비교 대상인 다른 세분시장 영역보다 수입색조화장품 브랜드 군 세분시장에서 배송과 관련된 트라이그램 연결어가 압도적으로 높은 빈도로 나타나고 있다. 리뷰의 내용을 살펴보면 배송이 늦어서 불만이라는 댓글의 표현도 조금 있었지만, 대부분이 빠른 배송에 감사함의 표현과 내용물에 대한 포장 상태 그리고 본 상품의 상태에 대한 소개와 함께 전달받은 샘플 증정품에 대한 감사함으로 구성되어 있었으며, 특정 브랜드에 대한 높은 찬사와 함께 높은 충성도를 보이는 것으로 나타났다.

Figure 4의 A와 B 그리고 C에서 노드의 크기가 다르게 나타난 것은 노드의 크기를 가중치에 따라 동적으로 나타나게 설정한 것으로 연이어 사용된 단어의 빈도수가 높게 나타난 것은 노드의 크기가 크며, 상대적으로 빈도수가 낮게 나타난 것은 작은 크기 형태의 노드로 나타내었다.

Figure 4의 A인 저가색조화장품 세분시장에서 노드가 크게 나타난 ‘구매’와 관련하여 표현된 것은 “색감, 구매, 역시”, “구매, 마지막, 추가”, “추가, 물량, 구매”로 나타났다. 그리고 ‘역시’의 경우 에서는 “역시, 에뛰드, 평생”, “색감, 구매, 역시”, “구매, 역시, 에뛰드”, “탄력, 용도, 역시” 등으로 나타나 저가색조화장품에 대한 사용 후 만족과 함께 높은 충성도를 보여주고 있다. ‘가격’의 경우에는 “밀착, 조금, 가격”, “사용, 성과, 가격”, “성과, 가격, 기대” 등으로 나타나 가격은 저가색조화장품 영역에서 중요한 구매 조건이 되며, 가성비가 높음의 연결성을 표현하고 있다.

Figure 4의 B인 고가색조화장품 세분시장에서 노드가 크게 나타난 ‘구매’의 경우 “블랙, 쿠션, 구매”, “소식, 바로, 구매”, “방송, 보고, 구매”, “구매, 가격, 정말”, “구매, 역시, 커버”, “제품, 리필, 구매” 등의 트라이그램 연결어로 구성되어 나타났으며, ‘블랙’의 경우 “헤라, 블랙, 쿠션”, “기존, 블랙, 쿠션”, “리뉴얼, 블랙, 쿠션”, “블랙, 쿠션, 사용”, “블랙, 쿠션, 리뉴얼”, “블랙, 쿠션, 처음”, “블랙, 쿠션, 정착”, “블랙, 쿠션, 커버v, “블랙, 쿠션, 보고”, “이전, 블랙, 쿠션”, “사용, 블랙, 쿠션”, “블랙, 쿠션, 구매”, “헤라, 블랙, 파운데이션”, “쿠션, 블랙, 쿠션”, “블랙, 쿠션, 원래”, “블랙, 쿠션, 블랙”, “블랙, 쿠션, 역시”, 등으로 17곳의 트라이그램 연결어를 가지고 있어 고가색조화장품에서 분석을 위한 34개의 연결어를 가진 트라이그램 중에 과반수를 차지하고 있는 것으로 나타났다.

도출된 자료를 살펴보면 블랙 쿠션에 대한 리뉴얼 전과 후 그리고 처음 사용하는 소비자를 포함하여 모두 브랜드에 변함없는 높은 충성도를 보이고 있음을 알 수 있었고, 구매가 이루어지는 동기로는 짧은 시간에 고객에게 할인 혜택과 선물을 제공하는 포털 사이트 네이버 쇼핑에서 라이브 방송을 한다는 정보의 소식을 여러 경로에서 전해 듣고 직접 방송을 시청하면서 구매하고 있음을 나타내고 있었다. 이는 현재의 색조화장품 기호가치 소비자가 디지털 유목민임을 잘 보여주고 있으며, 네이버 쇼핑 라이브 방송이 새로운 유통경로로 부상하고 있음을 보여주고 있었다.

Figure 4의 C인 수입색조화장품 세분시장에서 노드가 가장 크게 나타난 ‘립스틱’의 경우 “립스틱, 립스틱, 베스트”, “립스틱, 베스트, 옵션”, “압솔뤼, 립스틱, 크림”, “압솔뤼, 립스틱, 립스틱”, “립스틱, 크림, 압솔뤼”, “크림, 압솔뤼, 립스틱”, “압솔뤼, 립스틱, 립스틱”, “립스틱, 크림, 장미” 등의 8곳의 트라이그램 연결어로 구성되어 나타나 이 브랜드 군 세분시장에서 분석을 위한 29개의 연결어를 가진 트라이그램 중 높은 빈도를 차지하고 있는 것으로 나타났으며, 립스틱 상품군에서 랑콤의 압솔뤼와 디올의 립스틱에 대한 최고라는 찬사로 이어지는 담론의 리뷰와 함께 이들 브랜드에 대한 거의 고정적인 높은 충성도를 보이고 있음을 알 수 있었으나, 구매가 이루어지는 동기에서는 “생각, 구매, 생각”, “구매, 생각, 구매” 등의 트라이그램 연결어로 나타나 기호가치 소비를 위해 심사숙고도 하고 있음을 알 수 있었다.

차별화된 색조화장품 기호가치 소비 브랜드 군 세분시장에 대한 트라이그램 네트워크 중심성 분석을 위해 데이터 전처리 과정을 거치면서 Figure 4의 A와 B 그리고 C와 같은 노드와 엣지로 이루어진 시각화된 네트워크가 도출되었으며, Table 3과 같은 중심성 분석 결과를 도출하였다. 텍스트 내에서 노드와 노드를 연결하는 엣지는 노드 간의 연관 정도를 나타내고 있으며, 핵심 키워드 간 연관성이 높으면 노드와 노드를 이어주는 엣지가 많아지고 연관성이 없으면 엣지는 연결되지 않는다. 따라서 도출된 빈도가 높을수록 노드에 대한 연결망이 복잡해지고 상대적으로 출현 빈도가 낮으면 노드와 연결되는 엣지의 연결망 수는 적어진다.

Centrality analysis outcomes of trigram networks by segmented market of color cosmetics brand groups

본 연구를 위한 세분시장 별 트라이그램 중심성 분석을 통해 각 트라이그램의 중요성을 분석하기로 한다. 기호가치 소비한 소비자가 담론 형식으로 남긴 저가색조화장품 리뷰의 경우 분석 결과인 Figur e 4의 A와 Table 3을 살펴보면 매개중심성이 가장 높은 키워드는 ‘구매’, ‘사용’, ‘역시’, ‘마지막’, ‘데일리’, ‘에뛰드’ 등의 순으로 나타났고 이들은 전체 연결망 내에서 담당하는 중개자 역할에서 높은 위치를 나타내고 있음을 뜻하며 연결망에서 의미의 확산에 중요한 역할을 하며, 매개중심성이 높게 나타난 노드는 네트워크 내의 직접 연결되어 있지 않은 노드 간 관계를 통제하며, 중개하기도 한다. 따라서 네트워크 내에 한 노드가 매개자나 중계자의 역할을 담당하는 노드를 찾는 방법으로 이용되며, 연결 정도가 많고 적음에 상관없이 정보유통이나 소통 역할을 담당한다.

여기서 매개중심성이 ‘0’으로 나타난 노드는 네트워크 그래프상에 나타난 것과 같이 연결중심성과 근접중심성은 확보되어 있으나 매개 중심성이 확보되지 않고 엣지가 단락되어 노드와 노드 간의 중개 역할을 담당하지 못하며 의미 확산 역할도 수행하지 못하고 있음을 알 수 있다. 구매와 사용은 매개중심성뿐만 아니라 연결중심성과 근접 중심성에서도 가장 높은 중심성을 가지고 있는 것으로 나타났다.

고가색조화장품 영역의 트라이그램 분석을 나타내는 Figure 4의 B와 Table 3에 도출된 결과에서 노드 간의 중개 역할을 담당하며, 연결고리 및 연관관계를 나타내며 의미의 확산에 중요한 역할을 하는 매개중심성이 가장 높게 나타난 것은 ‘블랙’, ‘쿠션’, ‘커버’,‘리뉴얼’, ‘헤라’, ‘소식’, ‘라이브’, ‘방송’, ‘구매’의 순서로 나타났으며, 근접 중심성은 ‘블랙’, ‘쿠션’, ‘헤라’, ‘리뉴얼’, ‘기존’, ‘이전’, ‘사용’의 순으로 나타났고, 연결중심성은 ‘블랙’, ‘쿠션’, ‘헤라’, ‘커버’, ‘리뉴얼’, ‘소식’, ‘라이브’, ‘방송’, ‘구매’의 순으로 나타났다.

이와 같은 분석 결과는 Table 2의 결과와 같이 블랙 쿠션은 리뉴얼 전후를 막론하고 높은 충성도와 열망을 나타내고 있고, 네이버 쇼핑의 라이브 방송이 새로운 유통경로로 부상하고 있음을 잘 보여주는 결과라고 할 수 있으며, 이들 키워드가 높게 지각된 브랜드 평가 속성의 중요도와 함께 의미의 확산에 중요한 역할을 하며, 정보유통이나 소통 역할도 하고 있음을 보여주고 있어 마케터에게 주는 시사점이 지대하다.

수입색조화장품의 트라이그램 네트워크 분석에서 노드가 크게 나타난 것은 ‘립스틱’, ‘항상’, ‘디올’, ‘발림’, ‘배송’ 등으로 나타났다. 도출된 네트워크에서 매개중심성이 가장 높게 나타난 것은 ‘항상’이며, 그다음으로는 ‘디올’과 ‘제품’으로 나타났고, ‘립스틱’과 ‘크림’이 그다음을 잇는 것으로 나타났다. 각 중심성 분석 결과를 살펴보면, 매개중심성과 근점중심성이 가장 높게 나타난 ‘항상’의 경우 그래프의 중심에 있으며, 연결성과 근접성 그리고 매개성이 높게 나타난 ‘항상’과 ‘디올’ 그리고 ’제품’의 경우는 의미의 확산과 정보유통 그리고 소통 역할을 중점적으로 수행하며, 다른 노드에 대한 통제력도 높아서 노드 간을 연결하도록 중재하는 역할도 수행함으로써 다른 노드 그룹에 있는 노드에도 통제력을 미치는 것으로 해석할 수 있다. 매개중심성이 ‘0’으로 표기된 ‘장미’, ‘진짜’ 등은 ‘립스틱’과 ‘표현’, ‘피부’와 연결은 되어 나타났으나 엣지가 매개되지 않고 단락되어 있음을 알 수 있다.

그리고 저가색조화장품 세분시장에서 ‘찰떡’, ‘생각’, ‘커버’, ‘구입’, ‘단종’, ‘무난’, ‘기대’, ‘에드’, ‘컬러’, ‘레드’ 등과 고가색조화장품 세분시장에서 ‘처음’, ‘정착’, ‘파운데이션', ‘원래’, ‘정말’, ‘피부’ 등 그리고 수입색조화장품 세분시장에서의 ‘옵션’, ‘개인정보’, ‘메이크업’, ‘지속’, ‘표현’, ‘날림’, ‘한번’ 등의 단어들은 Figure 4의 A와 B 그리고 C의 그래프에서 노드로 나타났으나 Table 3의 각 중심성 분석 결과에서는 나타나지 않았는데, 이는 트라이그램 분석의 특성상 세 개의 연결된 단어로 이루어진 구조를 다루고 있기 때문에 네트워크 구조를 형성할 때 일부 노드가 다른 노드들과 격리되어 연결되지 않거나 상대적으로 해당 노드가 다른 노드와 연결되는 관계가 작은 경우에는 이와 같은 현상이 발생할 수 있다.

따라서 색조화장품 세분 시장에 남겨진 담론의 트라이그램 네트워크 분석을 통하여 나타난 노드는 세분시장에 따라 고유한 정체성은 차이가 있을 것이다라는 연구가설 2는 채택되었다.

3. 토픽 모델링 분석 결과

본 연구처럼 색조화장품 세분시장의 유사점과 차이점에 대한 탐색 연구를 위해 도입한 연구 방법의 하나인 토픽 모델링의 기법의 적용을 위해서 기호가치 소비한 소비자의 경험적 가치로 남겨진 담론 형식의 리뷰를 각 세분시장에서 소비자가 선택한 브랜드에 대해 어떻게 수용하고 있는지 살펴볼 수 있는 텍스트 데이터로 채택하였다. 이들이 사용한 단어의 사용 맥락과 주제별 담론 형식의 리뷰에 대해 정확히 알기 위해서는 직접 담론으로 남겨진 리뷰를 면밀히 추적하여 확인해야 한다. 본 연구에서는 세분시장 별 크롤링된 로우 데이터를 토픽별로 일일이 무작위로 직접 검측하고 확인하는 과정을 거쳤다.

분석으로 도출된 세분시장 영역별 Topic 7의 상위 15개 키워드와 주제는 Table 4와 같으며, 각 토픽에 대한 그래프는 Figure 5, Figure 6, 그리고 Figure 7로 나타났다. Table 4에 나타난 결과를 보면, 색조화장품 브랜드 군 세분시장에서 공통으로 ‘가격’이라는 키워드는 상위로 나타나고 있었으며, ‘지속력’ 또한 각 세분시장에서 중요한 키워드로 등록되며, 또한 ‘발림’ 역시 상위에 위치하고 있었다. 이러한 현상은 색조화장품 기호가치 소비자의 선택 속성이 ‘가격’과 ‘지속력’ 그리고 ‘발림’을 중요시하는 경향이 있음을 시사하고 있다. 색조화장품 세분시장의 분석 결과 ‘사용’, ‘구매’, ‘색상’, ‘제품’ 등의 키워드는 공통으로 높은 빈도로 등장하는 키워드로서 색조화장품 이용 소비자가 제품 선택 시 중요하게 고려하는 선택속성이 되는 것을 의미한다. 그러나 ‘헤라’, ‘블랙’, ‘마스크’, ‘에뛰드’, ‘웜톤’, ‘아주’, ‘디올’ 등의 키워드들은 각각의 세분시장에서만 높은 빈도로 등장하는 키워드로 연구 대상 세분시장의 특성을 나타내고 있다.

Results of color cosmetics LDA analysis (1/3)

저가색조화장품 세분시장은 제품의 사용감과 구매 경험에 집중되어 나타났고, 다양한 색상과 커버력 등의 제품 특성에 관심이 많은 것으로 보인다. 이들의 기호가치 소비한 담론에서 높은 빈도로 나타난 키워드를 살펴보면, ‘사용’, ‘구매’, ‘커버’, ‘색상’, ‘제품’ 등의 키워드가 빈도가 높게 나타났는데 이러한 내용은 소비자가 실용적인 소비 패턴을 가지고 있음을 알 수 있으며, 가격 대비 효과에 더욱 집중하는 경향을 보인다. 특히 ‘팔레트’, ‘발색’, ‘지속력’ 등의 키워드는 저가색조화장품에서만 높은 빈도로 등장하고 있는 결과를 바탕으로 하여 전반적으로 해석해 보면, 고가색조화장품이나 수입색조화장품에 비해 브랜드나 제품명보다는 가격과 실용적인 사용성에 중점을 두는 경향을 보이는 것으로 해석할 수 있으며, 다른 세분시장과는 달리 ‘샘플’의 키워드는 등장하지 않고 있다.

고가색조화장품 세분시장에서 ‘헤라’와 ‘블랙’과 같은 브랜드와 관련된 키워드가 높은 빈도로 등장하고 있는데, 이러한 결과는 이 세분시장에서 이들 키워드의 역할이 큰 것으로 파악할 수 있으며, 브랜드 군에 대한 선호도와 충성도가 가장 높은 세분시장으로 분류된다. 고가색조화장품 세분시장과 수입색조화장품 세분시장에서 높은 빈도로 언급되는 키워드 ‘샘플’이 의미하는 것은 이들 세분시장이 무료 선물이나 샘플 제공을 통해 자사의 신상품을 소개하고 시장확대 전략을 전개하고자 하는 것으로 해석할 수 있으며, 이 세분시장에서 높은 빈도의 키워드로 상위에 위치하고 있는 ‘쿠션’, ‘헤라’, ‘구매’, ‘사용’, ‘피부’ 등의 키워드가 의미하는 것은 기호가치 소비한 소비자들은 피부에 대한 사용 효과에 중점을 두는 것으로 파악할 수 있다.

기호가치 소비한 수입색조화장품 세분시장의 담론을 분석한 결과 ‘배송’, ‘추천’, ‘아주’, ‘발림’, ‘디올’ 등의 키워드가 높은 빈도의 담론 형식으로 남겨져 있었다. 이러한 표현은 사용 후 경험적 가치로 느끼는 품질과 편의성에 대한 키워드로 저가색조화장품이나 고가색조화장품 세분시장에 비해 제품의 품질과 사용감에 대한 언급이 가장 많이 나타났다. 특히, ‘선물’이라는 키워드가 수입색조화장품 세분시장에서만 도출된 결과는 해당 세분시장의 특징을 잘 반영하고 있는 것으로 개인적인 사용 용도뿐만 아니라 타인에게 선물로 제공하는 경우가 많음을 시사한다. 이러한 정보는 수입 색조화장품 브랜드의 제품 판매 전략을 계획하거나, 저가 및 고가색조화장품 브랜드 군 세분 시장이 경쟁 시장에서 차별화된 전략을 구사할 때 중요한 참고 자료가 될 수 있다.

마스크는 수입색조화장품 세분시장에서 두드러지게 언급되고 있는데, 이는 최근의 팬데믹 현상과 무관하지 않는 것으로 마스크 착용으로 인한 화장 시 불편함과 그에 따른 지속력을 강조하는 제품이 늘어나는 추세를 반영할 수 있다. 또한 그들은 제품의 사용성과 구매 경험과 과정 그리고 피부에 대한 반응 등에 중점을 가지고 있는 것으로 나타났는데, 높은 키워드로 나타난 ‘사용’, ‘구매’, ‘피부’, ‘색상’, ‘제품’ 등을 유추해 보면, 제품의 사용성과 구매 과정, 그리고 피부에 대한 효과에 관심을 두고 있는 것으로 파악된다.

각 색조화장품 세분시장에서 나타난 7개의 토픽과 15개의 키워드 중 3회 이상 도출된 주요 핵심 키워드를 살펴보면, 저가색조화장품의 경우에는 매트(3회), 발림(3회), 색상(4회), 사용(3회), 지속(3회), 컬러(4회), 피부(3회) 등으로 모두 7개의 키워드가 나타났으며, 고가색조화장품의 경우에는 3회 이상 도출된 키워드는 구매(4회), 마스크(3회), 매트(3회), 밀착(3회), 사용(3회), 색상(4회), 지속(3회), 커버(3회), 컬러(3회), 피부(3회) 등의 10개의 키워드로 구성되어 있다. 수입색조화장품의 경우에는 다른 색조화장품 세분시장과는 다르게 3회 이상 도출된 키워드는 사용(6회), 색상(3회), 피부(3회) 등으로 나타나 상대적으로 중복된 키워드의 수가 낮게 나타났다.

따라서 이들 주요 키워드를 중심으로 보면 저가색조화장품 브랜드 군 세분시장은 “피부 색상에 잘 맞는 발림과 지속력을 올려주는 컬러를 위한 매트의 사용”이라는 것으로 정리할 수 있으며, 고가색조화장품 브랜드 군 세분시장의 경우에는 “마스크 사용에도 매트하고 밀착력이 우수하여 피부 색상에 잘 맞는 컬러로 커버력이 뛰어나 지속적인 구매”로 할 수 있으며, 수입색조화장품 브랜드 군 세분시장의 경우에는 “피부 색상과 잘 어울리는 색조화장품의 사용”으로 이름을 명명할 수 있다.

여기서 ‘사용’, ‘색상’, ‘피부’라는 키워드는 사용자들이 화장품에 대해 언급할 때 가장 중요하게 생각하는 요소를 보여주고 있다. 이는 색조화장품 브랜드 군 세분시장에서 기호가치 소비하는 사용자들이 화장품의 사용감, 색상, 그리고 피부에 미치는 영향에 가장 큰 관심을 두고 있다는 것을 의미하며, 이러한 정보를 바탕으로, 사용감, 색상, 피부에 미치는 영향 등에 초점을 맞춘 마케팅 전략을 구사하거나, 이러한 요소를 강조하는 제품 개발을 진행할 수 있고, 이와 같은 키워드들을 활용하여 “색조화장품 트랜드에 맞는 피부 친화적인 색상의 사용”과 같은 효과적인 키워드 광고나 검색 엔진 최적화를 수행할 수 있으며, 기호가치 소비한 소비자의 담론에서 색조화장품 세분 시장 브랜드 군이 공통으로 높은 빈도로 나타난 키워드들이 어떻게 언급되는지 분석하여, 브랜드의 강점과 약점을 파악하거나, 소비자의 선호도나 필요를 이해하는 데 적극적으로 활용할 수 있다.

세분시장 색조화장품 영역별 7개 토픽의 15개 키워드가 포함되도록 하여 각 토픽에 대한 이름을 작성해 보면 많은 시사점을 얻을 수 있다. 예컨대, 먼저 저가색조화장품의 토픽 1은 ‘입술’, ‘느낌’, ‘각질’,‘피부’, ‘색상’, ‘가격’, ‘제품’, ‘매트’, ‘조금’, ‘부각’, ‘밀착’, ‘살짝’, ‘처음’, ‘로드’, ‘보습’ 등으로 나타났는데 이를 이용하여 토픽 1에 대한 이름을 “처음 사용하는 가성비의 로드 샵 제품으로 입술이 부각되는 느낌으로 살짝만 발라도 색상과 밀착력이 좋아 매트한 피부를 촉촉하게 연출하는 꿀팁이 되었다.” 이와 같은 토픽 이름을 명명할 수 있으며, 토픽 2의 경우에는 ‘립밤’, ‘발림성’, ‘파운데이션’, ‘앵두’, ‘보습’, ‘지속’, ‘더블’, ‘발라’, ‘스팅’, ‘건성’, ‘색도’, ‘얼굴’, ‘컬러’, ‘다른’, ‘매트’ 등으로 나타났는데 이를 이용하여 토픽 2에 대해 이름을 “건성 얼굴에 앵두 컬러의 립밤과 매트한 질감의 더블 레스팅 파운데이션의 조합은 발림성과 보습력이 뛰어나고 색도와 지속력도 뛰어나 다른 것은 바를 필요가 없다.” 그리고 토픽 3의 경우에는 ‘가격’, ‘사용’, ‘제품’, ‘파운데이션’, ‘가성’, ‘추천’, ‘대비’, ‘베이스’, ‘다시’, ‘단종’, ‘최고’, ‘에뛰드’, ‘정말’, ‘컬러’, ‘예전’ 등으로 나타났는데 이를 이용하여 “다시 사용하는 에뛰드 파운데이션 베이스는 예전부터 가성비 최고의 제품으로 정말 추천합니다. 제발 단종하지 말아 주세요.”로 이름을 명명할 수 있을 것이다.

토픽 모델링 이름은 사용자에게 해당 주제가 얼마나 유용한지를 강조할 수 있는데, 예를 들어, 토픽 1의 “처음 사용하는 가성비의 로드 샵 제품으로 입술이 부각되는 느낌으로 살짝만 발라도 색상과 밀착력이 좋아 매트한 피부를 촉촉하게 연출하는 꿀팁이 되었다.”라는 이름은 로드 샵에서 판매되는 가성비 좋은 제품을 처음 사용해보는 사용자들에게 입술과 피부 메이크업에 대한 꿀팁을 제공한다는 의미를 담고 있으며, 특히, 제품의 색상 및 밀착력에 대한 정보, 그리고 살짝만 발라도 입술이 부각되는 느낌을 얻을 수 있다는 점으로 실질적인 메이크업에 대한 팁을 제공하며, 특히 입술과 피부에 대한 부분을 다룬다는 점이 강조되어 있다.

이러한 분석의 결과는 키워드 간의 연관성을 강조하여 토픽이 어떤 주제를 다루는지를 포괄적으로 나타내게 되고, 사용자는 해당 토픽이 관심 있는 주제인가의 여부를 판단할 수 있게 되어 강렬하고 흥미로운 토픽의 이름을 갖게 된다면 사용자의 호기심을 자극하고 특정 주제에 대한 관심을 두도록 유도할 수 있어 도출된 각 토픽의 키워드에 대한 이름을 명명하는 것은 단순한 단어의 나열이 아니라 사용자에게 의미 있는 정보를 전달하고 사용자의 경험을 향상하게 시키는 도구로 사용될 수 있기 때문에, 기호가치 소비한 소비자의 담론으로 LDA 분석한 결과를 이용하여 연구 대상 전체의 색조화장품의 각 토픽에 대한 이름을 작명하면 기업의 경영진과 마케터에게 소비자의 욕구와 욕망을 만족시키는 제품과 서비스를 제공할 수 있을 것이다.

따라서 색조화장품 세분 시장에 남겨진 담론의 토픽 모델링 분석을 통하여 나타난 주요 키워드는 세분시장에 따라 고유한 정체성은 차이가 있을 것이다라는 연구가설 3은 채택되었다.

4. 유사도와 차이점 분석 결과

Table 5Table 6의 유사도 분석의 결과 해석에 있어서 코사인 유사도 분석은 코사인 각도를 사용하여 두 벡터 간의 유사도를 측정하는 방법으로 0과 1 사이의 값을 반환하며, 1에 가까울수록 두 데이터의 유사도가 높아지는 것으로 해석하고, 유클리드안 거리 유사도 분석은 두 점 사이의 직선거리를 계산하는 방법으로 코사인 분석과는 반대로 값이 작을수록 두 데이터 사이의 유사도가 높아지는 것으로 해석한다.

트라이그램 분석 결과를 이용한 색조화장품 세분시장 간의 유사도의 측정 분석 결과를 살펴보면, 코사인 유사도는 도출된 값이 매우 낮게 나타나 세분시장 간에 큰 차이가 있음을 나타내고 있으며, 유클리디안 거리 유사도 역시 모두 1 이상으로 나타나 이들 세분시장 간에 유사성보다는 차별화가 되어 있음을 나타내고 있다.

각 색조화장품 세분시장에서의 코사인 유사도 분석과 유클리디안 거리 유사도 분석을 이용하여 도출된 Table 5의 결과에서 코사인 유사도 분석의 경우는 저가색조화장품과 고가색조화장품(0.00788)이 상대적으로 유사도가 높은 것으로 나타났으며, 유클리디안 거리 유사도 분석에서도 역시 코사인 유사도 분석과 같이 저가색조화장품과 고가색조화장품(1.40863)이 상대적으로 유사도가 더 높은 것으로 나타났으나, 사실상 3개의 색조화장품 브랜드 군 세분시장의 유사도 분석 결과는 비교 대상 상호 간에 크게 차이가 나지 않고 유사도가 낮게 나타나 서로 고유한 세분시장 포지션을 가지고 있는 것으로 나타났다.

수입색조화장품을 기준으로 색조화장품 세분시장 간의 브랜드에 대한 차이점을 보이는 것은 코사인 유사도 분석의 경우 수입색조화장품과 고가색조화장품(0.00040)으로 나타났으며, 유클리디안 거리 유사도 분석의 경우에도 수입색조화장품과 고가색조화장품(1.41393)이 차이점을 가지고 있는 것으로 나타났으며, 상대적으로 다른 세분 시장과의 차이점을 보이고 있은 것으로 나타났다. 오히려 이들 분석에서 기호가치 소비한 소비자의 담론은 수입색조화장품과 저가색조화장품의 단어 패턴이 더 근접한 유사함을 보여주고 있다. 두 가지의 유사성 분석에서 이러한 차이는 각 유사도 측정 방법의 특성과 계산 방법에 기인하는 것으로 유클리디안 거리 측정 방법이 코사인 유사도 측정 방법에 비해 큰 값을 가지는 이유는 각 차원의 차이를 조합하는 방식이 다르므로 결과적으로 다른 수치의 결과로 나타나는 것이다.

Table 6의 토픽 모델링 분석 결과를 이용한 색조화장품 세분시장 간의 유사도를 측정하기 위한 코사인 유사도와 유클리디안 거리 유사도 분석 결과에서 도출된 분석 결과의 값의 크기만으로는 이들 색조화장품 브랜드 군 세분시장의 유사도를 직접 비교하기는 어려우나 코사인 유사도 측정에서 저가색조화장품과 고가색조화장품(0.84668)이 상대적으로 유사한 조합으로 나타난 경향이 있으며, 수입색조화장품은 다른 두 세분시장과 비교했을 때 상대적으로 큰 차이를 보이는 것으로 나타났다. 그리고 수입색조화장품을 기준으로 볼 때, 가장 큰 차이점을 보인 것은 고가색조화장품(0.63250)이었다. 이는 고가색조화장품이 다른 저가색조화장품(0.82737) 세분시장 색조화장품과 비교했을 때 독특한 특성을 가지고 포지셔닝되어 있음을 알 수 있다.

그리고 유클리디안 거리 유사도 분석에서도 Table 5의 트라이그램 분석 결과를 이용한 색조화장품 세분시장 간의 유사도 분석 결과와 같이 저가색조화장품과 고가색조화장품(0.55375)이 수입색조화장품(0.58759)과의 유사도보다 낮게 나타나 상대적으로 유사도가 조금 더 높은 것으로 나타났으나, 사실상 3개의 색조화장품 브랜드 군 세분시장의 유사도 분석 결과는 비교 대상 상호 간에 크게 차이가 나지 않고 유사도가 낮게 나타나 서로 차별화된 정체성의 세분시장 포지션을 가지고 있는 것으로 볼 수 있다.

Table 5Table 6의 유사도 분석을 통해 도출된 결과에서 색조화장품 브랜드 세분시장 간의 유사도가 낮게 나타난 것은 사실상 비교 대상 색조화장품 브랜드 군 세분시장 간에 모두 서로 다른 정체성을 가지고 차별화되어 있다는 것을 보여주고 있으며, 비교 대상 세분시장의 소비자들은 서로 다른 선호도를 가지고 있을 가능성이 높다는 것을 의미한다. 다시 말해, 이 세분화된 색조화장품 브랜드 군은 감성분석의 결과에서 보듯이 색조화장과 관련한 기호가치로 소비한 소비자가 긍정적인 담론의 단어를 사용하고 있으나, 트라이그램 유사성 분석 결과와 토픽 모델링 분석 결과에 따르면 색조화장품 각 세분시장의 기호가치 소비자는 서로 다른 키워드 패턴을 사용하고 서로 다른 정체성으로 명확히 구분되어 있으며, 세분화된 각 색조화장품 세분시장은 서로 다른 선호와 요구를 충족시키고 있다고 해석할 수 있다.

그리고 앞서 밝힌 Table 5Table 6의 유사도 측정에서 공통으로 나타난 분석 결과는 수입색조화장품을 기준으로 볼 때 가장 크게 차별화된 것은 고가색조화장품이며, 의외로 고가색조화장품보다 저가색조화장품과의 경우에는 워드클라우드 분석과 N-gram 분석, 그리고 토픽 모델링 분석의 결과와 같이 로우 데이터가 가지고 있는 펀더멘탈의 내용은 다르지만, 유사한 담론의 패턴을 사용하는 것으로 해석할 수 있다. 이를 통해 각 세분시장의 색조화장품이 갖는 특성이나 소비자의 인식 등을 고려하여 브랜드 세분시장에 따른 마케팅 전략을 수립할 수 있다.

저가색조화장품과 고가색조화장품 간의 유사도가 낮다는 것은 이 두 시장의 소비자들이 서로 다른 차별화된 선호도를 가지고 있을 가능성이 높다는 것을 의미한다. 이를 바탕으로, 저가색조화장품을 선호하는 소비자들에게는 가격 경쟁력을 강조한 마케팅 전략을, 고가색조화장품을 선호하는 소비자들에게는 품질이나 브랜드 이미지를 강조한 마케팅 차별화 전략을 수립할 수 있다.

따라서 텍스트 마이닝 분석으로 도출된 결과를 이용하여 유사도 분석을 수행한 결과는 세분시장에 따라 차이가 있을 것이다라는 연구 가설 4는 채택되었다.

5. 감성 분석의 결과

먼저 Figure 8의 감성 분석 결과를 살펴보면 전체적으로 긍정적인 감성의 비율이 높게 나타났다. 저가색조화장품의 경우 31.05%, 고가색조화장품의 경우 29.62%, 수입색조화장품의 경우 27.74%가 긍정적인 감성으로 분류되었으며, 중립적인 감성의 비율은 저가색조화장품의 경우 64.11%, 고가색조화장품의 경우 65.44%, 수입색조화장품의 경우 67.56%로 나타났으며, 부정적인 감성의 비율은 저가색조화장품의 경우 4.84%, 고가색조화장품의 경우 4.94%, 수입색조화장품의 경우 4.70%로 나타났다.

Table 7에 나타난 저가색조화장품 브랜드 군 세분시장의 감성 분석 결과를 살펴보면, 이 분석 결과에서는 일반 감성 분석과 함께 이를 보완하기 위해 BERT를 활용한 감성 분석 모델로 두 번의 에포크(epoch)로 학습하였다. 각 에포크에서 훈련 데이터와 테스트 데이터에 대한 모델의 손실(loss)과 정확도(accuracy)를 측정하였으며, 저가색조화장품 세분시장에서, 첫 번째 에포크 모델의 훈련 데이터에 대한 손실이 53.33%로 나타났는데, 이는 모델이 훈련 데이터를 얼마나 잘 예측하는지를 나타내는 지표로서 손실이 낮을수록 모델의 성능이 좋다고 할 수 있다. 이에 비해 테스트 데이터에 대한 손실은 41.20%로 나타났는데 이 결과는 훈련 데이터에 비해 낮은 값을 보여주고 있어 모델이 새로운 데이터에 대해서도 잘 일반화되고 있음을 보여준다.

Results of sensitivity analysis

첫 번째 에포크에서의 정확도는 훈련 데이터에 대해 약 79.37%, 테스트 데이터에 대해 약 84.85%로 측정되어 전체 데이터 중 약 80% 이상을 정확하게 분류하고 있음을 나타내고 있으며, 두 번째 에포크에서는 훈련 데이터에 대한 손실이 25.69%로 나타났으며, 테스트 데이터에 대한 손실이 25.98%로 측정되었다. 이는 첫 번째 에포크에 비해 손실이 크게 감소하였음을 보여주며, 이는 모델의 성능이 향상되었음을 의미하며, 두 번째 에포크에서의 정확도는 훈련 데이터에 대해 약 91.29%, 테스트 데이터에 대해 약 92.14%로 측정되었는데, 이는 첫 번째 에포크에 비해 정확도가 크게 향상되었음을 보여주며, 모델이 더욱 정확하게 감성을 분류하고 있음을 의미한다. 따라서 이 결과는 BERT를 활용한 감성 분석 모델이 훈련 과정에서 성능이 향상되었으며, 새로운 데이터에 대해서도 잘 일반화되고 있음을 보여준다.

Table 7의 결과를 보면, 두 번째 에포크에서 훈련 데이터와 테스트 데이터의 성능이 모두 향상된 것으로 나타나 과대적합 또는 과소적합 문제가 발생하지 않았음을 시사한다. 만약, 이러한 결과가 잘못되어 나타나면 에포크를 더 늘리거나 다른 하이퍼 파라미터를 조정하여 모델의 성능을 지속적으로 모니터링하는 것이 중요하나 에포크를 지나치게 늘리게 되면, 또 다른 과대적합 현상이 발생할 수 있으며, 모델이 훈련 데이터에 너무 많이 적합되어 특정 노이즈나 이상치까지 학습하는 현상이 발생하므로 모델은 훈련 데이터에 대해 매우 높은 성능을 보이지만, 새로운 훈련 데이터나 테스트 데이터에 대해서는 성능이 낮아질 수 있다.

고가색조화장품 브랜드 군 세분시장의 경우 BERT를 활용한 감성 분석 모델을 두 번의 에포크 학습 분석에서 각 에포크에서 훈련 데이터와 테스트 데이터에 대한 모델의 손실과 정확도를 측정하였다. 첫 번째 에포크에서 모델의 훈련 데이터에 대한 손실은 46.20%이며, 정확도는 약 82.83%로 나타났는데 이는 모델이 훈련 데이터의 대부분을 정확하게 분류하고 있음을 보여주고 있으며, 테스트 데이터에 대한 손실은 33.32%로 나타났으며, 정확도는 약 89.26%로 나타나 감성 분석 모델이 새로운 데이터에 대해 높은 성능을 보여주고 있다. 그리고 두 번째 에포크에서는 훈련 데이터에 대한 손실이 19.31%로 크게 감소하였으며, 정확도는 약 93.64%로 향상되어 나타났다. 이는 모델이 훈련 데이터의 패턴을 점차 더 잘 학습하고 있음을 나타내며, 테스트 데이터에 대한 손실도 20.49%로 감소하고 정확도는 약 93.26%로 향상되어 나타났는데 이는 모델이 새로운 데이터에 대해 잘 일반화되고 있음을 보여준다. 따라서 BERT를 활용한 고가색조화장품 세분시장에서의 감성 분석 모델이 훈련 과정에서 성능이 향상되었음을 보여주고 있는 것으로 해석할 수 있다.

수입색조화장품 세분시장에서도 BERT를 활용한 분류 모델을 두 번의 에포크 동안 학습하여 각 에포크에서 훈련 데이터와 테스트 데이터에 대한 모델의 손실과 정확도를 측정하였다. 첫 번째 에포크에서 모델의 훈련 데이터에 대한 손실은 46.89%이며, 정확도는 약 82.31%이었다. 이는 모델이 훈련 데이터의 대부분을 정확하게 분류하고 있음을 보여주는 것으로 테스트 데이터에 대한 손실은 25.97%이며, 정확도는 약 91.42%로, 모델이 새로운 데이터에 대해 높은 성능을 보여주고 있다.

두 번째 에포크에서는 훈련 데이터에 대한 손실이 18.47%로 크게 감소하는 것으로 나타났으며, 정확도는 약 93.68%로 향상되어 나타났다. 이는 모델이 훈련 데이터의 패턴을 점차 더 잘 학습하고 있음을 나타내며, 검증 데이터에 대한 손실도 20.25%로 감소하고 있음을 보여주고 있었으며, 정확도는 약 93.12%로 향상되어 나타났다. 이러한 결과는 감성 분석 모델이 새로운 데이터에 대해 더욱 잘 일반화되고 있음을 보여준다.

Table 7에서 색조화장품 브랜드 군 세분시장의 감성 분석에 대한 전반적인 감성 분석의 비율은 유사한 패턴을 가지고 있으나 약간씩 차이가 있는 것으로 나타났다. 수입색조화장품의 경우 긍정적인 감성 비율은 다른 두 세분시장에 비해 약간 낮으며, 중립적인 감성 비율이 높은 편으로 나타났는데 이는 각 세분시장의 고객들이 제품에 대해 다르게 반응하고 있다는 것을 나타내는 것으로 해석할 수 있다. BERT 감성 분석 모델의 훈련 및 테스트 결과를 살펴보면, 수입색조화장품에 대한 모델 성능이 다른 두 시장에 비해 더 높게 나타났는데 이러한 결과는 감성 분석에 있어서 수입색조화장품 데이터가 더 잘 구조화되어 있거나 BERT 모델이 수입색조화장품 데이터에 더 적합하다는 것을 의미한다.

따라서 색조화장품 이용 소비자의 구매 후 느끼는 감성은 세분시장에 따라 고유한 정체성은차이가 있을 것이다라는 연구 가설 5의 감성 분석 결과는 비교 대상 모든 세분시장에서 긍정과 부정의 포지션 패턴이 역전되거나 하는 결과를 나타내지 않았고 중립 감성 비율이 가장 현저하였으며, 긍정 및 부정 감성 비율 간의 차이가 있는 것으로 나타났으나, 그 정도의 차이 크기가 높지 않고 유사한 패턴을 가지고 있는 것으로 나타났다는 점을 고려할 때, 가설 5는 기각으로 판단하는 것이 합당할 것으로 사료된다.

Conclusion

워드클라우드 분석을 통해 저가색조화장품, 고가색조화장품, 수입색조화장품의 주요 키워드를 도출한 결과, 비교 대상 세 세분시장 모두 ‘구매’, ‘느낌’, ‘발림’, ‘배송’, ‘사용’, ‘생각’, ‘제품’, ‘지속’, ‘커버’, ‘컬러’, 그리고 ‘피부’ 등이 공통으로 주요한 키워드로 나타났다. 각 세분시장에서 차별화된 키워드로는 저가색조화장품에서는 ‘발색’, ‘에뛰드’, ‘웜톤’, 그리고 ‘팔레트’로 나타났으며, 고가색조화장품에서는 ‘마스크’, ‘블랙’, ‘사은품’, ‘쿠션’, 그리고 ‘헤라’ 등으로 나타났고, 수입색조화장품에서는 ‘디올’, ‘샘플’, ‘선물’, ‘아주’, ‘정말’, ‘추천’, 그리고 ‘파운데이션’ 등으로 나타났다.

저가색조화장품에서는 브랜드명에 대한 빈도가 상대적으로 낮게 나타났으며, ‘가격’의 키워드가 ‘가성비가 좋다’는 의미로 언급되었으나, 수입색조화장품의 경우에는 가격이 연구 대상에서 상대적으로 높음에도 불구하고 ‘가격이 좋다’, ‘저렴하게 구매했다’는 휴리스틱스적인 의미 언급되었다. 고가색조화장품에서는 ‘헤라’ 브랜드에 대해 강력한 충성도를 가지고 있는 것으로 나타났으며, ‘가격’의 키워드는 39위로 나타나 다른 세분시장보다 상대적으로 낮게 도출되었다. 이러한 결과는 색조화장품 브랜드 구매에 있어서 가격, 품질, 브랜드 충성도 등 다양한 요소가 고려되며, 각 시장에서의 특성에 따라 다르게 해석될 수 있음을 보여주고 있다.

트라이그램 분석 결과에서 저가색조화장품 세분시장은 가격에 대한 실용성과 가격 대비 만족으로 가성비를 강조하며, 다양한 색상 및 제품 라인업에 대한 키워드에 중점을 두는 기호가치 소비한 소비자들의 담론으로 구성돼 있었으며, 고가색조화장품 세분시장의 경우 브랜드 네임에 집중된 키워드로 구성되어 있었으며, 이 세분시장의 기호가치 소비한 소비자들은 프리미엄 품질 및 브랜드 가치 강조, 차별화된 디자인과 이미지 구축으로 브랜드에 대한 가장 높은 충성도와 제품의 사용 경험을 중요시하고 있음을 나타내고 있었고, 수입색조화장품 세분시장 역시 다른 비교 대상 세분시장과 같이 제품의 품질과 사용감에 대한 높은 관심을 나타내고 있었으며, 기호가치 소비한 이 세분시장 소비자의 도출된 펀더멘탈 분석 특성은 해외 브랜드 이미지 및 트렌드를 강조하고, 합리적인 가격 정책에 대해 많이 언급하였으며, 구매 선택 주요 속성으로는 품질과 사용성 그리고 샘플 제공 등으로 나타났다.

토픽 모델링을 통해 색조화장품 브랜드 군 세분시장의 주요 주제를 분석한 결과 비교 대상 세분시장 모두에서 나타난 공통 키워드는 색조화장품의 특성에 맞게 ‘사용’, ‘색상’, ‘피부’라는 키워드가 높은 빈도로 등장하였는데, 이는 사용자들이 색조화장품에 대해 언급할 때 가장 중요하게 생각하는 요소를 반영하고 있음을 보여주고 있었다.

저가색조화장품 세분시장에서는 가격 만족과 가성비에 주목하는 경향이 파악되었으며, 반면에 고가색조화장품 세분시장에서는 가격 언급이 상대적으로 적게 나타났으며, 브랜드 가치 및 품질 인식에 대한 높은 반응으로 피부에 대한 사용 효과에 중점을 두는 것으로 분석되며, 쿠션 제품의 인기와 함께 헤라 브랜드에 높은 충성도를 보이고 있는 것으로 나타났고, 수입색조화장품 세분시장의 경우에는 제품의 품질과 사용감에 대한 언급이 가장 많이 나타났으며, 다른 비교 대상 브랜드 군보다 상대적으로 고가이지만, 저렴한 가격이며 고급 이미지 인식을 가지는 기호가치 소비 펀더멘탈로 나타났다. 특히 '선물'이라는 키워드가 다른 세분시장과는 다르게 도출되었다. 이는 해당 시장의 제품이 개인적인 사용뿐만 아니라 타인에게 선물로 제공하는 경우가 많음을 나타낸다.

각 색조화장품 브랜드 군 세분시장의 유사도와 차이점을 분석한 결과 각 세분시장은 서로 크게 차별화되어 포지셔닝되어 있음을 확인할 수 있었다. 이는 기호가치 소비한 소비자들이 차별화된 펀더멘탈을 가지고 있을 가능성을 시사한다.

브랜드에 대한 충성도는 고가색조화장품>수입색조화장품>저가색 조화장품의 순으로 나타났으며, 이들 간의 유사도는 저가색조화장품과 고가색조화장품은 상대적으로 유사도가 높았으나, 수입색조화장품은 다른 두 세분시장과 비교하였을 때 상대적으로 큰 차이점을 보였다. 공통된 키워드로는 가격과 지속력 그리고 발림으로 나타났는데 이는 기호가치 소비 속성에서 가격이 중요한 요소로 보이며, 지속력과 발림은 색조 유지에 대한 높은 관심과 사용감 및 제품 만족도에 영향을 미치는 것으로 파악할 수 있고, 주요한 차이점으로는 저가색조화장품의 경우에는 가격 경쟁력과 실용성 그리고 기능성이 강조되고 있었으며, 고가색조화장품의 경우에는 품질과 브랜드 이미지를 강조하고 있었고, 수입색조화장품의 경우에는 트렌드를 반영하며 브랜드의 이미지를 강조하는 것으로 나타났다.

색조화장품 브랜드 군 세분시장에 대한 감성 분석 결과는 모든 세분시장에서 부정적인 감성보다 긍정적인 감성의 비율이 높게 나타났으며, BERT 감성 분석 모델로 분석한 결과에서도 긍정적인 감성의 비율이 높게 나타났다. 이는 색조화장품 이용 소비자가 기호가치 소비한 색조화장품에 대해 긍정적으로 반응하고 있음을 의미한다.

각 세분시장에서 감성 분석의 비율이 약간씩 다르게 나타났는데, 긍정적인 감성 비율은 저가색조화장품>고가색조화장품>수입색조화장품의 순으로 나타났으며, BERT 모델 감성 분석의 결과로는 수입색조화장품>저가색조화장품>고가색조화장품의 순으로 나타나 각 세분시장에서 기호가치 소비한 제품에 대한 감성 반응이 다르다는 것을 보여주고 있다. 머신러닝 도구인 BERT 기법으로 수행한 감성 분석에서 잘 학습된 BERT의 성능 향상은 모든 세분시장에서 BERT 모델의 정확도는 증가하는 패턴을 보였고, 손실이 학습 과정에서 감소하는 것으로 나타나 각 세분시장에 대한 데이터를 잘 학습하고 있는 것으로 확인되었다.

그리고 본 연구의 목적을 위한 문제 해결 과정에서 처음 가졌던 의문에 대한 우려는 담론으로 이루어진 리뷰 분석을 위해 도입한 자연어 처리 과정의 몇 가지 정량적인 분석 방법을 진행하면서 분석 방법의 특성 상 약간의 차이는 있었지만, 색조화장품 브랜드 군 세분시장 간에 차별화가 이루어져 포지셔닝되어 있음을 확인할 수 있어 이에 대한 의문은 해소되었다.

본 연구를 통해 색조화장품 브랜드 군 세분시장의 유사도와 차이점 분석 결과 각 세분시장이 서로 차별화되어 있는 것으로 나타났으며, 각 세분시장의 마케터는 시장 점유율 확대를 위해 전사적인 마케팅 차별화 전략을 수립해야 한다는 시사점을 얻을 수 있었다.

저가색조화장품 브랜드 군 세분시장 소비자들은 저렴한 가격에도 불구하고 제품의 품질과 성능에 대한 기대치가 높으므로 가성비를 강조하는 마케팅 전략이 필요하며, 젊은 층과 색조화장품 이용 초보자를 타겟팅으로 하는 다양한 제품의 라인업을 형성하여 제공하는 것이 중요하며, 고가색조화장품 시장의 기호가치 소비자는 브랜드 충성도가 높으며 제품의 사용 경험을 중요하게 생각하므로 브랜드 가치와 프리미엄 품질로 효능을 강조하며 브랜드 충성도를 강화하는 프로모션을 실시하는 마케팅 전략이 효과적이다.

Table 7과 같이 감성 분석 모델에 따라 다른 결과를 보이는 것은 분석 모델 적용 방법에 대한 차이로 감성 사전 기반을 이용한 감성 분석은 비교적 간단한 프로그램 구현으로 빠른 분석이 가능하여 오래전부터 많이 사용되어 졌으나, BERT 기반 머신러닝의 감성 분석은 새로운 감정 표현 학습이 가능하고 문맥을 고려한 감정 분석을 수행하므로 감정의 섬세한 차이를 표현하여 높은 정확도의 달성도 가능하여 최근에 많이 도입하여 활용되고 있다. 그리고 기호가치로 소비한 소비자가 담론 형식으로 남긴 구매 후 평가가 각 세분시장의 특성이나 언어적 뉘앙스 차이에 따라 자연어 처리 모델의 분류 성능이 다르게 적용될 수 있기 때문에 이러한 결과로 나타난 것은 감성 분석 모델의 한계점으로 파악된다.

색조화장품 세분시장에 따라 감성 분석의 결과가 조금씩 차이가 있는 것으로 나타났으나, 그 정도의 크기 차이가 높지 않고 유사한 패턴을 가지고 나타난 점을 엄격하게 적용하여 가설 5를 기각하였으나 본 연구는 감성 분석 모델 분석 결과에 대한 차별화를 검증하는 것이 아니라 각 세분시장 간의 고유한 정체성 차별화를 검증하는 것으로 감성 분석을 제외한 나머지 가설들은 채택되었기에 색조화장품 각 세분시장은 전반적으로 차별화가 이루어졌다고 판단할 수 있다.

수입색조화장품 세분시장의 기호가치 소비자는 해외 브랜드 이미지와 트렌드에 민감하므로, 새로운 제품을 경험하는 것을 좋아하는 소비자를 타겟으로 발 빠른 트렌디한 제품의 도입과 혁신적인 기술을 어필하면서, 품질에 대한 확신을 주는 캠페인을 통해 소비자들의 신뢰를 구축하여 제품에 대한 호감도를 높일 수 있을 것이다. 또한, ‘선물’이라는 키워드가 다른 세분시장과는 차별화되어 나타났으므로, 선물용 제품 라인업 확대 및 선물 패키지 마케팅도 고려해 볼 수 있다.

Acknowledgements

This work was supported by the Ministry of Education of the Republic of Korea and the National Research Foundation of Korea (NRF-2021S1A5B5A17056300).

Notes

Author's contribution

This work was supported by the Ministry of Education of the Republic of Korea and the National Research Foundation of Korea (NRF-2021S1A5B5A17056300).

Author details

Man Seok Song (Lecturer), Byuckkang Liberal Arts College, Kyungwoon University 70, Gangdong-ro, Sandong-eup, Gumi-si, Gyeongsangbuk-do 39160, Korea; Yun-Jae Cho (Adjunct Professor), School of Start-up & Assets Convergence (Marketing), Changwon National University, Changwon, Gyeongsangnam-do, 51140, Korea; Mi Ju Yim (Adjunct Professor). College of Business Administration, Dong-A University, 225, Gudeok-ro, Seo-gu, Busan 49236, Korea.

References

Baker M, Wurgler J. Investor sentiment in the stock market. Journal of Economic Perspectives 21:129–152. 2007;
Baudrillard J. Pour une critique de i'economie politique du signe Gallimard. Paris: p. 23–25. 1972.
Blei DM. Probabilistic topic models. Communications of the ACM 55:7–84. 2012;
Blei DM, Ng AY, Jordan MI. Latent dirichlet allocation. Journal of Machine Learning Research 3:993–1022. 2003;
Cho SB, Shin SA, Kang DS. A study on the research tends on open innovation using topic modeling. Informatization Policy 25:52–74. 2018;
Choi HS, Peng Q, Rhee WS. Design and implementation of the machine learning-based restaurant recommendation system. Journal of Digital Contents Society 21:259–268. 2020;
Chung WJ. A study on the criteria for determining a tort of web crawling behavior through case study. The Korean Journal of Civil Law 100:155–189. 2022;
Da Z, Engelberg J, Gao P. The sum of All FEARS: investor sentiment and asset prices. The Review of Financial Studies 28:1–43. 2014;
Grubb EL, Grathwohl HL. Consumer self-concept, symbolism and market behavior: the theoretical approach. Journal of Marketing 31:22–27. 1967;
Hu Y, Deng C, Zhou Z. A semantic and sentiment analysis on online neighborhood reviews for understanding the perceptions of people toward their living environments. Annals of the American Association of Geographers 109:1052–1073. 2019;
Hwang YS. Consumers’ type according to narcissistic orientation and consumption value of apparel products and cosmetics. Journal of the Korean Society for Clothing Industry 13:364–372. 2011;
Jang NK. Sustainable fashion and digital practice through big data text mining: key words analysis of ‘Sustainability+Fa shion+Digital’. Journal of The Korean Society of Fashion Design 24:17–32. 2024;
Jung KH, Kim BR, Kim MK, Jang YB, Park JS, IM WB. Film reception and dominant desire: a study on the reception of roaring currents with psychoanalytic text-mining. The Journal of Criticism and Theory 22:85–113. 2017;
Kang JH. Web crawling data collection and review from a perspective of competition law: focused on supreme court decision 2021Do1533 Decided May 12, 2022. JURIS 1:461–500. 2022;
Kim HS. Critical review on legal issues in the public data and its use through crawling. Kangwon Law Review 61:217–252. 2020;
Kim JS. A study on the perception of fashion streaming service using text mining analysis: focused on project anne. Journal of Fashion Design 18:107–118. 2018;
Kim KJ, Hwang SJ. The influence of price sensitivity, bundle discount type and price level of male cosmetics on quality perception. Journal of the Korean Society of Costume 66:1–14. 2016;
Kim NG, Lee DH, Choi HC, Wong WXS. Investigations on techniques and applications of text analytics. The Journal of Korean Institute of Communications and Information Sciences 42:471–492. 2017;
Kim SM, Son WJ. A study on the experience and emotionality of brand family using BX-dimensional positioning. Journal of Korea Design Forum 24:115–124. 2019;
Kostyra DS, Reiner J, Natter M, Klapper D. Decomposing the effects of online customer reviews on brand, price, and product attributes. International Journal of Research in Marketing 33:11–26. 2016;
Kwon SJ, Lee JH, Lee CM. A study on the legal perception of web crawling in the data economy era. Korean Journal of Industry Security 11:73–100. 2021;
Lassar W, Mittal B, Sharma A. Measuring customer-based brand equity. Journal of Consumer Marketing 12:11–19. 1995;
Lee JM, Rha JY. How consumers perceive online behavioral advertising: consumer typology and determining factors. Journal of Digital Convergence 13:105–114. 2015;
Lee SA. Consumption mode of body image as sign value in mass-culture: focused on idol groups in Korea. The Korean Journal of Cultural Sociology 11:193–235. 2011;
Moon SH. Case study of big data in humanities using Ngram viewer. Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology 5:57–65. 2015;
Nahm CH. An illustrative application of topic modeling method to a farmer’s diary. Cross-Cultural Studies 22:89–135. 2016;
Namgung JE, Kim BR, Joh WI. A study on the attributes of purchasing cosmetics in road shop using AHP. Korean Business Education Review 32:65–84. 2017;
Park EH, Lee SJ. The influence of female consumer's cosmetics purchase experience on image-making efficacy and cosmetics pursuit benefits. Journal of the Korea Fashion & Costume Design Association 17:131–144. 2015;
Park JH, Song M. A study on the research trends in library & information science in Korea using topic modeling. Journal of the Korean Society for Information Management 30:7–32. 2013;
Park JY, Suh CW. Analysis of changes in the housing market using TF-IDF weight model. Korea Real Estate Academy Review 63:46–58. 2015;
Seo MG, Lee UK. Recent research trends analysis of building information modeling using wordcloud through comparison of Korean and International Journals. Journal of the Korea Institute of Building Construction 19:95–103. 2019;
Sirgy MJ, Grewal D, Mangleburg T. Retail environment, self-congruity, and retail patronage: an integrated model and research agenda. Journal Business Research 49:127–138. 2000;
Song MS. What semiotic values do cosmetics consumers consume?: analysis of cosmetic brand reputation and brand selection attributes using text mining. Asian Journal of Beauty and Cosmetology 19:263–275. 2021;
Song MS, Cho YJ, Yim MJ. Discrete emotions response after purchase cosmetics of millennial consumers: evaluation of satisfaction/normal/dissatisfaction attributes using text mining techniques. Asian Journal of Beauty and Cosmetology 20:461–479. 2022;
Trenz M, Berger B. Analyzing online customer reviews: an interdisciplinary literature review and research agenda. Proceedings of the 21st European Conference on Information Systems 83:1–12. 2013;
Vijaymeena MK, Kavitha K. A survey on similarity measures in text mining. Machine Learning and Applications: An International Journal (MLAIJ) 3:19–28. 2016;
Wu S. Understanding research trends in design: using text mining techniques. Journal of Humanities and Social Sciences Research 31:173–199. 2023;
Yang SH. A discourse analysis on the ‘Corporate Citizenship’ of Korean businessmen. The Journal of Learner-Centered Curriculum and Instruction 18:639–660. 2018;
Yang YJ, Lee BH, Kim JS, Lee KY. Development of an automatic classification system for game reviews based on word embedding and vector similarity. The Journal of Society for e-Business Studies 24:1–14. 2019;
Yoo CJ, Hong ST, Jeong HE. In-depth study on women’s needs for makeup and consumption behavior of cosmetic products. Korean Management Review 35:21–49. 2006;
Yoon S. An analysis of multi-word unit by each move in the introductions of theses and dissertations for degrees in Korean as a second/foreign language education. The Journal of Linguistics Science 91:353–373. 2019;
Yoon SH, Kim SW. A text-based similarity measure for scientific literature. The KIPS Transactions: Part D 18:317–322. 2011;
Yu DJ. A study on liability of internet service provider in the Web Search Service. Creation & Rights 46:101–120. 2007;
Yun HJ, Park JH, Yoon JY. Introduction of topic modeling for extracting potential information from unstructured text data: Issue analysis on news article of dementia-related physical activity. Korean Journal of Sport Science 30:501–512. 2019;

Article information Continued

Figure 1.

Low-cost color cosmetics wordcloud analysis results.

Figure 2.

High-cost color cosmetics wordcloud analysis results.

Figure 3.

Imported color cosmetics wordcloud analysis results.

Figure 4.

Trigram analysis results of low-cost color cosmetics (A), high-cost color cosmetics (B) and imported color cosmetics (C).

The different node sizes are determined by dynamic scaling based on the weight of each node. Nodes with higher word frequencies are represented larger, while those with lower frequencies appear smaller. The size of each node has been configured to visually reflect these differences in frequency.

Figure 5.

Low-cost color cosmetics LDA analysis results.

Figure 6.

High-cost color cosmetics LDA analysis results.

Figure 7.

Imported color cosmetics LDA analysis results.

Figure 8.

Sensitivity analysis results.

Table 1.

Top 20 Keywords and frequency of wordcloud analysis

No Low-cost color cosmetics
High-cost color cosmetics
Imported color cosmetics
Keyword Frequency Keyword Frequency Keyword Frequency
1 Color 1,557 Cushion 3,441 Color 1,997
2 Use 831 Color 2,364 Use 1,865
3 Purchase 788 HERA 1,995 Purchase 1,599
4 Cover 769 Purchase 1,790 Skin 1,466
5 Product 597 Use 1,654 Product 1,343
6 Skin 528 Skin 1,629 Cover 1,277
7 Palette 494 Cover 1,563 Delivery 942
8 Coloration 467 Product 1,469 Recommendation 783
9 Thought 463 Black 1,390 Very 689
10 Longevity 406 Free gift 1,307 Applies 678
11 Price 400 Mask 1,166 Gift 658
12 Delivery 400 Feeling 1,031 Foundation 642
13 ETUDE 398 Matte 978 Longevity 635
14 Warm tone 388 Delivery 877 Sample 616
15 True 339 Longevity 814 Thought 611
16 Feeling 328 Applies 717 Adhesion 580
17 Applies 319 True 715 Really 490
18 Matte 314 Makeup 709 Dior 486
19 Really 309 Thought 703 Price 473
20 Makeup 291 Adhesion 674 Feeling 457

Table 2.

Co-occurrence frequency of trigram keywords in the segmented color cosmetics market

No Low-cost color cosmetics
High-cost color cosmetics
Imported color cosmetics
Trigram words Frequency Trigram words Frequency Trigram words Frequency
1 Warm tone, Really, Perfect fit 23 HERA, Black, Cushion 260 Delivery, Very, Delivery 224
2 Youtube, Watching, Thoughts 21 Existing, Black, Cushion 61 Very, Delivery, Very 224
3 Skin, Type, Coverage 21 Renewal, Black, Cushion 53 Lipstick, Lipstick, Best 106
4 Also, ETUDE, Lifetime 21 Black, Cushion, Use 44 Lipstick, Best, Option 106
5 ETUDE, Lifetime, Skin 21 Black, Cushion, Renewal 42 LABSOLU, Lipstick, Cream 106
6 Adhesion, Little, Price 21 Black, Cushion, First 39 One, Purchase, Personal Information 90
7 Best, Silver color, Purchase 21 Black, Cushion, Settlement 36 Color Payoff, Application, Composition 75
8 Life, Foundation, Discontinued 21 Cover, Adhesion, Lasting 34 Combination, Various, Makeup 75
9 Daily, Use, Easy 18 Black, Cushion, Cover 28 Lips, Always, Dior 70
10 Use, Performance, Price 18 Black, Cushion, Watch 27 Always, Dior, Lips 70
11 Performance, Price, Expectations 18 Live, Broadcast, Watch 27 Workplace, Coffee, Drinking 70
12 Coloration, Purchase, Also 18 Previous, Black, Cushion 25 Coffee, Drinking, For 70
13 Purchase, Also, Favorite 18 Use, Black, Cushion 24 Drinking, For, Ordering 70
14 Sold out, Crisis, Baby 18 Black, Cushion, Purchase 23 For, Ordering, Free Gift 70
15 Crisis, Baby, Mom 18 HERA, Black, Foundation 22 Ordering, Free Gift, Delivery 70
16 Baby, Mom, Makeup 18 Cushion, Black, Cushion 21 Application, Composition, Longevity 60
17 Mom, Makeup, Color 18 News, Right, Purchase 21 Delivery, Please, Workplace 60
18 Coloring, Itself, Daily 18 HERA, Cushion, Settlement 20 Please, Workplace, Coffee 60
19 Itself, Daily, Use 18 Renewal, News, Right 20 Thoughts, Purchase, Thoughts 60
20 Daily, Use, Combination 18 Black, Cushion, Originally 19 Purchase, Thoughts, Purchase 60
21 Use, Combination, Itself 18 Cushion, Cover, Adhesion 19 Always, Favorite, Product 54
22 Purchase, Last, Additional 18 Broadcast, Watch, Purchase 18 Product, Always, Favorite 53
23 Last, Additional, Quantity 18 Cover, Lasting, Use 18 LABSOLU, Lipstick, Lipstick 53
24 Additional, Quantity, Purchase 18 Free Gift, Live, Broadcast 18 Lipstick, Cream, LABSOLU 53
25 Aegyosal, Expression, Brush 18 Color, Autumn, Autumn 18 Cream, LABSOLU, Lipstick 53
26 Expression, Brush, Elasticity 18 Purchase, Price, Really 17 LABSOLU, Lipstick, Lipstick 53
27 Brush, Elasticity, Purpose 18 Black, Cushion, Black 17 Lipstick, Cream, Rose 53
28 Elasticity, Purpose, Also 18 Black, Cushion, Indeed 17 Cream, Rose, Rose 53
29 Spring warm, Light, Shadow 18 Old, HERA, Cushion 17 Dior, Lips, Lips 50
30 Light, Shadow, Red 18 Purchase, Indeed, Cover 17 Lips, Lips, Always 50
31 Blemish, Dry, Skin 17 Real, Skin, Expression 48
32 Cushion, Nomad, HERA 17 Coloration, Powder, Scattering 46
33 Product, Refill, Purchase 17 Again, Dior, Once 45
34 Life, Cushion, Cover 17 Dior, Once, Thing 45

Table 3.

Centrality analysis outcomes of trigram networks by segmented market of color cosmetics brand groups

Low-cost color cosmetics
High-cost color cosmetics
Imported color cosmetics
node Degree centrality Closeness centrality Betweenness centrality node Degree centrality Closeness centrality Betweenness centrality node Degree centrality Closeness centrality Betweenness centrality
Warm tone 0.025641 0.025641 0 HERA 0.111111 0.241975 0.037037 Delivery 0.037037 0.037037 0.000000
Really 0.025641 0.025641 0 Black 0.222222 0.29037 0.17094 Very 0.037037 0.037037 0.000000
Youtube 0.025641 0.025641 0 Existing 0.037037 0.191033 0 Lipstick 0.185185 0.118519 0.008547
Watching 0.025641 0.025641 0 Renewal 0.074074 0.213508 0.068376 Best 0.037037 0.074074 0.000000
Skin 0.025641 0.025641 0 Cushion 0.185185 0.279202 0.148148 ABSOLUE 0.074074 0.098765 0.000000
Type 0.025641 0.025641 0 Cover 0.111111 0.207407 0.071225 One 0.037037 0.037037 0.000000
Also 0.051282 0.083761 0.013495 Adhesion 0.037037 0.151235 0 Get 0.037037 0.037037 0.000000
ETUDE 0.051282 0.066127 0.008097 Live 0.074074 0.083333 0.005698 Color Payoff 0.074074 0.083333 0.005698
Lifetime 0.025641 0.050256 0 Broadcast 0.074074 0.083333 0.005698 Application 0.074074 0.083333 0.005698
Adhesion 0.025641 0.025641 0 Previous 0.037037 0.191033 0 Combination 0.037037 0.037037 0.000000
Little 0.025641 0.025641 0 Use 0.037037 0.191033 0 Various 0.037037 0.037037 0.000000
Best 0.025641 0.025641 0 News 0.074074 0.161317 0.037037 Lips 0.148148 0.121212 0.000000
Silver color 0.025641 0.025641 0 Right 0.037037 0.12516 0 Always 0.148148 0.166667 0.025641
Life 0.025641 0.025641 0 Watch 0.037037 0.055556 0 Dior 0.111111 0.133333 0.014245
Foundation 0.025641 0.025641 0 Lasting 0.037037 0.151235 0 Ordering 0.037037 0.037037 0.000000
Daily 0.051282 0.083916 0.010796 Free Gift 0.037037 0.055556 0 Free Gift 0.037037 0.037037 0.000000
Use 0.076923 0.092308 0.014845 Color 0.037037 0.037037 0 Composition 0.037037 0.055556 0.000000
Performance 0.051282 0.071006 0.006748 Autumn 0.037037 0.037037 0 Thoughts 0.037037 0.037037 0.000000
Price 0.025641 0.051282 0 Purchase 0.074074 0.074074 0.002849 Purchase 0.037037 0.037037 0.000000
Coloration 0.025641 0.066127 0 Price 0.037037 0.049383 0 Favorite 0.074074 0.121212 0.000000
Purchase 0.076923 0.096647 0.020243 Old 0.037037 0.16882 0 Product 0.111111 0.133333 0.014245
Sold out 0.025641 0.041026 0 Indeed 0.037037 0.049383 0 Next 0.037037 0.088889 0.000000
Crisis 0.051282 0.058608 0.004049 Blemish 0.037037 0.037037 0 Cream 0.111111 0.118519 0.008547
Baby 0.051282 0.068376 0.005398 Dry 0.037037 0.037037 0 Rose 0.037037 0.074074 0.000000
Mom 0.051282 0.058608 0.004049 Nomad 0.037037 0.186135 0 Real 0.037037 0.037037 0.000000
Makeup 0.025641 0.041026 0 Product 0.037037 0.037037 0 Skin 0.037037 0.037037 0.000000
Coloring 0.025641 0.048583 0 Refill 0.037037 0.037037 0 Powder 0.037037 0.055556 0.000000
Itself 0.051282 0.065934 0.006748 Life 0.037037 0.186135 0 Again 0.037037 0.088889 0.000000
Combination 0.025641 0.061538 0
Last 0.051282 0.083761 0.013495
Additional 0.051282 0.066127 0.008097
Quantity 0.025641 0.050256 0
Aegyosal 0.025641 0.041026 0
Expression 0.051282 0.058608 0.004049
Brush 0.051282 0.068376 0.005398
Elasticity 0.051282 0.058608 0.004049
Purpose 0.025641 0.041026 0
Spring warm 0.025641 0.034188 0
Light 0.051282 0.051282 0.00135
Shadow 0.025641 0.034188 0

Table 4.

Results of color cosmetics LDA analysis (1/3)

No Low-cost color cosmetics
High-cost color cosmetics
Imported color cosmetics
Topic 1 Frequency Topic 1 Frequency Topic 1 Frequency
1 Lips 0.0457 Colors 0.1023 Lips 0.0457
2 Feeling 0.0381 Color 0.0416 Feeling 0.0381
3 Dead skin cells 0.0372 Use 0.0383 Dead skin cell 0.0372
4 Skin 0.0368 Gift free 0.0309 Skin 0.0368
5 Colors 0.0308 Heart 0.0305 Colors 0.0308
6 Price 0.0213 Pampas 0.0258 Price 0.0213
7 Product 0.0197 Very 0.0174 Product 0.0197
8 Matte 0.0177 HERA 0.0171 Matte 0.0177
9 Little 0.0172 Whistle 0.0152 Little 0.0172
10 Emphasis 0.0150 Have 0.0149 Emphasis 0.0150
11 Adherence 0.0131 Shadow 0.0137 Adherence 0.0131
12 Slightly 0.0130 Purchase 0.0137 Slightly 0.0130
13 First 0.0126 Price 0.013 First 0.0126
14 Road shop 0.0124 Shade 0.0115 Road shop 0.0124
15 Moisturizing 0.0114 Pink 0.0113 Moisturizing 0.0114
No Topic 2 Frequency Topic 2 Frequency Topic 2 Frequency
1 Lip balm 0.0761 Product 0.0925 Gift 0.0384
2 Applies 0.0313 Colors 0.062 Coloring 0.0262
3 Foundation 0.0311 HERA 0.0541 Makeup 0.0242
4 Cherry 0.0257 Gift free 0.0515 Case 0.0225
5 Moisturizing 0.0223 Purchase 0.046 Chanel 0.0221
6 Longevity 0.0221 Sample 0.0247 Dior 0.0221
7 Double 0.0218 Pouch 0.0221 Use 0.0212
8 Application 0.0207 Price 0.0215 Color sence 0.0204
9 Sting 0.0196 Use 0.0200 Friend 0.0185
10 Dry 0.0191 Composition 0.0172 Palette 0.0179
11 Colors 0.0170 Really 0.0156 Lip balm 0.0179
12 Face 0.0170 Different 0.0141 Skin color 0.0175
13 Color 0.0163 Case 0.0121 Color 0.0175
14 Different 0.0121 Coloration 0.012 Pink 0.0163
15 Matte 0.0120 Nail 0.0119 Combination 0.0156
No Topic 3 Frequency Topic 3 Frequency Topic 3 Frequency
1 Price 0.0647 Mask 0.0510 Purchase 0.1040
2 Use 0.0426 Cushion 0.0388 Colors 0.0706
3 Product 0.0310 Thought 0.0211 Use 0.0446
4 Foundation 0.0291 Cover 0.0205 Foundation 0.0345
5 Cost-effectiveness 0.0279 Makeup 0.0178 Gift free 0.0338
6 Recommendation 0.0242 Packaging 0.0176 Price 0.0308
7 Comparison 0.0207 Feeling 0.0159 Summer 0.0240
8 Base 0.0197 Different 0.0154 Sample 0.0219
9 Again 0.0169 Black 0.0153 Gift 0.0183
10 Discontinuation 0.0142 Adhesion 0.0145 Discount 0.0136
11 Best 0.0135 Once 0.0124 Next 0.0130
12 Etude ETUDE 0.0133 Cosmetics 0.0123 ESTEE LAUDER 0.0119
13 Really 0.0128 Also 0.0119 Existing 0.0117
14 Color 0.0113 Really 0.0104 Satisfaction 0.0114
15 Former 0.0100 Longevity 0.0118 Road shop 0.0108
No Topic 4 Frequency Topic 4 Frequency Topic 4 Frequency
1 Thought 0.0838 Cover 0.0647 Cushion 0.0568
2 Use 0.044 Degree 0.0313 One 0.0394
3 Summer 0.0426 Longevity 0.0225 Armani 0.0311
4 Just 0.0344 Skin 0.0201 Lipstick 0.0258
5 Color 0.0323 Cushion 0.0186 Rouge 0.0205
6 TRUE 0.0251 Mask 0.0181 Really 0.0184
7 Really 0.0193 Maintenance 0.0173 Designer 0.0168
8 Color sence 0.014 Really 0.016 Lift 0.0156
9 Easy 0.0138 Concealer 0.0138 Lasting silk 0.0156
10 Mute 0.0131 Almost 0.0137 Use 0.0156
11 Recommendation 0.0128 Makeup 0.0133 Absolutely 0.0153
12 Usually 0.0123 Convenience 0.0129 Bought 0.0137
13 Longevity 0.0117 Review 0.0123 Double Were 0.0136
14 Worry 0.0113 Adhesion 0.0119 Matte 0.0130
15 Autumn 0.0105 Originally 0.0117 Review 0.0129
No Topic 5 Frequency Topic 5 Frequency Topic 5 Frequency
1 Coloring 0.0515 Cushion 0.1171 Skin 0.0812
2 Colors 0.0497 Black 0.058 Colors 0.0390
3 Daily 0.0306 HERA 0.0576 Purchase 0.0366
4 Use 0.0294 Use 0.0347 Foundation 0.0335
5 Color 0.0266 Cover 0.0268 TEINT IDOLE 0.0335
6 Palette 0.0262 Purchase 0.0268 Watching 0.0319
7 Warm tone 0.0234 Renewal 0.0236 Sample 0.0301
8 Heart 0.0174 This time 0.0216 Order 0.0293
9 Composition 0.0162 Foundation 0.0204 Expression 0.0243
10 Powder 0.0154 Existing 0.0146 Delivery 0.0198
11 Really 0.0144 Longevity 0.0145 Choice 0.0171
12 Flakes 0.0137 Product 0.0131 Worry 0.0164
13 Combination 0.0134 First 0.0116 Use 0.0162
14 Shadow 0.0132 Adhesion 0.0106 Little 0.0129
15 Feeling 0.0121 Mask 0.0099 This time 0.0126
No Topic 6 Frequency Topic 6 Frequency Topic 6 Frequency
1 Purchase 0.104 Skin 0.0415 Cover 0.0837
2 ETUDE 0.0338 Matte 0.04023. Skin 0.0545
3 Also 0.0297 Feeling 0.0392 Adherence 0.0329
4 Tint 0.0296 Lipstick 0.0288 Mask 0.0255
5 LeoJ 0.0256 Colors 0.0243 Feeling 0.0249
6 Jay 0.0247 Color 0.0231 Longevity 0.0207
7 Watching 0.0206 Coloring 0.0214 Very 0.0203
8 Delivery 0.0198 Autumn 0.0211 Degree 0.0178
9 Palette 0.0163 Lips 0.0199 Use 0.0166
10 Gwang 0.0153 Applies 0.0186 Expression 0.0161
11 Order 0.0137 Thought 0.0135 Concealer 0.0153
12 Product 0.0130 Application 0.0133 Makeup 0.0150
13 Warm tone 0.0123 Dry 0.013 Slightly 0.0139
14 Immediately 0.0109 Color sence 0.0127 Little 0.0132
15 Often 0.0109 Little 0.0231 Dry 0.0123
No Topic 7 Frequency Topic 7 Frequency Topic 7 Frequency
1 Cover 0.1269 Gift free 0.0832 Product 0.1859
2 Skin 0.0721 Delivery 0.0683 Always 0.0433
3 Product 0.0577 Purchase 0.0484 Use 0.0359
4 Use 0.0307 Applies 0.0434 Lips 0.0313
5 Longevity 0.0292 Gift 0.0357 Product 0.0284
6 Adherence 0.0262 Longevity 0.0279 Heart 0.0276
7 Expression 0.0208 Order 0.0278 Color 0.0267
8 Mask 0.0195 Live 0.0272 Delivery 0.0242
9 Always 0.0148 Watching 0.0252 Have 0.0161
10 Concealer 0.0144 One 0.0242 Dior 0.0156
11 Degree 0.0118 Lip balm 0.0224 Have 0.0135
12 Part 0.0110 Colors 0.0217 Really 0.0122
13 Matte 0.0109 Really 0.0190 Once 0.0122
14 Longevity 0.0100 Sample 0.0185 Cosmetics 0.0121
15 One 0.0097 Product 0.0170 This time 0.0114

"Color" was used to refer to a single and specific color (e.g., "red lipstick," "purple eyeshadow").

"Colors" were used to denote various combinations of colors or general concepts of color (e.g., "lipsticks in different colors," "colorful eyeshadow palette").

Table 5.

Similarity analysis among segmented color cosmetics markets using trigram analysis results

Cosine similarity
Low-cost color cosmetics High-cost color cosmetics Imported color cosmetics
Low-cost color cosmetics 1.00000 0.00788 0.00527
Low-cost color cosmetics 0.00788 1.00000 0.00040
High-cost color cosmetics 0.00527 0.00040 1.00000
Euclidean distance
Low-cost color cosmetics High-cost color cosmetics Imported color cosmetics
Low-cost color cosmetics 0.00000 1.40863 1.41048
High-cost color cosmetics 1.40863 0.00000 1.41393
Imported color cosmetics 1.41048 1.41393 0.00000

Table 6.

Similarity analysis among segmented color cosmetics markets utilizing LDA analysis results

Cosine similarity
Low-cost color cosmetics High-cost color cosmetics Imported color cosmetics
Low-cost color cosmetics 1.00000 0.84668 0.82737
Low-cost color cosmetics 0.84668 1.00000 0.79997
High-cost color cosmetics 0.82737 0.79997 1.00000
Euclidean distance
Low-cost color cosmetics High-cost color cosmetics Imported color cosmetics
Low-cost color cosmetics 1.00000 0.55375 0.58759
High-cost color cosmetics 0.55375 1.00000 0.63250
Imported color cosmetics 0.58759 0.63250 1.00000

1. Cosine similarity: This is a technique of measuring similarity using the cosine angle between two vectors. The closer it is to 1, the higher the similarity between the two data.

2. Euclidean distance: A technique of determining the straight line distance between two points. A smaller value means a higher similarity between the two data.

Table 7.

Results of sensitivity analysis

Low-cost color cosmetics High-cost color cosmetics Imported color cosmetics
Number of texts 6,516 Number of texts 9,832 Number of texts 9,177
Number of labels 6,516 Number of labels 9,832 Number of labels 9,177
Number of training data 5,213 Number of training data 7,865 Number of training data 7,341
Number of testing data 1,303 Number of testing data 1,967 Number of testing data 1,836
Labels Frequency Labels Frequency Labels Frequency
Sensitivity analysis Positive 31.05 Sensitivity analysis Positive 29.62 Sensitivity analysis Positive 27.74
Neutral 64.11 Neutral 65.44 Neutral 67.56
Negative 4.84 Negative 4.94 Negative 4.70
BERT Sensitivity analysis Training Positive 31.04 BERT Sensitivity analysis Training Positive 29.62 BERT Sensitivity analysis Training Positive 27.74
Neutral 64.12 Neutral 65.45 Neutral 67.56
Negative 4.84 Negative 4.93 Negative 4.70
Testing Positive 31.09 Testing Positive 29.94 Testing Positive 27.72
Neutral 64.08 Neutral 65.43 Neutral 67.60
Negative 4.385 Negative 4.93 Negative 4.68
Low-cost color cosmetics High-cost color cosmetics Imported color cosmetics
Epoch Data type Loss Accuracy Epoch Data type Loss Accuracy Epoch Data type Loss Accuracy
1 Training data 53.33 79.37 1 Training data 46.20 82.83 1 Training data 46.89 82.31
1 Test data 41.20 84.85 1 Test data 33.32 89.26 1 Test data 25.97 91.42
2 Training data 25.69 91.29 2 Training data 19.31 93.64 2 Training data 18.47 93.68
2 Test data 25.98 92.14 2 Test data 20.49 93.26 2 Test data 20.25 93.12

1. The training and test results of the BERT model for sentiment analysis across epochs.

2. Units are in percentage (%).

3. The ratio of training data to test data is 80% to 20%.