Skip to main content

Is Bubble in Auction Market Really Bubble? Bubble Index in Real Estate Auction Market

Is Bubble in Auction Market Really Bubble? Bubble Index in Real Estate Auction Market

Hyeyoung Park*

* Swiss Institute of Artificial Intelligence, Chaltenbodenstrasse 26, 8834 Schindellegi, Schwyz, Switzerland

Abstract

In this study, we address the phenomenon of financial bubbles, where asset or commodity prices deviate significantly from their intrinsic value or market consensus. Typically, bubbles go unnoticed until they burst, causing abrupt price declines. Given the global interconnectedness of markets, such bubbles can have profound economic repercussions, emphasizing the importance of proactive detection and management. Our approach focuses on predicting bubbles in auction markets, driven by crowd psychology or the 'herd effect.' We posit that these bubbles manifest as a 'winner's curse' in auctions, and that if investors flock to the auction, the difference between the first and second place prices will be frequently large. While prior research in real estate and auction markets has relied on hedonic pricing models, our study distinguishes itself by employing mathematical statistical modeling alongside a hedonic pricing framework. Specifically, we employ logistic regression, with corrected winning bid rates as the dependent variable and various auction-related factors as independent variables, excluding intrinsic property value. We also employ a Chow-test to assess structural changes within the market over time, examining whether the Bubble Index, a novel metric indicating the intensity of auction competition, has varying effects on distinct market subgroups. Moreover, unlike previous studies, we statistically validate the existence of bubbles in auction markets through the development of a Bubble Index. Our results reveal that the explanatory power of this index significantly increases post-structural shock, with a maximum impact of 5.65% on the winning bid rate.

1. Introduction
1.1 Background and Objectives

Bubbles in financial assets or commodities, characterized by prices exceeding intrinsic value, have historically posed risks to markets and economies[8]. Often, these bubbles go unrecognized until they burst, resulting in significant investor losses. This phenomenon, fueled by "herd psychology" and amplified by modern communication channels like social media, necessitates proactive detection and management.

This study investigates potential market overheating in the Gangnam-gu apartment real estate auction market from 2014 to 2022, focusing on identifying bubbles and overheating. Unlike previous studies predicting the winning rate, we study the existence and overheating of bubbles based on the idea that price competition in the auction market will intensify when a bubble occurs due to the nature of auction competition. We introduce a "bubble index" to statistically validate bubble existence and assess its differential impact on subgroups when market structural shocks occur, which is an index of when competition in an auction becomes overheated and the difference between the first and second place prices becomes large. This study involves checking whether the explanatory power of the bubble index after a structural shock is significantly higher than before that point.

1.2 Features of the Korean Real Estate Auction System and Bubbles

Korea's real estate auction system, a sealed-bid process with participants' prices undisclosed, promotes individual independence[1]. In addition, it employs first-price auctions, where the highest bid determines the winning price, influenced by price competitiveness and return on investment.

In overheated markets, increased liquidity and rising prices may elevate expected returns, potentially leading to irrational market conditions. External shocks can disrupt individual independence, fostering a Winner's Curse scenario[2][3], where the winning bidder pays more than the objective value, characterizing an overheated market. A noteworthy behavior is a frequent large gap between the first and second-place prices, akin to bubble dynamics, reflecting intense competition.

In general, it is rational for bidders to place bids that are lower than the asking price and higher than their competitors, and it is unusual for bidders to place bids that are overwhelmingly larger than their competitors. Therefore, if a large gap between the first and second place prices is a frequent occurrence in an auction market, we can assume that there are many confident investors. This is similar to the behavior of a bubble, where competition drives prices up due to aggressive investment by new investors entering the market.

This "bubble index" uses the first-to-second-place price difference and integrates it into a regression model as an independent variable. Additionally, we account for the time difference between appraisal and winning bids by calibrating appraised prices to market values at the auction time.

2. Review of Prior Research

Previous studies in real estate auctions have predominantly focused on factors influencing the winning bid price, utilizing either the hedonic pricing model[5] or time series data analysis.

  • Lee, H.K, Bang, S.H and Lee, Y.M (2009)[9]:
    Employed a hedonic pricing model to estimate winning bid prices for apartment auctions. Noted that during rising apartment prices, the time-calibrated winning bid rate exceeded the original rate, with the opposite occurring during declines.
  • Lee, J.W and Bang, D.W (2015)[10]:
    Analyzed housing characteristics, auction specifics, and macroeconomic variables' impact on the winning bid rate via a hedonic model. Significant influencers included the number of bidders, the number of failed bids, and market interest rates, with varying effects in upswing and downswing periods.
  • Jeon, H.J (2013)[4]:
    Utilized a VECM model to examine the time series pre and post-global financial crisis. Observed the disappearance of house price appreciation expectations post-crisis, leading to an increase in the number of items in the auction market and a decrease in the winning bid rate.

Despite these insights, the use of the hedonic pricing model carries limitations:

  • Limitation 1: Multicollinearity Concerns
    Due to indiscriminate variable addition, multicollinearity issues may arise. The model's explanatory power diminishes, leading to unreliable results when excessive variables are included without due consideration.
  • Limitation 2: Intrinsic Value Ambiguity
    Determining the intrinsic value of a property is challenging due to numerous influencing factors such as school zones, job prospects, infrastructure, and urban planning.
  • Limitation 3: Assuming a homogeneous market over the entire period
    Furthermore, prior studies often categorized periods as rising, falling, or freezing without considering structural market changes.

Since the mid-2010s, the hedonic model has seen limited use in predicting auction prices due to these limitations.

This study seeks to address these limitations as follows:

  1. Constructing a model with judiciously selected variables and appropriate controls.
  2. Mitigating intrinsic value complexity by using the winning bid rate, not price, as the dependent variable and employing a logit model.
  3. Employing a Chow-test to segregate datasets, uniquely focusing on bubble phenomena stemming from irrational investment sentiment in overheated markets to reveal structural shifts.
Table 1: Explanatory Variables Used in Prior Research
3. Research Area Selection and Data Pre-processing
3.1 Comparison of Auction Cases in 25 Seoul Wards and Area Selection

To ensure an adequate dataset, we examined appraisal prices and winning bids distributions in five of Seoul's 25 wards from January 2014 to December 2022: Yangcheon-gu, Gangseo-gu, Songpa-gu, Gangnam-gu, and Nowon-gu, known for high apartment transaction volumes(Figure 1). Excluding urban living houses (one-room units with a floor area of 85 square meters or less), deemed dissimilar to the apartment market, left us with Nowon-gu and Gangnam-gu as the primary areas of focus due to their significant auction event numbers. Nowon-gu and Gangnam-gu had the highest number of auction events, but there were significant differences in the price distribution(Figure 2). After assessing auction event data and the bubble index, we opted to focus our analysis on Gangnam-gu, where no data gaps exist.

Figure 1: Number of auction cases for each ward in Seoul from 2014 to 2022.
Table 2: Number of auction events with 2 or more bidders in Gangnam-gu and Nowon-gu.
3.2 Bubble Index using the Price Difference

To identify potential bubbles, we considered the frequency of large price differences between first and second place bids in auction markets. Our goal was to create a bubble index based on these differences. We aggregated price differences from auctions with more than two bidders (excluding solo bids) and calculated quarterly averages to minimize missing data.

To capture changes effectively, we employed the geometric mean of quarterly price differences, instead of the arithmetic mean, due to the baseline. This method revealed notable increases compared to the baseline year (2014). Notably, Nowon-gu had no auction events in Q4 2021 and Q1 2022, leading to missing data. We opted not to use the difference between first and third place bids due to more frequent missing values and data collection challenges.

3.3 Time Correction of Winning Bid Rate

In the auction system, a time gap exists between building appraisal and the actual winning bid \(\frac{B_i}{A_i}\). This discrepancy affects the winning bid rate, which should reflect surcharges or discounts relative to market prices accurately[9]. To rectify this, we corrected the appraised price using the KB market price. The resulting corrected winning bid rate \(\frac{B_i}{A'_i}\), calculated by dividing the winning bid by the adjusted appraised price, serves as our dependent variable.

\[ A'_i = \frac{A_i \cdot S_p}{S_{p-t}} \]

Figure 2: Box and whisker plot of appraisal prices and winning bids of five wards.
Figure 3: Number of auction events with 2 or more bidders per quarter
Figure 4: Average of the price difference by quarter
Figure 5: Geometric mean of quarterly price difference
Figure 6: Distribution of winning bid rate and corrected winning bid rate

\(A'_i\) represents the adjusted appraised value, where \(A_i\) is the original appraised value, \(S_p\) is the KB market price at the time of winning the bid, and \(S_{p-t}\) represents the KB market price at the time of appraisal.

When comparing the distribution of winning bid rate and corrected winning bid rate(Figure 6), it's evident that the average corrected winning price is lower both in Gangnam-gu (from 96.8% to 93.0%) and Nowon-gu (from 95.6% to 92.3%). This observation underscores the significant impact of the time gap between appraisal and auction. Typically, during this time difference, market prices, reflecting buying and selling dynamics, tend to rise.

Analyzing the average winning bid rate and the corrected winning bid rate by quarter reveals an interesting trend(Figure 7). In Gangnam-gu, the gap between these rates began widening after a specific point (Q1 2016), indicating increased price fluctuations in the buying and selling market. Since Q1 2018, this gap has continued to grow. The fact that the corrected winning bid rate is consistently lower than the winning bid rate in recent years suggests that price increases are occurring in the buyer's market, aligning with the decrease in the number of auctions as the buyer's market becomes more active.

In Nowon-gu, the winning price ratio slightly exceeds the corrected winning price ratio for all time periods, implying that market prices and winning prices in Nowon-gu are relatively similar, despite the steady increase in market prices.

3.4 Adjustment of Bubble Index Considering Time Series Analysis

To identify structural changes attributed to a bubble, which signifies an overheated market, the data must be presented in a continuous time series format. A Chow-test serves as a valuable tool for comparing coefficients from two linear regressions on before-and-after datasets in time series data, detecting structural shocks or changes. Essentially, the Chow-test assesses if the impact of the independent variable (the bubble index) on the dependent variable varies before and after a specific point. Therefore, we transform the quarterly bubble index into time series data by adjusting it to a geometric mean of \(k\) consecutive observations(Figure 8).

\[I_j = \prod_{i=j-k+1}^k \left(\frac{P_i^t}{P^0}\right)^{\frac{1}{k}}\]

\[P^0 = \prod_{i=1}^k (D_i)^{1/k}\]

\[P_i^t = \prod_{i=j-k+1}^j (D_i)^{1/k}\]

Figure 7: Comparison of average winning bid rate and corrected winning bid rate in quarter

In this equation, \(j\) represents the index for the winning bid order (e.g., 1, 2, ...), \(k\) represents the size of the dataset, \(P_i^t\) represents the geometric mean of price differences at time \(t\) over a dataset of size \(k\), \(P^0\) represents the geometric mean of price differences at a reference time point over a dataset of size \(k\), and \(D_i\) represents the difference between the winning bid price (1st place) and the second-place bid price for a specific event.

4. Analytical Model Setup

Historically, many studies predicting real estate prices have employed the hedonic pricing model, which incorporates numerous property-specific variables. However, this approach has faced limitations such as multicollinearity, intrinsic value ambiguity, and market homogeneity assumptions.

Our study seeks to overcome these limitations by utilizing a hedonic pricing model, specifically regression analysis, coupled with mathematical statistical modeling to detect real estate bubbles. In this model, logistic regression excludes intrinsic property value as the dependent variable, using the corrected winning bid rate instead. Independent variables include the number of auctions, number of bidders, the difference between the first and second prices (bubble index), and M2 currency volume.

We employ the Chow-test to segregate data sets, assuming structural market changes over the entire period. In the event of a structural market shock, like a bubble, we examine whether the independent variable (the bubble index) exhibits different effects on subgroups.

4.1 Equation Construction

The traditional hedonic model, explaining prices as the sum of intrinsic values, may not be suitable for bubble detection, as bubbles often occur when intrinsic values are challenging to measure. To eliminate intrinsic value, we utilize the winning bid rate in a regression on logarithmic dependent and independent variables. The model takes the form:

\[ \log\left(\frac{B_i}{A_i}\right) = v_i + \sum_{n=1}^N \beta_n \log(X_{in}) \]

Figure 8: Series bubble index

Here, \(A_i\) represents the appraised value, reflecting market prices, including intrinsic property value. \(B_i\) is the winning bid, encompassing intrinsic value, bidder risk, and bubble-induced competition. Taking the natural logarithm of both prices eliminates intrinsic property value from the equation. The error term \(v_i\) is minimal due to the high sales and transaction volume for apartments like the ones analyzed in this study. \(X_in\) represents independent variables explaining the winning bid rate, such as risk factors and auction event bubbles.

Due to the time gap between appraisal and winning bids, we use a time-corrected appraised value defined in Part 3-4 as the equation:

\[ \log\left(\frac{B_i}{{A'}_i}\right) = \alpha_i + \sum_{n=1}^N \beta_n \log(X_{in}) \]

Where, \(\frac{B_i}{{A'}_i}\) is the time-corrected winning bid rate, \(\alpha_i\) is a constant resulting from time correction with error term and \(X_{in}\) represents \(N\) independent variables of specific auction event \(i\).

4.2 Variable Characteristics

The variables employed in prior studies can be broadly categorized into macroeconomic variables, housing characteristics, and auction characteristics. Notably, variables pertaining to the intrinsic value of real estate have been excluded through the logit model outlined in Equation 4-1. In this study, we have opted to utilize the following independent variables: the bubble index, number of bidders, number of failed auctions, and M2 currency volume.

The "Index 5" variable, which we refer to as the bubble index, was defined in Part 3-4 following a meticulous selection process that considered time series analysis.

While the bubble index scrutinizes bubbles within the auction market, the number of bidders serves as a key indicator to gauge the extent of competitive overheating during individual events. This variable has been widely employed in several studies and is limited to events featuring two or more bidders[6][7].

Figure 9: Distribution of Variables

Previous studies have delved into risk factors associated with auction events, often segmenting them into various variables. Among these, the number of unsuccessful bids has emerged as one of the most influential variables, serving as an instrumental indicator. Regarding the number of bids, we apply a logit model and categorize the data as follows: 1 for new events with no failures, 2 for events with one failure, 3 for events with two failures, and 4 for events featuring three or more failed bids.

Aligned with the notion that bubbles tend to emerge when accurate price estimation becomes challenging, we incorporate the M2 currency volume as an indicator. This variable takes into account market liquidity and is applied using the initial analysis period of January 2014 as a baseline (set to 1).

The characteristics of the variables utilized in the hedonic model of this study are summarized in the table below(Table 3).

Table 3: Descriptive Statistics of Variables
4.3 Chow-Test for Structural Changes

The Chow-test is a statistical tool for detecting structural breaks in time series data by comparing coefficients from two linear regressions on before-and-after data sets. In our analysis of Gangnam-gu auction data, we employed a calibrated regression model of the winning bid rate, including the bubble index, number of bidders, and number of winning bids.

The Chow-test results revealed a structural break at point 321 (Q1 2018), indicating a significant change in the regression coefficients(Figure 10). A subsequent analysis, adding M2 currency volume as an independent variable, identified a break at point 226 (Q2 2016).

5. Analysis Results
5.1 Regression Model

The Ordinary Least Squares (OLS) analysis of the calibrated winning bid rate regression model, utilizing three variables: the bubble index, number of bidders, and number of wins, is presented below. The dataset preceding the break point is referred to as "Subset 1," while the dataset succeeding the break point is termed "Subset 2." We also provide the effective coefficients and standard deviation results for the entire dataset(Table 4).

The relatively low R-squared value of the model and the less significant t-test statistics associated with the bubble index can be attributed to the potential presence of omitted variables. To address this concern, we introduced M2 currency volume as an additional variable and examined the results of the regression model equation with four variables.

As a result, the R-squared value demonstrated improvement compared to the three-variable regression model, and notably, the estimated coefficient of the bubble index achieved statistical significance(Table 5). Additionally, the effective coefficients for the number of auctions and number of bidders variables showed increases, revealing a negative correlation between the number of auctions and M2, and a positive correlation between the number of bidders and M2. This suggests that over time, an increase in M2 corresponds to rising real estate prices, a phenomenon reflected in the model through the differential between the winning bid rate and the corrected winning bid rate.

The residual plot further verifies the resolution of the omitted variable issue, taking the form of a random cloud.

We observed that the influence of the bubble index intensified just before break point 226 and reached its maximum impact at break point 306 (Q4 2017). At this time, a 1-point increase in the Bubble Index raised the corrected winning bid rate by 5.12% in average.

5.2 Bubble Index

The Bubble Index, reflecting the intensity of price differences between the first and second bidders, operates during periods of real estate price appreciation. It provides insights into the cycle and size of real estate bubbles, acting as an indicator of investors' expectations.

5.3 Other Variables

The effect of the number of unsuccessful bids on the winning bid rate diminished significantly after point 306, indicating that winning bids had less impact on the winning rate as the bubble deepened.

The increase in the number of bidders positively correlated with the Bubble Index, aligning with the "winner's curse" phenomenon. M2 currency volume did not significantly impact the winning bid rate but served as a control variable.

5.4 Bubble Index Over Time

The Bubble Index analysis for data with more than two bidders revealed fluctuations in the degree of overheating in auction markets. Notably, overheating increased over time, with the ratio between the first and second bidders' prices reaching peak values in recent years.

The data set was divided using the Chow test, and the analysis indicated that the Bubble Index operated differently in the sub-data sets before and after the break point (Q2 2016).

Figure 10: Chow-test statistics according to break points
Table 4: Regression with 3 variables
Table 5: Regression with 4 variables
Figure 11: Statistic values according to break points
Figure 12: Statistic values according to break points
5.5 Implications

The Bubble Index, derived from the price difference between the first and second place bids, effectively explains auction market overheating. Its sustained high values suggest ongoing overheating, with the average Bubble Index remaining elevated since Q3 2020. This index can serve as an early warning indicator for investors before the bubble deepens.

In conclusion, our analysis indicates that the Bubble Index reflects market expectations and effectively detects real estate market overheating. However, it's important to note that the index may become distorted at the peak of a bubble when fewer auction events occur.

6. Conclusion

In this comprehensive study, we meticulously examined the presence and magnitude of bubbles within the auction market through a systematic approach. To begin, we devised a bubble index, tailored to instances featuring more than two bidders, which served as an essential metric for gauging the escalation in price disparities between the top two bidders over time.

Subsequently, employing the Chow test—an analytical technique comparing the regression coefficients of two distinct phases in time series data—we partitioned the dataset. This division unveiled varying behaviors in the effective coefficient and t-statistic values associated with our bubble index across these distinct segments.

Notably, the segmentation pinpointed a crucial turning point in the second quarter of 2016, where the t-test value for the bubble index transformed from being inconclusive to significant. Furthermore, within the later dataset, the bubble index exhibited a substantial effective coefficient of 0.055, indicating a noteworthy 5.65% influence on the winning bid rate. Meanwhile, the t-test outcomes for the other variables remained consistently valid throughout both datasets.

This investigation yielded a multifaceted picture: before the bifurcation point, the model displayed a coefficient of determination (R-squared) of 77.6%, along with an Adjusted R-squared of 77.4%, signifying its robust explanatory power. Following the division, the model maintained considerable explanatory capacity, with an R-squared of 76.8% and an Adjusted R-squared of 76.2%. Moreover, it became evident that competition intensified, as witnessed by the average corrected winning bid rate increasing from 91% to 96% post-bifurcation.

Our utilization of the Bubble Index proved invaluable. It highlighted not only transient spikes but also persistent hotspots as key indicators of market overheating. Since the third quarter of 2020, the average Bubble Index for each auction order has consistently held at 6.04, underscoring a prolonged state of overheating in the auction market.

In conclusion, this study underscores the utility of the Bubble Index, founded on the price disparity between first and second place bids, as an effective metric for elucidating overheating tendencies in the auction market—an insight reflective of investor sentiment. Nevertheless, it's important to acknowledge that the Bubble Index may become distorted at the peak of a bubble due to dwindling auction events. Despite this limitation, it holds promise as a preventive tool to alert investors before the escalation of a market bubble.

References

[1] Allen, and Marcus, T. Discounts in real estate auction prices: Evidence from south florida.
Journal of Real Estate Research 25, 3 (2001), 38—-43.

[2] Bazerman, Max, H., and William, F., S. I won the auction but don’t want the prize. Journal
of Conflict Resolution 27, 4 (1983), 618––634.

[3] Capen, Edward, C., Robert, V., C., and William, M., C. Competitive bidding in high-risk
situations. Journal of Petroleum Technology 23 (1971), 641—-653.

[4] Jeon, H. An empirical study on the correlation between the housing sales market and auction
market -focused on before and after the global financial crisis. Korea Real Estate Review 23, 2
(2013), 117–132.

[5] Jin, N., Lee, Y., and Min, T. Is the selling price discounted at the real estate auction market?
Housing Studies Review 18, 3 (2010), 93–117.

[6] Kagel, John, H., and Dan, L. The winner’s curse and public information in common value
auctions. The American Economic Review 76, 5 (1986), 894—-920.

[7] Kagel, John, H., and Dan, L. Common value auctions and the winner’s curse. NJ: Princeton
University Press.

[8] Karl, E., C., and Robert, J., S. Is there a bubble in the housing market? In Brookings
Papers on Economic Activity (2003), vol. 2, The Johns Hopkins University Press, pp. 299–342.

[9] Lee, H., Bang, S., and Lee, Y. True auction price ratio for condominium: The case of gangnam
area, seoul, korea. Housing Studies Review 17, 4 (2009), 233–258.

[10] Lee, J., and Bang, D. Factors influencing auction price ratio: Auction characteristics, macroeconomic variables. Korea Real Estate Review 25, 2 (2015), 71–84.

Modeling Digital Advertising Data with Measurement Error: Poisson Time Series and Poisson Kalman Filter Approach

Modeling Digital Advertising Data with Measurement Error: Poisson Time Series and Poisson Kalman Filter Approach

Jeongwoo Park*

* Swiss Institute of Artificial Intelligence, Chaltenbodenstrasse 26, 8834 Schindellegi, Schwyz, Switzerland

Abstract

This study examines the impact of measurement error, an inherent problem in digital advertising data, on predictive modeling. To do this, we simulated measurement error in digital advertising data and applied a GLM(Generalized Linear Model) based and an Kalman Filter based moodel, both of which can partially mitigate the measurement error problem. The results show that measurement errors can trigger regularization effects, improving or degrading predictive accuracy, depending on the data. However, we confirmed that reasonable levels of measurement error did not significantly impact our proposed models. In addition, we noted that the two models we applied showed heterogeneity depending on the data size, hence we applied an ensemble-based stacking technique that combines the advantages of both models. For this process, we designed our objective function to apply different weights depending on the precision of the data. We confirmed that the final model displays better results compared to the individual models.

1. Introduction
1.1 Background

Digital advertising has exploded in popularity and has become a mainstream part of the global advertising market, offering new areas unreachable by traditional media such as TV and newspapers. In particular, as the offline market shrank during the COVID-19 pandemic, the digital advertising market gained more attention. Domestic digital marketing spend grew from KRW 4.8 trillion in 2017 to KRW 6.5 trillion in 2019 and KRW 8.0 trillion in 2022, a growth of about 67\% in five years, and accounted for 51\% of total advertising expenditure as of 2022\cite{KOBACO}.

The rise of digital advertising has been driven by the proliferation of smartphones. With the convenience of accessing the web anytime and anywhere, which is superior to PCs and tablets, new internet-based media have emerged. Notably, app-based platform services that provide customized services based on user convenience have rapidly emerged and significantly contributed to the growth of digital advertising.

Advertisers prefer digital advertising due to its immediacy and measurability. Traditional medias such as TV, radio, and offline advertising make it challenging to elicit immediate reactions from consumers through advertisements. At best, post-ad surveys can gauge brand recognition and the predilection to purchase its products when needed. However, in digital advertising, a call to action button leading to a purchase page can precipitate quick consumer responses before diminishing brand recall and purchase intentions.

In addition, in traditional advertising media, it is difficult to accurately measure the number of people exposed to the ad and the effect of conversions through the ad. Especially, due to the lag effect of traditional media mentioned above, there are limitations in retrospecting the ad performance based on the subsequent business performance as the data rife with noise must be taken into account. Therefore, there is a problem of distinguishing whether the incremental effect of business performance is caused by advertising or other exogenous variables. In digital advertising, on the other hand, 3rd party ad tracking services store user information on the web/app to track which ad users responded to and subsequent behavior. The benefits of immediacy and measurability help advertisers to quickly and accurately determine the effectiveness of a particular ad and make decisions.

However, with the advent of measurability came the issue of measurement errors in the data. There are many sources of measurement error in digital ad data, such as a user responding to an ad multiple times in a short period of time, or ad fraud, which is the manipulation of ad responses for malicious financial gain. As a result, ad data providers regularly update their ad reports up to a week to provide updated data to ad demanders.

1.2 Objectives

In this study, we aim to apply a model that can reasonably make predictions based on data with inherent measurement errors. The analysis has two main objectives: first, we will verify the impact of measurement error on the prediction model. We will perform simulations for various cases, considering that the innovation may vary depending on the size of the measurement error and the data period. Second, we will present several models that take into account the characteristics of the data and propose a final model that can robustly predict the data based on these models.

2. Key Concepts and Methods

Endogeneity and Measurement Error

A regressor is endogenous, if it is correlated with the error in the regression models. Let $E(\epsilon_{i} | x_{i}) = \eta$. Then the OLS estimator, b, is biased since

$\DeclareMathOperator*{\plim}{plim}$

\begin{align}
E(b | X) = \beta + (X'X)^{-1}X'\eta \neq \beta
\end{align}

So the Gauss-Markov Theorem no longer holds. Also, the estimator is inconsistent since

\begin{align}
\plim b = \beta + \plim (\frac{X'X}{n})^{-1} \plim (\frac{X'\epsilon}{n}) \neq \beta
\end{align}

Endogeneity can be induced by major factors such as omitted variable bias, measurement error, and simultaneity. In this study, we focus on the problem of measurement error in the data.

Measurement error refers to the problem where data, due to some reason, differs from the true value. Measurement error is divided into systematic error and random error. Systematic error refers to the situation where the measured value differs from the true value due to a specific pattern. For example, a scale might be incorrectly zeroed, giving a value that is always higher than the true value. Random error means that the measurement is affected by random factors that deviate from the true value.

While systematic errors can be corrected by data preprocessing to handle specific patterns in the data,random error characteristically requires data modeling for random factors. In theory, various assumptions can be made about the random factor, it is generally common to assume errors follow a Normal distribution.

We will cover the regression coefficient of classical measurement error model with normally distributed random errors. Consider the following linear regression:

\begin{align}
y = \beta x + \epsilon
\end{align}

And we define $\tilde{x}$ with measurement error as follows.

\begin{align}
\tilde{x} = x + u
\end{align}

Substitute (4) into (3):

\begin{align}
y = \beta (\tilde{x} - u) + \epsilon = \beta \tilde{x} + (\epsilon - \beta u)
\end{align}

Hence,

\begin{gather}
b = (X'X)^{-1}X'y \\
\plim b = (\frac{\sigma_{x}^{2}}{\sigma_{x}^{2} + \sigma_{u}^{2}})\beta
\end{gather}

When measurement error occurs as mentioned above, the larger the magnitude of the measurement error, the greater the regression dilution problem, where the estimated coefficient approaches zero. In the extreme case, if the explanatory variables have little information so the measurement error has most of the information, the model will treat them as just noise and the regression coefficient will be close to zero. This problem occurs not only in simple linear regression, but also in multiple linear regression.

In addition to the additive case, where the measurement error is added to the original variable, we can also consider a multiplicative case where the error is multiplied. In the multiplicative case, the regression dilution problem occurs as follows.

\begin{gather}
\tilde{x} = xw = x + u \\
u = x(w - 1)
\end{gather}

Similarly, substituting (9) into (3) yields a result similar to (7), where the variance of the measurement error $u$ is derived as follows.

\begin{align}
\sigma_{u}^{2} = E[X(w - 1)X(w - 1)] = E(w^{2}X^{2} - 2wX^{2} + X^{2}) = \sigma_{w}^{2}(\sigma_{x}^{2} + \mu_{x}^{2})
\end{align}

Therefore, in the case of measurement error, the sign of the regression coefficient does not change, but the size of the regression coefficient gets attenuated, making it difficult to quantitatively measure the effect of a certain variable.

However, let us look at the endogeneity problem from a perspective of prediction, where the importance lies solely in accurately forecasting the dependent variable rather than the explanatory context where we try to explain phenomena through data - and so the size and sign of coefficients are not crucial. Despite the estimation of the regression coefficient being inconsistent in an explanatory context, there is a research that residual errors, which are crucial in the prediction context, deem that endogeneity is not a significant issue\cite{Greenshtein}.

Given these results and recent advancements in computational science, countless non-linear models have been proposed, which could lead one to think that the endogeneity problem is not significant when focusing on the predictive perspective. However, the regression coefficient decreases due to measurement error included in the covariates, resulting in model underfitting compared to actual data. We will later discuss the influence of underfitting due to measurement error.

Heteroskedasticity

Heteroscedasticity means that the residuals are not equally distributed in OLS(Ordinary Least Squares). If the residuals have heteroskedasticity in OLS, it is self-evident by the Gauss-Markov theorem that the estimator is inefficient from an analytical point of view. It is also known that in the predictive perspective, heteroskedasticity of residuals in nonlinear models can lead to inaccurate predictions during extrapolation.

In digital advertising data, measurement error can induce heteroskedasticity, in addition to the endogeneity problem of measurement error itself. As mentioned in the introduction, the size of the measurement error decreases the further back in time the data is from the present, since the providers of advertising data are constantly updating the data. Therefore, the characteristic of varying measurement error sizes depending on the recency of data can potentially induce heteroskedasticity into the model.

Poisson Time Series

Poisson Time Series is a model based on the Poisson Regression that uses the log-link as the link function in GLM(Generalized Linear Model) class, with additional autoregressive and moving average terms. The key difference between the Vanilla Poisson Regression and ARIMA-based model is that the time series parameter are set to reflect the characteristics of the data following the conditional Poisson distribution.

Let us set the log-link $\log(\mu) = X\beta$ from the GLM as. In this case, the equation considering the additional autocorrelation parameters are as follows.

\begin{align}
\log(\lambda_{i}) = \beta_{0} + \sum_{j=1}^{p}\beta_{j}\log(Y_{i-j} + 1) + \sum_{l=1}^{q}\alpha_{l}\log(\lambda_{i-l}) + \eta'X
\end{align}

Where $\beta_{0}$ is the intercept, $\beta_{j}$ is the autoregressive parameter, $\alpha_{l}$ is the moving average parameter, and $\eta$ is the covariate parameter. The estimation is done as follows. Consider the log-likelihood

\begin{align}
l(\theta) = \sum_{i=1}^{n}\log p_{i}(y_{i} | \theta) = \sum_{i=1}^{n}(y_{i}\log(\lambda_{i}(\theta)) - \lambda_{i}(\theta))
\end{align}

and the Score function is derived as follows

\begin{align}
S(\theta) = \frac{\partial l(\theta)}{\partial \theta} = \sum_{i=1}^{n}(\frac{y_{i}}{\lambda_{i}(\theta)} - 1)\frac{\partial \lambda_{i}(\theta)}{\partial \theta}
\end{align}

By iteratively calculating the score function using the mean-variance relationship assumed in the GLM, the information matrix is derived as follows. For Poisson Regression, it is assumed that the mean and variance are the same.

\begin{align}
I(\theta) = \sum_{i=1}^{n} Var(\frac{\partial l(\theta)}{\partial \theta}) = \sum_{i=1}^{n}(\frac{1}{\lambda_{i}(\theta)})(\frac{\partial \lambda_{i}(\theta)}{\partial \theta})(\frac{\partial \lambda_{i}(\theta)}{\partial \theta})'
\end{align}

To estimate the parameters maximizing the information matrix, we perform Non-Linear Optimization using the Quasi-Newton Method algorithm. While the MLE needs to assume the overall distribution shape, thus being powerful but difficult to use in some cases. But the Quasi-Newton method computes the quasi-likelihood by assuming only the mean-variance relationship of a specific distribution. Generally, it is known that Quasi-MLE derived using the Quasi-Newton method also satisfies the CUAN(Consistent abd Uniformly Asymptotically Normal), given a well-defined mean-variance relationship, similar to MLE. However, it is inefficient estimator compared to MLE, when MLE computation is possible.

One of the advantages of a Poisson Time Series model based on GLM in this study is that GLM does not assume the homoskedasticity of residuals, focusing only on the mean-variance relationship. This allows, to a certain extent, bypass the problem of heteroskedasticity in residuals that can occur when the sizes of measurement errors in varying observation periods.

Poisson Kalman Filter

The Kalman Filter is one of the state space model class, which combines state equations and observation equations to describe the movement of data. When observations are accurate, the weight of the observation equation increases, and on the other hand, when the observations are inaccurate, correcting values derived through the state equation. This feature allows for the estimation of data movements even when the data is inaccurate, like in the case of measurement error, or when data is missing.

Let us consider the Linear Kalman Filter, a representative Kalman Filter model. Assuming a covariate $U$, the state equation representing the movement of the data is given by

\begin{align}
x_{t} = \Phi x_{t-1} + \Upsilon u_{t} + w_{t}
\end{align}

Where $w_{t}$ is an independent and identically distributed error that follows Normal distribution, assuming $E(W) = 0$ and $Var(W) = Q$.

The Kalman Filter uses observation equation to update its predictions, where the equation is

\begin{align}
y_{t} = A_{t}X_{t} + \Gamma u_{t} + v_{t}
\end{align}

Where $v_{t}$ is an independent and identically distributed error that follows the same Normal distribution as $w_{t}$, assuming $E(V) = 0$ and $Var(V) = R$.

Let $x_{0} = \mu_{0}$ be the initial value and $P_{0} = \Sigma_{0}$ be the variance of $x$. Recursively iterate over the expression below

\begin{gather}
x_{t} = \Phi x_{t-1} + \Upsilon u_{t}\\
P_{t} = \Phi P_{t-1} \Phi ' + Q
\end{gather}

with

\begin{gather}
x := x_{t} + K_{t}(y_{t} - A_{t}x_{t} - \Gamma u_{t})\\
P := [I -K_{t}A_{t}]P_{t}
\end{gather}

where

\begin{align}
K_{t} = P_{t}A_{t}'[A_{t}P_{t}A_{t}' + R]^{-1}
\end{align}

The process of updating the data in (19) and (20) utilizes ideas from Bayesian methodology, where the state equation can be considered as a prior that we know in advance, and the observation equation as a likelihood. The Linear Kalman Filter is known to have the minimum MSE(Mean Squared Error) among linear models if the model specification well (process and measurement covariance are known), even if the residuals are not Gaussian.

The Poisson Kalman Filter is a type of extended Kalman Filter. The state equation can be designed in a variety of ways, but in this study, the state equation is set to be Gaussian, just like the Linear Kalman Filter. Instead, similar to the idea in GLM, we introduce a log-link in the observation equation, which can be expressed as

\begin{gather}
E(y_{i} | \theta_{i}) = Var(y_{i} | \theta_{i}) = \exp^{\theta_{i}} \\
\theta_{i} = \log(\lambda_{i})
\end{gather}

We define $K_{t}$, which is derived from (21), as the Kalman Gain. It determines the weight of the values derived from the Observation Equation in (19), which can be laid between 0 and 1. Noting the expression in (21), we can see that the process by which $K_{t}$ is derived has the same structure as how $\beta$ is shrunk in (7). Whereas in (7) the magnitude of $\sigma_{u}^{2}$ determined the degree of attenuation, in (21) the weight is determined by $R$, the covariance matrix of $v_{t}$ in the observation equation. Finally, even if there is a measurement error in the data, the weight of the state equation can be increased by the magnitude of the measurement error, indicating that the Kalman Filter inherently solves the measurement error problem.

Ensemble Methods

Ensemble Methods combine multiple heterogeneous models to build a large model that is better than the individual models. There are various ways to combine models, such as bagging, boosting, and stacking. In this study, we used the stacking method that combines models appropriately using weights.

Stacking is a method that applies a weighted average to the predictions derived from heterogeneous models to finally predict data. It can be understood as solving an optimization problem that minimizes an objective function under some constraints, and the objective function can be flexibly designed according to the purpose of the model and the Data Generating Process(DGP).

3. Data Description
3.1 Introduction

The raw data used in the study are the results of digital advertising run over a specific period in 2022. The independent variable is the marketing spend, and the dependent variable is the marketing conversion. Since the marketing conversion, such as 1, 2, etc. are count data with a low probability of occurrence, it can be inferred that modeling based on the Poisson model would be appropriate.

Figure 1: Daily Marketing Conversion
Figure 2: Daily Marketing Spend
3.2 Data Preprocessing and Assumptions

The raw data were filtered with only performance data generated from marketing channels using marketing spend out of overall marketing performance. Generally, marketing performance obtained using marketing spend is referred to as "Paid Performance", while performance gained without using marketing spend is classified as "Organic Performance". There may be a correlation between organic and paid performance depending on factors such as the size of the service, brand recognition, and some exogenous factors. Moreover, each marketing channel has different influences, and they can affect each other, suggesting the application of a hierarchical model or a multivariate model. However, in this study, a univariate model was applied.

To verify the impact of measurement error, observation values were created by multiplying the actual marketing spend (true value) by the size of the measurement error. The reason for setting it multiplicatively is that the size of the measurement error is proportional to the marketing spend. At this point, considering that the observation value is inaccurate the more recent the data, the measurement error was set to increase exponentially the more it gets closer to the most recent value. As mentioned in the introduction, considering that media executing ads usually update data up to a week, measurement errors were applied only to the most recent 7 data points. The detailed process of the observed value is as follows.

\begin{gather}
e_{i} = \max(0, 1 + \eta_{i})\\
\eta_{i} \sim N(0, a(1+r)^{-\min(0, n-(i+7))})\\
spend^{*}_{i} = e_{i} * spend_{i}
\end{gather}

Where $e_{i}$ is the parameter representing the measurement error at time $i$. Since the ad spend cannot be negative, we set the Supremum to zero. The error is randomly determined by two parameters, $a$ and $r$, where $a$ is the scaling parameter and $r$ is the size of the error. We also accounted for the fact that the measurement error decreases exponentially over time.

As mentioned earlier, this measurement error is multiplicative, which can cause the variance of the residuals to increase non-linear. The magnitude of the measurement error is set to $[0.5, 1]$, which is not out of the domain, and simulated by Monte Carlo method ($n = 1,000$).

4. Data Modeling

Based on the aforementioned data, we define the independent and dependent variables for modeling. The dependent variable $count_{i}$ is the marketing conversion at time $i$, and the independent variable is the marketing spend at time $[i-7, i]$. The dependent variable is assumed to follow the following conditional Poisson distribution.

\begin{align}
count_{i} | spend_{i} \sim pois(\lambda)
\end{align}

The lag variable before the 7-day reflects the lag effect of users who have been influenced by an ad in the past, which causes marketing conversion to occur after a certain amount of time rather than on the same day. The optimal time may vary depending on the type of marketing action and industry, but we used 7-day performance as a universal.

First, let us apply a Distributed Lag Poisson Regression with true values that do not reflect measurement error and do not reflect autocorrelation effects. The equation and results are as follows.

\begin{align}
\log(\lambda_{t}) = \beta_{0} + \sum_{i=1}^{8}\beta_{i}Spend_{(t-i+1)}
\end{align}

Table 1: Summary of Distributed Lag Poisson Regression

The results show that using the lag variable of 7 times is significant for model fit. To test the autocorrelation of the residuals, we derived ACF(Autocorrelation Function) and PACF(Partial Actucorrelation Function). In this case, we used Pearson residuals to consider the fit of the Poisson Regression Model.

Figure 3: ACF Plot of Distributed Lag Poisson Regression
Figure 4: PACF Plot of Distributed Lag Poisson Regression

By the graph, there is autocorrelation in the residuals, so we need to add some time series parameters to reflect the model. The model equation with an autoregressive, mean average parameter that follows a Poisson distribution is as follows.

\begin{align}
\log(\lambda_{t}) = \beta_{0} + \sum_{k=1}^{7}\beta_{k}\log(Y_{t-k} + 1) + \alpha_{7}\log(\lambda_{t-7}) + \sum_{i=1}^{8}\eta_{i}Spend_{(t-i+1)}
\end{align}

Where $\eta$ is the marketing spend used as an independent variable, $\beta$ is the intercept, and $\alpha$ is the unobserved conditional mean of the lagged variable of the dependent variable before 7 times, log-transformed into a log-linear model, which reflecting seasonality. The $\beta$ allows us to include effects that may affect the model other than the marketing spend used as a covariates, and the $\alpha$ is inserted to account for the effect of day of the week since the data is daily.

The results show that the lagged variables, $\alpha$ and $\beta$, are significant before 7 times. The quasi log-likelihood is also -874.725, which is a significant increase from before, and the AICc and BIC, which are indicators of model complexity, are also better for the Poisson Time Series.

Table 2: Summary of Poisson Time Series Model

As shown below, when deriving ACF and PACF with Pearson residuals, we can see that autocorrelation is largely eliminated. Therefore, the results so far show that Poisson Time Series is better than Distributed Lag Poisson Regression.

Figure 5: ACF Plot of Poisson Time Series
Figure 6: PACF Plot of Poisson Time Series

And, we will simulate and include measurement error in our independent variable, marketing spend, and see how it affects our proposed models.

5. Results

In this study, we evaluated the models on a number of criteria to understand the impact of measurement error and to determine which of the proposed models is superior. First, the "Prediction Accuracy" is an indicator of how well a model can actually predict future values, regardless of its fitting. The future values were set to 1 interval and measured by the Mean Absolute Error (MAE).

Since the characteristic of data follows time series structure, it is difficult to perform K-fold cross-validation or LOOCV(Leave One-Out Cross Validation) by arbitrarily dividing the data. Therefore, the MAE was derived by fitting the model with the initial $d$ data points, predicting 1 interval later, and then rolling the model to recursively repeat the same operation with one more data point. The MAE for the Poisson Time Series is as follows.

Table 3: Mean Absolute Error (# of simulations = 1,000)

We can see that as the magnitude of the measurement error increases, the prediction accuracy decreases. However, at low levels of measurement error, we actually see lower MAE on average compared to performance evaluation on real data. This implies that instead of inserting bias into the model, the measurement error reduced the variance, which is more beneficial from an MAE perspective. The expression for MSE as a function of bias and variance is as follows.

\begin{align}
MSE = Bias^{2} + Var
\end{align}

If $Var$ decreases more than $Bias^{2}$ increases, we can understand that the model has developed from overfitting. MAE is the same, just a different metric. Therefore, with a reasonable measurement error size, the attenuation of the regression coefficient on the independent variable due to the measurement error can be understood as a kind of regularization effect.

However, for measurement errors above a certain size, the MAE is higher on average than the actual data. Therefore, if the measurement error is large, it is necessary to continuously update with new data by comparing with the data that is usually updated continuously, or to reduce the size of the measurement error by using the idea of repeated measures ANOVA(Analysis of Variance).

In some cases, you may decide that it is better to force additional regularization from the MAE perspective. In this case, it would be natural to use something like Ridge Regression, since the measurement error has been acting to dampen the coefficient effect in the same way as Ridge Regression.

Depending on the size of the data points, the influence of measurement error will decrease as the number of data points increases. This is because the error of measurement is only present for the last 7 data points, regardless of the size of the data points, hence the error of measurement gradually decreases as a percentage of the total data. Therefore, we can see that the impact of error of measurement is not significant in modeling situations where we have more than a certain number of data points.

However, in the case of digital advertising, there may be issues such as terminating ads within a short period of time if marketing performance is poor. Therefore, if you need to perform a hypothesis test with short-term data, you need to adjust the significance level to account for the effect of measurement error.

The 2SLS(2 Stage Least Squares) model, inserted in the table, will be proposed later to check the efficiency of the coefficients. Note that the 2SLS has a high MAE due to initial uncertainty, but as the data size increases, the MAE decreases rapidly compared to the original model.

Next, we need to determine the nature of the residuals in order to make more accurate and robust predictions. Therefore, we performed autocorrelation and heteroskedasticity tests on the residuals.

The following results is the autocorrelation test on the Pearson residuals. In this study, the Breusch-Godfrey test used in the regression model was performed on lag 7. In general, the Ljung-Box test is utilized, but the Ljung-Box test is the Wald test class, which has a high power under the strong exogeneity(Mean Independent) assumption between the residuals and independent variables\cite{Hayashi}. Therefore, the strong exogeneity assumption about Wald test are not appropriate for this study, which requires a test for measurement error and the case of few data points. On the other hand, the Breusch-Godfrey test has the advantage of being more robust than the Ljung-Box test, because it assumes more relaxed exogeneity(Same Row Uncorrelated) assumption under the Score test class.

Table 4: p-value of Breusch-Godfrey Test for lag 7 (# of simulations = 1,000)

The test shows that the measurement error does not significantly affect the autocorrelation of the residuals.

Next, here are the results for the heteroskedasticity test. Although GLM-type models do not specifically assume homoskedasticity of the residuals, we still need to investigate the mean-variance relationship assumed in the modeling. To check this indirectly, we scaled the residuals as Pearson, and then performed a Breusch-Pagan test for heteroskedasticity.

Table 5: p-value of Breusch-Pagan Test (# of simulations = 1,000)

We can see that the measurement error does not significantly affect the assumed mean-variance relationship of the model. Consider the process of estimating the parameters in a GLM. The Information Matrix in (14) is weighted by the mean, whereas in Poisson Regression, the mean is same as variance, so it is weighted by the mean. Since it utilizes a weight matrix with a similar idea to GLS(Generalized Least Squares), it has the inherent effect of suppressing heterogeneity to a certain extent by giving lower weights to uncertain data.

On the other hand, we can see that the Breusch-Pagan test has a low p-value on some data points. If the significant level is higher than 0.05, the null hypothesis can be rejected. This is because there is a regime shift in the independent variable before and after $n = 47$, as shown in Fig. 1.

To test this, we performed a Quasi Likelihood Ratio Test(df = 9) between the saturated model, that considered the pattern change before and after the regime shift and the reduced model that did not consider it. The results are shown below.

Table 6: Quasi-LRT for Structural Break (Changepoint = 47)

Since the test statistic exceeds the rejection bound and is significant at the significance level 0.05. It can be concluded that the interruption of ad delivery after the changepoint, or the lower marketing spend compared to before, may have affected the assumed mean-variance relationship. We do not consider this in our study, but it would be possible to account for regime shifts retrospectively or use a Negative Binomial based regression model to account for this.

Next, we test for efficiency of statistics. Although this study does not focus on the endogeneity of the coefficients, we use a 2SLS model as the specification for the efficiency test. The proposed instrumental variable is ad impressions. The instrumental variable should have two characteristics: first, it should be "Relevant", which means that the correlation between the instrumental variable and the original variable is high. The variance of the regression coefficient estimated with the instrumental variable is higher than the variance of the model estimated with the original variable, and the higher the correlation, the more favorable it is to reduce the difference with the variance of the original variable(Highly Relevant). Since the ad publisher's billing policy is "Cost per Impression", the correlation between ad spend and impressions is significantly high.

On the other hand, "Validity" is most important for instrumental variables, which should be uncorrelated with the errors to eliminate endogeneity. In the digital advertising market, when a user is exposed to a display ad, the price of the ad is determined by two things: the number of "Impressions" and the "Strength of Competition" between real-time ad auction bidders. Since the effect of impressions has been removed from the residuals, it is unlikely that the remaining factor, the strength of competition among auction bidders, is correlated with the user being forced to see the ad. Furthermore, the orthogonality test below shows the difficulty in rejecting the null hypothesis of uncorrelated.

Table 7: p-value of Test for Orthogonality

Therefore, we can see that it makes sense to use "Impressions" as an instrumental variable instead of marketing spend. Here are the proposed 2SLS equations.

\begin{gather}
\hat{Spend}_{t} = \gamma_{0} + \gamma_{1}Imp_{t}\\
\log(\lambda_{t}) = \beta_{0} + \sum_{k=1}^{7}\beta_{k}\log(Y_{t-k} + 1) + \alpha_{7}\log(\lambda_{t-7}) + \sum_{i=1}^{8}\eta_{i}\hat{Spend}_{t-i+1}
\end{gather}

It is known that if there is measurement error in the instrumental variable, the number of impressions, but the random measurement error in the instrumental variable does not affect the validity of the model.

We performed the Levene test and Durbin-Wu-Hausman test to see the equality of residual variances. Below is the result of the Levene test.

Table 8: p-value of Levene Test (m = 0) (# of simulations = 1,000)

We can see that the measurement error does not significantly affect the variance of the residuals. Furthermore, 2SLS also shows that there is no significant difference in the variance of the residuals at the significance level 0.05. This means that the instrumental variable is highly correlated to the original variables.

The Durbin-Wu-Hausman test checks whether there is a difference in the estimated coefficients between the proposed model and the original model. If the null hypothesis is rejected, the measurement error has a significant effect and the variance of the residuals will be affected. The results of the test between the original model and the model with measurement error are shown in the table below. We can see that the presence of measurement error does not affect the efficiency of the model, except in a few cases.

Table 9: p-value of Durbin-Wu-Hausman Test (m = 0) (# of simulations = 1,000)

In addition, we check whether there is a difference in the coefficients between the proposed 2SLS and the original model. If the null hypothesis is rejected, it can be understood that there is an effect of omitted variables other than measurement error, which can affect the variance of the residuals. The results of the test are shown below.

Table 10: p-value of Durbin-Wu-Hausman Test (2SLS)

When the data size is small, the model is not well specified and the 2SLS is more robust than the original model, but above a certain data size, there is no significant difference between the two models. In conclusion, the results of the above tests show that the proposed Poisson Time Series does not show significant effects of measurement error and unobserved variables. This is because, as mentioned earlier, the weight matrix-based parameter estimation method of AR, MA parameters, and GLM class model inherently suppresses some of these effects.

In addition to the GLM based Poisson Time Series, we also proposed a State Space Model based Poisson Kalman Filter. In the Poisson Kalman Filter, the inaccuracy of the observation equation due to measurement error is inherently corrected by the state equation, which has the advantage of being robust to measurement error problem.

The table below shows the benchmark results between Poisson Time Series and Poisson Kalman Filter. You can see that the log-likelihood is always higher for the Poisson Time Series, but lower for the Poisson Kalman Filter in the MAE. This can be understood as the Poisson Time Series is more complex and overfitted, compared to the Poisson Kalman Filter.

However, after $n = 40$, the Poisson Time Series shows a rapid improvement in prediction accuracy. On the other hand, the Poisson Kalman Filter shows no significant improvement in prediction accuracy after a certain data point. This suggests that the model specification of the Poisson Time Series is appropriate beyond a certain data point.

We also compared the computational speed of the two models. We used "furrr" library in the R 4.3.1 environment, and ran 1,000 times each to derive the simulated value. In terms of computation time, the Poisson Time Series is about 1 second slower on average, but we do not believe this has a significant business impact unless you are in a situation where huge simulation is required.

Table 11: Benchmark

The following table below shows the test results for the residuals between the Poisson Time Series and the Poisson Kalman Filter. We can see the heterogeneity between the two models. In the case of the Poisson Kalman Filter, we can see that the evidence of initial autocorrelation and homoscedasticity is high, but the p-value decreases above a certain data size. This means that the Poisson Kalman Filter is not properly specified, when the data size increases.

Table 12: p-value of Robustness Test

Finally, the PIT(Probability Integral Transform) allows us to empirically verify that the model is properly modeled by the mean-variance relationship. If the modeling was done properly, the histogram after the PIT should be close to a Uniform distribution. The farther it is from the Uniform distribution, the less it reflects the DGP of the original data. In the graph below, we can see that the Poisson Time Series shows values that do not deviate much from Uniform distribution, but the Poisson Kalman Filter results in values that are far from the distribution.

Figure 7: PIT of Poisson Time Series
Figure 8: PIT of Poisson Kalman Filter
6. Ensemble Methods

So far, we have covered Poisson Time Series and the Poisson Kalman Filter. When the data size is small, the Poisson Kalman Filter is reasonable, but above a certain data size, the Poisson Time Series is reasonable. To reflect the heterogeneity of these two models, we want to derive the final model through model averaging. The optimization objective function is shown below.

\begin{gather}
p_{t+1} = argmin_{p}\sum_{i=1}^{t}w_{i}|y_{i} - (p \hat{y}_{i}^{(GLM)} + (1 - p) \hat{y}_{i}^{(KF)})|\\
s.t. \hspace{0.1cm} 0 \leq p \leq 1, \hspace{1cm} \forall w > 0
\end{gather}

The objective function is set in terms of minimizing the MAE, and different data points are weighted differently via the $w_{i}$ parameter. $w_{i}$ is the reciprocal of the variance at that point in time out of the total variance in precision, to reflect the fact that the more recent the data, the better the estimation and therefore the lower the variance. And the better the model, the lower the variance. The final weighted model prediction process is shown below.

\begin{align}
\hat{y}_{t+1} = p_{t+1}\hat{y}_{t+1}^{(GLM)} + (1 - p_{t+1})\hat{y}_{t+1}^{(KF)}
\end{align}

Below graph is the weights of the Poisson Time Series per data point derived from Stacking Methods. You can see that the weights are close to zero until $n = 42$, after which they increase significantly. In the middle, where the data becomes more volatile, such as the regime shift(blue vertical line), the weights are partially decreased.

Figure 9: Weight of Poisson Time Series

The table below shows the results of the comparison between the final stacking model and the Poisson time series and Poisson Kalman Filter. First, we can see that the stacking model is superior in all times in the MAE, as it absorbs the advantages of both models, reflecting the Poisson Kalman Filter's advantage when the data size is small, and the Poisson Time Series' advantage above a certain data size. We can also see that the robustness test shows that the p-value of stacking model is laid between the p-values derived from both models.

Table 13: Benchmark
Table 14: p-value of Robustness Test
7. Conclusion

We have shown the impact of measurement error on count data in the digital advertising domain. Even if the main purpose is not to build an analytical model but simply to build a model that makes better predictions, it is also important to check the measurement error in predictive modeling since the model may be underfitted by the measurement error, and the residuals may be heteroskedastic depending on the characteristic of the measurement error.

To this end, we introduced GLM based Poisson Time Series, and Poisson Kalman Filter, a class of Extended Kalman Filter, which can partially solve the measurement error problem. After applying these models to simulated data based on real data, the results of prediction accuracy and statistical tests were obtained.

In terms of prediction accuracy, we found that the magnitude of the coefficients is attenuated due to measurement error, causing a kind of regularization effect. For the data used in this study, we found that the smaller the measurement error, the better the prediction accuracy, while the larger the measurement error, the worse the prediction accuracy compared to the original data. We also found that the impact of the measurement error was relatively high when the data size was small, but as the data size increased, the impact of the measurement error became smaller. This is due to the nature of digital advertising data, where only recent data is subject to measurement error.

The test of residuals shows that there is no significant difference with and without measurement error. Therefore, the proposed models can partially avoid the problem of measurement error, which is advantageous in digital advertising data.

We also note that the two models are heterogeneous in terms of data size. When the data size is small and the impact of measurement error is relatively large, we found that the Poisson Kalman Filter, which additionally utilizes the state equation, is superior to the overspecified Poisson Time Series. On the other hand, as the data size increases, we found that the Poisson Time Series is gradually superior in terms of model specification accuracy. Finally, based on the heterogeneity of the two models, we proposed an ensemble class of stacking models that can combine their advantages. In the tests of prediction accuracy and residuals, the advantages of the two models were combined, and the final model showed better results than the single model.

On the other hand, while we assumed that the data follows a conditional Poisson distribution, some data points may be overdispersed due to volatility. This is evidenced by the presence of structural breaks in the retrospective analysis. If the data has overdispersion compared to the model, it may be more beneficial to assume a Negative Binomial distribution. Also, since the proposed data is a daily time series data, further research on increasing the frequency to hourly data could be considered. Finally, although we assumed a univariate model in this study, in the case of real-world digital advertising data, a user may be influenced by multiple advertising media simultaneously, so there may be correlation between media. Therefore, it would be good to consider a multivariate regression model such as SUR(Seemingly Unrelated Regression), which considers correlation between residuals, or GLMM(Generalized Linear Mixed Model), which considers the hierarchical structure of the data, in subsequent studies.

References

[1] Agresti, A. (2012). Categorical Data Analysis 3rd ed. Wiley.

[2] Biewen, E., Nolte, S. and Rosemann, M. (2008). Multiplicative Measurement Error and the Simulation Extrapolation Method. IAW Discussion Papers 39.

[3] Boyd, S. and Vandenberghe, L. (2004). Convex Optimization. Cambridge University Press.

[4] Czado, C., Gneiting, T. and Held, L. (2009). Predictive Model Assessment for Count Data. Biometrics 65, 1254-1261.

[5] Greene, W. H. (2020). Econometric Analysis 8th ed. Pearson.

[6] Greenshtein, E. and Ritov, Y. (2004). Persistence in high-dimensional linear predictor selection
and the virtue of overparametrization. Bernoulli 10(6), 971-988.

[7] Hayashi, F. (2000). Econometrics. Princeton University Press.

[8] Helske, J. (2016). Exponential Family State Space Models in R. arXiv preprint
arXiv:1612.01907v2.

[9] Hyndman, R. J., and Athanasopoulos, G. (2021). Forecasting: principles and practice 3rd ed.
OTexts. OTexts.com/fpp3.

[10] KOBACO. (2022). Broadcast Advertising Survey Report, 165-168.

[11] Liboschik, T., Fokianos, K. and Fried, R. (2017). An R Package for Analysis of Count Time Series
Following Generalized Linear Models. Journal of Statistical Software 82(5), 1-51.

[12] Liu, J. S. (2001). Monte Carlo Strategies in Scientific Computing. Springer.

[13] Montgomery, D. C., Peck, E. A. and. Vining, G. G. (2021). Introduction to Linear Regression
Analysis 6th ed. Wiley.

[14] Shmueli, G. (2010). To Explain or to Predict?. Statistical Science 25(3), 289-310.

[15] Shumway, R. H. and Stoffer, D. S. (2016). Time Series Analysis and Its Applications with R
Examples 4th ed. Springer.

Price Premium Discovery In Real Estate Auction Market: Decomposition Of The Korea Auction Sale Rate

Price Premium Discovery In Real Estate Auction Market: Decomposition Of The Korea Auction Sale Rate

Bohyun Yoo*

* Swiss Institute of Artificial Intelligence, Chaltenbodenstrasse 26, 8834 Schindellegi, Schwyz, Switzerland

Abstract

This study discovers and analyzes price premium (discount/surcharge) factors in the real estate auction market. Unlike existing bottom-up studies based on individual auction cases, a top-down time-series analysis is conducted, assuming that the price premium factor varies over time. To overcome limitations such as the difference between the court appraisal time* and the auctioned time, and the difficulty of using external data on court appraisals and price premium factors, the Fourier transform is utilized to extract the court appraisals and price premium factors in reverse. The extracted components are verified to determine if they can play a role as each factor. The price premium factor is found to have a similar movement to the difference in past values of the auction sale rate, and, as it signifies the discounts/surcharges in the auction market compared to the general market, it is named the “momentum factor”. Furthermore, by leveraging the momentum factor, the price premium can be differentiated by region, and the extent of the price premium applied can be distinguished over various time periods compared to the general market. Given the clustering tendency, the momentum factor can be a significant indicator for auction market participants to detect market changes.

1. Introduction

The housing auction market in Korea is one of the real estate markets, and many stakeholders such as mortgage banks, arbitrage investors, and non-performing loan operators are deeply involved. In general, there is a perception that the auction market is surcharged or discounted compared to the general market. If the auction market is an efficient and fair-trading market, it will not be different from the general market price, but most housing auction cases are implemented by default, so it is known that have legal issues and that applies as a discount factor. However, the bottom-up analysis based on individual auction cases, which is a method mainly used in previous studies on discounts and surcharges, is limited in time and space, and the time-varying effect cannot be considered, and the results of the analysis are limited and dependent on the data held by the researcher.

To overcome these limitations, it should be carried out the analysis from the market perspective, but the time series data Auction Sale Rate is unreliable as an indicator because the court appraiser price, which is the standard, is performed at the past rather than at the time of the auctioned price. It is difficult to specify the time of court appraisal as a variable in the model because it varies from case to case of individual auction how much it is in the past at the time of successful bid, and even if the time is known, the court appraisal price cannot be accurately estimated. Individual cases can be investigated in a bottom-up manner to return the point of view based on the general market price, but it is a very vast task and likewise a study limited to time and space.

The target of this paper is the apartment auction market, and to overcome the limitations of the auction sale rate, the auction sale rate is decomposed into three components in a top-down manner using Fourier transform. The proof of the decomposed each component is performed. And the price premium effect at the auction market is presumed and the reason is analyzed and the section discrimination in which the price premium effect acts is attempted. In addition, the time-varying beta through the Kalman filter is used to support the price premium effect, and the analysis of how the price premium effect differs in each region's market is also performed.

2. Literature review

Shilling et al (1990) analyzed the apartment auction in 1985 in the baton lounge, Louisiana, USA, and found an auction discount rate of -24%, Forgey et al (1994) analyzed houses from 1991 to 1993 in the United States and found that they were traded at a -23% discount. Spring (1996) analyzed foreclosures in Texas from 1991 to 1993 and found a 4-6% discount, Clauretie and daneshvary (2009) analyzed the housing auctions from 2004 to 2007 and found that about 7.5% of foreclosures were discounted because of endogenous and autocorrelation.

Campbell et al (2011) analyzed about 1.8 million housing transactions in Massachusetts and found that the discount rates for foreclosures and deaths were different. Zhou et al (2015) found that on average, 16 cities in the United States were discounted by 14.7%, Arslan, Guler & Tasking (2015) analyzed that a 1% increase in risk-free interest rates led to a 27% drop in house prices and a 3% increase in foreclosure rates.Jin (2010) compared and analyzed the general sale price and the auction price of apartments in Dobong-gu, Seoul and Suji-gu, Yongin-si, Korea, and found that the auction price is more discounted than the general transaction price. Lee (2012) noted that the real estate market is not efficient and is one of the anomalies of the discount / surcharge phenomenon in the apartment auction market.

Lee (2009) and Oh (2021) pointed out the limitations that occurred when the court appraisal price and the auctioned price were different and estimated the auction sale rate by correcting the court appraisal price to the auctioned time.

However, previous studies mainly focus on the analysis of variables in the bottom-up method along with the limitation of space and time based on individual auction cases. In addition, it is difficult to see the analysis in the same environment as Korea because the cases other than Korea adopt the open bidding system.

3. Materials and method
3.1. Decomposition of auction sale rate

Configuration of the auction sale rate defined as

\begin{equation} \label{eq:auction-sale-rate}
Auction\ Sale\ Rate\ _t=\frac{\sum_{i}\ Auctioned\ Price_{it}}{\sum_{i}\ Appraisal\ Price_{it-n}}\
\end{equation}

\begin{equation} \label{eq:auction-price}
Auctioned\ Price_t=\ Market\ Price_t\pm\ Price\ Premium_t\ (=discount\ or\ surcharge)
\end{equation}

\begin{equation} \label{eq:auction-sale-rate-price}
Auction\ Sale\ Rate\ _t=\frac{\sum_{i}\ (Market\ Price_t\ \pm\ Premium\ _t)}{\sum_{i}\ Appraisal\ Price_{t-n}}
\end{equation}

\begin{equation} \label{eq:market-price}
\text{If}\ Price\ Premium_t=0\ ,\ \ Market\ Price_t=Auctioned\ Price_t
\end{equation}

Where i is each auction case, t is each per month. If the auctioned price is discounted and surcharged compared to the general market price, the component can be separated as shown in (2), and if there is no discount and surcharge, it can be expressed as shown in (4). In order to estimate the price premium effect, which is the discount or surcharge, it can be defined in the Regression form as shown in (5), and it is assumed that the explanatory power of each component is as shown in (6).

In the Regression form in terms of effects,

\begin{equation} \label{eq:auction-sale-rate-in-regression}
Auction\ Sale\ Rate\ _t={\beta_0}_t{+\beta}_1EoM+\beta_2EoA_t+\ \beta_3EoP_t+\epsilon_t
\end{equation}

\begin{equation} \label{eq:explanatory-power}
\text{Explanatory Power of Each Components :} \\
EoM (Effect of Market Price) > EoA (Effect of Appraisal Price) > EoP (Effect of Price Premium)
\end{equation}

3.2. The data

The empirical analysis in this paper is based on Auction Sale Rate and Market Price Index in nationwide 2012.03 ~ 2022.10 in month. The auction sale rate is calculated by collecting the sum of court appraiser prices and auctioned prices nationwide announced by the court from 2012.03 to 2022.10. The Market price index is an index of general market apartment prices nationwide and is provided by the Korea Real Estate Board. Log-Differencing is taken in the Market price index to match the forms of both data equally then Standardization, which translates to mean 0 and variance 1, take both data to match the same scale.

Table 1. Data Description BoHyunYoon
Figure 1. Auction Sale Rate and Market Price Index
Figure 2. Comparison of Standardized Auction Sale Rate and Market Price Index (Log-differencing)

skewness and kurtosis reported in Table 1 shows AuctionSaleRate and MarketPriceIndex has different peaks and tails compared to normal distribution. and the Lev results in Table 1 show that it is different from the leverage effect (Black 1976.) of the stock market. The auction market and the general sales market has a positive sign relationship with the future volatility. This means that volatility in the real estate market has a positive correlation with price.

3.3. Identification of variables
3.3.1. The effect of market price

Auction sale rate can be decomposed into three components in the regression form as shown in (5), and log-differencing market price index is used as the first variable, EoM's proxy variable. As shown in Table 2, EoM has the strongest explanatory power in auction sale rate.

3.3.2. Component identification

\begin{equation} \label{eq:component-identification}
y_t=\beta_0+\beta_1Mkt_t+\epsilon_t
\end{equation}

Where y_t is Auction sale rate at time t, $\beta_0$ is intercept $\beta_1$ is parameter of $Mkt$ and $Mkt$ is Log differencing Market Price Index. as define in (5), the remaining EoA and EoP components are in the residual as latent. To identify EoA, EoP components, a Fourier transform is used in $\epsilon_t$ (7), and then two highest amplitude signals can be extracted, assuming that they are court appraisers and price premium effects as defined in (6).

3.3.2.1. Fourier transform

Fourier transform is a mathematical transformation that decomposes a function into a frequency component, representing the output of the transformation as a frequency domain. In this paper, it is used to extract the orthogonal cycle of EoA and EoP as defined in (5). In terms of linear transformation, the orthogonal factor present in the signal can be extracted as a Forward and Inverse Discreate Fourier matrix, as shown in (9).

\begin{equation} \label{eq:fft}
X=F_{N}x \ \text{and} \ x=\frac{1}{N}F_N^{-1}X\ \text{<Forward and Inverse>}
\end{equation}

\begin{equation} \label{eq:fft-in-matrix}
{\underbrace{\left[\begin{matrix}
X\left[0\right] \\
X\left[1\right] \\
\vdots \\
X\left[N-1\right] \\
\end{matrix}\right]}}_{Signal} \
= \
{\underbrace{\left[\begin{matrix}
W_N^{0\cdot0} & W_N^{0\cdot1} & \cdots & W_N^{0\cdot(N-1)} \\
W_N^{0\cdot1} & W_N^{0\cdot1} & \cdots & W_N^{1\cdot(N-1)} \\
\vdots & \vdots & \ddots & \vdots \\
W_N^{0\cdot1} & W_N^{0\cdot1} & \cdots & W_N^{(N-1)\cdot(N-1)} \\
\end{matrix}\right]}}_\text{$F_N$(Discrete Fourier Matrix)} \\
{\underbrace{\left[\begin{matrix}
x\left[0\right] \\
x\left[1\right] \\
\vdots \\
x\left[N-1\right] \\
\end{matrix}\right]}}_\text{Residual($\epsilon_t)$} \\
\text{, where } W^{n\cdot k}=\exp{\left(-j\frac{2\pi k}{N}n\right)}
\end{equation}

\begin{equation} \label{eq:signal-k}
X\left[k\right]=x\left[0\right]W^0+x\left[1\right]W^{N\times1}+\ldots+\ x\left[n-1\right]W^{i\times\left(n-1\right)} , \text{where} \ k=signal_k
\end{equation}

where $x$ is vector of $\epsilon$ in (7) $x=\left(x_0,x_1\ldots x_N\right)^T$ $N$ is length of vector and $X$ is signal $X=\left(X_0,X_1\ldots X_N\right)^T$ and $F_N$ is Discrete Fourier Matrix. As shown (9), (10) time series data which cyclic can be decomposed to orthogonal signal by Discrete Fourier Transform as linear transformation. However, in practice, DFT calculation $O(N^2)$ are replaced by Fast Fourier Transform (Cooley-Tukey algorithm, 1965) which is that performs fast calculations by dividing the DFT into odd and even two terms. $O\left({Nlog}_\ N\right)$ (11). Figure 3 shows that two high amplitude signals were extracted by performing FFT on Residual in (7).

\begin{equation} \label{eq:n-log-n}
\begin{split}
X\left[ k \right] & = \sum_{n=0}^{N-1} x_n \ exp \left( -j \frac{2 \pi k}{N} n \right) \\
& = \sum_{m=0}^{N/2-1}x_{2m}\exp{\left(-j\frac{2\pi k}{N}2m\right)}+\ \sum_{m=0}^{N/2-1}x_{2m+1}\exp{\left(-j\frac{2\pi k}{N}2m+1\right)} \\
& = \sum_{m=0}^{N/2-1}x_{2m}\exp{\left(-j\frac{2\pi k}{N\ /\ 2}\ m\ \right)}+\exp{\left(-j\frac{2\pi k}{N}\ \right)}\sum_{m=0}^{N/2-1}x_{2m+1}\exp{\left(-j\frac{2\pi k}{N/2}m\right)}
\end{split}
\end{equation}

where $x_{2m}=(x_0,x_1\ldots\ x_{n-2})$ is even-indexed part, $x_{2m+1}=(x_1,x_3,\ldots,x_{n-1})$ is odd-indexed part.

Figure 3-1. Transformed to Frequency Domain and Filtered by Amplitude
Figure 3-2. Transform Residual in (7) to FFT and extract signals
3.3.2.2. Regression analysis
Table 2. Result

\begin{equation} \label{eq:stage-2}
Y_t=\beta_0+\beta_1Mkt_t+\beta_2SI{G1}_t+\mu_t
\end{equation}

\begin{equation} \label{eq:stage-3}
Y_t=\beta_0+\beta_1Mkt_t+\beta_2SI{G1}_t+\beta_3\widehat{SIG2_t}+\omega_t
\end{equation}

\begin{equation} \label{eq:signal-2}
\widehat{Sig2_t}=\sigma\left(Sig2_t\right) , \ \sigma=\frac{1}{1+e^{-\left(x\right)}} , \ >\ 0.5\ =\ 1\ \ ,\ <0.5=\ 0
\end{equation}

where $SIG1$ is highest amplitude signal in residual in $\epsilon_t$ (7) and $SIG2$ is highest apmplitude signal residual in $\mu_t$ (12)

Table 2 shows the results of using the extracted signals as a variable of regression by performing FFT in 4.3.2.1. $SIG2$ is a component of EoP, and to distinguish price premium effects clearly, it is transformed into categorical data(0/1) through Sigmoid function as shown in (14). The Difference result in Table 2 show that the parameter has hardly changed, demonstrating that the two signals found are almost orthogonal components, and do not make omitted variable bias(Wooldridge, 2009). and the adj. R-squared supports the order of explanatory power assumed in (5). Lastly, the residual ACF/PACF plot in Figure 4 indicates that no further patterns exist in the residuals following the exclusion of the three components. (13) This supports the assumption outlined in 3.1 (5) that the auction sale rate is composed of three main components.

Figure 4. ACF/PACF Plot of Residual $\omega_t$ (13)
3.3.3. Proof of the effect of appraisal price

Based on Table 2 and according to the assumption of (5), $SIG1$ is EoA (Effect of Appraisal Price in Auction Sale Rate). The court appraisal time is in the past rather than the Auctioned time (1). The difference between the two points makes it difficult to define the court appraiser effect variable in terms of time series analysis. Since correcting the price difference that occurred in time for all auction cases is a very difficult challenge, the Fourier transform (4.3.2.1) is used. In this paper. Proving that $SIG1$ is EoA, 2,762 individual auction cases occurred between 2016.04 and 2018.03 in Seoul and Busan are empirically analyzed (Table 3, Table 4.)

Figure 5. The difference of time between Court Appraisal time and Auctioned time

The analysis is conducted in two main aspects:

  1. Time interval between the time of court appraisal and the time of Auctioned (Table 4)
  2. Regression with the general market price at the time of court appraisal price (Table 4)
    \begin{equation} \label{eq:cp}
    CP_t=\ \alpha_0dummy_t+\alpha_1MP_t+\gamma_t
    \end{equation}

where $CP_t$ is price at time of court appraisal (Figure 5), MP is housing price, $\alpha_0$ is dummy variable $\alpha_1$is parameter of housing price.

Table 3 Data Description
Table 4 Result of analysis
Figure 6. Residual Distribution in (15) & The difference between Court Appraisal and Auctioned time (days)

As shown in Table 4, the time difference distribution has a right skewed shape and the range of 25% to 75% is about 7 to 11 months. Price difference has a long-tailed distribution, and it can be estimated that the court appraisal price and the housing price at the time of the court appraisal have a very high correlation and are almost the same value. To summarize the results of the two analyses, the court appraisal price is the lag variable of the housing price. In terms of the component (5) EoA can be assumed to have a lag relationship with $Mkt$ and the results are shown in Table 5.

Table 5. Regression of analysis ($SIG1$ vs $Mkt$)

Table 5 [1] shows the relationship between the lag variable of $SIG1$ and $Mkt$. $SIG1$ extracted by Fourier transform is compared with lag variable and $Mkt$ of $SIG1$ because it is a signal indicating the past influence of the present time rather than the past price itself. In addition, the order of the Lag of the comparison target is set from 7 months to 11 months, which ranges from 25% to 75% of Table 4 As a result of the analysis, it was confirmed that the lag variable of $SIG1$ has a significant relationship with $Mkt$.

Table 5 [2] is a confirmation of whether $Mkt$'s lag variable can replace the court appraiser if the court appraisal price has a time lag relationship with the $Mkt$ according to the results of Table 4 As a result of the analysis, there is a significant relationship.

Table 5 [3] confirms the relationship between $SIG1$ and Auction sale rate. If the court appraiser can be replaced by $Mkt$'s lag variable only, as in Table 5, the $SIG1$ variable is not meaningful, but the results of the analysis show that Table 5 [3] is superior to Table [2]. The reason for this is that, as in Figure 6, there is no special depreciation factor in each auction case, which can be explained by $Mkt$'s lag, but there is an unidentified area that has a large gap with $Mkt$, such as legal issues, equity auctions, or the time difference does not fall between 25% and 75%.

Figure 7 Lag of $Mkt$ can be only represented to part of identified

To sum up with Result of Table 5, in Table 4 $Mkt$ and $SIG1$ have lag relations with $Mkt$ and are superior to the lag variables of $Mkt$ according to the limits of Figure 7. therefore, $SIG1$ can be presumed in terms of EoA, as assumed in (5).

3.3.4. Proof of the effect of premium price

Based on result of Table 2 and according to the assumption of (5), $SIG2$ is EoP (Effect of Price Premium in Auction Sale Rate). For the analysis, $SIG2$ is transformed to categorical value through sigmoid function to assume Price premium on/off as in 4.3.2.2. In this paper, two aspects support that $SIG2$ is an EoP.

  1. Verify that $\widehat{SIG2}$ can distinguish between discount and surcharge points. (Figure 8)
  2. Track what variables $SIG2$ is, name it, and verify it makes sense.
3.3.4.1. Distinguish to price premium pffect in auction sale rate

The $\widehat{SIG2}$ parameter of Table 2 [3] is about 0.49 with a positive sign Figure 8 is based on the baseline predicted by Table 2 [2], and the auction sale rate points are clearly distinguished up and down by $\widehat{SIG2}$ 1/0 of Table [3]. The righthand side of Figure 8 shows a distribution of different means and variances. Therefore, $SIG2$ can be presumed in terms of EoP, as assumed in (5).

Figure 8. Surcharge and discount points that can be distinguished by $\widehat{SIG2}$
3.3.4.2. Momentum factor

In 4.3.4.1, it is confirmed that $SIG2$ is a component that can explain the price premium effect, but it is meaningless if it cannot be explained by any variable in practice. In this paper, $SIG2$ confirms which variables can be compared, verifies whether it makes sense, and finally names it. First, $SIG2$ is likely to be a variable of the auction market itself because it is likely that EoM and EoP already has the effects of macro in almost. In fact, no significant correlation was found between comparable macroeconomic variables. According to the Lev result of Table 1, the future volatility of the auction market has a positive correlation with the auction sale rate, The EoP component also has a positive correlation according to table 2 [3]. So, the variable that can be compared as a component of the auction market itself is volatility (16)(17). The results of the verification of this hypothesis is shown in Table 6.

\begin{equation} \label{eq:signal-2-2}
SIG2_t=\ c_0+c_1{v1}_t+c_2{v2}_t+\eta_t, \ {v1}_t = \left(y_t-y_{t-1}\right)_t , \ {v2}_t=\ \left(y_{t-1}-y_{t-2}\right)_t
\end{equation}

\begin{equation} \label{eq:signal-2-3}
SIG2_t=\ c_0+c_1\left(y_t-y_{t-1}\right)t+c_2\left(y{t-1}-y_{t-2}\right)_t+\eta_t
\end{equation}

where c_0 is intercept, y is auction sale rate, v is volatility as differencing of auction sale rate.

Table 6. Regression result
Figure 9. Compare to between $SIG2$ vs $\widehat{C_t^T} V_{t}$ (16)
Figure 10. Surcharge and discount points that can be distinguished by $\sigma(\widehat{C^T} V_t)$

In Table 6, the volatility variable is significantly related to $SIG2$, and in Table 6, the value described by
the volatility variable (16)(17) and $SIG2$ show similar movements. Figure 10 shows that the volatility variable can distinguish between the surcharge and discount points well and has different distribution like Figure 8.

In summary, the volatility variable of Auction sale rate can be explained as the main factor that creates the Price premium effect, and in particular, the reason why volatility causes the price premium effect can be interpreted as the reason that the volatility of the auction market has a positive correlation with the Auction sale rate. As a result, the volatility component can be named the momentum of the auction market.

3.3.5. Time varying beta to capture price premium section

In 4.3.4, it was confirmed that $SIG2$ extracted through Fourier transform is a price premium effect and verified that it is a momentum factor. However, the analysis period of this paper is about 10 years, and it would be more reasonable to assume time-varying than parameter between the market and the Price Premium variable has a fixed constant. It means that the $\beta s$ (18) is not stable over time. Sensitivity of beta can be used to capture the section where momentum works in the market, beyond simply distinguishing the effect of price premium. In this paper, a Kalman filter is used to estimate the time-varying beta and Kalman filter is used to estimate the time-varying parameter.

\begin{equation} \label{eq:betas-not-stable}
{y_t=\beta_0}_\ {+\beta}_1Mkt_t+\beta_2SIG1_t+\ \beta_3\ {\widehat{SIG2}}_t+\epsilon_t , \epsilon_t~N(0,\sigma^2)
\end{equation}

3.3.5.1. Kalman filter

The Kalman filter is a model for describing dynamics based on measurements and recursive procedure for computing the estimator of the unobserved component or the state vector at time t.

\begin{equation} \label{eq:state-model}
\xi_t=F_t\xi_{t-1}+q_t , q_t~N(0,Q_\ ) \ \text{<State Model>}
\end{equation}

\begin{equation} \label{eq:observation-model}
y_t=H_t\xi_t+r_t , r_t~N(0,R_\ ) \ \text{<Observation Model>}
\end{equation}

Table 7. Description

<Predict Step>

Calculate the optimal parameter of $\xi_{t|t-1}$, based on available information up to time $t-1$,

\begin{equation} \label{eq:xi-hat}
{\hat{\xi}}{t|t-1}=F_t{\hat{\xi}}{t-1|t-1}
\end{equation}

\begin{equation} \label{eq:covariance-xi}
P_t=F_tP_{t-1}F_t^T+Q_\
\end{equation}

\begin{equation} \label{eq:state-matrix}
F_t=H_tP_{t-1}H_t^T+R
\end{equation}

Calculate the optimal parameter of $\xi_{t|t}$, based on available information up to time $t$,

\begin{equation} \label{eq:kalman-gain}
K_t=P_{t|t-1}H^T{F_{t|t-1}^T}^{-1}
\end{equation}

\begin{equation} \label{eq:covariance-at-time-t}
P_{t|t}=\left(1-K_tH_t\right)P_{t|t-1}
\end{equation}

\begin{equation} \label{eq:xi-at-time-t}
{\hat{\xi}}{t|t}={\hat{\xi}}{t|t-1}-K_t\ r_{t|t-1}\
\end{equation}

The random walk effect is considered by assuming that Q, R is the initial value near 0 (= diffuse prior) and F is the diag (1,1,1,1) unit matrix and the Kalman gain (K) determines the weight for the new information using the information of the error between the prediction and the observation.

Table 8 Compare to Kalman FIlter
Figure 11. Beta (OLS) vs Beta (Kalman Filter) & Beta ($Mkt$) vs Beta ($\widehat{SIG2}$)
Figure 12. The Sensitivity points of EoP to the Auction Market

Table 8 shows that Time varying betas with Kalman filter performs better than the OLS with stable parameters. Figure 11 compares the change of the parameters of $\widehat{SIG2}$ and the change of the parameters of $Mkt$ at the same time. In Figure 12, if the parameter of $\widehat{SIG2}$ exceeds the upper confidence interval of OLS, it is set to 1 and plotted. In Figure 11, the area where $\widehat{SIG2}$ exceeds the beta of $Mkt$ and the area 1 of Figure 12 are the same, indicating that the price premium effect of the
auction market is more sensitive than the market price effect. This can be assumed to be an momentum interval, and the price premium effect is a sensitive interval.

3.3.5.2. Experiment

It is necessary to confirm whether the logic constructed so far works in the auction market in the region other than the whole country. Furthermore, when the model is performed by region, the characteristics of each region can be confirmed. The target areas of the empirical analysis are Seoul and gyeong-gi area where the auction market is most active.

Table 9. Result of Seoul and Gyeong-gi
Figure 13. (Seoul) $Mkt$ vs Auction Sale rate in seoul (left) Distinguished auction sale rate by EoP (Right)
Figure 14. (Seoul) Beta (OLS) vs Beta (Kalman Filter) & Beta ($Mkt$) vs Beta ($\widehat{SIG2}$)
Figure 15. (Seoul) The Sensitivity points of EoP to the Seoul Auction Market
Figure 16. (Gyeong-gi) $Mkt$ vs Auction Sale rate (Left) Distinguished auction sale rate by EoP (Right)
Figure 17. (Gyeong-gi) Beta (OLS) vs Beta (Kalman Filter) & Beta ($Mkt$) vs Beta ($\widehat{SIG2}$)
Figure 18. (Gyeong-gi) The Sensitivity points of EoP to the Seoul Auction Market

Table 8 and Figure 13 to Figure 18 are the results of the analysis of Seoul and Gyeonggi Province. Table 8 [2] Beta of $SIG2$ shows that Seoul is a more sensitive area than Gyeonggi-do in terms of price premium, and Figure 13-15 shows these resultswell. In particular, Seoul's Beta of EoP has far exceeded $Mkt$'s Beta since early 2020, supporting the general perception that overheating sentiment is forming in the Seoul area in the apartment auction market. On the contrary, the effect of EoP is relatively low in Gyeonggi-do. In addition, through the above results, it can be distinguished whether the outlier points existing in the auction sale rate of each region are the influence of EoP.

4. Conclusion

The previous auction market studies using bottom-up method mainly analyzed the variables affecting the Auction sale rate or had the disadvantage that the space and time were limited to the data they had. In this paper, time series analysis was carried out from the market perspective, and the top-down method using Fourier transform was attempted to solve the problem that the court appraiser price could not reflect the general market price at the time of the auction, and the price premium effect could be specified through the proof of each component.

In addition, it was found that the reason for making the price premium effect in the auction market is the momentum effect, and the time varying beta (Kalman filter) supports the above logic showing that the price premium effect can be divided by region. It is practically impossible to analyze a vast amount of auction cases for the analysis of the auction market, and this paper was very encouraging in that it provided many participants in the auction market with indicators that can be viewed from a market perspective.

However, it requires a deep understanding of the momentum factor. The sensitive activity of the momentum factor signifies not just market rises or falls, it indicates shifts in the price relationship between the auction and the general markets. Intuitively, when the real estate market heats up, high demand narrows the gap between general market prices and auction prices.

Therefore, the role of the momentum factor can be interpreted as representing the 'popularity' of the auction market compared to the general market. To elaborate further, it can serve as an indicator to judge whether the market is overheating or cooling down in comparison to the general market.

The additional insights of this study are as follows: Korea's apartment auction market has only momentum factors except for market prices under court appraiser control. Macro factors such as government regulations and interest rates are in the market price, so the third variable of the auction market is only the momentum factor, which can be very important information for many participants in the auction market.

This paper can be more rigorous if the following limitations are resolved. Since the monthly auction sale rate data may not be enough to support the rigor of the analysis, a wider analysis period or more time will further support the rigor of the analysis. In addition, the rigor of the analysis will be supported if more data on the unidentified area can be obtained in the process of proving the appraiser component of the court.

References

[1] Arslan, Y., Guler, B. & Taskin, T(2015), “Joint dynamic of house prices and foreclosures,”

[2] Journal of Money, Credit and Banking, 47(1), 133-169.

[3] Clauretie, T.M., Daneshvary, N.,(2009). “Estimating the house foreclosure discount corrected for spatial price interdependence and endogeneity of marketing time,” Real Estate Economics. 37 (1), 43-67.

[4] Campbell, J.Y., Giglio, S., Pathak, P.,(2011). “Forced sales and house prices,” American Economic Review. 101 (5), 2108-2131.

[5] Forgey, F.A., Rutherford, R.C., VanBuskirk, M.L.,(1994). “Effect of foreclosure status on residential selling price,” Journal of Real Estate Research. 9 (3), 313-318.

[6] Jin, (2010). Is the Selling Price Discounted at the Real Estate Auction Market? Housing Studies Review, 18(3), 93-117.

[7] Lee, (2009). True Auction Price Ratio for Condominium: The Case of Gangnam Area, Seoul, Korea. Housing Studies Review, 17(4), 233-258.

[8] Lee, (2012). Anomalies in Real Estate Markets: A Survey. Housing Studies Review, 20(3), 5-40.

[9] Mergner, S. (2009). Applications of State Space Models in Finance (pp. 17-40). Universitätsverlag Göttingen.

[10] Oh, (2021). A study on influencing factors for auction successful bid price rate of apartments in Seoul area Journal of the Korea Real Estate Management Review, 23, 99-119.

[11] Shilling, J.D., Benjamin, J.D., Sirmans, C.F.,(1990). “Estimating net realizable value for distressed real estate,” Journal of Real Estate Research. 5 (1), 129-140.

[12] Springer, T.M.,(1996). “Single-family housing transactions: seller motivations, price, and marketing time,” Journal of Real Estate Finance Economics. 13 (3), 237-254.

[13] Wooldridge, J. M. (2015). Introductory econometrics: A modern approach (pp. 83-91). Cengage Learning.

[14] Zhou, H., Yuan, Y., Lako, C., Sklarz, M., McKinney, C.,(2015). “Foreclosure discount: definition and dynamic patterns,” Real Estate Economics. 43 (3), 683-718.

[15] Zhou, Y., Cao, W., Liu, L., Agaian, S., & Chen, C. P. (2015). Fast Fourier transform using matrix decomposition. Information Sciences, 291, 172-183.

Interpretable Topic Analysis

Interpretable Topic Analysis

Mincheol Kim*

* Swiss Institute of Artificial Intelligence, Chaltenbodenstrasse 26, 8834 Schindellegi, Schwyz, Switzerland

Abstract

User-generated data, often characterized by its brevity, informality, and noise, poses a significant challenge for conventional natural language processing techniques, including topic modeling. User-generated data encompasses informal chat conversations, Twitter posts laden with abbreviations and hashtags, and an excessive use of profanity and colloquialisms. Moreover, it often contains "noise" in the form of URLs, emojis, and other forms of pseudo-text that hinder traditional natural language processing techniques.

This study sets out to find a principled approach to objectively identifying and presenting improved topics in short, messy texts. Topics, the thematic underpinnings of textual content, are often "hidden" within the vast sea of user-generated data and remain "undiscovered" by statistical methods, such as topic modeling.

We explore innovative methods, building upon existing work, to unveil latent topics in user-generated content. The techniques under examination include Latent Dirichlet Allocation (LDA), Reconstructed LDA (RO-LDA), Gaussian Mixture Models (GMM) for distributed word representations, and Neural Probabilistic Topic Modeling (NPTM).

Our findings suggest that NPTM exhibits a notable capability to extract coherent topics from short and noisy textual data, surpassing the performance of LDA and RO-LDA. Conversely, GMM struggled to yield meaningful results. It is important to note that the results for NPTM are less conclusive due to its extended computational runtime, limiting the sample size for rigorous statistical testing.

This study addresses the task of objectively extracting meaningful topics from such data through a comparative analysis of novel approaches.

Also, this research contributes to the ongoing efforts to enhance topic modeling methodologies for challenging user-generated content, shedding light on promising directions for future investigations.
This study presents a comprehensive methodology employing Graphical Neural Topic Models (GNTM) for textual data analysis. "Group information" here refers to topic proportions (theta). We applied a Non-Linear Factor Analysis (FA) approach to extract this intricate structure from text data, similar to traditional FA methods for numerical data.

Our research showcases GNTM's effectiveness in uncovering hidden patterns within large text corpora, with attention to noise mitigation and computational efficiency. Optimizing topic numbers via AIC and agglomerative clustering reveals insights within reduced topic sub-networks.
Future research aims to bolster GNTM's noise handling and explore cross-domain applications, advancing textual data analysis.

1. Introduction

Over the past few years, the volume of news information on the Internet has seen exponential growth. With news consumption diversifying across various platforms beyond traditional media, topic modeling has emerged as a vital methodology for analyzing this ever-expanding pool of textual data. This introduction provides an overview of the field and the seminal work of foundations.

1.1 Seminal work: topic modeling research

One of the pioneering papers in news data analysis using topic modeling is "Latent Dirichlet Allocation" ,that is, LDA technique, which revolutionized the extraction and analysis of topics from textual data.

The need for effective topic modeling in the context of the rapidly growing user-generated data landscape has been emphasized. The challenges posed by short, informal, and noisy text data, including news articles, are highlighted.

There are numerous advantages of employing topic modeling techniques for news data analysis, including:

  • Topic derivation for understanding frequent news coverage.
  • Trend analysis for tracking news trends over time.
  • Identifying correlations between news topics.
  • Automated information extraction and categorization.
  • Deriving valuable insights for decision-making.

Recent advancements in the fusion of neural networks with traditional topic modeling techniques have propelled the field forward. Papers such as "Neural Topic Modeling with Continuous Neighbors" have introduced innovative approaches that warrant exploration. By harnessing deep learning and neural networks, these approaches aim to enhance the accuracy and interpretability of topic modeling.

Despite the growing importance of topic modeling, existing topic modeling methods do not sufficiently consider the context between words, which can lead to difficult interpretation or inaccurate results. This limits the usability of topic modeling. The continuous expansion of text documents, especially news data, underscores the urgency of exploring its potential across various fields. Public institutions and enterprises are actively seeking innovative services based on their data.

To address the limitations of traditional topic modeling methods, this paper proposes the Graphical Neural Topic Model (GNTM). GNTM integrates graph-based neural networks to account for word dependencies and context, leading to more interpretable and accurate topics.

1.2 Research objectives

This study aims to achieve the following objectives:

  • Present a novel methodology for topic extraction from textual data using GNTM.
  • Explore the potential applications of GNTM in information retrieval, text summarization, and document classification.
  • Propose a topic clustering technique based on GNTM for grouping related documents.

In short, the primary objectives are to present GNTM's capabilities, explore its applications in information retrieval, text summarization, document classification, and propose a topic clustering technique.

The subsequent sections of this thesis delve deeper into the methodology of GNTM, experimental results, and the potential applications in various domains. By the conclusion of this research, these contributions are expected to provide valuable insights into the efficient management and interpretation of voluminous document data in an ever-evolving information landscape.

2. Problem definition
2.1 Existing industry-specific keywords analysis

South Korea boasts one of the world's leading economies, yet its reliance on foreign demand surpasses that of domestic demand, rendering it intricately interconnected with global economic conditions[3]. This structural dependency implies that even a minor downturn in foreign economies could trigger a recession within Korea if the demand for imports from developed nations declines. In response, public organizations have been established to facilitate Korean company exports worldwide.

However, the efficacy of these services remains questionable, with South Korea's exports showing a persistent downward trajectory and a trade deficit anticipated for 2022. The central issue lies in the inefficient handling of global textual data, impeding interpretation and practical application.

Figure 1a*. Country-specific keywords
Figure 1b*. Industry-specific keywords: *Data service provided by public organization

Han, G.J(2022) scrutinized the additional features and services available to paid members through the utilization of big data and AI capabilities based on domestic logistics data[5]: Trade and Investment Big Data (KOTRA), Korea Trade Statistics Information Portal (KTSI), GoBiz Korea (SME Venture Corporation), and K-STAT (Korea Trade Association).

Regrettably, these services predominantly offer basic frequency counts, falling short of delivering valuable insights. Furthermore, they are confined to providing internal and external statistics, rendering their output less practical. While BERT and GPT have emerged as potential solutions, these models excel in generating coherent sentences rather than identifying representative topics based on company and market data and quantifying the distribution of these topics.

2.2 Proposed model for textual data handling

To address the challenge of processing extensive textual data, we introduce a model with distinct characteristics:

  1. Extraction of information from data collected within defined timeframes.
  2. A model structure producing interpretable outcomes with traceable computational pathways.
  3. Recommendations based on the extracted information.

Previous research mainly relied on basic statistics to understand text data. However, these methods have limitations, such as difficulty in determining important topics and handling large text sets, making it hard for businesses to make decisions.

Our research introduces a method for the precise extraction and interpretation of textual data meaning via a natural language processing model. Beyond topic extraction, the model will uncover interrelationships between topics, enhance text data handling efficiency, and furnish detailed topic-related insights. This innovative approach promises to more accurately capture the essence of textual data, empowering companies to formulate superior strategies and make informed decisions.

2.3 Scope and contribution

This study concentrates on the extraction and clustering of topics from textual data derived from numerous companies' news data sources.

However, its scope is confined to outlining the methodology for collecting news data from individual firms, extracting topic proportions, and clustering based on these proportions. We explicitly state the study's limitations concerning the specific topics under investigation to bolster the research's credibility. For instance, we may refrain from delving deeply into a particular topic and clarify the constraints on the generalizability of our findings.

The proposed methodology in this study holds the potential to facilitate the effective handling and utilization of this vast text data reservoir. Furthermore, if this methodology is applied to Korean exporters, it could play a pivotal role in transforming existing export support services and mitigating the recent trade deficit.

3. Literature review
3.1 Non-graph-based method
3.1.1 Latent Dirichlet Allocation (LDA)

LDA, a classic topic modeling technique, discovers hidden topics within a corpus by assigning words to topics probabilistically[2]. It uncovers hidden 'topics' within a corpus by probabilistically assigning words in documents to these topics. Each document is viewed as a mixture of topics, and each topic is characterized by a distribution of words and topic probabilities.

\[p(d|\alpha,\beta^v_{z_n}) = \int{p(\theta_d|\alpha)} \prod_{n} \sum_{z_n} p(w_{d,n}|z_n,\beta^v_{z_n})p(z_n|\theta_d)d\theta_d \]

where \(\beta\) is \(k\times V\) topic-word matrix. \(p(w_{d,n}|z_n,\beta^v_{z_n})\) is probability for word \(w_{d,n}\) to happen when topic is \(z_n\).

However, LDA has a limitation known as the "independence" problem. It treats words as independent and doesn't consider their order or relationships within documents. This simplification can hinder LDA's ability to capture contextual dependencies between words. To address this, models like Word2Vec and GloVe have been developed, taking word order and dependencies into account to provide more nuanced representations of textual data.

3.1.2 Latent Semantic Analysis (LSA)

LSA is a method to uncover the underlying semantic structure in textual data. It achieves this by assessing the semantic similarity between words using document-word matrices[4]. LSA's fundamental concept involves recognizing semantic connections among words based on their distribution within a document. To accomplish this, LSA relies on linear algebra techniques, particularly Singular Value Decomposition (SVD), to condense the document-word matrix into a lower-dimensional representation. This process allows semantically related words or documents to be situated in proximity within this reduced space.

\[X=U\Sigma V^T\]

\[Sim(Q,X)=R=Q^T X\]

where \(X\) is \(t \times d\) matrix, a collection of d documents in a space of t dictionary terms. \(Q\) is \(t \times q\) matrix, a collection of q documents in a space of t dictionary terms.

\(U\) is term eigenvectors and \(V\) is document eigenvectors.

LSA, an early form of topic modeling, excels at identifying semantic similarities among words. Nonetheless, it has its limitations, particularly in its inability to fully capture contextual information and word relationships.

3.1.3 Neural Topic Model (NTM)

Traditional topic modeling has limitations, including sensitivity to initialization and challenges related to unigram topic distribution. The Neural Topic Model (NTM) bridges topic modeling and deep learning, aiming to enhance word and document representations to overcome these issues.

At its core, NTM seamlessly combines word and document representations by embedding topic modeling within a neural network framework. While preserving the probabilistic nature of topic modeling, NTMs represent words and documents as vectors, leveraging them as inputs for neural networks. This involves mapping words and documents into a shared latent space, accomplished through separate neural networks for word and document vectors, ultimately leading to the computation of the topic distribution.

The computational process of NTM includes training using back-propagation and inferring topic distribution through Bayesian methods and Gibbs sampling.

\[p(w|d) = \sum^K_{i=1} p(w|t_i)p(t_i|d)\]

where \(t_i\) is a latent topic and \(K\) is the pre-defined topic number. Let \(\pi(w) = [p(w|t_1), \dot , p(w|t_K)]\) and \(\theta(d) = [p(t_1|d), \dot, p(t_K|d)]\), where \(\pi\) is shared among the corpus and \(\theta\) is document-specific.

Then above equation can be represented as the vector form:

\[p(w|d) = \phi(w) \times \theta^T(d) \]

3.2 Graph-based methods
3.2.1 Global random topic field

To capture word dependencies within a document, the graph structure incorporates topic assignment relationships among words to enhance accuracy[9].

GloVe-derived word vectors are mapped to Euclidean space, while the document's internal graph structure, identified as the Word Graph, operates in a non-Euclidean domain. This enables the Word Graph to uncover concealed relationships that traditional Euclidean numerical data representation cannot reveal.

Calculating the "structure representing word relationships" involves employing a Global Random Field (GRF) that encodes the graph structure in the document using topic weights of words and the topic connections in the graph's edges. The GRF formula is as follows:

\[ p(G) = f_G (g) = \frac{1}{|E|} \phi(z_W) \sum {(w', w'') \in E} \phi(z{w'}, z_{w''}) \]

The above-described Global Topic-Word Random Field (GTRF) shares similarities with the GRF. In the GTRF, the topic distribution (z) becomes a conditional distribution on \(theta\). Learning and inferring in this model closely resemble the EM algorithm. The outcome, denoted as \(p_{GTRF}(z|\theta)\), represents the probability of the graph structure considering whether neighboring words (w' and w'') are assigned to the same topic or different topics. This is expressed as:

\[ p_{GTRF}(z|\theta) = \frac{1}{|E|} Multi(z_W|\theta) \times \sum {(w', w'') \in E} (\sigma{z_{w'} = z_{w''}}\lambda_1 + \sigma_{z_{w'} \neq z_{w''}}\lambda_2) \]

Where \(\sigma_{z}\) is a function that returns 1 if the condition $x$ is true and 0 if $x$ is false.

3.2.2 GraphBTM

While LDA encounters challenges related to data sparsity, particularly when modeling short texts, the Biterm Topic Model (BTM) faces limitations in its expressiveness, especially when dealing with documents containing diverse topics[13]. Additionally, BTM relies on bitwords in conjunction with the co-occurrence features of words, which restricts its suitability for modeling longer texts.

To address these limitations, the Graph-Based Biterm Topic Model (GraphBTM) was developed. GraphBTM introduces a graphical representation of biterms and employs Graph Convolutional Networks (GCN) to extract transitive features, effectively overcoming the shortcomings associated with traditional models like LDA and BTM.

GraphBTM's computational approach relies on Amortized Variational Inference. This method involves sampling a mini-corpus to create training instances, which are subsequently used to construct graphs and apply GCN. The inference network then estimates the topic distribution, which is vital for training the model. Notably, this approach has demonstrated the capability to achieve higher topic consistency scores compared to traditional Auto-Encoding Variational Bayes (AEVB)-based inference methods.

3.2.3 Graphical Neural Topic Model (GNTM)

LDA, in its conventional form, makes an assumption of independence. It posits that each document is generated as a blend of topics, with each topic representing a distribution over the words within the document. However, this assumption of conditional independence, also known as exchangeability, overlooks the intricate relationships and context that exist among words in a document.

The No Variational Inference (NVI) algorithm presents a departure from this independence assumption. NVI is a powerful technique for estimating the posterior distribution of latent topics in text data. It leverages a neural network structure, employing a reparameterization trick to accurately estimate the genuine posterior distribution for a wide array of distributions.

\[\alpha(prior) \rightarrow z(topic) \: from \: \theta \rightarrow G_d(structure) \rightarrow V(word \: set) \]

\[p(G^0_d|Z_d;M) = \prod_{(n,n') \in E^0_d} m_{z_{d,n}}{z_{d,n'}} \prod_{(n,n') \notin E^0_d} (1-m_{z_{d,n}}{z_{d,n'}})\]

\[p(G_d, \theta_d, Z_d;\alpha) = p(V_d|Z_d,G^0_d)p(G^0_d|Z_d)\prod^{N_d}_{n=1} p(z_{d,n}|\theta_d)p(\theta|\alpha) \]

Unlike the Variational Autoencoder (VAE), which is primarily employed for denoising and data restoration and can be likened to an 'encoder + decoder' architecture, NVI serves a broader purpose and can handle a more extensive range of distributions. It's based on the mean-field assumption and employs the Laplace approximation method, replacing challenging distributions like the Dirichlet distribution with the computationally efficient logistic normal distribution[8].

Based mean field assumption:

\[q(\theta_d,Z_d|G_d) = q(\theta_d|G_d;\mu_d, \delta_d) \prod^{N_d}_{n=1} q(z_{d,n}|G_d,w_d,n;\varphi_{d,n})\]

\[L_d = E_{q(Z_d|G_d)} [log p(G^0_d|Z_d;M) + logp(V_d|Z_d, G^0_d;\beta)] - KL[q(\theta_d|G_d)||p(\theta_d)] - E_{q(\theta_d|G_d)}\sum^{N_d}_{n=1} KL[q(z_{d,n}|G_d, w_{d,n})||p(z_{d,n}|\theta_d)]
\]

This substitution simplifies parameter estimation, making it more tractable and readily differentiable. In the context of the Global Neural Topic Model (GNTM), the logistic normal distribution facilitates the approximation of correlations between latent variables, allowing for the utilization of dependencies between topics. Additionally, the Evidence Lower Bound (ELBO) in NVI is differentiable in closed-form, enhancing its applicability.

The concept of topic proportion is represented by the equation:

\[\theta_d = \text{softmax}(N(\mu_d, \delta_d^2))\]

\[f_X(x;\mu,\sigma) = \frac{1}{\sigma \sqrt{2\pi}}e^{\frac{(logit(x)-\mu)^2}{2\sigma^2}}\frac{1}{x(1-x)}\]

This equation encapsulates the distribution of topics within a document, reflecting the proportions of different topics in that document.

Figure 2. Transformation of logit-normal distribution after conversion
3.3 Visualization techniques
3.3.1 Fast unfolding of communities in large networks

This algorithm aids in detecting communities within topic-words networks, facilitating interpretation and understanding of topic structures.

3.3.2 Uniform Manifold Approximation and Projection (UMAP)

UMAP is a nonlinear dimensionality reduction technique that preserves the underlying structure and patterns of high-dimensional data while efficiently visualizing it in lower dimensions. It outperforms traditional methods like t-SNE in preserving data structure.

3.3.3 Agglomerative Hierarchical Clustering

Hierarchical clustering is an algorithm that clusters data points, combining them based on their proximity until a single cluster remains. It provides a dynamic and adaptive way to maintain cluster structures, even when new data is added.

Additionally, several evaluation metrics, including the Silhouette score, Calinski-Harabasz index, and Davies-Bouldin index, assist in selecting the optimal number of clusters for improved data understanding and analysis.

4. Method
4.1 Graphical Neural Topic Model(GNTM) as Factor analysis

GNTM can be viewed from a factor analysis perspective, as it employs concepts similar to factor analysis to unveil intricate interrelationships in data and extract topics. GNTM can extract \(\theta\), which signifies the proportion of topics in each document, for summarizing and interpreting document content. In this case, \(\theta\) follows a logistic normal distribution, enabling the probabilistic modeling of topic proportions.

The \(\theta\) can be represented as follows[1][7]:

\[ \tilde{\theta} \sim \text{LN}(\mu, \sigma^2) \]

For \(0 < \tilde{x} < 1\) and \(\sum_i^K x_i = 1\):

\[ y = [\log(\frac{x_1}{x_D}), ..., \log(\frac{x_{D-1}}{x_D})]^T \]

Probability Density Function (PDF) for \(X\):

\[ f_X(x; \mu, \Sigma) = \frac{1}{|2 \pi \Sigma|^{\frac{1}{2}}} \frac{1}{\prod^K_{i=1} x_i (1-x_i)} e^{-\frac{1}{2} \{ \log (\frac{x}{1-x}) - \mu \} \Sigma^{-1} \{ \log(\frac{x}{1-x}) - \mu \}} \]

where the log and division in the argument are element-wise. This is due to the diagonal Jacobian matrix of the transformation with elements \(\frac{1}{{x_i}{(1-x_i)}}\)

GNTM shares similarities with factor analysis, which dissects complex data into factors associated with each topic to unveil the data's structure. In factor analysis, the aim is to explain observed data using latent factors. Similarly, GNTM treats topics in each document as latent variables, and these topics contribute to shaping the word distribution in the document. Consequently, GNTM decomposes documents into combinations of words and topics, offering an interpretable method for understanding document similarities and differences.

4.2 Akaike Information Criteria (AIC)

The Akaike Information Criterion (AIC) is a crucial statistical technique for model selection and comparison, evaluating the balance between a model's goodness of fit and its complexity. AIC aids in selecting the most appropriate model from a set of models.

In the context of this thesis, AIC is employed to assess the fit of a Graphical Network Topic Model (GNTM) and determine the optimal model. Since GNTMs involve parameters related to the number of topics in topic modeling, selecting the appropriate number of topics is a significant consideration. AIC assesses various GNTM models based on the choice of the number of topics and assists in identifying the most suitable number of topics.

AIC can be represented by the following formula:

\[ AIC = -2 \cdot \text{log-likelihood} + 2 \cdot \text{number of parameters} \]

Where:

  • The \(\text{log-likelihood}\) is a measure of the goodness of fit of the model to explain the data.
  • Number of parameters indicates the count of parameters in the model.

AIC weighs the tradeoff between a model's log-likelihood and the number of parameters, which reflects the model's complexity. Lower AIC values indicate better data fit while favoring simpler models. Therefore, the model with the lowest AIC is considered the best. AIC plays a pivotal role in enhancing the quality of topic modeling in GNTM by assisting in managing model complexity when choosing the number of topics.

For our current model, following a Logistic Normal Distribution, we utilize GNTM's likelihood:

\[ L(\theta| D) = \prod_{d=1}^D \left[-\frac{1}{2} \log(|2 \pi \Sigma|) - \sum_{i=k}^K (\log\theta_i - \log(1-\theta_i)) - \frac{1}{2} \left\{ \log \left(\frac{\theta}{1-\theta}\right) - \mu \right\} \Sigma^{-1} \left\{ \log \left(\frac{\theta}{1 - \theta}\right) - \mu \right\}\right] \]

When applied to a formula, it appears as:

\[ AIC = -2 \cdot l(\theta) + 2 \cdot \text{number of topics} \]

Where:

  \[ l(\theta) = \sum_{d=1}^D [ -\frac{1}{2}\log (|2\pi \Sigma|) - \sum_{k=1}^K \log(\theta_k (1 - \theta_k)) + -\frac{1}{2} (\log(\frac{\theta}{1-\theta}) - \mu_i)^T \Sigma^{-1} (\log(\frac{\theta}{1-\theta}) - \mu_i)] \]

This encapsulates the essence of GNTM and AIC in evaluating and selecting models.

5. Result
5.1 Model setup
5.1.1 Data

The data consists of news related to the top 200 companies by market capitalization on the NASDAQ stock exchange. These news articles were collected by crawling Newsdata.io in August. Analyzing this data can provide insights into the trends and information about companies that occurred in August. Having a specific timeframe like August helps in interpreting the analysis results clearly.

To clarify the research objectives, companies with fewer than 10 articles collected were excluded from the analysis. Additionally, a maximum of 100 articles per company was considered. As a result, a total of 13,896 documents were collected, and after excluding irrelevant documents, 13,816 were used for the analysis. The data format is consistent with the "20 News Groups" dataset, and data preprocessing methods similar to those in Shen(2021)[10] were applied. This includes steps like removing stopwords, abbreviations, punctuation, tokenization, and vectorization. You can find examples of the data in the Appendix.

5.1.2 Parameters

"In our experiments, as the dataset contained a large number of words and edges, it was necessary to reduce the number of parameters for training while minimizing noise and capturing important information. To achieve this, we set the threshold for the number of words and edges to 140 and 40, respectively, which is consistent with the configuration used in the BNC dataset, a similar dataset. The experiments were conducted in an RTX3060 GPU environment using the CUDA 11.8 framework, with a batch size of 25. To determine the optimal number of topics, we calculated and compared AIC values for different numbers of topics. Based on the comparison of AIC values, we selected 20 as the final number of topics."

5.2 Evaluation
5.2.1 AIC
Figure 3. Changes in AIC values depending on the number of topics

AIC is used in topic modeling as a tool to select the optimal number of topics. However, AIC is a relative number and may vary for different data or models. Therefore, when using AIC to determine the optimal number of topics, it is important to consider how this metric applies to your data and model.

In our study, we calculated the AIC for a given dataset and model architecture and used it to select the optimal number of topics. This approach served as an important metric for finding the best number of topics for our data. The AIC was used to evaluate the goodness of fit of our model, allowing us to compare the performance of the model for different numbers of topics.

Additionally, AIC allows us to evaluate the performance of our model in comparison to AICs obtained from other models or other datasets. This allows us to determine the relative superiority of our model and highlights that we can perform optimized hyperparameter tuning for our own data and model, rather than comparing to other models. This approach is one of the key strengths of our work, contributing to a greater emphasis on the effective utilization and interpretation of topic models.

5.2.2 Topic interpretation
5.2.3 Classification
Figure 4a*. 10 Topics graph
Figure 4b*. 30 Topics graph: *The result of Agglomerative Clustering

In our study, we leveraged Agglomerative Clustering and UMAP to classify and visualize news data. In our experiments, we found that news is generally better classified when the number of topics is 10. These results suggest that the model is able to group and interpret the given data more effectively.

However, when the number of topics is increased, broader topics tend to be categorized into more detailed topics. This results in news content being broken down into relatively more detailed topics, but the main themes may not be more apparent.

Figure 5a*. UMAP graph with 10 topics
Figure 5b*. UMAP graph with 20 topics
Figure 5c*. UMAP graph with 30 topics: *The result of Agglomerative Clustering

Also, as the number of topics increases, the difference in the proportion of topics that represent the nature of the news increases. This indicates a hierarchy between major and minor topics, which can be useful when you want to fine-tune your investigation of different aspects of the news. This diversity provides important information for detailed topic analysis in context.

Therefore, when choosing the number of topics, we need to consider the balance between major and minor topics. By choosing the right number of topics, the model can best understand and interpret the given data, and we can tailor the results of the topic analysis to reflect the key features of the news content.

6. Discussion
6.1 Limitation

Even though this paper has contributed to addressing various challenges related to textual data analysis, it is essential to acknowledge some inherent limitations in the proposed methodology:

  1. Noise Edges Issue
    The modeling approach used in this paper introduces a challenge related to noise edges in the data, which can be expected when dealing with extensive corpora or numerous documents from various sources.
    To effectively mitigate this noise issue, it is crucial to implement regularization techniques tailored to the specific objectives and nature of the data. Approaches such as the one proposed by Zhu et al. (2023)[12] enhanced the model’s performance by more efficiently discovering hidden topic distributions within documents.}
  2. Textual Data Versatility
    While this paper focuses on extracting and utilizing the topic latent space from text data, it is worth noting that textual data analysis can have diverse applications across various fields.
    In addition to hierarchical clustering, there is potential to explore alternative recommendation models, such as Matrix Factorization methods like NGCF(Neural Graph Collaborative Filtering)[11]{Wang2019} and LightGCN(Light Graph Convolutional Network)[6], which utilize techniques like Graph Neural Networks(GNN) for enhancing recommendation performance.

Acknowledging these limitations is essential for a comprehensive understanding of the proposed methodology's scope and areas for potential future research and improvement.

6.2 Future work

While this study has made significant strides in addressing key challenges in the analysis of textual data and extracting valuable insights through topic modeling, there remain several avenues for future research and improvement:

  1. Enhanced Noise Handling
    The modeling used has shown promise but is not immune to noise edge issues often encountered in extensive datasets. In this study, we used a dataset comprising approximately 9,000 news articles from 194 countries, totaling around 5 million words. To mitigate these noise edge issues effectively, future work can focus on developing advanced noise reduction techniques or data preprocessing methods tailored to specific domains, further enhancing the quality of extracted topics and insights.
  2. Cross-Domain Application
    While the study showcased its effectiveness in the context of news articles, extending this approach to other domains presents an exciting opportunity. Adapting the model to different domains may require domain-specific preprocessing and feature engineering, as well as considering transfer learning approaches. Models based on Graph Neural Networks (GNN) and Matrix Factorization, such as Neural Graph Collaborative Filtering (NGCF) and LightGCN, can be employed to enhance recommendation systems and knowledge discovery in diverse fields. This cross-domain versatility can unlock new possibilities for leveraging textual data to extract meaningful insights and improve decision-making processes across various industries and research domains.
7. Conclusion

In the context under discussion, the term "group information" pertains to the topic proportions represented by theta. From my perspective, I have undertaken an endeavor that can be characterized as Non-Linear Factor Analysis (FA) applied to textual data, analogous to traditional FA methods employed with numerical data. This undertaking proved intricate due to the inherent non-triviality in its extraction, thus warranting the classification as Non-Linear FA. (Indeed, there exists inter-topic covariance.)

Hitherto, the process has encompassed the extraction of information from textual data, a task which may appear formidable for utilization. This encompasses the structural attributes of words and topics, the proportions of topics, as well as insights into the prior distribution governing topic proportions. These constituent elements have facilitated the quantitative characterization of information within each group.

A central challenge encountered in the realm of conventional Principal Component Analysis (PCA) and FA techniques lies in the absence of definitive answers, given our inherent limitations. Consequently, the interpretation of the extracted factors poses formidable challenges and lacks assuredness. However, the GNTM methodology applied to this paper, in tandem with textual data, furnishes a network of words for each factor, thereby affording a means for expeditious interpretation.

If the words assume preeminence within Topic 1, they afford a basis for interpretation. This alignment with the intentions of the GNTM. In effect, this model facilitates the observation of pivotal terms within each topic (factor) and aids in the explication of their conceptual representations.

This research has presented a comprehensive methodology for the analysis of textual data using Graphical Neural Topic Models (GNTM). The paper discussed how GNTM leverages the advantages of both topic modeling and graph-based techniques to uncover hidden patterns and structures within large text corpora. The experiments conducted demonstrated the effectiveness of GNTM in extracting meaningful topics and providing valuable insights from a dataset comprising news articles.

In conclusion, this research contributes to advancing the field of textual data analysis by providing a powerful framework for extracting interpretable topics and insights. The combination of GNTM and future enhancements is expected to continue facilitating knowledge discovery and decision-making processes across various domains.

Nevertheless, a pertinent concern arises about inordinate amount of noise pervade newspaper data or all data. Traditional methodologies employ noise mitigation techniques such as Non-Negative Matrix Factorization (NVI) and the execution of numerous epochs for the extraction of salient tokens. In the context of this research, as aforementioned, the absence of temporal constraints allowed for the execution of epochs as deemed necessary.

However, computational efficiency was bolstered through the reduction in the number of topics, while remaining the primary objectives from a clustering perspective by finding out the optimized number of topic by AIC and agglomerative clustering. This revealed that a reduction in the number of topics resulted in the observation of words associated with the original topics within sub-networks of the diminished topics.

Future research can further enhance the capabilities of GNTM by improving noise handling techniques and exploring cross-domain applications.

References

[1] Atchison, J., and Shen, S. M. Logistic-normal distributions: Some properties and uses.
Biometrika 67, 2 (1980), 261–272.

[2] Blei, D. M., Ng, A. Y., and Jordan, M. I. Latent dirichlet allocation. Journal of machine
Learning research 3, Jan (2003), 993–1022.

[3] Choi, M. J., and Kim, K. K. Import demand in developed economies. In Economic Analysis
(Quarterly) (2019), vol. 25, Economic Research Institute, Bank of Korea, pp. 34–65.

[4] Evangelopoulos, N. E. Latent semantic analysis. Wiley Interdisciplinary Reviews: Cognitive
Science 4, 6 (2013), 683–692.

[5] Han, K. J. Analysis and implications of overseas market provision system based on domestic
logistics big data. KISDI AI Outlook 2022, 8 (2022), 17–30.

[6] He, X., Deng, K., Wang, X., Li, Y., Zhang, Y., and Wang, M. Lightgcn: Simplifying and
powering graph convolution network for recommendation. In Proceedings of the 43rd International
ACM SIGIR conference on research and development in Information Retrieval (2020), pp. 639–
648.

[7] Hinde, J. Logistic Normal Distribution. Springer Berlin Heidelberg, Berlin, Heidelberg, 2011,
pp. 754–755.

[8] Kingma, D. P., and Welling, M. Auto-encoding variational bayes. arXiv preprint
arXiv:1312.6114 (2013).

[9] Li, Z., Wen, S., Li, J., Zhang, P., and Tang, J. On modelling non-linear topical dependencies.
In Proceedings of the 31st International Conference on Machine Learning (Bejing, China,
22–24 Jun 2014), E. P. Xing and T. Jebara, Eds., vol. 32 of Proceedings of Machine Learning
Research, PMLR, pp. 458–466.

[10] Shen, D., Qin, C., Wang, C., Dong, Z., Zhu, H., and Xiong, H. Topic modeling revisited:
A document graph-based neural network perspective. Advances in neural information processing
systems 34 (2021), 14681–14693.

[11] Wang, X., He, X., Wang, M., Feng, F., and Chua, T.-S. Neural graph collaborative
filtering. In Proceedings of the 42nd International ACM SIGIR Conference on Research and
Development in Information Retrieval (jul 2019), ACM.

[12] Zhu, B., Cai, Y., and Ren, H. Graph neural topic model with commonsense knowledge.
Information Processing Management 60, 2 (2023), 103215.

[13] Zhu, Q., Feng, Z., and Li, X. Graphbtm: Graph enhanced autoencoded variational inference
for biterm topic model. In Proceedings of the 2018 conference on empirical methods in natural
language processing (2018), pp. 4663–4672.

Appendix

News Data Example
Google courts businesses with ramped up cloud AI Synopsis The internet giant unveiled new AI-powered features for data searches, online collaboration, language translation, images and more at its first annual Cloud Next conference held in-person since 2019. AP Google on Tuesday said it was weaving artificial intelligence (AI) deeper into its cloud offerings as it vies for the business of firms keen to capitalize on the technology. The internet giant unveiled new AI-powered features for data searches, online collaboration, language translation, images and more at its first annual Cloud Next conference held in-person since 2019. Elevate Your Tech Process with High-Value Skill Courses Offering College Course Website Indian School of Business ISB Product Management Visit Indian School of Business ISB Digital Marketing and Analytics Visit Indian School of Business ISB Digital Transformation Visit Indian School of Business ISB Applied Business Analytics Visit The gathering kicked off a day after OpenAI unveiled a business version of ChatGPT as tech companies seek to keep up with Microsoft , which has been ahead in powering its products with AI. "I am incredibly excited to bring so many of our customers and partners together to showcase the amazing innovations we have been working on," Google Cloud chief executive Thomas Kurian said in a blog post. Most companies seeking to adopt AI must turn to the cloud giants -- including Microsoft, AWS and Google -- for the heavy duty computing needs. Those companies in turn partner up with AI developers -- as is the case of a major tie-up between Microsoft and ChatGPT creator OpenAI -- or have developed their own models, as is the case for Google.

한국이 고급 인재를 못 살리는 나라가 된 이유 - 당신들이 고급 인재가 아니니까

한국이 고급 인재를 못 살리는 나라가 된 이유 - 당신들이 고급 인재가 아니니까
Picture

Member for

5 months 4 weeks
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

수학, 통계학에 기반한 Data Science 교육이 이뤄져야 하는데, 단순 부트캠프 수준의 코딩 교육만 이뤄진다는 비판을 시작한지 6년이 됐다.

비판을 꺼내니 온갖 비판을 맞는 중인데, 그 중 가장 안타까운 내용이

대기업가는데 저런 거 필요없다. 코테만 통과하면 된다

라는 표현이다. (코테=코딩 테스트)

 

난 미국서 직장 찾을 때 나같은 수리 모델링 훈련을 받은 사람들을 코딩 테스트로 거르려는 직장들은 모조리 무시했었다.

나만 그랬던 것도 아니고, Data Science 관련으로 비슷한 직군의 구직하는 애들을 만나봐도 '거긴 coding test 보는 곳'이라며 비웃으며 말했던 기억도 있다.

우리는 Matlab, R로 학교에서 수리 모델링하는 훈련을 받은 사람들인데, 난데없이 Java, C로 생뚱맞은 성배에 1/1~ 1/10까지 물 배열하는 알고리즘 짜라니까 황당할 수밖에.

배고픈 사람이 우물 판다고 잠깐 그걸 준비하다가, 면접장에서 만난 다른 애들이 그런 직장들은 Computer Science 전공 한 애들 뽑고 수리 모델링 하는 곳이 아니라는 이야기를 듣고는 바로 접었었다.

 

내가 열심히 찾아다녔던 Data Scientist 면접에서 'CS' 전공과 그나마 관련있던 부분은 Whiteboard에 순서도를 그리는 정도였고,

대부분은 내가 이렇게 수학 기초가 부족했구나는 허탈감이 밀려오는 수학적 직관을 묻는 곳들이었다.

부끄럽지만 PCA라는 계산이 Eigen decompose된 vector space에서 일부를 덜어내는 계산이라는 공간개념을 면접 중에 처음 알게 된 적도 있다.

아마 한국인들은 선대, 미방 같은 기초 수학 수업에서 과제만 풀어 제출하고 교실을 나가버리는 반면,

외국애들은 그 개념이 무슨 뜻인지 이런저런 갑론을박을 한참동안 한다는 이야기들이 커뮤니티 같은 곳에 돌아다니는걸 본 적이 있을텐데,

면접 중에 그런 식으로 내가 논문에 썼던 수학 개념들을 확장해서 사고할 수 있는지, 그래서 자기네 회사 업무에 바로바로 응용해서 쓸 수 있는지를 테스트 했었다.

 

나름대로 양놈들 교육을 몇 년간 받으면서 아시아인의 굴레를 극복했다고 생각했는데 그런 면접을 보면서 어림도 없구나는 좌절감에 괴로웠던 기억이 아직도 생생하다.

국내 귀국하고부터 SIAI 안팎에서 이런 식의 사고 전환이 되어야 교과서의 수학을 실제로 쓸 수 있게 된다는 점을 계속 강조해왔지만,

내가 혼자서 세상을 바꿀 수 있는 것도 아니고, 그냥 답답한 마음만 큰데,

대기업가는데 저런 거 필요없다. 코테만 통과하면 된다

라는 문구에 더 마음이 무겁다.

그냥 코테만 통과하면 된다?

내가 CS 전공자가 아니기 때문에 정확하게는 알지 못하지만, CS 전공에서도 코딩 테스트 문제들을 공부하지는 않는 것으로 안다.

그쪽은 그쪽 나름대로 수학, 통계학 같은 학문 도구를 쓰는 방식이 있을 것이다.

코딩 테스트 같은 부트캠프 스타일의 교육을 하는 대학교가 있다면 거긴 취직 특화된 전문대 같은 곳들이겠지.

 

그 시절 내가봤던 인도 출신 유학생들 중에 실리콘밸리 일대의 커뮤니티 칼리지에 CS 전공으로 2년 편입으로 들어가서

그런 코딩 테스트 받고 연봉 7~8만불 정도를 받으며 사는 경우들이 은근히 많았다. 학교 수업은 당연히 거의 무시했었고.

 

한국인 눈에 연봉 7~8만불이라고 그러면 눈이 휘둥그레지겠지만, 그 동네에서 연봉 7~8만불이면 쉐어 하우스 살기도 힘든 수준,

한국으로치면 원룸은 커녕 고시원 살면서 직장 다니는 수준이라고 생각하면 얼추 비교군이 될 것이다.

국내로 치면 6개월 부트캠프 나와서 최저시급 받는 곳에 개발자로 취직하는 것과 비슷하다고 생각한다.

 

코딩 테스트만 잘 보면 어차피 취직하는데는 상관이 없다는 표현을 쓰는 분들이 내 눈에는 딱 저 리그로 보이는데,

구글, 마소 같은 곳들이라고해서 그런 인력이 안 필요한 것도 아니고, 이건 한국 대기업들도 마찬가지다.

100명 짜리 IT 개발 프로젝트면 저런 인력이 50명, 많게는 70~80명 정도는 필요하다.

나머지 인력들이 얼마나 고급 인력들이냐가 결과물의 퀄리티와 딜리버리 시간을 결정하는 요소니까.

쉽게 생각하면 아파트 10동 짓는데 설계 전문가, 감리 전문가 같은 사람 빼놓고 막노동 하시는 분들이 분야별로 수백명 필요한 것과 같다.

그 막노동 하는 분들이 없으면 아파트 짓는 건 불가능한 것처럼.

 

단순 코테 수준 이상 인력을 쓰는 방법

단, 저런 리그는 커뮤니티 칼리지 ~ 전문대, 아니 심지어 고졸이어도 자기 역량만 있으면 통과하는데 아무 문제가 없어야 한다.

대학에서 배우는 수학, 통계학이 그다지 필요없는 곳이기 때문이다.

 

한국 사회의 문제는 구글, 마소 같은 곳들이 쓰고 있는 초A급 인재들이 자신의 역량을 발휘할 수 있는 A급 업무로 매출액을 만들어 낼 수 있는 대기업이 없다는데 있다.

그러니까 초A급 인재들이 탈출하고, 한국에는 C급 인재들이 '데이터 사이언스는 코테가 필수'인 시장을 담합으로 만들 수 있는 것이다.

몇 년 전, 국내 SKP 학석을 거쳐 미국 명문대 수학 박사를 했던 분이 S전자를 들어가기 전에 몇 번 만나며 이야기를 나눈 적이 있다.

들어가서 하게된다는 업무는 이미지 인식 알고리즘을 이용해서 수율 안 나오는 문제를 잡는 거라고 했던 것 같다.

지난 몇 년 사이에 많이 성장하셨으면 좋겠지만, 당시에 보고 있다던 논문 수준도 그렇고, 풀어야 하는 문제의 내용도 그렇고,

고작 저걸 하겠다고 대한민국 최고 스펙급인 수학 박사를 투입하고, 정작 그 수학 박사는 전혀 준비가 안 된 상황이라는게

뭐랄까, 닭 잡는데 소 잡는 칼을 쓰는 것도 아니고, 닭 잡는데 직지심체요절을 쓰는 느낌이었다.

(참고: 직지심체요절은 세계에서 가장 오래된 금속활자본이다.)

 

왜 이렇게 됐을까?

직지심체요절은 원본을 박물관에 두고 사본으로 고려시대 불교 문화 이해도를 가늠하는 잣대로 써야하는 인류 문화 유산인데,

왜 난데없이 닭 잡는데 쓰고 있지? 거긴 칼 써야지?

 

내가 같은 문제를 만났던 고위직 임원이었으면 4k, 8k 해상도로 이미지를 뽑았을 때 실제로 문제 있는 기판을 발견할 수 있는지부터 먼저 확인한 다음,

확인 가능하다고 하면 그냥 고해상도 이미지 찍은 다음 하나씩 이미지 비교하는 방식으로 오차율 x% 나오는걸 찾고 끝냈을 것이다.

업무 기획에 길어봐야 1주일, 전체 시스템 완성에 길어봐야 1달이면 끝나는 업무다.

이건 뭐 전문가(?)라는 사람들도 필요없고, 반도체 기판 현장에서 오래 구른 직원한테 멀쩡한 기판과 아닌 기판을 눈으로 구분한 이야기를 듣고,

실제로 그게 맞아들어가는지 점검하고는 이미지 인식 알고리즘을 어디 Library 복붙해와서 붙이면 끝난다.

물론 회사 속 사정이 있어서 시간이 더 걸리긴 하겠지만, 최소한 정수론으로 수학 박사 하신 분을 거기 투입하면 안 되지 않나?

 

제조업 중심의 대한민국, 산업 구조조정에 실패한 대한민국, 신규 산업용 인력이 없는 대한민국

실리콘밸리라고 저렇게 황당한 사건이 안 일어나는건 아니다.

난 처음 갔던 직장에서 Data Engineer인 보스가 나한테 이상한 소리하길래 아, 잘못왔구나 싶어서 바로 탈출한 기억도 있고,

고작 2변수 Correlation 구하는 scalar 계산식을 놓고 'Look, how complicated the equation is'라며 자기가 많이 안다고 으쓱대던 UCB 석사 출신 공돌이를 만난 적도 있다.

그런 사건을 만나면 너무 충격이기 때문에 바로 도망가고, 계속 그렇게 도망가는걸 보고 누군가는 정신을 차리는게 그쪽 분위기였다.

아니면 투자금이 날라갈테니까.

 

한국에서는 저런 실력인 사람도 '정치질'과 '화려한 보고서'로 오랫동안 살아남아 있다.

거기다 노동법은 그런 무능한 인력이 끝까지 기업에서 버틸 수 있도록 도와준다.

 

문제는 글로벌 시장이 더 이상 그렇게 무능한 인력들 갈아넣기로 버틸 수 있는 곳이 아니라는 것이다.

과거 성장기 한국을 지탱했던 것이 경공업 → 중화학공업을 거치며 완성된 제조업 근간인데,

당시야 인건비가 저렴했으니 글로벌 시장에서 경쟁력이 있었겠지만,

한국도 먹고 살만한 나라가 되면서 그런 저임금 직장에는 애들이 발을 들여놓질 않는다.

속칭 'ㅈ소기업'이라며 모욕적인 비난을 하는 것도 '죽어도 거기는 안 간다'는 생각들을 하기 때문일텐데,

인력을 못 뽑아 진작에 망했어야 할 곳들이 외국인 노동자들을 받아서 지난 10~20년간 명맥을 유지했다.

 

지난 7월 14일 한국은행 이창용 총재님 설명대로 한국이 산업 구조조정에 실패해서 아직도 제조업을 붙잡고 있는게 문제인데,

그나마 중국 특수가 있어서 10~20년을 더 버텼던 것을 중국 수출이 절망적으로 주저앉으니까 이제서야 깨닫고 있는 상황이 됐다.

 

큰 틀에서는 생산성 낮은 제조업이 망하고 고급 인력들을 쓰는 선진국형 서비스업, R&D 산업으로 넘어가야하고,

회사 내부적으로는 '정치질', '화려한 보고서'로만 버티는 인력들을 직장 밖으로 내쫓아야 한다.

'ㅈ소기업'들은 인건비가 저렴한 동남아 일대로 일괄 이전하고, 국내에는 고급 인력들 위주로 돌아가는 직장이 남아야 하는데,

가만 보면 그게 미국, 영국, 프랑스 같은 선진국들 상황이다.

 

오바마 대통령이 스티브 잡스에게 '미국에서 아이폰을 만들 수 없냐?'고 질문했을 때

스티브 잡스가 단칼에 'That's not gonna happen'이라고 잘랐었다.

미국에서 기술력을 갖고 디자인까지 완성한 다음, 인건비가 저렴한 중국에서 조립하는 구조를 유지할 수 밖에 없다는 것이다.

안 그러면 지금도 비싸다고 욕 먹는 아이폰 가격이 지금보다 5배, 10배는 더 뛰어버릴 것이다.

 

그냥 코테만 통과하면 된다?

다시 위의 표현으로 돌아와보자.

대기업가는데 저런 거 필요없다. 코테만 통과하면 된다

아마 구글, 애플, 마소 같은 곳들이 커뮤니티 칼리지 출신 인도 개발자들을 7~8만 달러에 미국에서 채용하는 이유는,

인도 같은 곳에 완전히 외주로 넘겼을 때 자칫 보안 문제가 위험해질 수 있다는 판단 때문일 것이다. (그 외에 커뮤니케이션 비용 등등 다른 이유가 더 있을 것 같은데, 잘 몰라서 미안하다)

 

그런 인력 운용 문제까지 해결되면 굳이 미국에서 7~8만 달러 연봉을 지급하는 대신 50만 루피 (대략 6천 달러) 연봉을 주면서 인도 현지 채용을 해도 되지 않을까?

참고로 인도의 1인당 GDP는 2021년 기준 2,256달러다. 50만 루피는 몰라도 100만 루피면 지원자가 구름떼처럼 몰릴 것이다.

실제로 미국 빅테크 기업들의 대형 R&D팀이 인도 뱅갈로르 같은 곳에 여럿 배치되어 있다.

애들 인터뷰하는걸보니 나도 회사 좀 더 커지고 나면 인도에 R&D팀 만들고 싶더라.

 

내가 한국인이니까 한국인 뽑아쓰고 싶지만 우리나라 IT업계 주요 기업들 다닌다는 사람들이 운영하는 스터디 블로그를 보면

유럽 주요 명문대나 SIAI에서 학부 2학년한테 가르치는 내용을 못 따라와서 쩔쩔매고 있다는게 눈에 보인다. 그런 애들을 왜 쓰지?

저 스터디 하는 분들이 다루는 내용이 위에 링크 건 SIAI의 학부 2학년 or MBA 첫 학기 기말고사에 다루는 내용인데,

명문대 교육없이 자기들끼리 스터디만해서 저 기말고사 문제를 A학점대로 풀어낸다면 기적이라고 자신있게 말할 수 있다.

그런 고급 교육을 받아도 못 풀고 학교에서 쫓겨나는 애들을 학위 과정 중에 수십 명도 더 봤었기 때문이다.

코딩, 단순 개발이야 혼자 공부해도 아무 상관없지만, 저런 지식은 스터디 따위로 해결되는게 아니라, 논문을 시험문제로 만드는 명문대 고급 교육과정을 살아남는 극소수만이 현장에 쓸 수 있는 지식이 된다.

 

'대학에서 배운 건 현장에서 전혀 쓸모없다'는 생각을 하는 국내 기업과, '어떻게 저렇게 대학 교육을 현장에서 쓰지?'라는 생각이 드는 글로벌 탑 기업들의 결과물들에서 그 차이를 느낄 수 있을 것이다.

이런 관점에서, 다닌 학교가 그런 고급 교육을 한 학교, 그 교육에서 살아남은 인재를 뽑아야지, 막연히 '너무너무 하고 싶다'며 스터디 중에 '어렵다'고 징징대는 상태인 직원을 왜 뽑아야하나?

이런 지식 & 응용은 0.99일 때는 아무런 소용이 없기 때문에 '쓸모없다'고 무시하는 반면, 1이 되는 순간 어떻게 써야하는지가 '직관'이 되어 술술 흘러나온다.

1이 된 적이 없으니 내 말이 거짓말 같겠지만, 그래서 여기저기서 SIAI 교육을 다들 욕을 하는거겠지만, 날 믿기 싫으면 글로벌 탑 기업들의 결과물에라도 설득이 되길 바란다.

 

그나마 저 분들은 한국이라는 악성 토양에도 불구하고 저런 지식이 필요하다는 걸 깨달았으니 한국 평균보다는 훨씬 나은 상황인데,

'스터디'에 시간 버리지 말고 하루 빨리 괜찮은 학교로 유학가서 고급 교육을 받으시길 바란다.

국내 대학 중에 당신이 알아야 하는 지식을 가르치는 곳은 없다고 잘라서 말할 수 있다.

학부에서 그거 가르치면 벽치기, 대학원에서 가르치면 학벌 세탁하러 왔던 애들이 다 도망가니까 실력파 교수들이 포기한지 오래됐다.

실력있는 교수님들 대부분도 생활인이기 때문에 먹고 살려고 프로젝트에 집중하지, 그런 고급 교육 자료 만드실 시간도 없다.

당신이 '스터디'에 그렇게 시간만 버리고 있는 사이에 고급 교육을 받은 애들은 2년 석사 동안 훨씬 더 많은 지식을 쌓는다.

위의 저 3과목은 유럽대학 학부 2학년, 미국대학 학부 3학년 교육에서 고작 3개월치 교육 분량 밖에 안 된다.

몇 년 안에 그렇게 고급 교육 받은 애들이 치고 올라올텐데, 아무리 한국이 기술 후진국이어도 그런 애들 놔두고 당신을 써야 할 이유는 빠르게 사라질 것이다.

 

위의 극소수 예외를 제외하면 대부분 국내 4년제 대학 출신들이 저렇게 '코테만 통과하면 된다'라는 관점으로 대학을 다녔다면,

사실상 4년제 대학에서 가르치는 수학, 통계학 기반의 고급 학문을 이해할 수 있는 역량이 전혀 갖춰져 있지 않다고 판단해도 무방할 것이다.

 

내가 평생의 내공을 쏟아 만든 교육이 쓸모없다고 비난하는 사람들에게 딱히 좋은 감정이 생길 수는 없지만,

한편으로 생각하면 저들도 피해자들이다.

그리고 그 원흉은 데모질만 하고 공부는 하나도 안 했던 586, 686들이고.

그들이 대충 적당히 논리만 따져보면 충분한 수준의 지식으로만 세상을 살아온 탓에 우리나라 기업들이 기술 후진국에서 한 발도 더 나가지 못했다.

삼성 같은 대기업이 20년간 전사적 역량을 동원해 키운 반도체, 현대자동차가 20년 올인해 키운 자동차 정도가

해외에 수출 경쟁력을 갖춘 상품들이고, 그 외에는 영미권 학부 저학년 수준 교육을 '스터디'하는게 국내 탑급 기업 직원들 수준이다.

기업 기술력을 벤치마킹해도 시원찮을 판국에 고작 학부 저학년 수준 자료를 담은 '블로그' 들을 읽고 '스터디'를 하는게 한국에서 1등회사라는 곳들을 다니는 분들의 현주소인데 글로벌 경쟁력을 어떻게 갖추지?

바보 10,000명 모으면 천재 1명 나오나?

 

예전엔 대기업 오너들이 깜깜이들이라 한국을 이렇게 골로 보내고 있다, 정치인들이 싸움질만해서 나라가 어디로 가고 있는지도 모른다고 생각했었다.

요즘은 정치인은 여전히 면죄부를 주고 싶진 않지만 최소한 대기업 오너들은 피해자라고 생각이 바뀌었다.

나도 뭘 하나 해보려면 인력을 못 뽑겠고, SIAI 학생으로 와 있는 대기업 직원들 이야기를 들어봐도 거기 사정이 딱히 다르지 않기 때문이다.

인력이 없는데, 애들이 다들 '코테만 통과하면 된다'는 생각에만 빠져 있는데, 어디서 A급 인력을 뽑아서 일을 시키지?

나처럼 이것저것 다 공부하려면 젊은 시절 인생 10년을 버려야 하는데, 대기업 오너들이 무슨 시간이 있어서 10년씩 인생을 버리나?

그냥 당장 돈 되겠다 싶은 사업에, 당장 써 먹을 수 있는 인력들 붙여보는게 기술 후진국인 한국에서 낼 수 있는 최대치겠지.

 

해결책? Difficult(어려운 업무)라서 3D 업종이 된 일을 할 수 있는 인재 양성 

예전엔 3D 업종이라고 하면 나와는 아무런 관련이 없는 업종이라고 생각했었다.

여전히 Dirty, Dangerous는 관련이 없는 업종인 것 같긴 한데, 요즘은 Difficult 부분에서 좀 의문이 든다.

내가 직원들에게 요구하는 일들이 내 눈에는 쉬워서, 귀찮아서, 이런건 너네가 좀 해라고 휙 던져주는 업무에 불과한데,

내가 하는 효율의 5% 만들어내기도 힘들어하는게 보이니까, Difficult라는 단어가 머리 속을 떠나질 않더라.

내가 시키는 일도 3D인가?

 

글로벌 시장 도전 가능한 제품을 만드는게 한국에서 3D 업무 중 하나라면, 그 원인은 어디에 있을까?

 

웃기는 사실은, 미국, 영국 같은 A급 선진국을 지탱하는 초A급 기술 인력들 중에 인도, 중국 같은 아시아 인력들이 엄청나다는거다.

자국에서 자신의 역량을 다 쓸 수 있는 기회를 못 찾아서 나라를 탈출한 애들. 그런 애들로 그 나라들이 기술 선진국 위치를 유지하고 있다.

저 위의 살아남은 3명은 국책연구원 중에 유학파 박사들 모인 곳이 아닌 그 어떤 국내 직장을 가도 인력들 수준 때문에 충격을 먹을 것이다.

 

인재 유출을 막으려면 이 나라에 그런 초A급 기술 인력들이 갈 만한 직장을 만들어야 한다.

닭 잡는데 직지심체요절을 쓰는 그런 황당한 인력 배정하는 직장이 아니라.

그런데, 당신들 모두가 그런 인재가 아니라서 어디에 어떻게 그런 인재를 써야하는지 조차도 모른다.

 

글로벌 경쟁력을 갖추는 해결책?

3D가 된 Difficult 업무를 할 수 있는 인재를 길러내면 된다. 전 인구의 1% 정도만. 나머지는 어차피 막노동이잖아.

1%의 알짜 인재들만 시장에 진입할 수 있으면 한국 사회의 기술 부채 문제를 대부분 해결할 수 있다. 그 1%만.

그 1%들이 한국에 안 들어오고, 정부 산하 연구소로만 도망가는 그 현실을 깨뜨릴 수만 있으면.

Picture

Member for

5 months 4 weeks
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

중소기업 71% "올해 신규인력 채용계획 있다" 다만 기업규모별 양극화는 깊어지는 중

중소기업 71% "올해 신규인력 채용계획 있다" 다만 기업규모별 양극화는 깊어지는 중
Picture

Member for

5 months 4 weeks
Real name
한세호
Position
기자
Bio
[email protected]
세상에 알려야 할 수많은 이야기 가운데 독자와 소통할 수 있는 소식을 전하겠습니다. 정보는 물론 재미와 인사이트까지 골고루 갖춘 균형 잡힌 기사로 전달하겠습니다.

수정

사진=게티이미지

중소기업 10곳 중 7곳은 올해 신규 인력 채용 계획이 있는 것으로 조사됐다. 지난해 조사와 비교할 때 채용을 고려하는 기업 비율은 소폭 줄었지만, 평균 채용계획 인원은 오히려 늘었다. 특히 제조업 생산직에서 인력 수요가 가장 높았던 것으로 나타나며 팬데믹 이후 중소기업 고용시장 내부에서도 양극화 현상이 나타나고 있는 것으로 보인다.

지난해 대비 채용계획 기업은 5.6% 하락

중소기업중앙회가 지난 4월 ‘참 괜찮은 중소기업’ 플랫폼에 등재된 중소기업 1,031개사를 대상으로 실시한 ‘2023년도 채용동향조사’ 결과를 14일 발표했다. 조사결과 응답기업의 71.0%가 신규 인력 채용을 계획하고 있다고 답했다. 지난해 같은 조사에선 응답기업의 76.6%가 채용계획이 있다고 답한 것과 비교할 때 채용을 고려하는 기업의 비율이 소폭 줄어든 셈이다.

그러나 기업당 평균 채용인원은 상반된 양상을 나타냈다. 올해 채용 규모는 평균 6.6명으로 지난해 4.3명보다 2.3명이나 더 늘었다. 채용 규모를 확대한다는 응답(27.4%)도 규모를 축소한다는 응답(9.7%)보다 높았다. 지난해와 유사한 수준이라는 응답은 62.9%였다.

한편 채용계획이 있는 기업 가운데 37.6%가 경력직을 선호했고, 별도 자격을 요구하지 않는다고 응답한 비율도 41.4%로 높았다. 아울러 올해 인력운용현황에 대한 설문에서는 과반수(55.7%)의 중소기업이 인력 상황이 적정하다고 응답했다. 필요인원 대비 재직인원 비율은 평균 90.9%로 전년 대비 8%p 증가했으며, 필요인원의 ‘100%’ 이상을 채용한 기업 역시 49.9%로 지난해(29.3%)보다 증가했다. 이는 코로나19 방역조치가 완화됨에 따라 고용 상황이 점차 회복되는 것으로 풀이된다.

팬데믹 이후 회복되는 고용시장에 나타난 양극화 현상

고용시장 전반이 회복되고 있지만, 중소기업계 내부에서도 양극화 현상이 깊어지고 있다. 특히 기업 규모가 클수록 신규 직원을 채용하는 현상이 두드러졌다.

채용 계획이 있는 기업별 규모를 따졌을 때 300인 이상 기업이 82.6%로 가장 많았다. 이어 △100~299인 82.6% △50~99인 74.4% △10~49인 67.4% △10인 미만 52.6% 순으로 신규 직원 채용 계획이 있다고 답했다. 지난해 조사에서 기업 규모와 상관없이 신규 채용계획을 가진 기업 비율이 모두 70%대를 넘어섰던 것과 대조적이다.

특히 직무별로 살펴보면 생산직의 채용 계획이 44.7%로 가장 높았다. 팬데믹에 따라 고용 규모를 대폭 축소했던 제조업 중심으로 활발히 채용이 이뤄지고 있는 것으로 보인다. 그 뒤로는 연구개발·생산관리(32.8%), 기타(20.8%), 국내외영업·마케팅(20.1%) 순으로 높았다.

한편 정부와 지자체의 청년 취업 지원 정책 등이 중소기업의 신규 채용규모 확대에 영향을 줬다는 분석도 나온다. 실제 정부는 올해 청년 지원 제도 전반을 정비하며 청년들의 고용 확대를 위한 ‘청년 일자리 지원 제도’를 확대했다. 이 가운데 청년들의 취업 촉진을 위해 취업 수당과 인센티브를 지급하는 ‘청년도전지원사업’과 기업들의 청년 고용 확대를 유도하기 위한 ‘청년일자리도약장려금 제도’ 등이 대표적인 정책으로 꼽힌다.

청년 실업률 개선되고 있지만 불안정한 일자리위주

올해 들어 청년 실업률의 개선세가 두드러지고 있다. 지난달 2일 통계청에 따르면 올해 1분기 만 15∼29살 청년 실업률은 6.7%(청년 경제활동인구 417만 명 중 실업자 27만9천명)다. 이는 1999년 6월 이래 역대 1분기 가운데 가장 낮은 수치로, 코로나19 기간인 2021년 이후 매 분기 개선되고 있다.

다만 이 같은 개선세와 달리 청년들의 고용 안전성을 오히려 낮아지고 있다. 청년 취업자의 산업별 취업 분포를 살펴보면 ‘숙박 및 음식점업’이 올 1분기 청년 취업자 수 증가세의 높은 비중을 차지했다. 지난해 3월 기준 청년 취업자수가 55만3천명이었지만 올해 3월에는 64만3천명으로 9만 명이나 늘었다. 반면 상대적으로 양질의 일자리로 꼽히는 제조업과 도매 및 소매업은 지난해 3월보다 각각 5만 명, 7만6천명 줄었다.

근로 계약기간을 살펴봐도 일자리 질이 나빠지고 있음이 드러난다. 올해 3월 근로 계약 기간이 1년 이상인 청년층 상용 근로자(249만3천명)는 지난해보다 4만5천명 감소한 반면, 계약 기간 1개월 이상∼1년 미만인 청년 임시직(106만8천명)과 계약 기간 1개월 미만인 청년 일용직(13만8천명)은 각각 1만3천명, 1만 명 늘어났다.

나아가 실업자 통계에 포함되지 않는 ‘그냥 쉬는 청년’도 급증하고 있다. 올해 1분기 자신의 활동 상태를 ‘쉬었음’이라고 답한 청년 수는 전년 동기 대비 5.1% 늘어난 45만5천명으로 1분기 기준 역대 최대치를 기록했다. 한국노동연구원 관계자는 “과거 쉬는 인구에는 정년퇴직이나 건강상의 이유를 가진 고령층 비중이 높았지만, 현재는 청년 비중이 급증하는 추세”라며 “청년들의 일자리 질을 개선하기 위한 정책과 고용 정책에 더욱 적극적인 지원이 필요할 것으로 보인다”고 강조했다.

Picture

Member for

5 months 4 weeks
Real name
한세호
Position
기자
Bio
[email protected]
세상에 알려야 할 수많은 이야기 가운데 독자와 소통할 수 있는 소식을 전하겠습니다. 정보는 물론 재미와 인사이트까지 골고루 갖춘 균형 잡힌 기사로 전달하겠습니다.

[대학원] 한국에서 교수하지 말아야 할 이유 - 대학원생 퀄리티

[대학원] 한국에서 교수하지 말아야 할 이유 - 대학원생 퀄리티
Picture

Member for

5 months 4 weeks
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

S대 학석박 후 포닥 과정 밟고 있는 SIAI 학생의 제보다


이야기를 들어보니 MIT 학부 신입생들은 XX통계 첫 시간에 heteroskedasity를 배운답니다. 선형회귀 기본 정도는 알아서 떼고 오고, 가우스-마르코프 기본가정들은 숙지해오라는 것이겠지요. 케임브리지 XX학과 신입생들은 첫 시간에 ANOVA를 배우고 벡터공간에서 직각삼각형 형태로 분산이 해체되는 직관을 배운다고 합니다. t-test까지는 알아서 공부해오라고 하고요. UC 버클리 XX통계는 전반부에 PCA, 시계열까지 다 떼고, 후반부는 실제 데이터셋으로 트레이닝합니다.

S대 XX는... 제가 석사생들 붙잡고 평균, 분산 가르쳐야 합니다. XX에 XX통계가 없어서 사회과학대학까지 가서 듣고 오는데, 대학원생 대상 '고급 통계학' 중간고사가 겨우 1변수짜리 단순선형회귀까지 다루고, 기말고사까지 행렬 한번 안 나옵니다.

S대 학부생들도 기본 머리는 있으니, 제대로 공부를 시키기만 한다면 분명 할 수 있을 거라고 생각합니다. 그런데 해외에서 진짜 고등교육이 무엇인지 깨닫고 오신 교수님들이 무엇 하나 해보려고 해도, 학생들이 따라주지 않습니다.

프린스턴에 계시다 오셔서 시험에서 '4점' 주신다는 유기화학 교수님, 학생들에게 평가를 이 따위로 (https://phdkim.net/professor/949/info/) 받고 계십니다.

워싱턴대 박사, MIT 포닥 하시고 오신 생물정보학 교수님은 학생들이 연단에서 울어버릴 만큼 철두철미한 크리틱을 하면서 발표, 토론 수업을 하시는데, 학생들한테 이런 소리나 듣고 계십니다 (https://phdkim.net/professor/976/info/).


잘 가르치면 학생들이 안 오죠

내가 저 전공 출신이 아니니까 자신은 없지만, 미국 명문대라고 학부 신입생이 고교 시절에 이미 다 배우고 오는건 아니고,

대신 진도가 정말 미친듯이 빨리 나간다.

한국에서 교과서 1권 다 떼는 수업 들어본 적이 없는데, 탑스쿨들은 진짜 몇 권을 다 떼더라고.

하나 더, 학부 수준에 듣는 공통 기초통계? 정도에서 실제로 회귀분석 다뤄주고, 전공 수업에서는 자기 전공에 맞도록 추가적인 통계지식을 더 배우는데,

아마도 저 박사 분이 말씀하시는게 자기 전공에 배정된 학부 고학년 통계학 수업들을 말하는 것이리라.

 

링크 걸어주신 김박사넷에서 두 교수님에 대한 평가들을 보게 됐는데, (아래에 스크린 샷 달아놨다)

'잘 가르치면 학생들이 안 오죠'라고 하셨던 어느 명문대 교수님이 생각났다.

저런거 가르치고 교수라고 목에 힘주는가 싶어서 인연을 끊었던 교수님이다.

 

주변에 가깝게 지내는 교수님들 보면 대부분 대학원생이 없어서 연구하기가 너무 힘들다는 분들인데,

나도 성격이 성격인 사람이라 연구 역량보고 가려서 교수 인맥을 유지하다보니 까탈스럽게 사람을 고르는데,

한국 땅에 계실 이유가 전혀 없는데 여러 사정으로 한국 오신 교수님들이 다들 '학생들한테 왕따 당하고' 있구나는 생각,

'욕은 나만 먹는게 아니었군ㅋㅋ' 같은 일말의 안도감 같은 걸 갖게 됐다ㅋㅋㅋ

 

연구하고 싶으면 한국오지 마라

내가 석사 논문 주제랍시고 처음 갖고 갔던 논문을 교수님의 천금같은 시간을 써서 설명드리던 날,

I will stop you right there.

이러면서 내 설명을 가로 막더니,

I can only see a single variable regression, and I do not like to hear you anymore.

이어 내가 갖고 있던 자료를 밀어 던지며 자기 주변에서 날 몰아내시더니, 내 얼굴을 보며

We are not stupid right? If we were stupid, we shouldn't be here right?

이렇게 쏘아 붙이셨는데, 아마 평생 못 잊을 경험 중 하나일 것이다.

 

이분은 하버드 박사 출신이고, 연구자들 사이에 최상위권 논문지들을 일컫는 A 저널들에 연간 3-4개의 논문이 꾸준히 나오는 분이다.

자식 교육이다 뭐다 바빠서 별로 시간이 없어서 많이 못 쓴다고 수업 시간에 가끔 농담하셨던 기억이 난다.

당시엔 나도 그렇게 무시당하니까 진짜 열 받았고, 저녁 먹으러 나와서 아무 생각없이 입에 음식만 부어넣고 있으니까,

석사 동기들이 'Did you meet XXXXX just before?' 이러면서 먼저 어떤 사건이 있었는지 눈치채더라ㅋ

다들 그렇게 정신 폭격(?)을 맞았나보더라고ㅋ

 

국내에서 교수로 계신 선배님들이랑 가끔 이런 이야기를 하면, "한국서 그러면 김박사넷에 폭격 달려"라고 그러시던데,

진짜 김박사넷에 폭격이 달려있네ㅋㅋ

 

그 분들이 대부분 한국에서 연구 조교를 못 찾아서 어려움이 많은 분들이다.

그리고 저 댓글들 사정을 보니 아마 한국에서 연구 포기하셔야 될 것 같다.

제대로 연구하도록 도와주니까 연구실에 아무도 안 오고, 김박사넷에 썅욕만 달리잖아?

 

박사 갈 때 선배님들이 연구하고 싶으면 한국 오지 마라, 직장가고 싶어도 한국 오지 마라고 하셨는데,

직장이야 나도 이미 경험하고 유학 나갔던거라 백분 공감이 됐었지만,

연구는 이번에 절실히 깨닫는다. 한국에서 연구 못하겠네. 사람이 없어서.

내 경험담

우리 SIAI에 온 S대 컴공과 박사 + 대기업인 분이 한 분 있다.

계산비용 절감하도록 계산 기법 몇 개를 골라 비교하는 'Computational Efficiency' 주제를 강의했던 날,

다른 학생들은 다들 개념 이해에 도움되는 질문들을 하고 있었는데 느닷없이

"Does this make great change?"

라고 질문하길래, 이건 도대체 무슨 황당하기 그지 없는 질문이냐는 생각을 했던 분이다.

그 이외에도 통계학 훈련이 전혀 안 되어 있는지 t-Test를 조금만 변형해도 질문이 올라오고, F-test도 모르고....

 

아마 내용이 조금이라도 이해 됐다면 'A에 적용할 수 있을까?', '그럼 XYZ라는 효과가 나온다고 할 수 있을까?' 같은 질문을 했겠지.

내용 이해도가 굉장히 빈약했기 때문에 '(내용은 잘 모르겠지만) 이걸로 뭐 엄청난 혁신 있나요?' 같은 질문이 되어 버렸을 것이라고 추측하면 너무 학생에 대한 모욕인가?

모욕으로 듣는다면 미안하지만, 반대로 실컷 고생해서 가르친 사람 입장에서 저런 질문을 그냥 길거리 평범한 사람도 아니고 SIAI 학생에게 들으면 모욕으로 느껴진다.

 

난 그래도 최대한 'We are not stupid right?' 이런 말 안 하려고 노력했지만,

아무리 노력해도 내가 정말 화가 잔뜩 나 있던게 표가 났었는지 학생들 모임하는 날 찾아와서는 화를 내고 가시더라.

마음씨가 착한 분이어서, 사실 그것보다 S대 공대가 제대로 교육을 못 시킨 탓에 그렇게 혼자 끙끙 앓으며 감정 상하는 중인데,

화를 억누르고 열심히 공부하는 에너지로 승화시키게 되시길 빈다.

 

조금 변명 해 드리자면, 그간 공대 출신들에게 저런 질문들을 너무 많이 받았고, 저렇게 불편한 이해도로 날 도매금으로 비난하고 모욕하는 분들을 헤아릴 수 없이 많이 봤다.

그 분들 탓에 내 마음 속에 생긴 국내 공대 출신들에 대한 격한 감정만큼이나 학교 교육이 A박사님의 지식의 공간에 채워 넣을 수 없는 큰 공백을 만들어 놨을 것이다.

요즘은 그런 분들에 대한 감정을 가라앉히고, 그들도 내가 15년 전까지 그랬듯이 한국 교육의 피해자라고 생각하고 산다.

 

돌이켜보면 나도 그 폭언을 들은 날 이후로

"I'm stupid right? I am not supposed to be here right?"

이렇게 자괴감 가득 섞인 자학 개그를 하면서 어떻게든 실력을 끌어올리려고 노력했다.

 

지적 받았던 석사 논문은 나중에 박사 학위 중에 우리 단과대 대학원생들 대상으로 한 Panel data 수업을 만들 수 있는 동력이 됐고

심지어 그 수업 중에 만들어 뿌렸던 연습문제들은 단과대 교수님들 몇 명이나 찾아와서 답안지도 받아갔고,

단과대의 다른 과 교수들 앞에서 발표 형태의 강의를 하게 됐을만큼 내 인생에 알찬 지식이 됐었다.

 

더 멀리 보면 Panel data를 극복한 이후로 계량경제학을 넘어 AI라고 불리는 계산통계학 계산법들까지,

이쪽 관련 주제들은 쓱~ 보면 바로바로 이해하고 데이터 별로 사용 방식이 바로바로 정리될만큼 시야가 완전히 열리게 되기도 했다.

그 폭언듣고 절치부심했던 1주일 간 쑥과 마늘을 먹은 나와 그 전의 아무 생각없던 나는 지적으로 완전히 다른 사람이 됐다고 해도 과언이 아니다.

 

한국에서는 굳이 욕심내지 말고 맞춰줘라?


옥스퍼드 계시던 토종 잉글랜드 백인 교수님이 저희 학부에 부임하셔서 몇 년 강의하신 적이 있습니다. 대학원 수업이었는데 참 쉽고 재미있고, 제게는 심지어 대학원 시험에서 나올 리가 없는 '100점 만점' 을 주시기까지 했습니다. 아무것도 모르던 시절에는 역시 명문대 교수님이라 강의도 명강의고, 학생의 잠재력도 알아봐주시는구나 싶었습니다.

한참을 지나 SIAI에 들어와서야, 대표님 수업이 도저히 이해가 안 되어서 온갖 학교의 course material을 다 뒤져보고 나서야, 옥스퍼드 학생들이 무슨 책으로 어떻게 공부하는지 알고 나서야, 그게 인종차별인 줄을 깨달았습니다.

아니, 근거가 있는 차별은 어쩌면 그냥 합리주의라 해야 할지도 모르겠습니다.

너는 교과서를 다 읽었구나, 한국인의 상한선은 너니까, 너보다 높은 점수는 준비할 필요가 없겠구나.... 그게 그 교수님의 마음이었겠지요.


 

인종차별? 인지는 잘 모르겠고, 그냥 학교 차별, 학생 차별이라고 생각한다.

아마 저 분도 한국와서 잘 모르고 '정상적인' 강의를 준비했다가, 아마 저렇게 '조정'하는 시간을 거치셨을 것이다.

 

SIAI에 대해서도 어이없는 비난을 볼 때마다 이런 사기는 고소해야겠다는 생각도 많이 했었는데,

굳이 욕심내지 말고 맞춰줘야 욕을 안 먹고 '융화되는' 삶, 고소 비용을 아끼는 삶을 살 수 있는가보다.

국뽕 유튜버 하면서 한국이 전 세계적으로도 엄청나게 수준 높은 교육을 하는 나라라고 자랑해야 칭찬 듣는거겠지?ㅋㅋ

 

저 학생이 수업 이해하려고 찾아보다 SIAI 강의 자료들이 하버드, MIT, 스탠퍼드, Uof시카고 같은 명문대 강의들과 겹치는 부분이 많은 걸 발견했다고 하던데,

명문대 강의 자료들이랑 겹친다는 평을 내 입으로 읊는다는게 '자뻑'인 것 같아서 좀 민망하지만,

2류 대학 수준으로 '조정'하는 강의 안 하고 최상위권 대학 수준으로 '정상적인' 강의를 고집했다는 내 의지만은 이해해주시면 좋겠다.

 

국내 대학들 들어와서 연구에 손 놓고 있는 교수님들 몇 분들이랑 가끔 한국 교육 수준을 갈아엎어야 된다고 이야기 하다보면,

결국 원인은 학생들이 쉽고, 편한, 널럴한, 배워봐야 도움 안 되는 교육에 안주하고 있어서니까, 그들이 하는대로 받는거라고 결론을 내린다.

일선 대학 계시는 교수님들 중에 대단한 분들 은근 많은데, 그 분들이 열정을 다 잃도록 만들어놓고 좋은 교육을 바라면 되겠니?

 

'잘 가르치면 안 오죠'

군부 독재에 쿠데타 한 번 일으킬 줄 모르는데 무슨 자격으로 자유민주주의를 누릴 수 있으랴.

Picture

Member for

5 months 4 weeks
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

챗GPT, 언어 기반 노동시장엔 고급 인력만 남기고 다 내보내게 될 것

챗GPT, 언어 기반 노동시장엔 고급 인력만 남기고 다 내보내게 될 것
Picture

Member for

5 months 4 weeks
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

지난 12일, 데이터 사이언스 경영학회 세미나에서 최근 이슈가 된 챗GPT가 기반하고 있는 대형언어모델(Large Language Model, LLM)의 방법론을 풀어내는 설명과 함께, 활용법이 노동 시장을 바꾸는 부분에 대한 예상을 정리했었다.

구글 검색을 해보니 챗GPT가 출시된 지난해 11월부터 올해 5월 초까지 무려 433,000개의 뉴스 기사가 'chatgpt'라는 검색어에 걸렸다. 뉴스 업계에서 광고 기사 1개 내는데 지불해야하는 비용을 감안하면 수십조원의 광고 비용을 쓴 것이나 다름없을만큼 화제가 됐다는 뜻이다. 한국어로도 구글 검색 기준 무려 16,600개의 기사가 검색이 됐다. 영어권과 한국어권의 기사 공급량의 차이를 감안해도 한국에서 큰 화제가 되었다는 것을 보여주는데 큰 무리는 없는 수치일 것이다.

챗GPT는 현실과 타협한 모델이다?

많은 분들이 챗GPT가 지난 2016년에 큰 화제가 됐던 알파고보다 훨씬 더 진화된 새로운 인공지능 모델이라고 생각하시는 경우가 많다. 그러나 챗GPT가 기반하고 있는 GPT-3.5, 혹은 최근에 추가된 GPT-4가 기존의 GPT-3 대비 얼마나 더 많은 매개변수를 처리하고 있는지에 대한 정보가 알려져 있지 않은 탓에 막연히 더 복잡해졌을 것이라는 짐작만 하고 있다.

실상은 GPT-3.5부터 GPT-3과 완전히 철학적으로 다른 접근으로 모델을 만들었기 때문에 더 이상 매개변수의 숫자가 무의미한 탓에 외부에 공개될 필요가 없었기 때문이다. 일반적인 공학도들이 자동화 시스템을 만들 수 있을 것이라는 맹목적인 믿음을 갖고 있는 경우가 많은데, GPT-3까지만 해도 데이터 처리 용량을 무한대로 늘릴 수만 있다면 그런 자동화의 종착역인 '강인공지능(Artificial General Intelligence, AGI)'을 만들어 낼 수 있을 것이라는 믿음이 깔려 있었다. 그러나 GPT-3.5부터는 일반화를 위해 모델을 대형화하는 것을 포기하고, 특정 업무에 초점을 맞추고 관련된 데이터를 투입해 특화된 모델들을 매우 방대하게 늘리는 것으로 관점을 바꿨다.

기존에는 1개의 AGI가 마치 전지전능한 신이 될 것이라는 기대감을 갖고 인공지능 개발을 시도했다면, GPT-3.5부터는 다양한 분야의 전공자들을 모아놓은 집단을 구축했다고 보면 적절한 비유가 될 수 있을 것이다.

일각에서는 챗GPT를 개발한 오픈AI가 매개변수 숫자와 상세 모델을 공개하지 않는다며 '클로즈드AI(Closed AI)'라고 비난하는 경우도 있으나, 개발 구조상 굳이 공개할 필요가 없었다. 알려진대로라면 GPT-1이 1억1,700만개, GPT-2가 15억개, GPT-3과 3.5가 1,750억개의 매개변수를 이용했다고 한다. 말을 바꾸면, GPT-3에서 3.5로 개선이 진행되면서 매개변수를 더 추가한 것이 아니라 모델 구성 방식을 변경한 것이다.

오픈AI는 GPT-3.5대비 GPT-4의 장점을 정확성과 확장성이라고 설명한다. 각 분야 전공자들이 더 학습한 상태, 그리고 더 많은 전공자를 모은 상태라고 보면 된다.

각 분야 전문가 중 어떤 전문가가 더 적합한 질문인지 선정하는 방식

만능AI라고 착각하는 경우가 많은 탓에 세미나 중에도 공감하지 못하는 비수학 전공자들의 질문이 이어졌는데, 오픈AI에서 챗GPT를 소개하며 제공한 그림을 활용해보자. 1단계에서 SFT(Supervised Fine-Tune)모델을 선별된 데이터로 학습 시킨 후, 2단계에서는 어떤 모델이 더 좋은지 인간 사용자가 서열을 지정하는 방식으로 모델을 만든다. 이후 3단계에서는 실제로도 효과가 좋았는지 확인하는 과정을 거치며 미세보정하는데, 2,3단계를 반복하다보면 적절한 모델을 고르고, 그 모델이 좀 더 정확해질 것이라는 기대가 깔린 모델이다.

이 때 핵심은 1단계에서 만드는 SFT다. 비록 3단계에서 SFT의 정확도를 좀 더 끌어올리는 작업이 진행되기는 하지만, 2단계에서 인간 사용자가 골라준 모델을 개선하는 것이기 때문에, 인간 사용자 입장에서 확인하는 정보는 1단계에서 만들어진 SFT 밖에 없기 때문이다.

SFT의 중요성을 설명하기 위해 잠깐 챗GPT를 벗어나 과거 사례를 갖고 오면, 구글이 이미지 인식을 검색 서비스로 제공하기 위해 했던 도전 중 하나가 데이터 분류였다. 사자, 호랑이, 사슴 등등의 이미지들을 인간이 최대한 분류해놓고, 해당 이미지들로 각각의 특징 이미지에 맞는 훈련을 시켜 사자, 호랑이, 사슴 등등의 이미지를 매우 높은 정확도로 구분해낼 수 있는 알고리즘을 만든 후, 각 타입별 알고리즘을 결합한 모델을 만들면 다양한 이미지를 인식할 수 있는 통합형 알고리즘이 된다.

챗GPT도 SFT를 세분화해서 각각의 주제에 대해 학습된 알고리즘을 만든 후, 2단계에서 인간 사용자가 적절한 SFT를 골라 3단계에 넘겨주는 방식으로 구성이 됐다.

기존 예상과 사용자 반응을 결합해 정확도 개선하는 모델

이 부분에서 AGI에 맹목적인 믿음을 갖는 관계자 분들이 납득할 수 없다는 반응을 보이셨는데, 실제 논문에서 가장 핵심 중 하나인 기본 수식으로 돌아가보자.

GPT 모델에서 쓰는 최적화 계산은 크게 2개 부분으로 나뉘어 진다. 위의 이미지에서 (2)번 목적함수로 나타난 식의 앞 부분은 2,3단계에서 얻은 사용자 반응값으로 모델을 미세조정할지 여부를 결정하는 부분이고, 뒷 부분은 SFT가 기반하고 있는 기존 데이터 정보(Pretrain)를 어느 비율로 쓸지를 결정하는 부분이다.

2, 3단계에서 특별히 개선사항이 없다면 1단계의 SFT에 의존하게 되고, 변동사항이 있는 부분만 최적화에 추가로 반영된다.

논문 저자들은 SFT를 과거의 다양한 GPT들과 비교했고, 약 1백만개의 데이터를 활용해 적절한 SFT를 만들어냈다고 설명한다. SFT 이후에는 인간 사용자가 2단계에서 적절한 SFT를 선택하는 것 이외에는 컴퓨터 계산을 반복하는 작업을 통해 SFT를 미세 보정하는 것이 전부다.

사용자 반응이 일률적이지 않다면 오류 발생

문제는 인간 사용자의 피드백이 일률적으로 작동하지 않는다는 점이다.

선호 이론에서는 인간의 선호가 완비성, 이행성, 연속성, 강단조성 등의 공리(Axiom)을 충족해야 완성된 선호 체계가 구축된다고 설명한다. 공리가 깨지는 쉬운 예시를 들면, 2개의 과일 중 선호를 비교할 경우에 '사과>배', '배>오렌지' 일 경우 논리적으로는 '사과>오렌지'여야 하지만, 때때로 사람들은 '오렌지>사과'를 선택하게 되는 경우가 있다. 선호 이론에서 완성된 논리가 아니라는 뜻은 컴퓨터 프로그램으로 입력했을 때도 오류가 난다는 뜻이다.

좀 더 챗GPT와 적절한 예시를 고르면, 사용자의 특정 질문에 대해 어떤 SFT를 골라 답변을 제공해야하는지가 사용자마다 다를 수 있다는 것이다. 예를 들어 LGBTQ+라는 최근의 성소수자 보호 운동에 공감하는 사용자에게 답변하는 내용과 그런 운동에 반감을 가진 사용자에게 답변하는 내용이 달라져야 한다.

즉, 적절한 SFT를 골라야 이후 2, 3단계를 거치며 사용자가 원하는 답변을 찾아낼 수 있는 확률이 높아진다.

적절한 프롬프트(Prompt) 지정의 중요성과 그 한계점

때문에 어떤 정보를 찾고 있다는 것을 챗GPT에 알려주는 것이 2단계의 순서 정하기에 결정적인 도움을 줄 수 있다. 영어권에서는 유명 작가의 이름을 지정하며 해당 작가의 글쓰기 스타일로 예시 문장을 뽑아달라고 지정하거나, 특정 개발 언어의 특정 프레임워크에 맞춰 코드를 생산해내달라고 명령을 내리는 각종 예시가 이미 널리 퍼져있고, 프롬프트(Prompt)를 잘 지정한 경우에는 시행착오를 줄여준다는 이유로 판매 상품으로 만든 경우도 빠르게 증가하는 추세다.

실리콘밸리의 일부 스타트업은 '프롬프트 엔지니어(Prompt Engineer)'에게 375,000 달러(원화 약 4억원)의 연봉을 제시하기도 했다. 적절한 질문을 던지는 것이 그만큼 중요하기 때문이다. 이것을 위의 모델 관점에서 보면 어떤 SFT를 2단계에서 골라야 하는지 미리 알려주는 것이 그만큼 중요하다고 이해하면 된다.

반면, 아무리 적절한 프롬프트를 지정해줘도 데이터 자체가 오류일 때는 2, 3단계에서 자체 보정이 불가능하다. 이미 1단계에서 SFT가 잘못된 형태로 만들어진데다, 새로운 데이터도 잘못된 정보 밖에 없기 때문이다. 국내에 이미 알려진대로 가수 싸이의 병역 논란이나 한국 국적을 포기했던 스티븐 유의 군복무에 대해 잘못된 대답을 내놓는 것이 그 예시다.

논리적인 추론이 아니라 기존 데이터를 결합해서 답변을 만들어 준다는 점도 프롬프트의 한계점이다. 영어권에서는 간단한 연립방정식에 해당하는 문제를 제대로 답변하지 못하는 예시가 이미 여러차례 공유되고 있고, 국내 커뮤니티에서도 자료가 공유되며 챗GPT의 논리적 추론 능력에 대해서는 일반 사용자들 사이에서도 공감대가 형성되어 있는 것으로 안다.

GPT 방식의 LLM이 사용될 수 있는 곳

모델 구조를 이해하고 나면 사용처와 이용 방식을 추론할 수 있는데, 최근 뉴욕에서는 방송국들이 방송 작가들을 비정규직으로 돌리겠다고 발표해 화제가 된 바 있다. GPT를 통해 과거 방송분과 비슷한 '스크립트(Script, 방송 대사 및 무대 지정 사항 등)'를 만들어 낼 수 있는 만큼, 작가 중 아직 전문성을 확보하지 못한 초급 작가들을 쓰지 않고 실력 있는 전문 작가들 위주로 작가 팀을 운영하겠다는 뜻이다. 고도의 논리적 추론, 창의성, 직관 등이 필요한 분야에만 고급 인력을 활용하고, 그 외에 단순 반복 업무에 가까운 업무일수록 GPT로 대체하겠다는 맥락으로 이해할 수 있다.

자칫 모든 인간 업무가 인공지능에 의해 대체되는 것이 아니냐는 의문도 있으나, 한계도 명백하다. 우선 자연어, 컴퓨터 개발 언어 등의 언어 활용 분야, 혹은 정해진 패턴이 반복되는 분야에 한정된다는 점을 들 수 있다. 방송 작가, 소프트웨어 개발자 등은 초급 인력일수록 기존 자료를 재구성하는 업무에 지나지 않기 때문에 대체 가능성이 높은 반면, 논리력을 동원한 계산 업무는 GPT 방식의 LLM 모델로 도전할 수 있는 분야가 아니다.

미국 브리검영대 회계학과에서는 지난 4월에 챗GPT에게 회계학 과목 시험을 치르는 실험을 진행한 바 있다. 챗GPT의 전체 정답률은 47.4%로 학생 평균인 76.7%에 크게 못 미치는 결과가 나왔는데, 특히 세금, 재무, 관리평가 등의 논리적 추론 및 계산을 활용하는 분야에서 감점 폭이 컸다. 반면 OX문제 및 단순 객관식에서 높은 점수를 얻었고, 특히 회계학과 학생들 사이에서 암기과목으로 알려진 AIS와 감사 분야에서 우수한 성적을 얻었다.

챗GPT로 인해 생성AI에 대한 일반의 관심이 증폭되면서 각종 억측이 난무하지만, 챗GPT가 기반하고 있는 LLM 모델과 구성 방식을 이해하고 나면 적용될 수 있는 분야, 적용되는 업무 방식이 분명해진다. 위에서 정리한대로, GPT 계열의 모델들은 반복 패턴이 자주 등장하는 자연어 업무, 컴퓨터 언어 업무를 비롯, 단순 반복적인 이미지 생성 등의 영역에서 초급 인력의 시장 진입을 차단하게 될 가능성이 높다. 기업들은 컴퓨터로 빠르게 생성해낼 수 있는 콘텐츠에 많은 비용을 지불하려고 하지 않을 것이다. 반면, 논리적 추론을 필요로 하는 능력, 추론 기반의 계산이 업무의 핵심인 영역 등은 GPT 열풍으로 인력 구성이 크게 바뀔 확률은 낮다.

Picture

Member for

5 months 4 weeks
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

AI대학원 저는 말리고 싶습니다

AI대학원 저는 말리고 싶습니다
Picture

Member for

5 months 4 weeks
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

아래는 연구자들 커뮤니티로 유명한 모 웹사이트에서 본 글이다. (링크)


수 많은 AI 대학원의 위험성(?)은 다음과 같습니다.

CS 분야를 원래 전공했거나 다른 분야를 전공했지만 수학이 강한 일부 연구자를 제외하면 대부분의 AI 연구자들은 제대로 아는 것이 너무 없습니다.

공부를 열심히 하지 않는다는 뜻이 아닙니다. 급변하는 유행을 따라 경쟁적으로 논문을 쓰다 보면 연구 경험이 별로 없고, 실적이 급한 젊은 연구자 입장에서는 대학원 과정 동안 깊이 있게 공부하면서 차분하게 기본기를 익히기 어렵기 때문입니다.

논문 한 두 편을 썼다고 자신이 많이 알고 있다고 생각한다면 큰 착각입니다. 왜냐하면 (특히 응용분야에서는) 잘 알려진 다른 사람들의 연구/접근방법을 약간 바꾸는 것만으로도 논문은 얼마든지 쓸 수 있기 때문입니다. 하지만 왜 그러한 연구/접근방법이 등장했고, 어떤 조건에서 가능/불가능한지, 어떤 장단점/한계가 있는지 등을 이해하지 못한다면 아무리 논문을 많이 써도 여전히 아무것도 모른채 다른 사람들 흉내만 내고 있는겁니다.

AI가 유행일 시기에는, 진짜 고수나 대충 남들 따라하면서 흉내만 내는 AI연구자나 그 차이가 크게 보이지 않습니다.

하지만 지금의 유행이 지나고 나면 대학원 과정에서 깊이있는 지식을 갖추지 못한 AI 연구자들은 어쩔 수없이 또 새로운 유행에 올라 타야 합니다. 이 과정에서 나이는 점점 들고, 연구는 힘들어지고, 그러다보면 평생 KCI급에서 벗어나지 못합니다.

제가 나이가 많습니다. (학술적으로 매우 천박한) 대한민국에서 오랫동안 연구자로 살아 오면서 저런 모습을 주변에서 많이 봐 왔습니다.

젊은 연구자들도 한 번 고민해 보세요.


우선, 선택은 자유라고 생각해서 굳이 내 의견이나 윗 분의 의견을 따르라고 강요하는 글은 아니다. 논조가 고깝다면 무시하면 된다.

서두를 이렇게 시작하는 이유가, 저 분의 생각과 완전히 일치하는 견해를 갖고 있기 때문이다.

그간 한국에서 만나본 AI 관계자라는 분들 중에 내 기준으로 수학을 학문의 도구로 쓸 줄 안다고 생각되는 부류는, 정말 손에 꼽는다. 아니, 수학 제대로 쓰고 있으면 거꾸로 놀란다. 놀라지 말아야 할 분야임에도.

저 글 아래에 댓글들을 보면

  • 미디어와 이상한 어른들이 젊은 학생들한테 저주받은 꿈을 심어놓았죠. 지금 뛰어드는 학생들이 평범한 수준으로 졸업을 하고나서 해당 지식이 필요한 적정한 일자리가 있을지 그들은 관심이 없습니다.
  • 공감하지만 굳이 상위급 ai연구자가 못돼도 다른과 전공하는거보다 돈을 훨씬많이벌기때문에 사람이 몰리는거죠
  • 인공지능 자체는 시들 일 없음. 근데 딥러닝은 시들어질 수도 있을 듯. 딥러닝보다 더 나은 인공지능 학습 방식이 나타나면 그땐 딥러닝이 시들이지겠죠.

정도가 보인다. (나머지는 로그인 해라는데, ID 만들 계획이 없는 서비스라...)

일단 첫번째 코멘트가 나 역시도 줄기차게 해 왔던 이야기다. 그 분들은 석·박사 공부를 했음에도 불구하고 남의 방법론 거의 복붙한 논문만 있지, 실제 역량이 없기 때문에 연구소에서 성과물이 안 나오고, 눈치보고 살고 이런 식이 될 가능성이 매우 높다. 타 전공에서 이런 경우를 정말 헤아릴 수 없이 많이 봤기 때문에 자신 있게 이야기 할 수 있다.

예시를 하나 들면, 회귀분석해서 'Unconventional result'가 나왔다고 연구소 직원들 다 모아놓고 발표하는데, Degrees of freedom이 음수인 걸 발표 듣던 사람이 지적하고는 연구소에서 쫓겨나신 경제학 박사 선배님이 있다. 그 분은 지금도 우리들 사이에서 조롱거리다. 가끔 누가 Unconventional 이라는 단어를 쓰면 그 선배님 이름이 함께 나온다.

혹시나 같은 실수를 범하지 말라는거다.

두번째 코멘트는 세번째 코멘트로 반박하고 싶다. 당장은 언뜻 보기에 인력이 부족해 보이고, 저기 들어가면 쉽게 돈 벌 수 있을 것 같을 것이다. 그런데, 딥러닝이라는 그 방법론이 그렇게 완벽 무결한 계산법이 아니라, 온갖 문제를 다 안고 있음을 여러차례 지적한 바 있다.

인간의 반응을 이용해 보정하는 ChatGPT는 대표적으로 Attention mechanism이 활용된 케이스다. 이제 딥러닝 스타일의 NN모델을 적층형으로 쌓아올린 Autoencoder를 만드는 것이 아니라, Factor analysis 구성 요소를 유사한 정보 매칭 방식의 Clustering으로 변경하고 있다.

비슷한 문구를 다른 곳에서도 봤다. (출처 링크)


IT업계 커뮤에서 AI이야기 하다가 본 장문댓글이 인상깊어 복붙

딥러닝의 패러다임의 본질을 논하는 사람은 없어서 한마디 남깁니다. 소위 현대 AI는 사실 MLP의 레이어 확장인 딥뉴럴넷 기본구조의 변주 밖에 없다고 보시면 됩니다. CNN이건 LSTM이건 최근 각종 few shot, transfer learning, 강화학습 등등 전부 기본골격은 MLP개념의 variation입니다. 네트웍구조, 연산자, feature변형, 분류기, regression 어떻게 짜집기 조합하는지에 따라 수만가지 논문이 양산되는게 현 AI 흐름입니다.

읽은 논문만 300편이 넘어가는데 읽다보면 종종 권태로움이 느껴질정도로 MLP의 조잡한 변형인것이 점차 느껴질정도입니다. AI의 본질적 철학은 보편적이면서도 어떤환경과 문제에도 유연한 우월한 지능이죠. 인간처럼요. 단지 우월한 기능이 있다해서 우리는 아직 AI라 하고 싶지는 않겠죠.

딥러닝개념은 적어도 보편적 비선형 모델 피팅이라는 진보를 이루어낸것은 인정할만한 사건입니다. 다만 문제는 항상 데이터에 너무 의존되는 딥러닝 구조의 한계역시 동시에 trade off로 발생합니다. 현대 딥러닝 패러다임속의 AI는 딥러닝 구조를 가지는한 절대 데이터라는 환경의 취약성에서 벗어날수 없습니다.

Few shot 같은 메타 러닝은 사실 말장난에 가깝죠. 메타러닝으로 학습 생산성을 높였을뿐 단어가 주는 오해가 대중을 호도하고 있습니다. 적은데이터 만으로 보편적으로 좋은 성능을 주는 딥러닝 구조는 없습니다. 단, 데이터가 상당히 뚜렷한 경향을 주지않는한. 너무나 뚜련한 경량을 가진 데이터가 있다면 굳이 딥러닝이 아니어도 레거시 ML로 오히려 더 좋은 피팅이 될꺼구요.

프랑켄슈타인처럼 각종 레이어와 feature 유닛들의 짜집기로 되도않는 sophisticated 한 멍청한 모델들로 논문이 도배되고 있습니다. 다들 자기 모델이 다른 모델보다 성능이 좋다고 하며 논문이 마무리되는데 본인이 구축한 데이터 환경만 조금이라도 벗어나면 병신이 되는 모델일뿐입니다.

이런걸 아예 앙상블이라고 갖잖은 용어로 있어보이게 설명하고 있는데 본질적 수학구조를 보면 그냥 이모델 저모델 섞어서 모델블랜딩으로 대충 과적합이 누그러지는 효과인거고 대단한 기법도 아닙니다. 왜 이런 변태적인 방식으로 계속 엉뚱한 진화만 되냐면 아직 아무도 딥러닝이 아닌 새로운 AI 패러다임을 제시하고 있지 못하고 있기때문에 데이터편향의 늪에서 영원히 허우적되고있고 이것을 잔기교로 눈가림하고자 별 잡스런 모델 잡종교배 블랜딩이 되고 있는겁니다.

마치 다세포 동물이 막 출현하던 지금은 거의 멸종한 선캄브리아기의 괴물같은 생명체들이 다양하게 난립하는 것과 비슷합니다.  언젠가 육지로 올라와 파충류나 포유류처럼 보다 고등한 방식으로 진화된 AI가 출현하기 전까진 그저 지금은 다 멸종한 기괴한 몬스터들의 향연이 될것입니다. 한때 휴리스틱 알고리즘이 AI라고 광이 팔릴때가 있었듯 (그뒤 바로 암흑기왔죠) 딥러닝도 그러한 취급을 받게되면서 기술은 다시 암흑기가 머지 않았다고 봅니다.

우리가 바라는 AI는 어떤 인종이 어떤 나라에서 태어나든 어떠한 언어도 배울수 있는 인간같은 지능을 AI라 부르고 싶지 학습한 데이터에만 의존하는 그환경만 잘 기능적으로 맞추는 (GPT계열도 사실 그런 한계속에 있음) 것을 AI라 어직 칭하고 싶지믄 않을겁니다. 양자컴이 개발되면 달라질수 있겠지만, 개인관점에서는 인간의 뇌와 같은 유기물로 된 반도체기반의 AI알고리즘정도는 나와야 비로소 생명체의 지능과같은 단순하면서 우아하고 보편적인 AI가 출현할것이라 봅니다.  뇌과학에서는 이러한 지능의 보편적인특성과 유연함이 신경망의 가소성에서 온다고 하는데 현대 무기물기반 트랜지스터로는 전혀 구현이 불가능 하다고 합니다. 딥러닝 기반의 현애 AI는 분명 한계가 있는건 맞다고 생각합니다.


역시 내가 줄기차게 주장해오던 내용을 정리해놓으셨는데,

작성된 곳이 하필 험한 욕이 돌아다니고 전문가의 견해를 평가절하하는 사람들이 모여있는 모 커뮤니티인 탓에 표현이 격한 것은 미리 양해를 구한다.

  • 반은 맞고 반은 틀린듯. 아무 수학적 깊이 없이 모델 배합하고 적당히 썰풀어서 (사람은 비디오를 볼때 ~~한다. 이걸 구조로 체화시켰다! ㅍㅌㅊ? 이런 류) 탑티어 붙이는 연구도 많지만 (특히 중국대학쪽 페이퍼들), OOD나 generalization 이슈, continual learning 이슈를 진지하게 접근해서 푸는 방향도 많음. 전형적으로 잘 읽히는 중국페이퍼들만 ㅈㄴ읽고 현타온 사람 글 같음 ㅋㅋㅋ
  • 한줄요약 - 인간의 뇌와같은 유기물을 사용한 반도체 기반의 ai알고리즘이 나오기 전까진 AI는 조잡한 연구일 뿐이다. // 하나는 알고 둘은 모르는 사람이 쓴거같네. 이 논리대로라면 30년전 삐삐 10년전 피쳐폰 쓰던얘들은 멍청이냐?? 스마트폰 놔두고 그런 조잡한거 쓰게
  • ㅋㅋ 현대 머신러닝 기술들이 그냥 전부 MLP의 조잡한 변형일 뿐이라는 게 헛소리도 이런 헛소리가 없넹ㅋㅋ
    애초에 머신러닝 학계에서 말하는 ai는 뭔 사람처럼 생각하는 뇌인지과학 측면에서의 ai가 아니라 단순히 원하는 task를 사람만큼, 혹은 사람보다 잘 해줄 function을 approximation해주는 역할로 쓰이는데 갑자기 무슨 머신러닝이 학습시키는 ai는 진짜 ai가 아니라는 개소리를 하고 있냐ㅋㅋ
    • 논문을 얼마나 읽어봤는진 모르겠는데 적어도 근본기술이라고 할 수 있는 residual connection, attention mechanism 등 논문을 존나 깊게 들여봤으면 저런 소리가 과연 나올지 모르겠네. 논문 300편 읽었다는 걸 뭔 자랑이라고 적어놨는지, 300편 동안 좋은 논문을 하나도 못 읽었다는 게 본인 누워서 침뱉기라는 걸 알았으면..
      말한 사람이 누군진 모르겠는데, 학계에서 이 분야에 통달한 대가가 저런 말해도 반박 엄청 들어올텐데 그냥 박사1이 저런 말하는거면 참 가소로울 듯
  • AI처음 나올때부터 인간지능 연구하던 사람들이 늘 얘기하던 레파토리임

4번째 댓글 (& 4-1번째 댓글) 쓴 분이 언급한 '근본기술'이 정말 '근본기술'인지는 잘 모르겠다.

기본적으로 머신러닝이라고 요새 이름이 붙은 계산과학에서 입력한 데이터 기반으로 Fit을 찾아주는 계열의 모델은 그걸 NN기반의 딥러닝으로 Factor analysis를 하겠다에서 Attention으로 해 보겠다고 트렌드가 바뀌고 있는 것은 맞다.

그러나, NN을 적층형으로 쌓아올리건, (Semi-Supervised?) Clustering 기반의 Attention으로 쌓아올리건, 궁극적으로는 Factor analysis를 좀 더 효율적으로 하겠다는 작업에 지나지 않는다. 공학도들 상당수가 바닥에 깔린 수학, 통계학을 모르는 탓에 Factor analysis 라는 개념에 대해서는 희미한 이해만 갖고 있고, 새로운 이름이 붙은 계산법이 나오면 그 계산법이 '더 좋다', '더 안 좋다' 같은 단순한 판단만 하더라.

저 윗분이 말하는 '학계에서 이 분야에 통달한 대가가 저런 말해도 반박 엄청~' 이라는 문장에도 딴지를 걸고 싶은게, (물론 논문 300편 읽은게 자랑은 아니라는 점에는 매우 공감한다) 이런 계산의 바닥에 있는 수학, 통계학 개념과 모델들을 이해하고 나면, 새로운 계산법이라고 나온 것들이 결국에는 기존의 수학, 통계학을 다른 관점에서 풀어내는 것이라는 걸 알아야 우리끼리는 '대가', 혹은 '학계에서 이 분야에 통달한 대가' 라고 불러준다.

그리고, 의외로 그런 훈련이 잘 된 사람은 한국에 별로 없어서 그렇지 영·미권 학회에 많이 있다. 굳이 박사생이라고 해서 그런 훈련이 안 된 것도 아니고, 최소한 그런 시야를 갖춰야 영·미권 주요대학 교수 자리를 노릴 수 있다. 거기에 인종, 국적, 연령, 외모, 친화성 등등의 온갖 요소가 개입되어서 교수 임용이 이뤄지는걸 생각해보면, 그런 엄청난 논문을 안 갖고 있다는 이유로 '대가' 혹은 '통달한' 이라는 표현의 대상이 아니라고 생각하지는 않는다.

하물며 Attention mechanism 처럼 논리가 뻔한 경우에는 더더욱 기존 NN 적층 기반의 Factor analysis와 갖고 있는 본질적인 구조적 문제는 크게 달라진 것이 없기 때문이다.

저런 종류의 새로운 단어, 새로운 계산법 하나를 더 알면 엄청난 전문가가 되는게 아니라, 밑바닥에 있는 수학, 통계학을 알고, 그 틀에서 새로운 계산법이 어떻게 변형을 해서 무슨 목적을 달성하고 있는지를 볼 수 있어야 진짜 전문가가 된다.

저쪽이 대부분 CS 전공자들일테니까, 개발 언어라는 도구를 이용해 유비추리를 할 수 있도록 해 주면, 개발 언어를 C로 한다, Java로 한다, Python으로 한다, 요즘 핫 하다는 GoLang 이하의 함수형 언어로 한다....난 요즘 더 핫 하다는 다른 언어 아는데.... 그 언어가 더 우월하니 그걸 아는 내가 너보다 더 우울한 개발자다 그러면, 아마 C로 모든 로직을 다 구현할 수 있는 40대, 50대 중년 개발자들이 코 웃음을 칠 것이다.

단지 새 언어는 기존 언어로 작업하기 너무 귀찮으니까, 좀 더 특정 목적을 달성할 수 있도록 '편하게' 해 준 것이다. 위의 '근본기술'이라고 불리는 계산법들도 딥러닝이 갖고 있는 문제를 수정·보완하기 위해 나온 변형일 뿐이다.

AI 대학원을 가겠다?

누가 AI대학원을 가는게 어떻냐고 질문하면, 졸업하고 난 다음에 뭐 하고 싶냐, 근데 세상은 어떻게 되어 있을 것 같냐고 묻고 싶다.

납득하기 쉽도록 예시를 하나 들어주면, 대략 5년 전 쯤에 마케팅 박사 졸업반인데, 학교 트렌트가 바뀌어서 학교를 옮겨야 되어 상담하고 싶다는 연락이 왔다. 원래 국내 XX대학을 졸업하고, 직장에서 마케팅 업무를 했는데, 박사 학위가 필요한 것 같아서 5년 쯤 전에 학교로 돌아갔단다. 근데, 졸업할 무렵이 되니 갑자기 '인공지능', '빅데이터' 이런 바람이 불고 있고, 자기는 코딩도 하나도 못하고, 내가 계속 주장하는 수학, 통계학은 더더욱 모르겠는데, 그래서 자기처럼 '글자로 논문쓰는' 곳으로 대학을 옮기려고 한단다.

왜 아무런 관계가 없는 나한테 상담하냐고 되물어보니, 그 옮기려는 대학에서도 '최소한 R로 코드 돌릴 수 있어야 된다고 그래서, 1일 과외 받고 대충 하는 흉내만 내면 되지 않겠냐'는 생각에 나한테 연락을 했단다.

내 성격을 알겠지만, 당연히 과외를 해 준 적도 없고, 다시 그런 분을 만날 일도 없다. 지금 AI대학원을 가겠다는데 기초적인 수학, 통계학 훈련이 전혀 없이, CS 쪽의 코딩 역량만 조금 갖고 있는 상태에서 굳이 수학, 통계학 안 배우고 남의 논문 적당히 잘 베껴서 졸업한다고 해 보자.

아마 국내 공대에서 운영하는 AI대학원들 사정이 다 똑같을텐데, 정부가 예산을 이용해 무슨무슨 프로젝트를 한다며 대학원들 지원금을 제공해주고, 교수들은 거기에 맞춰 프로젝트들을 딴 다음, 아마 대학원 생들을 굴릴 것이다. 결국 수학, 통계학 안 배워도 프로젝트하며 주워담은 코드들로 어찌어찌 박사 논문은 내겠지.

자, 그렇게 5년을 보내고나면 세상은 어떻게 바뀌어 있을까?

저 위의 마케팅 박사 졸업반이 어쩌면 차라리 더 나을 수도 있는게, 1-2년 후에 트렌드가 바뀌었다면 박사 학위 받고도 취직이 안 되는 상황이 발생했었을 수도 있다. AI대학원 뿐만 아니라, 세상의 많은 일들이 'Outdated(구식)'인데 시대 상황에 맞춰 변형을 못하면 도태된다.

Factor analysis를 제대로 배우고, Clustering을 제대로 배운 사람이면, 둘을 결합하는 계산법으로 Neural Net을 쓴 DNN 모델과 Clutering을 좀 더 Supervised learning 스타일로 쓴 Attention mechanism 간의 격차를 뛰어넘는데 그렇게 오랜 시간이 걸리지 않을 것이다.

이건 내가 논문을 시뮬레이션으로 쓰다가 머신러닝이라는 주제를 며칠만에 다 이해했던 것과 같은 맥락이다. 둘의 차이는 10억개의 데이터를 컴퓨터로 생성하느냐, 10억개의 DB 데이터를 활용하느냐의 차이 밖에 없었기 때문이다. 추가로 DB라는 것이 어떻게 돌아가는지를 좀 더 배워야하기는 했는데, 졸지에 SQL query 짜는 것부터 배우며 N차원 DB구조를 몰라 초보 취급 받고 무시당하던 1주일을 보내고 난 다음에 난 충분히 1사람 몫을 하는 Data Scientist로 자리매김 할 수 있었다.

굳이 해외대학원으로 유학을 가라고 하고 싶진 않다. 그런데, 살아남으려면 기초 지식인 수학, 통계학 훈련을 탄탄히 하라고 하고 싶다. 저런 커뮤니티에서 '근본기술'이라는 단어에 현혹되지 말고.


+2024년 3월 5일 추가

스위스에서 AI/Data Science 대학원을 운영한지 올 가을이면 만 3년이 됩니다. 그 이전부터 여러 방식으로 한국 학생들을 교육했던 경험을 포함해 대략 6년간 경험한 한국 상황을 놓고 볼 때, 한국 학생들 대부분이 수학적인 기초가 매우 부족한 상태로 학위를 받고, 직장에 취직해서, 회사의 성장에는 전혀 도움이 되지 않는 상태가 반복되고 있다는 것을 이제는 자신을 갖고 말할 수 있습니다.

모 대기업의 AI팀으로 팀을 옮긴 한 학생이 과거 프로젝트들 리스트를 보고 "안 되는 건데 왜 처음부터 막지 않았냐?"고 팀 내에서 질문을 해 봤다고 합니다. 배워서 눈이 뜨이니까 현실적으로 가능한 프로젝트인지를 단번에 파악할 수 있는 능력이 생긴 것이겠죠.

한국어로 나가는 마지막 SIAI 공지글에도 반복적으로 썼던 내용입니다만, 저는 한국에서 제대로 된 교육이 이뤄지고, 그 학생들이 기업의 가치 증진에 도움이 되는 사건을 보기는 어려울 것이라고 생각합니다. 대학들의 교육 수준이 낮은 것만이 문제가 아니라, 기업들도 고급 인재를 다룰 수 있는 역량이 없고, 그걸 바탕으로 고급 상품을 만들어 낼 역량이 없기 때문입니다.

저출산, 고령화로 학교 교육이 망가지고 있는 것이 아니라, 교육 수준이 낮고, 교육의 효과를 발휘할 수 있는 인프라가 갖춰져 있지 않은 탓에 교육이 망가지고 있다는 결론을 내렸습니다. 열정은 넘치지만 국내의 부족한 인프라 때문에 한계를 겪고 있는 학생들의 꿈이 꺾이지 않으면 좋겠습니다.

Picture

Member for

5 months 4 weeks
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

[공지] The Economy Korea 기사 작성 방식

[공지] The Economy Korea 기사 작성 방식
Picture

Member for

5 months 4 weeks
Real name
The Economy
Bio
https://economy.ac
[email protected]
The Economy Administrator

저희 The Economy Korea는 아래의 국내 언론사들로 구성되어 있습니다

The Economy Korea 뉴스 포털은 파이낸셜, 테크, 바이오, 폴리시 이코노미의 한국 내 총괄 서비스입니다. 글로벌 본사인 The Economy는 AI/Data Science 기반 경제 분석 기관으로 글로벌 AI협회(Global Institute of Artificial Intelligence, GIAI)와 글로벌 교육 전문지 EduTimes가 각각 연구 부분과 언론 매체 운영을 분담하고 있습니다.

연구 사업으로는 경제 정책 분석, 분야별 기업 랭킹 발표, AI/Data Science 활용 연구 등이 있고, 언론 홍보 목적에서 시작된 언론 매체는 영문 콘텐츠의 타국어 번역 정확도를 향상시키기 위한 연구를 진행 중입니다.

한국어 판은 GIAI의 한국 자회사 (GIAI Korea, https://kr.giai.org)에서 글로벌 서비스와 콘텐츠 및 기술 제휴 아래 운영됩니다.

국내 운영 언론사들의 기사가 작성되는 방식은 다음과 같습니다

1.기초 소스 확보

취재를 나갈 수도 있겠지만, 요즘은 보도자료를 뿌리는 경우가 많습니다. 그러나 대부분의 보도자료는 자기들이 보여주고 싶은 부분만 보여줍니다. 정부의 정책브리핑에서 예시를 하나 갖고 왔습니다.

출처=정책브리핑

2.보도자료에 대한 의구심

이건 한국 벤처업계가 유니콘 기업 22개나 만들었다고 엄청나게 자랑하는 보도자료인데, 우리나라에 있는 유니콘 기업들 중에 기술력이 있거나, 남들이 하지 않은 도전을 해서 성공한 덕분에 시장에서 정말 유니콘 대접을 받는 스타트업들은 거의 없습니다.

저 위의 리스트도 물음표가 달릴 수 밖에 없는 회사들 투성이입니다.

3.기사 꼭지

아래는 평소에 제공해주는 기사 꼭지 입니다


K-유니콘 22개 역대 최다? 글쎄요??? - 지난해 유니콘기업 7개 탄생…총 22개사 ‘역대 최다’ - 정책뉴스 | 뉴스 | 대한민국 정책브리핑 (korea.kr)

보도자료 요약
ㄴ어제(9일) 중기부가 유니콘 기업이 22개라고 현황자료 발표했는데, 내실이 전혀 없습니다 그걸 까 봅시다.

Talking Point
1.리스트에 있는 회사들 논란 많음
ㄴ옐로 모바일은 사실상 망한 회사입니다. 대표였던 이상혁은 제주도 어딘가에 몰래 숨어서 산다는 소문이 있습니다
ㄴ티몬도 2천억원 남짓에 그것도 현금도 아니고 지분 교환 방식으로 작년 9월에 큐텐에 헐값 매각 됐습니다
ㄴ쏘카는 IPO로 졸업했다는데, 어제 주가 기준 시총이 7,026억원에 불과합니다. 1조원 클럽인 유니콘 조건에 거리가 멀죠
ㄴ올 초에 상장 예정인 오아시스도 서울거래 비상장에서 현재 가치가 6,989억원입니다.언급된 회사들은 서울거래 비상장 들어가서 검색해서 스크린 샷을 좀 추가해놓읍시다
일단 오아시스 하나 추가해놨습니다

2.기업 사정 생각 안 하는 숫자놀음이라는 혹평 - 오래 전부터 나오던 이야기
https://m.blog.naver.com/ssebiz/221970171173
https://www.kcmi.re.kr/publications/pub_detail_view?syear=2020&zcd=002001016&zno=1536&cno=5486

3.중기부가 저렇게 과대평가된 걸 더 홍보해주고 돌아다니는게 아니라, 거꾸로 구조개혁해서 합리적인 평가가 이뤄지도록 시장 개선에 도움을 줘야 함 - 노동 개혁, 정부 개혁 어쩌고 그러는데, 정작 스타트업계 개혁도 필수
https://www.sedaily.com/NewsView/1Z451UBMWF 상장 후에 주가 부진한게 이미 한 두번이 아님. 카카오 그룹 계열사들, 크래프톤, 쏘카 등등등 잘못된 밸류에이션으로 개인 투자자들 농락하지 못하도록 시장 규제 만드는데 중기부가 앞장서도 시원잖을 판국에 거꾸로 가짜 밸류에이션을 홍보해주고 있으니 ㅉㅉ


4.기사 꼭지 이해 후 작성

기사 꼭지를 제대로 이해하고 기사를 작성하는 단계입니다.

완성된 결과물은 위와 같습니다.

들어가서 읽어보시면 알겠지만, 위의 꼭지 3개를 제대로 이해해야 쓸 수 있는 기사입니다.

5.이미지 제작

필요한 경우에는 이미지도 제작해야 됩니다. 물론 직접 이미지 작업까지 다 하라는게 아니라, 디자인 담당자가 배정되어 있습니다.

위와 같이 디자인 팀에 적절한 이미지를 요청합니다. 제대로 잘 되었다면 아래와 같이 적절히 작성된 이미지가 들어간 기사가 나옵니다

6.추가 편집

아무리 열심히 기사를 썼어도 오탈자가 있거나 이미지에 문제가 있거나 등등으로 사소한 문제가 생길 수 있습니다. 그럼 편집 팀이 작업을 진행합니다. 뿐만 아니라, 사실 관계에 문제가 있을 경우 '팩트 체크'까지 진행합니다.

인력 뽑아본 후기

저렇게 Talking Point 뽑고 설명을 포함한 관련 기사를 뽑는 작업이 귀찮은 것이 사실입니다. 무슨 학창 시절에 레포트 급하게 하나 써서 내는 기분인데, 대학을 무사히 졸업하신 분들이라면 저런 자료 조사 정도는 직접 할 수 있어야 되는 것 아닌가요? 뽑는데 빠르면 5분, 꼼꼼하게 하면 20분 정도 걸리는데, 실제로 20분이면 전문기자들이나 증권사 리서치 애널리스트들이 기사, 보고서를 하나 쓸 수 있는 시간입니다. 이렇게까지 친절하게 뭘 써야하는지 설명을 해 줄 필요가 있나, 월급 아깝고 Talking Point 뽑는 시간 아까운데.. 라는 생각을 하지 않을 수 없습니다. 그럼에도 불구하고, 어떤 사건에 대해 무슨 자료를 찾아보고 어떤 방식으로 생각을 가다듬어야 한다는 방향 설정을 해 줘야 인력을 키울 수 있다고 생각해서, 잘 써봐야 기사가 아니라 소설 밖에 못 쓰던 인력들을 내보내면서 한국 자회사 운영방식을 변경했습니다.

그렇게 일반 기자들을 내보내고, 기사 작성 시스템을 바꾸면서, '설마 이 정도는 다들 할 수 있겠지'라고 생각하고 인재를 뽑아봤습니다. 안타깝게도, 이 정도 요청을 정상적인 신문 기사로 만들어 낼 수 있는 인력도 찾기가 쉽지 않았습니다.

(2022년 12월 기준) 88명 서류 받으면서 당사에서 운영 중인 언론사들 명칭을 지원서에 쓰라고 했더니, 절반 이상이 틀렸습니다. 한 60대 아저씨는 그게 무슨 말인지 모르겠다고 전화까지 왔습니다. 전직 기자 경력 20년이라는 분입니다. 홈페이지 하단에 언론사 명칭이 있는게 당연한 경험들이 오랫동안 쌓이셨을텐데.... 지원하는 회사가 운영하는 언론사 명칭도 못 찾아보면 어떻게 일을 하겠다는거죠?

저렇게 뽑아서 공유한 Talking Point를 이메일로 보내줬더니 실제로 기사를 써서 내는 경우가 13명이었습니다. 대부분 충격적으로 문장 구성이 조잡했는데, 그래도 좀 가르쳐서라도 쓸 수 있겠지라고 양보하고 뽑아보니 5명이 남았습니다. 2일간 교육 자료 읽어보라고 PDF 설명서 파일도 주고, 웹 상에서 볼 수 있도록 OneNote 링크도 보내주고, 공지와 직원 간 대화를 찾아볼 수 있는 저희 회사 내부 게시판도 열어줬습니다. 읽어보면서 찬찬히 준비하라고.

업무를 시작한 첫째 날부터 기사 편집할 일이 넘쳐난다고 갑자기 편집 팀에서 화를 냅니다. 기본적인 문장 구성도 못 하길래 도대체 어떻게 서류 통과한거지 궁금해하며 1명씩 내보내고 나니 1주일도 되기 전에 딱 3명 남았습니다.

제시해 준 Talking Point를 바탕으로 실제로 읽기에 불편하지 않은 글을 적당한 시간 안에 뽑아올 수 있는 경우는 평소에도 위의 3/88 = 3.41% 정도에 지나지 않았습니다. 이 정도가 한국 사회에서 '글 밥'을 먹고 싶다는 분들의 현 주소입니다. 저희가 쓰는 기사라는 글이 기껏해야 1-2장짜리 문과 교양 수업 레포트에 불과한데, 이걸 못하면서 글로 돈을 벌겠다는 생각을 하는게 좀 납득하기가 어려웠습니다.

떨어지신 분들 중에는 이름이 알려진 굴지의 국내 신문사 출신이신 분들도 있습니다. 신문사 아니고 증권사 리서치 같은 기관이냐고 질문하신 모 신문사 출신 기자 분도 있었군요. 국내 신문사들 대부분이 이렇게 자료 조사하는 일 없이, 기업에서 보내주는 보도자료 적당히 베껴 쓰고, 부족하면 그 회사에 '출입처'라는 걸 두고 전화해서 전해들은 내용을 쓴다더군요. 그게 우리나라 신문사들의 '기자'라는 분들이 일하는 방식이었습니다.

발로 취재? 구글링으로 취재도 제대로 못하는데 어떻게 기자라고 할 수 있겠습니까?

어떤 조직의 구성원이라는 사실이 자랑스러우려면 그 조직이 역량 측면에서 글로벌 최상위권 조직이어야 할 겁니다. 역량 측면에서 글로벌 최상위권 조직이라는 인정을 받으려면 만들어내는 상품이 글로벌 최상위권 수준이어야 합니다. 지식 상품으로 글로벌 최상위권 상품을 만들어 내는 방법은 크게 2가지 입니다. 노벨상을 도전해볼만한 연구 논문처럼 천재들만 도전할 수 있고, 천재가 아니면 기적이 일어나야 고급 논문을 쓰는 방식이 그 중 하나입니다. 다른 하나는 매우 뛰어나지는 않지만 열정과 능력을 갖춘 인재들이 자신들만의 강점을 협업과 분업으로 결합해서 1명의 천재가 만들어낸 것과 유사한 수준의 고급 콘텐츠를 만들어내는 것입니다. 협업과 분업으로 노벨상은 버겁겠지만, 기업의 고급 제품을 만들어내는 것 정도는 충분히 가능하다는 것이 이미 산업화가 시작된 1700년대부터 인류에게 상식이 되어 있습니다.

고작 문과 교양 수업 레포트 정도의 업무를 하면서 글로벌 최상위권 상품을 목표로 해야할 이유도 없고, 천재가 투입되어야 할 이유도 없습니다. 저희는 2번째 방법으로 협업과 분업을 통해 콘텐츠의 수준을 높이는 것을 목표로 돌아가는 조직입니다. Talking Point라는 이름으로 기사 방향도 상세하게 뽑아주고, 그래픽 작업을 위한 디자인 팀도 있고, 기사 편집도, 심지어 팩트 체크도 돌아갑니다. 글 작성자가 편하게 글을 쓸 수 있는 IT시스템도 개발했고, 웹사이트 디자인의 완성도도 대단히 높은 편입니다. 구글 페이지 스피드(https://pagespeed.web.dev)에서 저희 웹사이트와 국내 1등 IT기업들인 네이버/다음 홈페이지들의 점수를 비교해보시면 저희가 웹사이트 완성도를 얼마나 높여놨는지 눈으로 확인하실 수 있을 겁니다.

지난 몇 년간의 시행착오 끝에 완성도 높은 '기사'라는 상품을 대량 생산해 낼 수 있는 생산 공정을 완성했습니다. 남은 빈 칸은 그런 지원을 묶어 '고급 기사'라는 글을 써 내는 일입니다. 그렇게 남은 빈 칸을 채워서 고급 기사를 만들어 낼 수 있는 역량을 갖춘 분, 그 과정에서 짜릿한 성취감을 느끼고 싶은 분들과 함께 하고 싶습니다.


(2024년 7월 추가) 자체 기사 작성과 외부의 전문 콘텐츠 번역 기사 업무로 공고를 올렸습니다. 1주일 동안 합계 33개의 지원서를 받았는데, 공고 안에 꼭 제출해라고 명시해놓은 과제를 제출한 경우는 불과 5명입니다. 번역은 경제지 관련해서 상당한 전문성을 갖춘 분이 아니면 어려울 것이라고 공고 안에 명시를 했는데, 지원자만 많고, 과제는 거의 제출을 안 했습니다. 기사 쓰는 건 어렵고, 번역이 만만하다고 느껴졌나본데, 정작 공고는 꼼꼼하게 읽지 않았다는 뜻이겠죠.

과제를 제출하신 분들은 그 자체만으로 이미 몇 발 앞선 분들이라 어지간하면 뽑고 싶습니다만, 내용 이해는 둘째 문제고, 한글 문장 자체가 어색한 과제들만 받았습니다. 일부 공고는 사전 질문을 몇 개 추가해서, 그 질문에 적절한 답을 해야 지원서를 확인하겠다고 했는데도 불구하고 제대로 읽어보지도 않고 그냥 지원서를 던지는 경우도 많았습니다. 사전 질문이라는 중간 단계를 넣을 수 없는 공고에는 과제 제출 비중이 1/10 이하로 떨어집니다.

위의 정보에서 3가지 행동 양식을 확인할 수 있습니다.

  • 공고의 제목만 보고, 상세 내용을 전혀 읽지 않는 지원자들이 굉장히 많다
  • 읽긴 했지만 제대로 읽지 않는 지원자들이라 저희 기사들을 한번 정도는 읽어보고 난이도를 가늠하는 시도조차 제대로 안 했을 것이다
  • 사전 질문에 제대로 된 답을 못 하면 고생해서 작업한 과제를 봐 주지 않겠다는 공고를 무시할만큼 자신감이 넘쳤다

과제 제출하신 5명 중 1명 정도가 읽다가 화가 나지 않을 수 있는 최소한의 요건을 갖췄습니다. 이 분도 기사라는 글을 쓸려면 많은 공부를 해야할텐데, 내부 시스템을 둘러보며 최종 심사 단계 전에 준비하시는 걸 보면서 쉽지 않겠다는 생각을 하게 됐습니다. 어디에서 어떻게 찾아서 확인해야 된다는 걸 잘 정리해놨는데, 찾질 못하기 때문에 중간에 계속 브레이크가 걸리는 것이 눈에 보이기 때문입니다. 기사를 쓸려면 많은 글을 빠르게 읽고 이해해야 할 텐데, 그런 글들에서 핵심 정보들을 바로바로 찾아내야 할텐데, 과연 살아남으실 수 있을까요?

웹 디자인을 하면 직관적으로 이해할 수 있도록 매우 쉽게 웹사이트를 구성해야하고, '바보'가 와서 실수하는 사건들을 역추적하는 QA라는 작업을 최소화하기 위해 많은 고민을 담습니다. 그렇게 디자인을 해도 결국 QA에 상당한 비용을 쓰지만, 아예 읽지 않고, 보지 않고, 듣지 않는 사람들은 배제합니다. 듣지 않는 사람들과는 토론하지 않는 것과 같은 맥락이죠. 글을 써서 돈을 벌겠다는 분이 전문 작가 수준으로 글을 잘 쓰지도 못하시면서 글을 읽지도 않으면 과연 성장할 수 있을까요? 글을 잘 쓰는 첫 걸음은 좋은 문장을 많이 읽는거라는 다독, 다작, 다상량의 3다(多) 이론을 굳이 언급할 필요는 없을 겁니다.

초A급 기자가 아니면 쓸 수 없는 기사를 쓰라고 강요한다며 기자 출신들이 불평을 하다가 회사를 떠났습니다. 남들과 다를 바 없는 기사를 쓰는 조직을 키울 생각이 없는 만큼, 아니 그렇게는 조직이 크지 못할 것을 아는 만큼, 기사 수준을 끌어올리기 위해 많은 고민을 하다 지금의 분업 시스템을 구축했습니다. Talking Point는 국내 극초최상위 0.01%의 인재가 뽑아야겠지만, 글로 옮기는 기자들은 화려한 스펙의 소유자들이 아닙니다. 그럼에도 불구하고 국내 기업 관계자들을 만나면 '연구소인 것 같다', '인력 수준이 엄청 높을 것 같다'는 칭찬 아닌 칭찬을 자주 듣습니다. 분업 전에는 3류 찌라시 취급을 받다가, 그 분들의 태도가 180도 바뀐 것을 확인하면서 겨우 한 걸음 내디뎠구나는 생각을 합니다. 글로벌 본사가 AI 연구소, 경제 연구소인데, 체면은 유지시켜줬구나 싶어서 안도의 한숨도 내쉬기도 하는군요.

영어권에도 공고 안에 특정 단어, 문장, 표현을 웹사이트 어딘가에서 찾아서 지원해야된다고 해 놓으면 인도, 아랍 쪽 지원자들 1/10 미만에게서 답을 확인할 수 있습니다. 영어가 모국어가 아니어서 그럴 수도 있다고 반박하겠지만, 영어가 모국어가 아닌 국가들 중에 필리핀, 대만, 아프리카 몇몇 국가에서 거의 예외없이 지원자들이 정답을 제출합니다. 국가 별로 문장을 읽고 이해하는 교육 수준이 다른 것이 지원자들의 행동 양식에도 반영된 것일 겁니다.

한국은 위에 언급한 국가들 대비 급여 수준이 적게는 4~5배, 많게는 10배 이상 높습니다. 분업 시스템이 갖춰져 있어 업무 난이도도 낮은 편입니다. 글로벌 팀이 효율적인 시스템이라고 판단했는지 저희 한국 시스템을 벤치마킹하려고 많은 노력을 하고 있습니다. 그런데, 한국 실상 탓에 채용과 운영을 이렇게 타협할 수밖에 없었다고 설명해주면 많이들 놀랍니다. 한국은 글로벌 시장에서 가장 교육열이 높은 나라, 인구 대비 가장 인재가 많은 나라라는 선입견이 깔려 있었기 때문일 겁니다. 그들의 선입견과 여러분들의 지원 자세 간의 격차가 얼마나 큰 지 한번 돌이켜 보고 나면, 굳이 저희 회사가 아니더라도 여러분들의 눈높이에 맞는 직장을 찾아가시는데 많은 도움이 되리라 생각합니다.

Picture

Member for

5 months 4 weeks
Real name
The Economy
Bio
https://economy.ac
[email protected]
The Economy Administrator