독서 목록

[논문 리뷰] LLM-Select: Feature Selection with Large Language Models

곽가누 2025. 3. 24. 19:58

1. Introduction

이 논문에서는 LLM이 지도학습에서 feature selection을 수행할 수 있음을 보여준다. Training set의 변수들과 target 변수의 의미를 LLM이 어느 정도 알고 있다는 전제 하에, LLM에게 어떤 프롬프트를 제공해야 예측에 가장 유용한 특징들을 효과적으로 고르는 지 탐구한다. 

이 논문에선 LLM을 활용한 feature selection에 있어서 세가지 접근법을 제안한다. 

(i) LLM이 생성한 중요도 점수가 가장 높은 특징들을 선택하는 방법,
(ii) LLM이 생성한 중요도 순위에 따라 특징을 선택하는 방법,
(iii) LLM과의 대화 형식으로 특징을 순차적으로 선택하는 방법.

 

전체 데이터를 확인하지 않고 feature selection을 진행하면, selection bias(특정 그룹을 선택해서 분석했을 때, 다른 그룹 또는 전체를 대상으로 분석했을 때와 다른 결론이 나오는 것) 혹은 confounding factor로 인해 결과가 좋지 못할 수 있다. 그러나 놀랍게도, 학습 데이터 자체를 보지 않고도 이러한 LLM들이 예측력이 가장 높은 특징들을 식별할 수 있으며, figure 1의 b 그래프에서 보듯이 LASSO와 같은 데이터 기반 특징 선택 기법과 비슷하거나 간혹 더 경쟁력 있는 성능을 보인다. 심지어 GPT-4와 같은 최신 모델들은 제로샷 방식으로 한번에 하나씩 특정 중요도를 예측하는 프롬프트를 보냈을 때도 강력한 성능을 발휘했다. 

 

이 논문에선 다양한 데이터셋(의료, 사회, 공공 데이터 등)을 활용하여 전통적인 데이터 기반 방법들, 즉 머신러닝 방법과 LLM 기반 feature selection 기법을 비교하였다. 

 

이 논문의 contribution은 다음과 같다. 

1. LLM을 활용한 특징 선택(feature selection)을 위한 세 가지 접근법을 제안 : LLM-Score, LLM-Rank, LLM-Seq

2. 모델 규모가 충분히 큰 LLM이 real-world 데이터에서 강력한 feature selection 성능을 발휘하며, LASSO에 버금가는 성능을 보인다는 것을 증명

3. LLM 기반 feature selection이 어떤 프롬프트를 주는지에 따라 성능에 큰 차이가 없음을 증명한다. 

4. 규모가 큰 언어 모델이 생성한 feature importance score가 SHAP 값 등 특징 중요도 측정 지표들과 더 높은 상관관계가 있음을 증명한다. 

 

2. Related Work

2.1 LLM prompting

프롬프팅(prompting)은 pre-trained된 LLM에게 학습 당시 보지 못한 새로운 작업에 적응시키는 데 있어 계산 효율성이 높고 효율적인 방법이다. 일반적인 프롬프팅은 LLM에게 원하는 작업에 대한 자연어 설명과 입출력 예시를 제공하고, 그 조건 하에서 자기회귀적으로(autoregressively) 하게 출력을 생성한다. 이처럼 fine-tuning 없이도, zero-shot과 few-shot은 모델 규모가 충분히 큰 상황에서 자연어 과제를 푸는 데 효과적일 수 있다. 

 

그러나 최근 연구에 따르면, LLM의 출력은 입력 프롬프트의 세부사항이나 디코딩 전략에 매우 민감하며, 특히 복잡한 추론 문제는 적절한 프롬프팅 전략이 매우 중요하다. 이 연구에선 Chain of Thought prompting과 Self-consistency decoding을 실험한다. 

  • Chain-of-Thought : few-shot 프롬프팅 기법으로, 각 입출력 예시에 대해 논리적인 자연어 추론 과정을 함께 포함시킨다. 이는 수학 문제 히결, 상식 추론 질문 답변, 전문가 수준의 의료 질문 응답 등에 적용되었을 때 성능 향상을 보였다. 
  • Self-consistency decoding : LLM에서 일반적으로 사용하는 디코딩 방식은 greedy decoding이다. ( 각 토큰 생성 단계에서 가장 확률이 높은 토큰을 선택하는 방식. 예를 들어, "나는" 이라는 말이 나왔을 때, "밥을" , "밥이" 등등 이 중에서 가장 확률이 높은 단어를 선택하는 방법. BERT 모델은 이를 양방향으로 사용한다. ) 반면, self-consistency decoding은 한 입력에 대해 여러 출력을 생성하고 평균내어 최종 출력을 생성한다. 다양한 답변 생성을 위해 temperature sampling을 진행하기도 한다. Chain of Thought 프롬프팅과 결합했을 때 성능을 크게 향상시킬 수 있으며, 다양한 추론이 가능한 작업에서 효과가 두드러진다. 

 

2.2 feature selection

feature selection이란, 주어진 feature 후보 집합에서 목표 예측값과 관련된 가장 유익한 특징 부분집합을 선택하는 것이 목적이다. 크게 세가지로 분류된다. 

  • Filter Methods : 각 feature의 통계적 특성이나 정보량만 보고 중요도를 계산해서 순위를 매기고, 상위 몇개만 선택한다. ex) Mutual Information, Fisher Score, Chi-square Test, ANOVA(T-test), Max Meab Discrepancy
  • Wrapper Methods : 특징의 조합을 만들어서 실제 모델을 돌려가며, 예측 성능이 가장 좋은 특징 부분집합을 찾아낸다. ex) Forward Selection, Backward Selection, RFE(Recursive Feature Elimination)
  • Embedded Methods : 모델이 학습되는 과정에서 자동으로 특징을 선택하는 방식. 정규화 과정 혹은 내부 구조에 따라 중요하지 않은 특징들은 제거된다. ex) Lasso, Elastic Net, 트리 기반 모델(Decision Tree, Random Forest, XGBoost)
  • LLMs for Feature Selection : 본 연구와 유사한 기존 연구로는 Choi et al. (2022)의 LMPriors 프레임워크가 있었다. 이는 GPT-3의 davinci-instruct-beta 버전에 프롬프트를 입력하여, 각 후보 feature가 타겟 예측에 사용되어야 하는지를 Yes/No 형식으로 물은 뒤, Yes와 No 토큰의 로그 확률 차이가 특정 임계값을 넘는 특징을 선택하는 방식을 사용

본 연구와 Choi et al. (2022)의 차이점은 다음과 같다 :

1. LLM이 생성한 텍스트 출력 자체를 직접 활용한다.  Choi et al. (2022)의 연구에선 LLM 내부 정보 (로그 확률)을 필요로 하지 않는다. 따라서 폐쇄형 모델에서도 사용이 가능하다. 

2. 다양한 모델 크기, 프롬프팅 전략, 데이터셋에 대해서 포괄적인 실험 평가를 수행하고, 실용적인 인사이트를 도출했다. 

 

 

 

3. Selecting Features with LLMs

1. LLM-Score : 중요도 점수를 기반으로 특징 선택

"특징 cj가 target인 cy와 얼마나 관련이 있는지 0~1 사이의 중요도 점수를 매겨줘. "라는 프롬프트를 통해 모든 j에 대해 숫자 점수 벡터 sj를 얻는다. 이 방법의 중요한 점은, 오직 하나의 입력 개념 cj에 대해 타겟 개념 cy만 포함하므로 LLM이 학습된 지식만으로 해당 특징의 개별적인(marginal) 중요성을 추론한다고 볼 수 있다. 

그 후 상위 k개를 골라 집합 S로 만든 후, 이 특징들만 가지고 학습 데이터 xs로 모델 fs를 학습시킨다. 

 

* 중요도 범위 [0,1] 는 임의로 정한 것이어서, 추가 실험을 진행했다. 범위를 [0,1] 로 할 때에 비해 [0,10]과 [8,24]로 할 때 값이 얼마나 달라지는지를 Appendix에 표기하였다. 이 표에서 알 수 있는 점은, 범위를 바꾸면 순위가 바뀔 수 있다는 점이다. 그러나, 모델이 클수록 순위 일관성이 높아짐을 알 수 있었다.

 

 

2. LLM-Rank : 순위를 기반으로 특징 선택

LLM에게 전체 feature들 c와 target인 cy를 프롬프트로 주고, "가장 관련 있는 순서대로 정렬해줘. "라는 프롬프트를 통해 LLM은 각 특징이 target인 cy와 개념적으로 얼마나 관련이 있는지에 따라 순서를 매긴다. 이 방식은 각 특징이 타겟과의 관련성 뿐만 아니라 다른 특징들에 비해 얼마나 상대적으로 중요한지를 판단할 수 있다. 

이렇게 받은 순위 중 상위 k개를 골라 집합 S로 만들고, 이 특징들만 사용해서 예측 모델 fs를 학습시킨다. 

 

3. LLM-Seq : LLM과의 대화를 통해 순차적으로 특징 선택

t= 1,...,d

이 방법은 기존의 순차적 특징 선택 방법과 유사한 선택 전략을 고려한다. 처음에는 집합 S를 비운 상태로 시작해서, "cross-validation(교차 검증) 성능을 최대한 향상시킬 수 있는 feature을 선택해줘." 라는 프롬프트를 통해 하나씩 순차적으로 특징들을 추가해 나간다. 이 과정을 feature가 k개가 될 때 까지 반복한다.

 

또 다른 설정으로는, LLM-Score에서 가장 높은 점수를 가진 개념 하나를 포함한 채로 시작하여 순차 선택을 하는 방법도 고려하였으나, 실험적으로는 전자의 방법이 후자보다 나은 성능을 보였기에 전자의 방법에만 초점을 맞춘다. 

 

4. Experiments

Models 

사용한 모델들은 다음과 같다. 

 

  • GPT-4 (OpenAI, 2023): 약 1.7조 개 파라미터
  • GPT-3.5 (Brown et al., 2020): 약 1,750억 개 파라미터
  • Llama-2 70B (Touvron et al., 2023): 700억 개 파라미터
  • Llama-2 13B: 130억 개 파라미터
  • Llama-2 7B: 70억 개 파라미터

 

GPT-4와 GPT-3.5는 OpenAI API에서 제공하는 gpt-4-0613과 gpt-3.5 turbo 모델을 사용했다. 

(참고로 OpenAI에선 정확한 파라미터 수를 공개하지 않아 추정값을 사용하였다)

LLaMa 보델들은 Huggingface의 llama-2-chat 체크포인트들을 사용하였으며, vLLM 프레임워크를 통해 출력 속도를 높였다.

 

이 모델들은 Instruction Tuning, RLHF(Reinforcement Learning from Human Feedback) 와 같은 과정을 통해 훈련되었다. 모델들을 추가로 학습시키지 않고, 프롬프트만 주어서 사용하는 zero-shot 방식을 사용하였다. 

 

Prompt design

기본 프롬프트 : the main system prompt + output format instruction + the main user prompt 로 구성

(i) the main system prompt
(e.g., “Your task is to provide a feature importance score between 0 and 1 for predicting ⟨target concept⟩ and a reasoning behind how the importance score was assigned.”),

(ii) output format instructions
(e.g., “Output your answer in a JSON format.”), and

(iii) the main user prompt
(e.g., “Provide a score and reasoning for ⟨concept⟩.”).

 

기본 프롬프트에 변화를 주어 feature selection에 어떤 변화를 미치는 지 실험하였다. 

(i) Adding dataset-specific context : LLM에게 데이터셋 D에 대해 특징을 선택하라고 요청할 때, 데이터 수집 과정, 코호트 정보 등 데이터셋에 대한 부가 정보를 제공하면 각 특징의 중요도를 더 잘 파악하고 성능 향상에 도움이 되는지를 살펴본다. 

(ii) Adding few-shot examples : few-shot 예시를 추가하여 LLM 기반 특징 선택 성능이 in-context learning을 통해 향상되는지를 실험하였다. 예를 들어, LLM-Score 방식으로 실험할 때 중요도 점수 예시를 프롬프트에 포함시킨다.

ex) [“blood pressure”, 0.9]

(iii) Adding CoT explanations : few-shot 설정에서 LLM의 추론 능력을 향상시키는 것으로 알려진 Chain of Thought 방법을 포함시키면 LLM의 feature selection 성능이 개선되는지 실험하였다.

ex) [“blood pressure”, “Blood pressure is important for... Thus, the score is 0.9.”, 0.9]

 

결론적으로, 실험에서는 다음 여섯 가지 프롬프트 템플릿 변형을 고려하였다. 

1. Default (No change),
2. Default + Examples,
3. Default + Examples with CoT,
4. Default + Context,
5. Default + Context + Examples,
6. Default + Context + Examples with CoT.

 

그러나, 이 프롬프트 실험은 LLM-Score 방법에서만 진행하였다. LLM-Rank는 한번에 입력 특징 전체 리스트를 줘야 해서 프롬프트가 매우 길어진다. 이에 따라 모델이 한번에 이해해야 하며 context window(프롬프트 길이 제한) 에도 걸릴 수 있다. LLM-Seq 실험은 대화처럼 하나씩 순차적으로 골라야 하므로, 구현의 복잡성 문제가 있다. 

 

Decoding

기본 디코딩 : greedy decoding (Temperature = 0)

항상 가장 확률 높은 단어만 선택하는 방식 -> 항상 똑같은 답 도출

그러나, feature importance에는 정답이 없음 ( 심부전 예측에 있어서 혈압의 중요도는 몇 점이야? 에 대한 진리가 있는 것이 아님 )

 

=> self-consistency decoding도 함께 실험 ( Temperature = 0.5)

서로 다른 5개의 답변을 생성해서 평균을 냄. 여러 가지 추론 경로를 반영해서 더 신뢰도 높은 결과를 얻을 수 있음

 

4.1 Evaluation on Small-Scale Dataset

 

이 부분에선 LLM-Score, LLM-Rank, LLM-Seq 세 가지 LLM 기반 특징 선택 방법을 기존의 여러 특징 선택 기법들과 비교한다. 보건으료, 범죄 사법 등 다양한 분야의 소규모, 저차원 데이터셋을 사용해 수행되며, 전처리 이후 각 데이터셋은 대략 10개~70개의 특성을 포함한다. 

데이터셋은 총 14개로, 7개의 이진 분류 데이터셋 (Credit-G, Bank, Give Me Some Credit, COMPAS Recidivism, Pima Indians Diabetes, AUS Cars*, YouTube*) 7개의 회귀 데이터셋 s (CA Housing, Diabetes Progression, Wine Quality, Miami Housing, Used Cars, NBA*, NYC Rideshare*) 을 사용한다. (* 표시는 LLM의 cutoff 이후에 생성된 데이터들)

각 특성 선택 방법의 성능은, 선택된 특성의 비율을 약 10%씩 증가시키며 100%까지 변화시킬 때 각각의 성능을 측정한다. 분류 모델과 선형 회귀 모델은 L2-penalized logistic regression / L2-penalized linear regression을 사용하였고, 여기에 5겹 교차 검증 + 그리드 서치로 훈련하고, 그 성능을 측정했다. 성능 지표는 분류 모델은 AUROC, 회귀면 MAE를 사용하였다. LLM 기반 특성 선택에서는 해당 개념이 범주형 변수인 경우, 하나의 개념이 전처리 후 여러 특성에 해당할 수 있다. ( 원 핫 인코딩 같은거 하니까 )

 

Baselines

  • LassoNet (Lemhadri et al., 2021),
  • the LASSO (Tibshirani, 1996),
  • forward sequential selection,
  • backward sequential selection,
  • recursive feature elimination (RFE; Guyon et al., 2002),
  • minimum redundancy maximum relevance selection (MRMR; Ding & Peng, 2005),
  • filtering by mutual information (MI; Lewis, 1992),
  • random feature selection.

 

4.2 Evaluation on Big-Scale Dataset

 

이 부분에선 규모가 큰 (feature 3000개 이상) 데이터셋에 대해서도 강력한 성능을 발휘한다는 것을 보여준다. 이 부분에선 소규모 데이터셋에서 일관되게 우수한 성능을 보인 GPT-4 기반 LLM-Score + 기본 프롬프트 설정(default prompting) 방식만을 사용한다. 

 

Folktables 데이터셋에선 Income(소득), Employment(고용), Public Coverage(공공 보험), Mobility(이동성)에 대해 가능한 모든 feature를 포함하는 superset(확장된 버전)을 만들었고, 레이블 누수(label leakage)를 유발하는 feature는 제거했다. 

MIMIC-IV 데이터셋에선 ICU 입원 환자가 CKD(만성 신장질환), COPD(만성 폐쇄성 폐질환), HF(심부전) 예측에 있어 필요한 feature selection을 진행하도록 하였다. 

 

각 특징 선택 방법은, 전체 입력 개념 중 상위 10%, 30%, 50%, 70%, 100%을 선택했을 때 예측 모델의 테스트 성능이 어떻게 변하는지를 측정하여 평가하였다.

 

예측 모델은 LightGBM, MLP, L2-penalized logistic regression을 사용하였다.

각 방법과 데이터셋에 대하여 40개의 각기 다른 하이퍼파라미터 조합을 무작위로 골라서 모델 성능을 비교하였다. 모델 성능 실험을 할 때, 무작위성을 제어하기 위해 5개의 랜덤 시드를 사용하고, 그 시드별로 나온 테스트 AUROC 성능을 평균을 내었다. 

 

Baselines

  • LassoNet (Lemhadri et al., 2021),
  • group LASSO (gLASSO; Yuan & Lin, 2006),
  • MRMR (Ding & Peng, 2005),
  • random feature selection,
  • an all-features baseline.

MRMR을 제외한 다른 Baseline들은 비슷한 그룹끼리 묶어서 선택하도록 지정.

MRMR은 LLM-Score랑 같은 개수의 feature를 뽑도록 하였음. 

LassoNet과 gLASSO에 대해선 warm start 방식(이전 단계에서 학습한 결과를 다음 단계의 초기값으로 사용하는 방법)을 사용 => 계산이 빨라짐 & LLM-Score가 뽑은 feature 개수랑 비슷하게 뽑히도록 설정

 

5. Results 

5.1 Small Scale Datasets

Result 1. LLM 기반 특성 선택 방법들은, LLM 규모가 충분할 경우, 데이터 기반 Baseline들과 경쟁력 있는 성능을 달성한다. 

그림(a)는 각각 분류(왼쪽), 회귀(오른쪽) 데이터셋에 대해 평균을 낸 성적이다. 큰 모델(GPT-4, GPT-3.5)의 경우가 LLM이 생성한 중요도 점수를 기반으로 특성을 선택하는 것이 평균적으로 강력한 성능을 내었고, 데이터 기반 Baseline들과 경쟁력이 있음을 알 수 있었다. 

그림(b) 에선 각 데이터셋에서 가장 성능이 좋은 Baseline, GPT-4 기반 LLM-Score, Random의 선택된 특성 비율 대비 테스트 성능 곡선을 보여준다. 여기서 GPT-4기반의 LLM-Score는 Youtube 데이터셋에서 Best Baseline보다 더 높은  AUROC을 보여준다. NBA 데이터셋에선 Best Baseline과 동등한 성능을 보여준다. 

그림(c) 에선 작은 LLM들은 성능이 덜 일관적임을 보여준다. 예를 들어, Llama-2(7B)(보라색) 기반 LLM Score은 Youtube에선 잘 작동하지만, NBA 데이터셋에선 무작위 선택 수준의 성능을 보여준다. 

 

Result 2. 세 가지 LLM 기반 feature selection 방법 모두 비슷하게 강력한 성능을 보인다. 

그림(a) 에선 GPT-4기반의 LLM-Score, LLM-Rank, LLM-Seq에 대한 feature selection path를 보여준다. Diabetes Progression과 NYC Rideshare를 제외한 모든 데이터셋에서 경로가 상당히 겹침을 알 수 있다. 

그림(b) 에선 GPT-3.5 기반의 LLM-Score, LLM-Rank, LLM-Seq에 대한 feature selection path를 보여준다. 그러나 GPT-4만큼 경로가 겹치진 않음을 볼 수 있다. 

반면, 더 작은 Llama-2 모델들에 대해LLM-Score, LLM-Rank, LLM-Seq의 성능이 데이터셋에 따라 일관되지 않음을 보여준다. 이는 모델 규모가 작아질수록, 각 방법의 효과가 데이터셋마다 점점 더 달라진다는 것을 시사한다.

 

Result 3. 데이터셋에 특화된 문맥 없이 zero-shot 프롬프트와 greedy 디코딩만 사용해도 강력한 성능을 낸다. 

LLM-Score가 프롬프트 설계와 디코딩 전략에 얼마나 민감한지 측정하기 위해, 6가지 프롬프트 설계와 2가지 디코딩 전략을 사용했다. 분류 과제에서는 면적이 증가할수록 성능이 향상된 것이며, 회귀 과제에선 면적이 감소할수록 성능이 향상된 것이다. 

그림은 기본 프롬프트 + greedy decoding을 기준으로, 각 프롬프트 설계와 디코딩 전략 조합이 평균적으로 얼마나 성능을 향상시켰는지를 보여준다. 프롬프트 예시는 one-shot만 고려한다. 

그림을 토대로, 어떠한 프롬프트 전략도 모든 LLM에서 일관되게 성능을 향상시키진 못하였으며, 오히려 GPT-3.5, Llama-2 (7b) 와 같이 성능을 약화시키는 경우도 있었다. 가장 큰 모델인 GPT-4는 프롬프트 설계에 덜 민감하며, 추가적인 문맥에서 약간의 이득을 보긴 하지만, 그 효과는 모두 10%를 넘지 못하여 제한적이었다. 

 

Result 4. 모델 규모가 커질수록, LLM-Score는 기존 특성 중요도 지표들보다 더 높은 상관관계를 보인다. 

LLM-Score와 기존 특성 중요도 지표간의 alignment(일치도)를 측정하였다. (SHAP, Fisher Score, Mutual Information, Pearson 상관계수, Spearman 순위 상관 계수, Permutation Importance) 이때, Kendall의 τ (타우) 계수를 사용해 쌍(pairwise) 간 순서의 일치도를 정량화한다. (+1일에 가까울수록 완전히 일치하는 순위, -1은 반대되는 순위)

 

SHAP 값을 측정하기 위해선 XGBoost 모델을 훈련시켰고, Permutation Importance를 측정하기 위해선 L2-penalized logistic regression / L2-penalized linear regression을 사용할 때 각 특성의 값을 30번 무작위로 섞어서, 테스트 성능이 얼마나 떨어지는지 측정했다. (성능이 떨어지면 예측에 중요한 특성이라는 의미) 

 

그림을 보면, LLM-Score가 특정 중요도 개념이랑 일관되게 정렬되진 않았다. 그러나 모델 규모가 커질수록, LLM이 생성한 중요도 점수는 SHAP, Spearman과 같은 지표들과 높은 상관관계를 지녔다. 

 

5.2 Large Scale Datasets

 

figure (a)는 GPT-4 기반 LLM-Score와 여러 Baseline 방법들을 비교하여 각 방법으로 상위 30%의 feature을 선택했을 때의 테스트 AUROC 평균값을 보여준다. 왼쪽은 folktables 데이터셋, 오른쪽은 MIMIC-IV 데이터셋을 사용한 결과이다. 30%로 한 이유는 보통 feature의 30% 이상을 선택하면 전체 feature을 사용하는 것과 성능 차이가 거의 없어지기 때문이다. LLM-Score는 folktables 데이터셋에서 전체적으로 가장 좋은 성능을 보였고, MIMIC-IV 데이터셋에서도 LassoNet과 Random 방법보다 확실히 더 좋은 성능을 보였다. 

figure(b), figure(c)는 MRMR, Random, LLM-Score가 feature를 얼마나 선택했는지에 따라 성능(AUROC)이 어떻게 변화하는지를 나타낸 그래프이다. 대부분의 데이터셋에선, 30%까지만의 feature선택 만으로도 좋은 예측 성능을 낼 수 있었다. 특히, LLM-Score는 훈련 데이터 없이도 꽤 괜찮은 feature를 뽑아낼 수 있었다. 

6. Discussion and Conclusion

이 연구는 LLM이 훈련 데이터를 직접 보지 않고도, LLM을 이용해 지도학습을 위한 feature selection을 할 수 있다는 것을 보여주었다. 

충분히 큰 LLM을 사용할 경우, zero-shot prompting만으로도 선택한 feature들이 강력한 예측 성능을 보였다. 

이러한 LLM의 능력을 활용하면 데이터 수집 후에 어떤 feature을 고르는 역할 뿐 아니라, 데이터 수집 전 어떤 feature을 모아야 할 지에도 도움을 줄 수가 있다. 

 

그러나, LLM은 pre training 과정에서 바람직하지 않은 bias를 물려받을 수 있고, 이로 인해 특정 인구 집단에게 불공정한 feature selection을 야기할 수 있다. 따라서 data-driven 방법 혹은 human in the loop 방식으로 사용하는 것을 권장한다. 

 

https://arxiv.org/abs/2407.02694

 

LLM-Select: Feature Selection with Large Language Models

In this paper, we demonstrate a surprising capability of large language models (LLMs): given only input feature names and a description of a prediction task, they are capable of selecting the most predictive features, with performance rivaling the standard

arxiv.org

이번 논문은 무려 !! 카네기 멜론 대학 논문이다. 교수님 두분에 박사 한분 같은데 박사 선생님 한국인 같음 .. 대단쓰