비속어 필터링 (매핑 테이블만 사용)

❌ AI로 2차 필터링: 변형이 너무 무궁무진하기 때문에, 단순 매핑 테이블 외에도 2차 필터링으로 Gemini AI 모델을 활용해서 잡아내면 좋음(예: "ㅂr보" 같은 케이스는 AI가 훨씬 잘 잡아냄)
- 비용 문제로 인해 AI 사용 못함
❌ 인덱스 추가: 지금 구조에서 word 컬럼에 인덱스가 없으면 검색 시 성능 저하가 올 수 있음. word 컬럼에 UNIQUE INDEX를 걸어주기?
- Redis 활용: 현재 Redis를 쓰고 있으니까, 이 리스트를 Redis Set(SADD curse_words ...)에 저장해두고 SISMEMBER로 체크하면 훨씬 빠름
- 그러나 SISMEMBER 는 메세지에서 단어를 추출해서 이 단어가 Redis Set에 존재하는지를 판별해야함. 그러려면 공백을 기준으로 tokenizing을 해서 넘겨줘야하는데 그럼 비속어와 다른 단어가 붙어있을 경우를 판별하지 못함. 따로 별도 tokenizing 규칙들을 여러개 추가하거나 접두/접미 탐지가 추가로 필요함.
  
  → 오히려 더 복잡하고 단어가 추가될 때마다 해당 단어의 조합에 따른 규칙들을 추가해야함. 공수 필요.
  
  따라서 전체 비속어 리스트를 가져와서 정규식 패턴 매칭으로 판별하는 방식을 사용.
  
  하단의 성능 및 최적화 부분 참고.

다른 단어가 붙어 있는 경우(예: `바보`가 들어간 `바보자식`)도 잡히도록 전체 비속어 리스트를 가져와서 패턴 매칭 방식

기존 방식

const curseWords = await this.getWordsFromRedis();
  if (curseWords.length === 0) {
    return { sanitized: message, hasCurse: false };
  }

let sanitized = message;
let hasCurse = false;

for (const word of curseWords) {
  if (!word) continue;
  // 대소문자 구분 없이 전체에서 순수한 리터럴 텍스트로 word를 찾기 위한 패턴을 만듦
  const pattern = new RegExp(word.replace(/[.*+?^${}()|[\\]\\\\]/g, '\\\\$&'), 'gi');
  if (!pattern.test(sanitized)) continue;

  hasCurse = true;
  const mask = '*'.repeat(word.length);
  sanitized = sanitized.replace(pattern, mask);
}

...

private async getWordsFromRedis(): Promise<string[]> {
  try {
    const members = await this.redisClient.sMembers(this.REDIS_SET_KEY);
    return members ?? [];
  } catch (e) {
    const msg = e instanceof Error ? e.message : String(e);
    this.logger.error(`Redis에서 비속어 조회 실패: ${msg}`);
      return [];
  }
}

성능 및 최적화

기존 방식은 메시지마다 Redis에서 sMembers로 전체 세트를 가져오므로, 트래픽이 많으면 네트워크 왕복과 직렬화 비용이 생김. 단어 수가 100 미만이면 체감은 적겠지만, QPS가 높으면 병목이 될 수 있다.
더 빠르게 하려면
1. 🌟 메모리 캐시: 모듈 init 시 한 번 로드해서 메모리에 들고 있으면 매 요청마다 Redis 호출을 없앨 수 있다.
  1. 리스트 변경 시 관리용 API나 TTL로 갱신하면 되지만 현재 비속어 목록 추가 기능은 구현하지 않음.
2. 🌟 미리 컴파일된 패턴: 캐시된 비속어들로 new RegExp(...)를 한 번 만들고 재사용하면 per-request 패턴 생성도 줄일 수 있다.
부분 일치 + 성능: 공백 없이 붙은 케이스까지 필요하면 현재처럼 전체 단어 리스트 기반으로 정규식을 돌려야 하니, 캐싱 + 사전 컴파일이 가장 효과적
규모가 커지면 Trie/Aho-Corasick 같은 다중 패턴 매칭을 메모리에서 돌리는 것도 방법

즉, 단어 수가 적다면 크게 문제 없을 가능성이 높지만, 안정적인 저지연을 위해 로드 시 캐싱 + 정규식 사전 컴파일로 Redis 왕복을 제거하는 게 가장 현실적인 최적화

Q. 메모리에 들고있는게 redis에서 찾는것보다 빠른가? redis도 메모리 기반이니 큰 차이가 없지 않나?

A.

Redis도 메모리 기반이지만 네트워크 왕복 + 프로토콜 직렬화/파싱 비용이 있다. 같은 프로세스 메모리에서 배열/Set을 조회하는 건 왕복이 없고, js 객체 접근이라 수십수백 ns 수준. 로컬 Redis라도 왕복은 보통 수백 µs 가 나옴
- 나노초(ns)와 마이크로초(µ)는 1,000배 차이임. JS 객체 접근이 100 ns라면, Redis는 100,000 ns 이상 걸린다는 뜻
- 아무리 Redis가 빨라도 인메모리 변수 접근보다는 최소 1,000배 이상 느리다
QPS 가 높으면 이 차이가 누적됨. 비속어 목록이 작다면 Redis도 크게 문제 없지만, 모든 요청마다 sMembers는 네트워크 I/O가 쌓일 수 있다.
- QPS?
🌟 타협안
- 모듈 init 시 한 번 로드해 메모리에 캐시하고, 필요하다면 관리용 API나 주기적 리로드(예: 5분)로 동기화. 이렇게 하면 요청 시 네트워크 호출 X
- 캐시한 리스트로 미리 컴파일한 단일 정규식(혹은 Trie/Aho-Corasick)을 재사용하면 per-request 비용도 더 줄어듦

타협안으로 진행

메모리 캐싱 + 정규식 사전 컴파일로 타협안을 적용

비속어 필터링 (매핑 테이블만 사용)

다른 단어가 붙어 있는 경우(예: 바보가 들어간 바보자식)도 잡히도록 전체 비속어 리스트를 가져와서 패턴 매칭 방식

성능 및 최적화

Q. 메모리에 들고있는게 redis에서 찾는것보다 빠른가? redis도 메모리 기반이니 큰 차이가 없지 않나?

A.

타협안으로 진행

다른 단어가 붙어 있는 경우(예: `바보`가 들어간 `바보자식`)도 잡히도록 전체 비속어 리스트를 가져와서 패턴 매칭 방식