자연어 처리(NLP)는 컴퓨터와 소프트웨어를 활용하여 인간의 언어(글 또는 말)에서 의미를 도출하는 기술입니다.
자연어 처리(NLP)는 컴퓨터와 소프트웨어를 활용하여 인간의 언어(글 또는 말)에서 의미를 도출하는 기술입니다.
자연어 처리는 콘텐츠를 이해, 해석, 분류하고 인사이트를 도출하기 위해 AI를 적용하여 텍스트 또는 음성 데이터를 처리 및 분석하는 것입니다.
NLP에는 인간의 언어 텍스트를 생성하는 컴퓨터 기능인 자연어 생성(NLG)이 포함됩니다. 또한 텍스트를 입력받아 문맥과 의도를 파악하고 지능적인 응답을 생성하는 자연어 이해(NLU)도 포함됩니다.
NLP의 예로는 이메일 스팸 필터, 맞춤법 검사기, 문법 검사기, 자동 삽입, 언어 번역, 감성 분석(Sentiment Analysis), 시맨틱 검색 등이 있습니다. 트랜스포머 아키텍처를 기반으로 새로운 딥 러닝(DL) 접근 방식이 등장하면서 NLP 기술은 성능과 기능 면에서 혁신을 겪었습니다. 최첨단 NLP 모델은 최신 검색 엔진, 음성 비서, 챗봇의 핵심으로 자리매김하고 있습니다. 이러한 애플리케이션은 일상적인 주문 처리, 문의 배정, 자주 묻는 질문에 대한 답변 등을 자동화하는 데도 점점 더 능숙해지고 있습니다.
NLP의 적용 사례는 이미 상당하며 기하급수적으로 증가할 것으로 예상됩니다. 한 연구 조사에 따르면, 자연어 처리와 관련된 제품 및 서비스를 위한 글로벌 시장은 2017년 30억 달러에서 2025년 430억 달러로 성장할 것으로 예상됩니다. 이는 14배라는 놀라운 성장으로, 자연어 처리 솔루션의 광범위한 적용을 입증하는 것입니다.
조직 내 데이터의 15%만이 기업 데이터베이스에 저장되는 현실을 고려하면 이 성장률은 보다 높을 것입니다. 나머지는 문자 메시지, 이메일, 회의 노트, 전화 녹취록 등의 형태로 유지됩니다. 자연어 처리는 이 모든 데이터에 숨겨진 비즈니스 가치를 찾아내어 저장된 데이터만큼이나 비즈니스 의사 결정권자에게 유용하게 활용될 수 있는 잠재력을 가지고 있습니다.
머신 러닝(ML)은 오늘날 대부분의 자연어 처리 솔루션을 구동하는 엔진이며, 앞으로도 그럴 것입니다. 이러한 시스템은 NLP 알고리즘을 사용하여 단어가 사용되는 방식을 이해합니다. NLP는 문서 전체에서부터 숙어, 관용어에 이르기까지 모든 것을 수집한 다음, 단어 및 문장 간의 패턴과 관계를 식별하여 인간의 언어를 이해하는 방법을 '학습'합니다.
일반적으로 NLP 애플리케이션에서 입력 텍스트는 단어 임베딩과 같은 기술을 사용하여 단어 벡터(단어의 수학적 표현)로 변환됩니다. 이 기술을 사용하면 문장의 각 단어가 일련의 숫자로 변환된 다음, 문맥의 이해를 위해 RNN, LSTM, 트랜스포머와 같은 딥 러닝 모델로 전달됩니다. 신경망이 각 단어의 의미 및 문맥 정보와 같은 고유 속성을 인코딩하며 스스로 학습하는 동안 이러한 숫자는 장기적으로 서서히 변경됩니다. 이러한 DL 모델은 출력 시퀀스를 생성하는 데 사용되는 다음 단어 예측, 텍스트 요약과 같은 특정 언어 작업을 위해 적합한 결과물을 제공합니다.
그러나 단어 임베딩과 같은 텍스트 인코딩 메커니즘으로 인해 뉘앙스를 포착하는 것이 어려울 수 있습니다. 예를 들어, bass fish(생선의 일종인 바스)와 bass player(베이스 연주자)는 동일한 표현을 가질 수 있습니다. 긴 문장을 인코딩할 때는 문장의 앞단에서 파악된 문맥이 문장의 뒷 단을 인코딩 하는 과정에서 손실될 수도 있습니다. Bert(Bidirectional Encoder Representations from Transformers)는 양방향성이 강하며, 다른 텍스트 인코딩 메커니즘보다 문맥을 더 잘 이해하고 유지할 수 있습니다. 언어 모델을 훈련시키는 데 있어 중요한 문제는 레이블이 지정된 데이터가 부족하다는 것입니다. Bert는 비지도 작업으로 훈련되며, 일반적으로 서적 말뭉치, 영문 위키백과 등의 비정형 데이터 세트를 사용합니다.
인간의 언어를 모든 뉘앙스까지 이해하여 적절하게 반응하는 컴퓨터를 만드는 것은 AI 연구자들의 오랜 '염원'이었습니다. 그러나 진정한 자연어 처리(NLP) 기능을 갖춘 시스템을 구축하는 것은 가속 컴퓨팅을 기반으로 하는 최신 AI 기술이 도입되기 전에는 불가능했습니다.
GPU는 수백 개의 코어로 구성되어 있고 이러한 코어는 수천 개의 스레드를 병렬로 처리할 수 있습니다. GPU는 CPU만 사용하는 플랫폼에 비해 10배 더 높은 성능을 제공할 수 있기 때문에 딥 러닝 모델의 학습과 추론을 실행하는 플랫폼으로 선호되고 있습니다.
NLP 성장의 원동력은 자연어 처리와 관련하여 발생한 최근의 지속적인 발전과 혁신이었습니다. 그중에서도 점점 더 방대하고 복잡해지는 언어 모델을 처리하기 위해 GPU가 널리 사용된 것이 가장 유효했습니다.
Bert와 같은 NLP 트랜스포머 기반 딥 러닝 모델은 순차 데이터를 순서대로 처리할 필요가 없으므로 RNN보다 훨씬 더 고도화된 병렬화가 가능하고 GPU에서 훈련 시간을 크게 단축합니다. 비지도 학습 방법, 사전 학습된 모델을 통한 전이 학습, GPU 가속화를 사용할 수 있는 기능 덕분에 업계에서 Bert가 널리 채택되고 있습니다.
GPU 가속 모델을 빠르게 훈련시킨 다음 최적화하면 음성 지원 애플리케이션의 응답 시간을 10분의 1초 단위에서 밀리초로 단축할 수 있습니다. 이를 통해 컴퓨터 지원 상호 작용을 최대한 '자연스러운' 수준으로 만들 수 있습니다.
GPU를 기반으로 RNN이 발전하고 이에 따라 더 나은 성능의 AI가 제공되면서 지난 10년간 자연어 처리를 위한 애플리케이션이 폭발적으로 증가했습니다. 이를 통해 스타트업은 음성 서비스, 언어 튜터, 챗봇 등을 제공할 수 있게 되었습니다.
의료 부문의 난제 중 하나는 의료 서비스를 쉽게 이용할 수 있도록 만드는 것입니다. 병원에 전화를 걸 때는 통화 연결까지 한참 기다리는 일이 흔합니다. 심사청구 담당자에게 연결되는 것도 마찬가지로 어려울 수 있습니다. 챗봇 훈련을 위한 NLP 구현은 의료 분야에서 부상 중인 기술로, 의료 전문가의 부족을 해결하고 환자에게 소통의 장을 열어줄 수 있습니다.
NLP의 또 다른 주요 의료 응용 사례는 생물의학 텍스트 마이닝으로, BioNLP라고도 합니다. 생물학 문헌의 방대한 양과 생물의학 간행물의 증가 속도를 감안하면, 자연어 처리는 생물의학 분야의 지식 발전을 위해 발표된 연구에서 정보를 추출하는 데 매우 중요한 도구가 될 수 있습니다. 이는 신약 개발과 질병 진단에 큰 도움이 됩니다.
NLP는 금융 서비스 회사를 위한 더 나은 챗봇과 AI 비서를 구축하는 데 있어 매우 중요한 부분입니다. NLP 기반 애플리케이션에 사용되는 수많은 언어 모델 중에서 Bert는 머신 러닝 기반 NLP의 리더이자 언어 모델로 부상했습니다. NVIDIA는 최근 AI를 사용하여 Bert 훈련 속도 기록을 경신하였는데, 이는 향후 수년 내에 온라인에 출시될 수십억 개 대화형 AI 서비스의 잠재력을 실현하여 인간 수준의 이해력을 갖춘 동작을 수행하는 데 도움이 될 것으로 기대됩니다. 예를 들어, 은행에서는 NLP를 활용하여 신용 기록이 거의 없거나 전혀 없는 고객의 신용도를 평가할 수 있습니다.
의료 분야 외에도 챗봇 기술은 고객 문의를 정확하게 분석하고 응답이나 추천을 생성하기 위해 소매 애플리케이션에 일반적으로 사용됩니다. 이를 통해 고객 여정을 간소화하고 매장 운영의 효율성을 개선할 수 있습니다. NLP는 텍스트 마이닝 고객의 피드백 및 감성 분석에도 사용됩니다.
NVIDIA GPU와 CUDA-X AI™ 라이브러리를 사용하여 최첨단 거대 언어 모델을 빠르게 훈련시키고 최적화하면 몇 밀리초(1,000분의 1초) 만에 추론을 실행할 수 있습니다. 이는 빠른 AI 모델과 크고 복잡한 AI 모델 간의 상충 관계를 종결할 수 있는 중요한 진전입니다.
NVIDIA의 AI 플랫폼은 최초로 Bert를 1시간 이내에 훈련시키고 AI 추론을 2밀리초 만에 완료했습니다. NVIDIA GPU의 병렬 처리 기능과 텐서 코어 아키텍처는 복잡한 언어 모델로 작업할 때 더 높은 처리량과 확장성을 제공하므로 Bert의 훈련 및 추론에서 모두 기록적인 성능을 구현할 수 있습니다. 이러한 획기적인 수준의 성능에 기반하여 개발자는 전 세계 수억 명의 소비자에게 제공할 대규모 애플리케이션에 최첨단 언어 이해 기능을 사용할 수 있습니다.
NVIDIA의 성능 혁신을 가장 일찍 도입한 회사로는 Microsoft 그리고 세계에서 가장 혁신적인 스타트업 몇 곳이 있습니다. 이 조직들은 고객을 위해 매우 직관적이고 즉각적으로 반응하는 언어 기반 서비스를 개발하는 데 NVIDIA의 플랫폼을 활용하고 있습니다.
더 자세한 내용은 다음을 참조해 주세요.
더 알아보기: