SWUFORCE/기술 스터디

멀티모달 AI

yoojin21 2022. 11. 8. 10:10

 

 멀티모달(Multi Modal) AI

  •  시각, 청각, 감각 등의 다양한 모달리티를 동시에 받아들이고 사고하는 AI 모델
  •  기존 AI는 인간의 지능을 모방하여 데이터를 바탕으로 사람과 같은 방식으로 작업을 수행함. 이는 주로 자연어 처리를 위주로 하였음
  • LG AI 연구원의 '엑사원' -> 이미지를 텍스트로 설명 가능한 양방향 멀티모달
  • 인텔과 카네기멜론대학의 'WebQA' -> 웹상의 데이터와 이미지를 학습, 사용자 질문에 답변
  • OpenAI의 'DALL-E 2'

 

 

 OpenAI의 'DALL-E 2'

  •  기존 이미지들을 개체별 분류 후 이름을 부여하고, 위치와 색상, 어떤 동작을 하고 있는지 알 수 있도록 함
  •  이미지를 설명하는 데 이용된 텍스트 간의 관계를 학습함. 

 

 

 

 DALL-E 사용예시

OpenAI의 DALL-E 사용예시1

 

OpenAI의 DALL-E 사용예시2

 

 

 

 

 멀티모달 AI 발전 기대

 현재는 확산 모델을 사용한 지식 축적 단계에 있음

 

  • 차량 사고 보험 접수 처리
  • 범죄자 분석 후 CCTV 내에서 검색
  • 자율주행 (속도, 차선 위반, 운전자, 날씨 정보)
  • 원격 진료

 

 

 

 멀티모달 AI 우려

  • 딥페이크 범죄 -> 공적 인물을 포함한 실제 사람의 이미지를 생성하지 못하게 하거나 성인용 이미지는 학습하지 못하게 하는 등의 방법으로 방지(DALL-E는 사람의 얼굴을 흐리게 그림)
  • 편향된 데이터 학습 후 나쁜 결과 산출
  • 기존에 없는 신용카드 생성

 

 

 

참고

https://www.samsungsds.com/kr/insights/multi-modal-ai.html?moreCnt=0&backTypeId=&category=

 

인간처럼 사고하는 멀티모달(Multi Modal) AI란?

AI는 어떻게 사물의 개념을 받아들일까요? AI는 명령어만으로는 그 단어가 어떤 형태로 세상에 존재하는지 이해하지 못해요! 그래서 AI가 인간처럼 인식할 수 있도록 만들어진 것이 '멀티모달 AI'

www.samsungsds.com

 

http://www.aitimes.com/news/articleView.html?idxno=144483 

 

[김동원의 Eye-T] 올해 AI 트렌드는 '멀티모달?' - AI타임스

올해 AI 트렌드는 \'멀티모달?\' (기획·제작=김동원 기자, 촬영=김미정 기자)AI가 칼럼을 쓰고 소설을 쓰는 시대가 됐습니다.그러면 AI가 새로운 이미지를 만드는 것도 가능할까요? 새로운 영상을

www.aitimes.com