SWUFORCE/기술 스터디
멀티모달 AI
yoojin21
2022. 11. 8. 10:10
멀티모달(Multi Modal) AI
- 시각, 청각, 감각 등의 다양한 모달리티를 동시에 받아들이고 사고하는 AI 모델
- 기존 AI는 인간의 지능을 모방하여 데이터를 바탕으로 사람과 같은 방식으로 작업을 수행함. 이는 주로 자연어 처리를 위주로 하였음
- LG AI 연구원의 '엑사원' -> 이미지를 텍스트로 설명 가능한 양방향 멀티모달
- 인텔과 카네기멜론대학의 'WebQA' -> 웹상의 데이터와 이미지를 학습, 사용자 질문에 답변
- OpenAI의 'DALL-E 2'
OpenAI의 'DALL-E 2'
- 기존 이미지들을 개체별 분류 후 이름을 부여하고, 위치와 색상, 어떤 동작을 하고 있는지 알 수 있도록 함
- 이미지를 설명하는 데 이용된 텍스트 간의 관계를 학습함.
DALL-E 사용예시
멀티모달 AI 발전 기대
현재는 확산 모델을 사용한 지식 축적 단계에 있음
- 차량 사고 보험 접수 처리
- 범죄자 분석 후 CCTV 내에서 검색
- 자율주행 (속도, 차선 위반, 운전자, 날씨 정보)
- 원격 진료
멀티모달 AI 우려
- 딥페이크 범죄 -> 공적 인물을 포함한 실제 사람의 이미지를 생성하지 못하게 하거나 성인용 이미지는 학습하지 못하게 하는 등의 방법으로 방지(DALL-E는 사람의 얼굴을 흐리게 그림)
- 편향된 데이터 학습 후 나쁜 결과 산출
- 기존에 없는 신용카드 생성
참고
https://www.samsungsds.com/kr/insights/multi-modal-ai.html?moreCnt=0&backTypeId=&category=
인간처럼 사고하는 멀티모달(Multi Modal) AI란?
AI는 어떻게 사물의 개념을 받아들일까요? AI는 명령어만으로는 그 단어가 어떤 형태로 세상에 존재하는지 이해하지 못해요! 그래서 AI가 인간처럼 인식할 수 있도록 만들어진 것이 '멀티모달 AI'
www.samsungsds.com
http://www.aitimes.com/news/articleView.html?idxno=144483
[김동원의 Eye-T] 올해 AI 트렌드는 '멀티모달?' - AI타임스
올해 AI 트렌드는 \'멀티모달?\' (기획·제작=김동원 기자, 촬영=김미정 기자)AI가 칼럼을 쓰고 소설을 쓰는 시대가 됐습니다.그러면 AI가 새로운 이미지를 만드는 것도 가능할까요? 새로운 영상을
www.aitimes.com