기조강연 / 튜토리얼 - 한국멀티미디어학회

MY MENU

기조강연

	이주석 부사장 (Intel Korea)
	제목 : 멀티모달이 열어가는 세상
	생성형 AI에 대한 전반적인 트랜드를 설명하고 자신만의 모델을 만들어 나가는 방법에 대해서 설명합니다. 특히 멀티모달이 열어가는 세상에 있어서 우리 스스로가 준비할 사항들이 무엇인지를 다양한 각도에서 설명하고 케이스를 소개합니다.

Keynote Speech

	윤상두 소장 (Naver AI Lab.)
	제목 : Trustworthy AI 를 향한 네이버 AI 연구
	인공지능 기술이 눈부시게 발전하면서, 인공지능의 신뢰성과 관련된 문제에 대한 중요성 또한 대두되고 있습니다.네이버는 신뢰할 수 있는 인공지능, Trustworthy AI 를 위해 다양한 연구를 진행하고 있습니다. 본 강연에서는 네이버의 Trustworthy AI 연구 방향성과 대표적인 연구 성과들을 소개하고자 합니다. 강연에서는 Trustworthy AI 를 향한 네이버의 기술적 성과들의 공유와 함께, AI가 사회적인 가치를 지니기 위한 네이버의 노력들도 함께 소개합니다.

특별세션 I – 영상기반 도시 인프라 지능화 기술

	김형준 대표 (㈜스퀴즈비츠)
	제목 : 경량화 기술을 통한 On-Device Generative AI
	Stable Diffusion과 ChatGPT가 등장하면서 image 및 text generation AI가 크게 각광받고 있습니다. LLM 과 diffusion 모델은 학계와 산업계를 가리지 않고 눈부신 발전을 거듭하고 있으며 매우 다양한 서비스를 낳고 있습니다. 하지만 Diffusion 모델과 LLM은 모델 크기가 매우 크거나 아주 많은 연산량을 요구하는 경우가 많아 실제 서비스에 도입했을 때 엄청난 비용이 발생하는 경우가 많습니다. 본 발표에서는 스퀴즈비츠에서 경량화 기술을 통해 Stable Diffusion 모델을 스마트폰에서 실시간으로 구동하거나 Jetson 보드에서 LLM chatbot을 구동한 방법에 대해 소개합니다.
	최동구 교수 (POSTECH 산업공학과)
	제목 : 자율주행차 전환 시대의 지능형 교통 신호 체계 운영
	교통 흐름의 효율성과 안전성 향상에 도움이 되는 지능형교통시스템의 핵심 기술들 중 하나로 교통 상황에 따라 교통 신호 체계를 최적화하는 기술이 있습니다. 본 발표에서는 시뮬레이션 최적화 및 강화학습 방법론을 활용한 다중교차로 네트워크 환경에서의 교통 신호 체계 운영 기술에 대해서 진행 중인 연구를 소개하고자 합니다.
	이경오 박사 (ETRI 대경권 연구본부)
	제목 : 멀티모달 모델 기반의 자연어를 활용한 차량 영상 탐색 기술
	멀티모달 모델 기반의 자연어를 활용한 차량 영상 탐색 기술"은 CCTV 환경에서 수집된 차량 영상을 분석하는 기술입니다. 이 기술은 컴퓨터 비전과 자연어 처리를 결합하여 수많은 차량 영상 데이터를 효율적으로 이해하고 분석하는 것을 목표로 합니다. 이를 위해 우리는 멀티모달 모델을 활용하여 주어진 텍스트와 비디오 데이터를 동시에 이해하고 처리합니다. 본 강의에서는 자연어-영상 멀티모달 모델에 대한 기본적인 개념을 소개하고, 이를 활용하여 특정 차량 또는 상황을 탐지하는 방법을 설명합니다.
	오대성 대표 (㈜파킹고)
	제목 : Connectivity Parking System 기반 주차데이터 수집/통합을 통한 주차 문제 해결
	다양한 주차장 환경에서 정확성 높은 주차데이터를 수집/분석함으로 주차장의 주차데이터 수집/통합하고 이를 통해 주차 정보 비대칭성을 해소 및 주차 분산을 유도하여 데이터 기반 주차 문제 해결을 제안합니다.

특별세션 II – 실무 적용을 위한 생성형 인공지능

	유현곤 부장 (Nvidia Korea)
	제목 : NVIDIA NEMO를 이용한 생성형 AI 모델 구축
	최근 오픈소스 초거대 AI모델을 활용한 연구가 활발합니다. NVIDIA NEMO는 pytirch 기반으로 LLM, 음성합성, 음성인식 모델을 학습할 수 있는 오픈 소스 플랫폼으로 data parallel, model parallel, pipeline parallel 등 pretrain, finetune을 진행할 수 있을 뿐만 아니라, 학습된 모델을 RAG 및 TensorRT-LLM의 연동을 통하여 inference 최적화를 수행할 수 있습니다. 본 발표는 NEMO 프레임웍을 활용한 LLM 연구방법론을 살펴보고 있습니다.
	홍승환 팀장 (㈜스캐터랩)
	제목 : Diffusion Model의 최신 동향과 추론 최적화 방법
	최근 멀티모달 기술의 근간인 Diffusion 모델의 연구 동향을 정리하고, 이미지 생성 기능을 실서비스 수준의 빠른 속도로 제공할 수 있도록 하는 추론 최적화 기술을 소개합니다.
	김태녕 팀장 (㈜카페24)
	제목 : RAG, 나의 데이터, 나만의 챗봇
	의미기반 유사도 검색과 LLM의 텍스트 생성의 조화 나의 데이터로 나만의 질의응답 챗봇 만들어보기 정확도 높은 챗봇을 위한 LLM 프롬프트 엔지니어링

신진연구자 세션 – 떠오르는 신진연구자를 통해 알아보는 최신 연구

	차은주 교수 (숙명여자대학교 지능형전자시스템전공)
	제목 : 생성형 모델을 이용한 위상 복원 Retrieval (Phase)
	푸리에 위상 복원은 측정된 푸리에 변환의 크기만을 사용해 신호를 복원해야 하는 대표적인 역문제 중 하나입니다. 본 강연에서는 확산 모델 (Diffusion Model)과 신호처리 기반의 최적화 (Optimization) 방법을 동시에 이용하는 최신 영상 생성 기술에 대해서 설명합니다.
	권 범 교수 (동덕여자대학교 문화지식융합부 데이터사이언스 전공)
	제목 : 인공지능 기반 3차원 자세 추정 기술과 그 응용
	최근, 3차원 인간 자세 추정 기술의 발전으로 사람의 모션 데이터의 획득이 더욱 빠르고 간단해졌습니다. 그 결과 모션 데이터는 현재 다양한 분야에서 활용되고 있다. 본 강연에서는 인공지능 기반 3차원 자세 추정 기술과, 관련된 응용 연구 사례를 소개합니다.
	김현석 교수 (동아대학교 컴퓨터AI공학부)
	제목 : 강화학습기반 로봇인공지능
	로봇에 관한 관심의 증가는 AI 연구자로 하여금 좀 더 쉽게 로봇을 다루고 싶어 하게 합니다. 기존 자동계획 (Automated Planning) 기반 로봇 제어는 기구학에 대한 지식이 필수적이라 비전공자들이 접하기 어려운 부분이 있었습니다. 최근 강화학습 (Reinforcement Learning)은 보상함수 설계와 작업환경과의 상호 작용을 통해서, 로봇의 관절을 직접 제어할 수 있는 에이전트를 학습할 수 있습니다. 본 강연에서는 강화학습을 중심으로 로봇 행동에 대한 인공지능을 소개합니다.

튜토리얼

	박성준 교수 (상명대학교 감성공학과)
	제목 : LLM 기반 UX 프로토타이핑
	생성 인공지능 시대를 맞이해 기존의 UX 디자인 및 개발 방법론도 혁신과 변화의 과정중에 있습니다. GPT API, GPTs, LLM 연계 Lang Chain, RAG로 인해 더 Rapid, Rough, Right(3R) 철학에 충실한 대화 기반 프로토타이핑이 가능해졌습니다. 본 튜토리얼에서는 생성 기반의 UX 컨셉(이미지, 대화 등)을 작동가능한 MVP로 빠르게 만드는 방법에 대한 내용을 중심으로 설명합니다.
	조창식 실장 (한국전자통신연구원)
	제목 : Auto ML 기술 관련 TangGo 프로젝트 중심으로 소개
	신경망 개발 과정은 신경망 모델을 개발하고 학습하는 과정과 학습된 신경망을 타겟 환경으로 배포하는 과정으로 이루어집니다. 신경망 모델 개발 및 학습 과정은 신경망 이론 전문지식이 필요하게 되며, 신경망 배포 과정은 다양한 HW 환경에 따라 신경망 코드를 최적화하는 복잡한 과정을 요구합니다. 본 연구에서는 신경망 응용 개발의 어려움을 해결하기 위하여 타겟 성능 요구에 따른 신경망 모델 검색으로 신경망 응용을 자동으로 생성하고 실행환경에 최적화된 타겟 이미지의 탑재를 지원하는 신경망 통합개발 프레임워크 기술을 개발하고자 합니다. 신경망 생성은 타겟 디바이스 특성을 고려하여 신경망의 정확도와 타겟 지연시간을 동시에 고려하여 자동으로 이루어지게 됩니다. 신경망 배포 환경은 CPU, GPU, NPU 등 다양한 인공지능 가속 환경을 가진 온보드 환경, 엣지클라우드 환경, 클라우드 환경에 신경망 응용이 최적 배포되도록 지원합니다. 본 강연에서는 타겟 최적화된 신경망 자동생성과 통합 배포를 지원하기 위한 신경망 통합개발 프레임워크의 연구를 소개합니다.
	백 란 교수 (호남대학교 컴퓨터공학과)
	제목 : 프롬프트 엔지니어링, 활용사례
	프롬프트 엔지니어링을 통해 AI 언어 모델과 효과적으로 소통하는 방법에 대한 심도 있는 이해를 제공과 모델로부터 원하는 응답을 유도하는 기술을 배우고, 그 기능과 한계를 이해하며, 내용 생성, 코딩, 데이터 분석과 같은 다양한 맥락에서 이러한 통찰력을 적용하는 방법을 제공합니다.
	김종유 교수 (연세대학교)
	제목 : Introduction to Text-to-Image Diffusion Models and Applications
	근래 몇년 사이에 여러 빅테크 기업들이 DALL-E, FireFly, Midjourney 등과 같은 고품질의 텍스트에서 이미지를 생성하는 기술을 공개하며 주목을 받고 있다. 이러한 기술이 유료 서비스로도 충분한 품질을 보이게 되었던 것은 최근에 등장한 디퓨전 디노이징 기술 덕분이다. 본 발표에서는 텍스트 기반 영상 생성 기술의 주요 방법론을 설명하고 최신 연구 동향을 살펴본다.

QUICK
MENU