챗GPT는 텍스트로만 사용자의 질문에 대한 답변을 제공해줍니다. 아쉬운 점은 이미지를 생성하거나 편집하는 기능은 불가능합니다. 하지만 이제 챗GPT 이미지 생성 및 편집하는 방법이 가능합니다. 그 방법과 카카오톡 이용방법에 대해서 알려드리도록 하겠습니다.
Contents
비주얼 챗GPT
오픈AI가 개발한 대화형 인공지능인 챗GPT는 광범위한 분야의 업무를 수행할 수 있습니다. 하지만 지금까지는 이미지에 대한 인식이나, 이미지를 생성하는 기능이 없어서 사용에 제한이 있었습니다.
챗GPT의 업그레이드 모델인 비주얼 챗GPT는 VFM(시각적 기반 모델)을 기존의 챗GPT에 결합한 것입니다. 이를 통해 사용자가 입력한 텍스트로부터 이미지를 생성하거나, 사용자가 업로드한 이미지를 읽을 수 있습니다.
비주얼 챗GPT의 원리
비주얼 챗GPT(Visual ChatGPT)는 기존의 챗GPT를 트랜스포머, 컨트롤넷, 스테이블디퓨전과 같은 VFM과 결합한 새로운 모델입니다. 본질적으로 AI 모델은 사용자 간의 다리 역할을 하여 사용자가 채팅을 통해 의사소통하고 시각적 개체를 생성할 수 있도록 합니다.
챗GPT는 현재 텍스트를 이용한 질문과 답변으로 그 이용이 제한됩니다. 이미지의 소스를 제안해주거나 다운로드를 받는 방법을 우회적으로 알려주기는 하지만 자체적으로 이미지를 처리하거나 생성해주지는 않습니다. 그러나 비주얼 챗GPT를 사용하면 사용자가 원하는 이미지를 생성 및 수정하고, 이미지의 편집도 작업이 가능합니다.
비주얼 챗GPT의 기능
- 사용자 입력텍스트에서 이미지 생성
- 이미지에서 일부 개체 제거 편집가능
- 이미지에서 일부 개체를 다른 개체로 변환 가능
- 이미지를 그림으로 변환하기
- 이미지 분할
- 비주얼 챗GPT를 통해 텍스트 외에도 이미지를 생성 및 편집
- 비주얼 챗GPT를 통해 이미지에 대한 지속적인 편집 및 복잡한 시각적인 요구를 처리할 수 있습니다..
시각적 기반 모델(VFM)이란
시각 기반 모델은 컴퓨터 비전에 사용되는 기본 알고리즘 그룹을 특성화하는 데 일반적으로 사용되며, 이러한 방법은 보다 복잡한 모델의 기초 역할을 할 수 있고, 표준 컴퓨터 비전 기술을 AI 애플리케이션으로 이전하는 데 사용됩니다.
비주얼 챗GPT 이용방법
비주얼 챗GPT는 구글 Colab을 이용하여 이용할 수 있습니다. 비주얼 챗GPT자체가 많은 연산력을 요구하다보니 Colab을 통해 이러한 리소스 소모를 줄일 수 있습니다.
1단계 : Python 3.8로 환경 생성
import sys
sys.path.append(“/usr/local/lib/python3.8/site-packages”)
2단계 : 깃허브 레포 복제
!git clone https://github.com/deepanshu88/visual-chatgpt.git
Cloning into ‘visual-chatgpt’…
remote: Enumerating objects: 129, done.
remote: Counting objects: 100% (90/90), done.
remote: Compressing objects: 100% (65/65), done.
remote: Total 129 (delta 62), reused 32 (delta 25), pack-reused 39
Receiving objects: 100% (129/129), 6.13 MiB | 24.06 MiB/s, done.
Resolving deltas: 100% (69/69), done.
저장소의 폴더구조
├── assets
│ ├── demo.gif
│ ├── demo_short.gif
│ └── figure.jpg
├── LICENSE.md
├── README.md
├── requirements.txt
└── visual_chatgpt.py
3단계 : 작업 디렉토리 설정
%cd visual-chatgpt
4단계 : 필수 패키지 설치
!curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
!python3.8 get-pip.py
!python3.8 -m pip install -r requirements.txt
5단계 : API키 입력
%env OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
6단계 : 비주얼 챗GPT 시작
!python3.8 ./visual_chatgpt.py –load Text2Image_cuda:0,ImageCaptioning_cuda:0,VisualQuestionAnswering_cuda:0,Image2Canny_cpu,Image2Line_cpu,Image2Pose_cpu,Image2Depth_cpu,CannyText2Image_cuda:0,InstructPix2Pix_cuda:0,Image2Seg_cuda:0
전체코드
# Create an environment with Python 3.8
import sys
sys.path.append(“/usr/local/lib/python3.8/site-packages”)
# Download Git Repos
!git clone https://github.com/deepanshu88/visual-chatgpt.git
# Set working directory
%cd visual-chatgpt
# Install the required packages
!curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
!python3.8 get-pip.py
!python3.8 -m pip install -r requirements.txt
# Enter OPENAI API KEY below
%env OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
# Run Visual ChatGPT
!python3.8 ./visual_chatgpt.py –load Text2Image_cuda:0,ImageCaptioning_cuda:0,VisualQuestionAnswering_cuda:0,Image2Canny_cpu,Image2Line_cpu,Image2Pose_cpu,Image2Depth_cpu,CannyText2Image_cuda:0,InstructPix2Pix_cuda:0,Image2Seg_cuda:0
카카오톡으로 챗GPT 이미지 이용하는 방법
위의 방법이 아니더라도 카카오톡으로 챗GPT를 이용하여 이미지를 인식하는 방법이 있습니다. 카카오톡 채널 중에는 챗GPT를 적용하여 무료로 이미지를 인식하거나 OCR과 같이 글자수를 인식하거나, 와인라벨등을 인식하는 기능을 가지고 있는 채널이 있습니다.
이 방법에 대해서는 위의 링크를 참고 바랍니다.