서문.
얼마 전, 한 인공지능 비디오 앱과 그 창업자가 기술 업계에서 폭발적인 인기를 끌면서 우연히도 회사 주식에 불을 지폈습니다. 대부분의 사람들이 더 이상 낯설지 않고 매우 숙련 된 AI 생성 이미지의 경우 대부분의 사람들이 더 이상 낯설지 않고 심지어 매우 숙련 된 AI 생성 이미지의 경우 일반적인 안정적인 확산 및 미드 여행 및 기타 다양한 모델과 제품이 부족하지 않은 pikaai라는 스타트 업입니다. 반대로 빈센 비디오 모델과 그 파생 제품은 여러 유명 회사가 제품을 매우 강력하다고 광고하지만 실제로는 모두 어느 정도 문제에 직면 해 있지만 발전이 더디게 진행되었습니다.
빈센트 동영상 관련 문제
학습에 사용할 수 있는 유효 데이터가 적음: 모든 딥러닝 모델의 경우 데이터의 품질과 양에 따라 성능의 상한선이 결정됩니다. 언어 모델이나 시각 모델과 달리 이러한 모델을 훈련하기 위한 데이터는 오픈 소스 커뮤니티에서 쉽게 찾을 수 있으며 품질과 양이 비교적 우수합니다. 반면에 빈센트 비디오 모델 학습에 필요한 텍스트-비디오 쌍은 찾기가 쉽지 않습니다.
계산상의 어려움: 비디오 데이터는 이미지 데이터보다 시간적 차원이 더 큽니다. 비디오가 길수록 프레임 간의 일관성과 일관성을 보장하기가 더 어렵기 때문에 텍스트-비디오 쌍 데이터의 배치가 이미 있다고 가정할 때, 빈센 비디오 모델의 학습은 매우 짧은 비디오 클립으로만 학습할 수 있습니다.
빈센느 비디오를 구현하는 방법
초기 생성 적대적 네트워크
빈센 비디오는 매우 새로운 연구 방향이며, 초기 연구에서는 주로 Gan과 Vae 기반 구현을 사용했습니다. 비디오를 각각 전경과 배경으로 추상화하고 이 두 채널을 통해 노이즈를 비디오 프레임으로 변환한 다음 하나로 병합하는 2채널 모델인 VideoGan은 비디오 생성에 GAN을 사용하는 가장 초기의 프레임워크입니다.
이러한 작업은 빈센느 비디오의 토대를 마련했지만, 저해상도 및 비디오에 단일 대상이 있는 상황에만 제한적으로 적용되었습니다.
최근 확산 모델
지난 2년 동안 확산 모델의 개발과 이미지 분야에서의 성과에 따라 일부 연구자들은 점차 확산 모델로 연구 초점을 옮기고 있습니다. 이 연구에서는 Text2Video-Zero 모델을 사용했기 때문에 이 모델과 그 효과에 대해 간략하게 소개하겠습니다.
이름에서 알 수 있듯이 Text2Video-Zero는 제로 샘플 모델, 즉 텍스트-비디오 쌍 데이터를 사용하지 않고도 텍스트 생성 그래프를 텍스트 생성 비디오로 마이그레이션할 수 있으므로 sd-1.5 또는 sdxl 등과 같은 안정적인 확산 관련 모델과 함께 직접 사용할 수 있습니다. 전체적인 아이디어는 다음과 같이 요약할 수 있습니다:
- 무작위 노이즈를 샘플링하는 대신 두 번째 프레임부터는 각 프레임이 이전 프레임과 달라지고 모션 벡터로 겹쳐집니다.
- 프레임 간 어텐션 메커니즘으로 변경된 Unet의 어텐션 메커니즘
논문에 제시된 예제를 통해 간단한 동영상을 생성할 수 있습니다 저도 간단한 동영상을 생성하려고 시도했지만 결과는 여전히 제한적입니다. 자세히 보면 잔디가 충분히 세밀하지 않고 왜곡이 있으며 강이 좌우 대칭이 아닌 단순한 좌우 대칭임을 알 수 있습니다. 샘플 속도를 조정했음에도 불구하고 결과는 여전히 좋지 않습니다.
결론
실제 결과의 측면에서 볼 때, 현재 빈센트의 비디오 결과는 아직 영화 품질의 비디오를 생성할 수 없습니다. 다음 오픈 소스 모델 중 일부는 비디오 프레임 간의 상관관계를 더 잘 포착하는 방법에 초점을 맞춰 이미지 제로 샘플에서 실제 다중 모델인 비디오로 마이그레이션할 것으로 추측됩니다. 또한 일부 영리 기업들은 다른 기업들과 차별화하기 위해 비디오의 디테일을 개선하기 위해 비공개 고품질 텍스트-비디오 데이터를 구축하는 데 많은 인적 및 재정적 자원을 투입할 수도 있습니다.




