GPT-4o 유료사용자 대상 '음성모드' 출시!

안녕하세요! 챗대리입니다.

챗대리의 첫번째 Ai뉴스레터, 지금부터 시작하겠습니다! 🚀

📑

[콘텐츠]

위클리 Ai트렌드:
- 메타, GPT-4o에 맞먹는 성능의 Llama 3.1 공개
- 오픈Ai의 SearchGPT, 사전 공개 반응은?!
- GPT-4o 음성모드, 일부 Plus사용자 대상으로 공개
- Runway, Gen-3 Image to Video 공개

위클리 Ai활용팁:
- 이미지를 움짤로 만들기: Vidnoz AI
- 자주 쓰는 프롬프트를 단축키로: Text Blaze
- PC에서 손쉽게 유튜브 영상 요약하기 : Gemini

위클리 Ai트렌드

메타, GPT-4o에 맞먹는 성능의 Llama 3.1 공개

이번 주, 페이스북의 모회사 메타에서 최신 인공지능 모델 Llama 3.1을 공개했습니다. 메타에서는 매번 오픈소스로 Ai모델을 오픈해왔는데요. 이번 Llama 3.1의 놀라운 점은 이 모델이 GPT-4o와 동급 또는 그보다 더 낫다고 평가받고 있다는 것입니다.

위 그래프는 Llama 3.1의 성능을 사람들에게 평가시킨 결과인데요. 무려 절반 이상이 라마 3.1모델이 GPT 4o와 비슷한 수준이라고 평가했고, 19%는 심지어 GPT-4o보다 더 낫다고 평가하기까지 했습니다.

더욱 주목할 만한 점은 메타의 Llama모델이 오픈소스라는 것입니다.이는 누구나 자신의 컴퓨터에 Llama를 설치하고 로컬에서 실행할 수 있다는 의미입니다.(단, 모델의 크기가 상당히 크기 때문에 어마어마한 고성능 PC가 필요하긴 합니다.)

이로 인해 Llama 3.1을 활용한 새로운 AI 제품들이 곧 대거 출시될 것으로 예상됩니다. 여기서 한 가지 의문이 들 수 있습니다. Meta가 이렇게 강력한 모델을 왜 무료로 공개할까요? OpenAI 등 다른 기업들이 폐쇄적인 모델을 개발하는 동안, Meta는 Llama를 통해 개발자들 사이에서 자사 모델의 인기를 높이고 AI 플랫폼으로서의 입지를 강화하려는 전략을 펼치고 있는 것으로 보입니다.

오픈Ai의 Search GPT, 사전 공개 반응은?!

오픈 Ai가 이제는 검색시장까지 넘보고 있습니다. 출시 예정인 서비스 이름은 'Search GPT'. 유저가 찾는 바를 더 빠르고 쉽게 찾아주는 Ai서비스를 표방하고 있는데요. 오픈 Ai가 구글의 아성을 뛰어넘고 검색시장까지 점령할수 있을까요?

공식 홈페이지에서 공개된 대표적인 특징은 다음과 같습니다.

직관적인 대화형으로 원하는 내용을 검색 가능
믿을만한 출처에서 실시간 정보 제공
이미지와 영상 검색결과를 풍부하게 이해하기 쉬운 방식으로 제공

아직 대중에게 공개되지는 않았지만 SearchGPT 접근권한을 받은 한 트위터리안이 본인의 화면을 공유했습니다.

실제 구동 영상을 보니 오늘의 날씨부터, 근처에 소풍갈만한 장소까지 비서처럼 알려주는 모습인데요. 현재까지 사용자들은 "내 위치 기반으로 답변을 해줘서 좋다", "지도랑 연동되어 좋다", "답변이 빠르다" 등의 반응을 보이고 있습니다. 현재 오픈된 버전은 프로토타입으로, 앞으로 더 기능이 추가될 예정이라고 하는데요. 공식홈페이지에서 대기명단을 받고 있으니 관심있는 분들은 신청해보세요.(링크)

GPT-4o 음성모드, 일부 Plus 사용자 대상으로 공개

오픈Ai가 이번주부터 일부 Plus사용자 대상으로 GPT-4o의 음성버전을 공개하고 있습니다. 사용권한을 받은 유저들은 이메일과 앱으로 알림을 받고 있다고 합니다. 오픈Ai는 이번 가을까지 전체 Plus 사용자를 대상으로 음성버전을 공개할 예정이라고 하네요.

접근권한을 받은 유저들이 공유한 영상을 보면, 비트박스를 해주고 생일 축하 노래를 불러주는 등 정말 사람같은 상호작용이 가능한 것 같습니다. Ai가 인간과 이질감없이 소통할 수 있는 시기가 머지않아 도래할 것 같은 느낌이네요.

0:00

/0:24

비트박스하는 GPT-4o (출처: Ethan Sutin 트위터)

Runway, Gen-3 Image to Video 공개

Midjourney 이미지를 Runway로 영상화한 예시(출처: Rory Flynn 트위터)

최근 Runway에서 공개한 Gen-3 모델로 미드저니 이미지를 영상화한 예시들이 주목을 받고 있습니다. 기존 AI 비디오 생성의 고질적인 문제였던 '일관성(Consistency)' 이슈* 를 크게 개선하면서, AI 커뮤니티에서는 "Gen-3는 현존하는 비디오 생성 AI 중 최고 수준이다" 라는 반응이 주를 이루고 있는데요. 앞으로 AI가 영상 제작의 새로운 도구로 자리잡는 날이 멀지 않은 것 같습니다.

현재 Gen-3의 이미지 to 비디오 기능은 유료 구독자($12/월 이상)를 대상으로 서비스되고 있으며, Runway 공식 웹사이트(링크)에서 구독하실 수 있습니다.

일관성(Consistency)이슈: Ai가 생성한 영상이나 이미지에서 연속된 장면에서 인물이나 물체의 특징이 유지되지 않고 갑자기 바뀌는 현상. Ex-Ai영상에서 한 장면의 주인공이 다음 장면에서 완전히 다른 사람으로 바뀌어버리는 것 등

위클리 Ai활용팁

이미지를 움짤로 만들기: Vidnoz Ai

Vidnoz로 생성한 비포/애프터 (출처: Parul Gautam 트위터)

이미지를 조금 더 생동감 있게 만들고 싶은데 Runway를 구독하긴 부담스럽다면? Vidnoz Ai에서 제공하는 무료 변환 툴을 활용해보세요. 이미지를 올리기만 하면 생동감있는 짧은 영상으로 만들어준답니다. Runway-3보단 살짝 퀄리티가 떨어지지만, 클릭 한번에 이미지를 짧은 영상으로 만들 수 있어서 편해요. 이 링크에서 사용해 보실 수 있답니다.

자주 쓰는 프롬프트를 단축키로: Text Blaze

챗GPT 쓸때마다 매번 프롬프트를 복붙하고 있다면? TextBlaze를 써보세요. 자주 쓰는 프롬프트를 단축키로 등록하면,일일이 타이핑할 필요 없이 단축키만으로 프롬프트를 불러올 수 있어 정말 편하답니다.

사용 방법:

크롬 웹스토어 이동 (링크)
크롬에 추가 클릭
크롬 상단바에 퍼즐모양을 누르고 Text Blaze를 찾아 고정시키기
Text Blaze 대시보드에서 +를 눌러 단축키 등록
(Shortcut부분에 단축키로 쓸 조합을 입력하고 아래쪽 에디터 영역에 불러올 텍스트를 입력하면 끝!)

참고로 저는 메일 작성용, 보고서 작성용 등등 제가 자주 쓰는 각종 프롬프트를 여기에 단축키로 등록해놓고 쓰고 있답니다.(챗GPT, 클로드 뿐만 아니라 모든 입력창에서 사용가능합니다.)

PC에서 손쉽게 유튜브 영상 요약하기 : Gemini

Lilys.Ai 등 시중에 많은 유튜브 요약 서비스가 나와있지만, 사용 한도 등 제약 사항이 많아 불편하지 않으셨나요? Gemini를 활용하면 이런 불편함 없이 간단하게 유튜브를 요약해볼 수 있습니다. 구글 아이디만 있으면 제미나이에게 간단하게 유튜브 링크를 붙여넣는 것만으로 빠르게 요약을 해줍니다.위 캡쳐처럼 링크를 주면서 요약해달라고 해보세요:) [제미나이 링크](https://gemini.google.com/)

이번 주 Ai트렌드와 활용팁은 여기까지입니다.
다음 주에 다시 만나요!

챗대리 드림

기고 및 협업 문의 chatdaeri@gmail.com