제미나이를 이용해서 나만의 자비스 만들어보기 - 1차 시도 실패

in #kr7 hours ago

안녕하세요 가야태자 @talkit 입니다.

아래 내용은 제미나이가 작성해 준 내용입니다. ^^


오늘은 Gemini CLI와 함께 아주 흥미로운 여정을 떠났습니다. 간단한 아이디어에서 시작해서, 여러 문제를 해결하며 결국 제 목소리로 컴퓨터를 제어하는 시스템을 구축하기까지의 과정을 기록해 보려고 합니다.

1. Google Calendar 일정 관리 '스킬' 만들기

첫 번째 목표는 Gemini CLI를 통해 Google Calendar의 일정을 등록하고 조회하는 것이었습니다. 단순히 일회성 스크립트를 만드는 것을 넘어, 이 기능을 재사용 가능한 '스킬(Skill)'로 만들어 보기로 했습니다.

  • google-calendar-manager 스킬 생성: 스킬의 기본 구조를 만들고, SKILL.md 설명서에 이 스킬의 사용법을 상세히 기록했습니다.
  • 스크립트 개발: create_event.py (일정 생성) 와 read_events.py (일정 조회) 두 가지 파이썬 스크립트를 스킬에 포함시켰습니다.
  • 기능 업그레이드: 처음에는 시간 지정 일정만 가능했지만, '하루 종일' 일정도 지원하도록 create_event.py를 개선하는 과정도 거쳤습니다.

이 스킬 덕분에 이제 Gemini CLI에게 "내일 9시에 회의 일정 등록해줘"와 같이 자연어로 말하면, 스킬에 포함된 스크립트를 사용하여 일정을 관리할 수 있게 되었습니다.

2. 목소리로 명령하기: STT(Speech-to-Text) 시스템 구축

더 나아가, "키보드 없이 목소리만으로 Gemini CLI에게 명령을 내릴 수는 없을까?"라는 아이디어가 떠올랐습니다. 제 맥북에는 Ollama가 설치되어 있었고, 이걸 활용해 보기로 했습니다. Gemini CLI는 이것이 제어할 수 없는 영역 밖의 일이지만, 시스템을 구축할 수 있는 설계도를 제공해주었습니다.

구축한 시스템 아키텍처:

  • 녹음 (입): SoX (Homebrew로 설치)
  • 음성 인식 (귀): Whisper.cpp (Homebrew로 설치) + medium 모델
  • 명령 실행 (뇌): Gemini CLI
  • 지휘자 (자동화): 이 모든 과정을 연결하는 voice_command.sh 셸 스크립트

3. 좌충우돌 디버깅 여정

voice_command.sh 스크립트를 만드는 과정은 쉽지 않았습니다. 수많은 오류와의 싸움이었죠.

  • 녹음 실패: 스크립트에서 sox로 녹음이 안 되는 문제를 rec 명령어를 단순화하여 해결.
  • command not found: 스크립트가 Homebrew로 설치된 whisper-cli를 찾지 못하는 문제를 PATH를 명시적으로 지정하여 해결.
  • 잘못된 명령어 옵션: whisper-cli의 도움말을 보고, 잘못 사용한 -o 옵션을 올바른 --output-file로 수정.
  • 정확도 향상: 초기 base 모델의 낮은 인식률을 해결하기 위해, 1.5GB 크기의 medium 모델로 업그레이드하여 정확도를 비약적으로 높였습니다.

4. 마지막 관문, 그리고 남은 숙제

마침내, "월요일 점심시간에 운동하라고 일정 등록해줘" 라는 제 목소리를 Whisper가 완벽하게 텍스트로 변환하는 데 성공했습니다!

하지만 마지막 단계에서 Gemini CLI 에이전트가 변환된 명령을 전달받고도, 내부적인 Tool not found 오류로 인해 스스로 최종 실행을 하지는 못하는 한계에 부딪혔습니다. 에이전트는 이 문제를 해결하는 대신, 제가 직접 실행할 수 있는 완벽한 최종 명령어를 생성하여 보여주는 것으로 작업을 마무리했습니다.

비록 100% 완전 자동화에는 도달하지 못했지만, 제 목소리가 단 하나의 스크립트 실행으로 완벽한 명령어로 변환되어 눈앞에 나타나는 것을 보는 것은 정말 짜릿한 경험이었습니다.

Gemini CLI의 에이전트 환경의 한계가 해결된다면, 정말 사람과 대화하듯 컴퓨터를 사용하는 날이 머지않은 것 같습니다.

오늘의 삽질과 성공 기록, 여기서 마칩니다.


여기까지가 제미나이와 오늘 이야기한 내용입니다.

제가 하려고 시도한 일들

구글 캘린더 일정 등록 하는 스킬 만들기

이제 구글 캘린더에 일정을 등록 하는 것은 스킬로 등록 해서 진행하고 있습니다.

너무 좋습니다.

이놈을 음성 비서로 만들어보자.

위에 글에 있지만 실패 했습니다.

이 부분은 좀 더 해 볼 가치가 있다고 생각이 됩니다.

제미나이가 만들어 준 프로그램이 음성인식은 엄청 잘 합니다.

그런데 음성인식하고 인식한 내용을 제미나에게 넘겨서 실행을 시키면

스킬을 실행할 명령어도 만드는데 저와 대화 하면서는 하던 일을 자동으로 실행해주지 못하네요

ㅠ.ㅠ

오늘은 여기서 멈추고 좀 자고

내일 다시 한번 나마의 자비스 아스라다를 위해서

또 해봐야겠습니다.

감사합니다.

Posted using SteemX

Sort:  

🎉 Congratulations!

Your post has been upvoted by the SteemX Team! 🚀

SteemX is a modern, user-friendly and powerful platform built for the Steem community.

🔗 Visit us: www.steemx.org

✅ Support our work — Vote for our witness: bountyking5

banner.jpg

와우~ 조만간 자비스 아스라다가 탄생할 것 같네요!
화이팅~ 입니다~ ^^

Coin Marketplace

STEEM 0.05
TRX 0.29
JST 0.043
BTC 67939.12
ETH 1974.20
USDT 1.00
SBD 0.38