제가 겪은 문제 중 하나는 정보가 너무 많이 쏟아진다는 것이었습니다. 예를 들어, 매일 기술 블로그 글, 최신 뉴스 기사, 새로운 프로그래밍 언어의 튜토리얼, 그리고 각종 기술 문서들이 넘쳐나면서 어느 순간 어떤 정보가 중요한지 정리하기 어려웠습니다. 필요한 내용을 나중에 확인하기 위해 Read-It-Later 앱에 저장했지만, 시간이 지나면서 저장된 글들이 쌓이기만 했습니다. 결국 제대로 소화되지 않는다는 문제가 생겼습니다. 이 문제는 많은 사람들이 공감할 수 있는 어려움일 것입니다.
이 문제를 해결하기 위해 저는 정보를 자동으로 수집하고, 가공하고, 학습할 수 있는 프로세스를 구축하는 프로젝트를 시작했습니다. 이 프로젝트는 Omnivore, n8n, AI 기능, FlashCard Deluxe, 텔레그램, Streamlit 등의 툴을 활용해 복잡한 정보 관리와 학습 과정을 자동화하고, 반복적인 업무를 줄이는 데 중점을 두었습니다. Omnivore와 n8n은 정보를 수집하고 자동으로 처리하는 데 사용했고, AI 기능은 중요한 내용을 분석하고 요약하는 데 활용했습니다. FlashCard Deluxe는 학습 내용을 정리해 복습할 수 있도록 도와주었으며, 텔레그램과 Streamlit은 알림과 인터페이스를 구축하는 데 유용하게 사용했습니다. 또한, 맞춤형 학습 도구로 이를 활용해 스스로 성장할 수 있는 구조를 마련하고자 했습니다.
이 글에서는 이러한 자동화 시스템을 구축하는 과정과, 이를 통해 정보를 효율적으로 관리하고 더 깊이 이해할 수 있는 방법을 소개하려고 합니다. 이 과정을 통해 복잡한 정보 속에서도 핵심을 빠르게 파악하고, 나만의 맞춤형 학습 도구로 효율적으로 성장할 수 있는 방법을 배우게 될 것입니다.
개발에 사용한 기술 및 서비스
Omnivore
Omnivore는 사용자가 웹에서 발견한 아티클, 블로그 포스트, 웹페이지 등을 저장해 나중에 읽을 수 있도록 돕는 ‘read-it-later’ 서비스입니다. 사용자는 Omnivore를 통해 관심 있는 콘텐츠를 저장하고 언제든지 다시 접근하여 읽을 수 있습니다. 이러한 기능은 중요한 정보를 관리하고 나중에 참고하기에 매우 유용하며, 학습과 정보 관리에 효율적인 도움을 줍니다.
데스크탑에서는 크롬 확장프로그램으로 안드로이드와 iOS에서는 앱으로 쉽게 원하는 내용을 저장할 수 있습니다.
중요 : 최근 11월 30일을 기점으로 서비스를 종료하는 것을 발표했습니다.
n8n
n8n은 다양한 애플리케이션과 서비스를 연결하여 자동화 워크플로우를 만들 수 있는 도구입니다. 시각적인 인터페이스를 제공하여, 복잡한 작업을 자동화하고 효율적으로 관리할 수 있습니다. n8n은 사용자가 데이터를 가공하고 처리하는 과정을 쉽게 구성할 수 있게 도와줍니다. 특히, 오픈 소스 기반으로 자유롭게 수정하고 자체 호스팅할 수 있어 무료로 사용이 가능하며 데이터 프라이버시 측면에서도 유리합니다. (단 내부 비즈니스 목적 또는 비상업적 또는 개인적 용도로만 사용하거나 수정할 수 있음)
n8n 관련 추가 글이 있습니다.
Flashcard Deluxe
Flashcard Deluxe는 사용자가 암기 학습을 효율적으로 할 수 있도록 돕는 플래시카드 애플리케이션입니다. 사용자는 원하는 학습 자료를 플래시카드 형태로 만들어 반복적으로 학습할 수 있으며, 특히 SRS(Spaced Repetition System) 기능을 통해 장기 기억에 효과적으로 접근할 수 있습니다. 이 앱은 직관적인 인터페이스를 제공하여 학습 과정을 간편하게 관리할 수 있습니다.
유료앱 이지만 Flashcard Deluxe를 선택하게 된 이유
– 유사 서비스(Anki)에 비해 단순함
– 구글시트의 데이터를 바로 로딩할 수 있는 기능 제공
Streamlit RAG 챗봇
Streamlit RAG 챗봇은 수집된 정보를 기반으로 사용자가 자연스럽게 질문하고 답변을 받을 수 있는 대화형 인터페이스를 제공합니다. RAG(Retriever-Augmented Generation) 기법을 통해, 사용자가 질문을 입력하면 관련 정보를 검색하고 정확한 답변을 생성합니다. Streamlit은 이러한 챗봇을 웹 애플리케이션 형태로 제공하여 사용자 친화적인 환경에서 손쉽게 정보를 활용할 수 있도록 돕습니다.
텔레그램
텔레그램은 메시징 애플리케이션으로, 이번 프로젝트에서는 사용자가 전날 수집된 정보를 매일 아침 간편하게 확인할 수 있도록 요약된 데이터를 전달하는 용도로 활용되었습니다. n8n을 통해 자동화된 방식으로 매일 오전 9시에 전날 정보를 텔레그램 메시지로 보내도록 설정하여, 사용자가 중요한 정보에 빠르게 접근할 수 있게 했습니다.
기타
- 시놀로지 나스: 시놀로지 나스(Synology NAS)는 네트워크에 연결된 스토리지 장치로, 데이터를 안전하게 저장하고 여러 사용자 간에 쉽게 공유할 수 있도록 도와줍니다. 또한 다양한 서비스(웹오피스, 동영상 스트리밍 등)를 추가로 설치하여 운영할 수 있습니다. 본 프로젝트에서는 n8n을 설치하여 24시간 운용되도록 하는데 사용되었습니다.
- 구글시트: 데이터를 정리하고 공유하기 위해 사용되는 스프레드시트 도구로, 프로젝트에서 수집된 데이터를 기록하고 관리하는 데 활용되었습니다.
- LLM: n8n 진행하는 데이터 가공은 Anthropic의 Claude-3.5-sonnet 모델을 사용하고 RAG 챗봇에서는 OpenAI의 gpt-4o 모델을 사용했습니다.
- Langchain: Langchain은 언어 모델을 손쉽게 연결하고 활용할 수 있도록 돕는 프레임워크로, 다양한 자연어 처리 기능을 결합하여 복잡한 작업을 보다 유연하게 수행할 수 있게 합니다. 이를 통해 AI 모델의 기능을 간편하게 통합하고 사용자 경험을 극대화할 수 있습니다.
- Python, JavaScript
학습 파이프라인
1. Omnivore를 사용해 학습 데이터 수집
웹브라우저 확장 프로그램
모바일 웹브라우저 공유
2. 데이터가 추가되면 n8n에서 해당 데이터를 가공하여 구글시트에 저장
- 요약 정리 (요약, 주제, 키워드)
- 플래스카드 데이터
3. n8n 설정에 의해 매일 오전 9시 전날 추가된 학습데이터를 휘합해서 텔레그램 메세지 전송
4. Flashcard Deluxe 앱에서 구글시트에 저장된 데이터를 로드하여 학습 진행
5. 학습 중 자세한 설명이 필요한 경우 Streamlit RAG 챗봇 활용
프로젝트 구현 과정
정보 수집 자동화
Omnivore의 저장 기능을 통해 사용자가 관심 있는 아티클을 수집하고, 웹훅을 통해 데이터를 n8n으로 전달.
웹훅은 인터넷 상에서 실시간으로 정보를 주고받는 방식입니다. 특정 사건이 발생했을 때 자동으로 다른 시스템에 알려주는 기능을 합니다. 이는 웹사이트나 앱들이 서로 즉각적으로 소통할 수 있게 해주는 도구로, 정보를 실시간으로 공유하고 처리하는 데 사용됩니다. 정보를 주고 받을 때 url 형식으로 진행된다고 보시면 됩니다. 본 프로젝트에서는 Omnivore에 항목이 추가되면 n8n에 구현된 workflow를 실행하는데 사용되었습니다.
페이지가 생성되면 n8n 워크플로우를 실행시키는 Webhook 설정 (이 설정만으로 Omnivore에서 웹훅 호출을 자동화 할 수 있음)
데이터 가공
omnivore에 항목이 추가되면 Webhook을 통해 n8n의 Workflow를 호출 AI 모듈을 통해 데이터를 요약, 주제화, 키워드 추출하며, 학습에 적합한 플래시카드 형태로 변환.
자체 호스팅을 위해 시놀로지 나스에 설치해서 사용. (참고: How to Install n8n on Your Synology NAS – Marius Hosting)
PC나 구글클라우드 같은 Cloud 서비스에도 설치 가능. (참고: (GitHub – n8n-io/n8n: Free and source-available fair-code licensed workflow automation tool)
n8n은 커뮤니티 노드를 추가하는 기능이 있어 다른 사람이 개발해 놓은 기능을 쉽게 추가할 수 있음.
유튜브 링크를 통해 자막을 가져오는 노드: 커뮤니티 노드 검색
데이터 처리 Workflow.
특히 Basic LLM Chain
노드의 경우, Langchain의 기본 구조와 동일. (LLM, OutputParser)
Make나 Zapier에 비해 난이도가 높다고 느껴짐 엄밀히 말 해서 노코드 보다는 로우코드에 가까움.Code
노드를 사용해서 필요한 기능을 구현. Code
노드는 기본적으로 Javascript를 지원하고 Python도 지원하나 베타 단계
텔레그램 메세지
전날 수집된 새로운 정보들을 n8n의 스케쥴 트리거
를 통해 매일 아침 9시에 텔레그램을 메시지로 요약 전달.
텔레그램봇을 생성하면 3가지 형태의 채팅방에 메세지 공유 가능
- 개인: 사용자와 봇이 직접 대화를 나눕니다.
- 채널: 관리자와 봇이 채널에 메시지를 게시할 수 있지만, 구독자들은 직접 대화할 수 없습니다.
- 그룹: 여러 사용자와 봇이 함께 참여하는 대화방입니다
텔레그램 메세지 전송 Workflow
RAG 챗봇
Streamlit을 통해 챗봇을 구축하고, 사용자가 원하는 정보를 대화 형식으로 쉽게 접근하고 학습할 수 있도록 함. 챗봇을 실행시키면 실시간으로 구글시트에 저장된 데이터를 다운받아 인덱싱 작업을 진행한 후 채팅이 가능한 상태로 전환됨
기존에 개발했던 RAG Streamlit 챗봇 프로젝트를 일부 수정해서 구현
- 구글시트 데이터 다운로드 및 로딩 기능 추가 (Langchain CSVLoader 및 구글시트 처리 관련 라이브러리 사용)
- 앱 실행 시 바로 자료 처리(인덱싱) 과정 실행
- RAG 구현
- Langchain
- RAG (RetrievalQA Chain)
- Ensemble Retriever
- BM25+Kiwi 형태소 분석기
- Dense Retriever
- OpenAI Embeddiing
- Ensemble Retriever
- 챗봇UI: Streamlit
결과 및 성과
- 정보 수집 및 정리 과정에서 반복적인 수작업을 줄이고, 효율적으로 관리할 수 있는 자동화된 파이프라인 구축.
- FlashCard Deluxe 형식의 학습 자료를 자동 생성함으로써 더 효과적인 암기 학습이 가능.
- 텔레그램 알림 기능을 통해 학습 과정에서 중요한 정보를 빠르게 확인하고, 일관된 학습 루틴을 유지.
- Streamlit 챗봇을 통해 학습된 정보를 대화식으로 확인하고 재활용할 수 있는 인터페이스 제공.
결론 및 향후 발전 방향
- 결론: 이 프로젝트는 정보를 수집하고 가공하며, 효율적으로 학습하는 완성된 루프를 자동화함으로써 개인 학습의 질과 효율성을 크게 향상시켰습니다.
- 향후 발전 방향:
- LangGraph와 Agent를 활용해 챗봇 기능을 강화
- 버그 수정 및 개발 진행
- Youtube 자막 기능 에러 수정
- 커뮤니티 노드가 업데이트 되어 추가 적인 설정이 필요한 상황
- 관련 내용 확인하고 적용할 예정
- Omnivore 서비스 종료 대응
- 다른 서비스로 전환 혹은 Self-hosting
- Read-It-Later를 사용하지 않는 것도 고려 중
- Youtube 자막 기능 에러 수정
- 유사한 워크플로우로 영어학습 기능을 구현
본 글은 GPTers에 게시되고 있습니다.
Streamlit RAG 챗봇과 자동화 툴로 완성한 인공지능 학습 파이프라인