[개발이야기#104] 스팀잇 전체 사용자 글 수집 내역 2026-01-02 현재
안녕하세요 가야태자 @talkit 입니다.
오늘은 지루하게 계속 글을 수집하고 있는 색인 시스템에 대해서 유지보수도 하고 말씀 드리겠습니다.
사용자 별 수집 진행율
+---------------------+----------+
| now() | count(*) |
+---------------------+----------+
| 2026-01-02 12:15:14 | 246,330 |
+---------------------+----------+
| 2025-11-28 08:04:05 | 46,925 |
+---------------------+----------+
| 2025-11-14 14:29:41 | 7,129 |
+---------------------+----------+
| 2025-11-13 13:39:12 | 6,557 |
+---------------------+----------+
수집이 API 문제가 있어서 가끔 오류날 경우도 있지만, 이 오류도 추후에는 해결 되도록 설계를 해서 해결 되었다고 보고 해결이 안된 것은 추후 수집하겠습니다.
약 한달동안 대충 200000명 분의 데이터를 더 수집을 진행 했습니다.
게시물의 수집 진행
+---------------------+----------+
| now() | count(*) |
+---------------------+----------+
| 2026-01-02 12:19:10 | 5,699,261 |
+---------------------+----------+
| 2025-11-28 08:06:44 | 3,345,675 |
+---------------------+----------+
| 2025-11-14 14:30:07 | 2,839,623 |
+---------------------+----------+
| 2025-11-13 13:40:12 | 2,834,268 |
+---------------------+----------+
사용자 기준 말고 글 기준으로 보면 약 2,350,000건 정도를 더 수집 하였습니다.
제 데이터 베이스에 저정도 수집이 되어 있다는 것이고, 이제 백업도 생각을 해야겠습니다.
대략적으로 백업을 고려 했을때 Google Drvie에 하루에 한번 정도 백업 프로그램을 작성해서 백업 해둘 계획입니다.
추후에 서버가 고장나더라도 하루정도 전 데이터를 이용해서 다시 진행할 수 있도록 이요.
그리고, 조만간 Hive라고 스템 데이터를 PostgreSQL에 저장해주는 소프트웨어도 한번 다뤄 볼 생각입니다.
궁극적으로는 Full Node를 운영하는 것도 고려하고 있습니다.
2025-11-28
/dev/sda2 59G 38G 18G 68% /
2026-01-02
(base) talkit@talkit01:~$ df -h
파일 시스템 크기 사용 가용 사용% 마운트위치
/dev/sda2 59G 25G 32G 44% /
/dev/sdb1 1007G 24G 932G 3% /home/talkit/mariadb/data
시스템이 조금 느려저도 안정적으로 유지하기 위해서 디스크를 추가 했습니다.
수집한 데이터의 파일이 약 1테라바이트가 되도록 해두었습니다.
/ 파티션도 로그 기록등을 계속 하고 있어서 해당 기록도 유지보수 대상입니다. 현재는 44%로 안정적이네요 ^^
2025-11-28
/dev/sda2 59G 20G 36G 36% /
/dev/sdb1 1007G 10G 946G 2% /home/talkit/elasticsearch/data
2026-01-02
/dev/sda2 59G 20G 36G 36% /
/dev/sdb1 1007G 15G 941G 2% /home/talkit/elasticsearch/data
거의 한달동안 5GB가 늘었네요 ^^
검색엔진 관련 글로는 다음달에 뵙겠습니다.
서비스 URL
http://search.whd.kr:5000/advanced
감사합니다.

Posted through the ECblog app (https://blog.etain.club)