[개발이야기#104] 스팀잇 전체 사용자 글 수집 내역 2026-01-02 현재

in #steemsearch7 days ago

안녕하세요 가야태자 @talkit 입니다.

오늘은 지루하게 계속 글을 수집하고 있는 색인 시스템에 대해서 유지보수도 하고 말씀 드리겠습니다.

사용자 별 수집 진행율

+---------------------+----------+
| now()               | count(*) |
+---------------------+----------+
| 2026-01-02 12:15:14 |   246,330 |
+---------------------+----------+
| 2025-11-28 08:04:05 |    46,925 |
+---------------------+----------+
| 2025-11-14 14:29:41 |     7,129 |
+---------------------+----------+
| 2025-11-13 13:39:12 |     6,557 |
+---------------------+----------+

수집이 API 문제가 있어서 가끔 오류날 경우도 있지만, 이 오류도 추후에는 해결 되도록 설계를 해서 해결 되었다고 보고 해결이 안된 것은 추후 수집하겠습니다.

약 한달동안 대충 200000명 분의 데이터를 더 수집을 진행 했습니다.

게시물의 수집 진행

+---------------------+----------+
| now()               | count(*) |
+---------------------+----------+
| 2026-01-02 12:19:10 |  5,699,261 |
+---------------------+----------+
| 2025-11-28 08:06:44 |  3,345,675 |
+---------------------+----------+
| 2025-11-14 14:30:07 |  2,839,623 |
+---------------------+----------+
| 2025-11-13 13:40:12 |  2,834,268 |
+---------------------+----------+

사용자 기준 말고 글 기준으로 보면 약 2,350,000건 정도를 더 수집 하였습니다.

제 데이터 베이스에 저정도 수집이 되어 있다는 것이고, 이제 백업도 생각을 해야겠습니다.

대략적으로 백업을 고려 했을때 Google Drvie에 하루에 한번 정도 백업 프로그램을 작성해서 백업 해둘 계획입니다.

추후에 서버가 고장나더라도 하루정도 전 데이터를 이용해서 다시 진행할 수 있도록 이요.

그리고, 조만간 Hive라고 스템 데이터를 PostgreSQL에 저장해주는 소프트웨어도 한번 다뤄 볼 생각입니다.

궁극적으로는 Full Node를 운영하는 것도 고려하고 있습니다.

2025-11-28
/dev/sda2        59G   38G   18G   68% /
2026-01-02
(base) talkit@talkit01:~$ df -h
파일 시스템     크기  사용  가용 사용% 마운트위치
/dev/sda2        59G   25G   32G   44% /
/dev/sdb1      1007G   24G  932G    3% /home/talkit/mariadb/data

시스템이 조금 느려저도 안정적으로 유지하기 위해서 디스크를 추가 했습니다.
수집한 데이터의 파일이 약 1테라바이트가 되도록 해두었습니다.
/ 파티션도 로그 기록등을 계속 하고 있어서 해당 기록도 유지보수 대상입니다. 현재는 44%로 안정적이네요 ^^

2025-11-28
/dev/sda2        59G   20G   36G   36% /
/dev/sdb1      1007G   10G  946G    2% /home/talkit/elasticsearch/data
2026-01-02
/dev/sda2        59G   20G   36G   36% /
/dev/sdb1      1007G   15G  941G    2% /home/talkit/elasticsearch/data

거의 한달동안 5GB가 늘었네요 ^^

검색엔진 관련 글로는 다음달에 뵙겠습니다.

서비스 URL
http://search.whd.kr:5000/advanced

감사합니다.




Posted through the ECblog app (https://blog.etain.club)