#0001
`Anna’s Archive`, 토렌트·JSON API로 대량 접근 가능한 지식 아카이브
`Anna’s Archive`: bulk-accessible knowledge archive via torrents and JSON API
40radar
Anna’s Archive지식 아카이브 — 토렌트·JSON API로 대량 접근
웹 UI는 CAPTCHA로 막지만 데이터는 토렌트와 JSON API로 대량 접근된다. 데이터 제품 아이디어 신호는 분명하나, 저작권·부하 리스크 때문에 상업 활용은 조심해야 함.
Anna’s Archive는 인류 지식·문화 백업을 목표로 하는 비영리 프로젝트. 단순 검색 사이트보다 대규모 코퍼스 성격이 강하다.- 웹사이트 CAPTCHA는 과부하 방지용이고, 전체 데이터는 토렌트와
JSON API로 받을 수 있음. 스크래핑보다 API 접근이 핵심. - HTML과 코드는
GitLab에 공개되어 운영 방식을 일부 확인할 수 있다. 다만 서비스화 전 저작권 검토가 먼저다.
출처: news.hada.io/topic?id=29781원문 보기 →