donald
|
7719919dc7
|
Add advanced crawler module design to SDD v1.3
新增第 4.1.5 節:進階爬蟲模組設計
主要內容:
- Scrapy 框架整合規格(擴充新聞來源用)
- 通用爬蟲架構設計原則
- 多層級選擇器備用機制
- Pipeline 資料處理管線(CSV + Database)
- 資料庫表結構(articles, tags, article_tags)
- 錯誤處理與效能最佳化
- 執行測試與除錯技巧
- 新增新聞來源的標準步驟
技術規格:
- Scrapy >= 2.11.0
- PyMySQL >= 1.1.0
- python-dateutil >= 2.8.2
- 支援多來源整合(source 欄位)
- Context Manager 確保交易完整性
- 標籤快取機制提升效能
這個設計可作為擴充其他新聞來源的通用範本。
🤖 Generated with [Claude Code](https://claude.com/claude-code)
Co-Authored-By: Claude <noreply@anthropic.com>
|
2025-12-04 11:07:37 +08:00 |
|