hbr-crawler/啟動Web服務.md

# HBR 爬蟲系統 - Web 服務啟動說明

## 啟動方式

### 方式一：使用 run_crawler.py（推薦）

```bash
# 啟動 Web 服務
python run_crawler.py --web
```

### 方式二：直接啟動 web_app.py

```bash
# 啟動 Web 服務
python web_app.py
```

## 訪問地址

啟動後，在瀏覽器中訪問：
- **本地訪問**: http://localhost:5000
- **網路訪問**: http://你的IP:5000

## 功能說明

### 1. 統計資訊
- 文章總數
- 付費/免費文章統計
- 分類分布圖表
- 作者統計圖表

### 2. 文章查詢
- 關鍵字搜尋（標題、摘要、內容）
- 分類篩選
- 標籤篩選
- 日期範圍查詢
- 付費狀態篩選

### 3. 文章列表
- 分頁顯示
- 點擊查看文章詳情
- 顯示文章基本資訊（作者、日期、分類、標籤）

### 4. 手動執行爬蟲
- 點擊「執行爬蟲」按鈕
- 自動執行爬蟲並更新資料

## API 端點

### GET /api/articles
取得文章列表
- 參數: page, per_page, category, tag, start_date, end_date, keyword, is_paywalled, language

### GET /api/article/<id>
取得單篇文章詳情

### GET /api/statistics
取得統計資料

### GET /api/categories
取得所有分類列表

### GET /api/tags
取得所有標籤列表

### POST /api/run-crawler
手動觸發爬蟲執行

## 注意事項

1. 確保資料庫連線正常
2. 確保已建立必要的資料表（執行 `python test_db_connection.py`）
3. Web 服務預設監聽所有網路介面（0.0.0.0），生產環境建議設定防火牆
4. 如需修改埠號，編輯 `web_app.py` 中的 `app.run()` 參數

## 故障排除

### 無法啟動服務
- 確認 Flask 已安裝: `pip install flask`
- 確認資料庫連線正常
- 檢查埠號 5000 是否被占用

### 無法載入資料
- 確認資料庫中有資料
- 檢查資料庫連線設定
- 查看瀏覽器控制台的錯誤訊息