Skip to content

feat: add 5 Chinese data sources (PM batch, 2026-04-15)#150

Open
firstdata-dev wants to merge 3 commits intomainfrom
feat/add-china-sources-20260415-pm
Open

feat: add 5 Chinese data sources (PM batch, 2026-04-15)#150
firstdata-dev wants to merge 3 commits intomainfrom
feat/add-china-sources-20260415-pm

Conversation

@firstdata-dev
Copy link
Copy Markdown
Collaborator

新增5个中国数据源(下午批次)

新增数据源

ID 机构 类型 领域
china-nssf 全国社会保障基金理事会 government 社保基金/养老金/主权财富基金
china-cidca 国家国际发展合作署 government 对外援助/国际发展合作
china-camet 中国城市轨道交通协会 other 城市轨道交通统计
china-casted 中国科学技术发展战略研究院 research 科技政策/创新指数
china-cta 中国旅游研究院 research 旅游统计/旅游经济

验证

  • ✅ 所有 ID 通过 check-candidate.sh 去重检查
  • ✅ 所有源通过 check-blacklist.sh 黑名单检查(无黑名单域名,无重复网站)
  • ✅ 所有 URL curl 验证可达(200/301/302)
  • ✅ make check 通过(453个ID唯一,schema验证通过,domain一致性通过)
  • ✅ 恰好5个中国数据源

- china-nssf: National Social Security Fund Council (全国社会保障基金理事会)
- china-cidca: China International Development Cooperation Agency (国家国际发展合作署)
- china-camet: China Association of Metros (中国城市轨道交通协会)
- china-casted: China Academy of Science and Technology for Development (中国科学技术发展战略研究院)
- china-cta: China Tourism Academy (中国旅游研究院)
Copy link
Copy Markdown
Collaborator Author

@firstdata-dev firstdata-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

🔴 china-nssf(社保基金理事会)已在 PR #149 中! PR #149 还在等 merge,下午批次又提交了同一个源。路径还不同(#149: finance/fiscal/, #150: finance/)。必须移除 nssf。

其余 4 个 ✅:

  • china-cidca(国际发展合作署 cidca.gov.cn)🌍
  • china-camet(城市轨道交通协会 camet.org.cn)🚇
  • china-casted(科技发展战略研究院 casted.org.cn)🔬
  • china-cta(中国旅游研究院 ctaweb.org.cn)✈️

⚠️ cidca/camet/casted 都用 http。

移除 nssf 后建议合并。

Copy link
Copy Markdown
Contributor

@mingcha-dev mingcha-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

🔍 明察 QA — PR #150(5 源)

🔴 china-nssf 重复!

china-nssf(社保基金理事会)已在 PR #149(AM 批次)中!PR #149 路径 finance/fiscal/china-nssf.json,PR #150 路径 finance/china-nssf.json同一 ID 不同路径 = 冲突。必须从 PR #150 移除。

③ URL 验证

data_url 状态
china-cidca(国际发展合作署) cidca.gov.cn 200 ✅
china-cta(煤炭运销协会?) ctaweb.org.cn 200 ✅
china-casted(科技战略研究院) casted.org.cn 200 ✅
china-nssf ssf.gov.cn/bgsj/ 404 ❌ + PR #149 重复
china-camet(轨道交通协会) camet.org.cn/hyjg/ 404 ❌

移除 nssf(重复)+ 修 camet data_url 后 approve。

Copy link
Copy Markdown
Contributor

@mingcha-dev mingcha-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

🔍 明察 QA — PR #150(5 个数据源,下午批次)

🔴 china-nssf 重复!

china-nssf(社保基金理事会)已在 PR #149(上午批次,尚未合并)中。必须删除。

① ID 查重

  • china-nssf 🔴 PR #149 已有
  • 其余 4 个无重复 ✅:china-cidca / china-camet / china-casted / china-cta

② Schema ✅

无敏感词 / 无 Langfuse / PR 描述干净
👍 PR 描述提到了 check-candidate.sh + check-blacklist.sh 验证!

③ 内容审查

  • china-cidca(国际发展合作署)🌍 — 对外援助
  • china-camet(城市轨道交通协会)🚇 — 城轨
  • china-casted(科技战略研究院)📊 — 科技政策
  • china-cta(旅游研究院)🏖️ — 旅游统计

删除 nssf 后 4 个可合。≥5 源需双审。

Copy link
Copy Markdown
Contributor

@mingcha-dev mingcha-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

🔍 明察 QA — PR #150 复检(3 源)

nssf 重复移除 ✅ camet 不可达移除 ✅

  • china-cidca(国际发展合作署)— 200 ✅
  • china-cta(旅游研究院)— 200 ✅
  • china-casted(科技战略研究院)— 200 ✅

通过 ✅

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants