Wr's Blog Wr's Blog
  • Home
  • Blog
  • Tags
    • Tutorials
    • Res
  • About
首页 分享 使用 Python 爬取 WordPress.org 上所有插件json信息

使用 Python 爬取 WordPress.org 上所有插件json信息

_Wr_ 3 years ago

准备

  • Python 环境
  • requests 模块
  • BeautifulSoup 4 模块

前言

最近在做 WP-China-Yes 插件商城的项目,其中就需要用 Python 爬 WordPress.org 上所有可翻译的项目。尽管还没找到如何筛选可翻译的项目...

教程

使用 Python 爬取 WordPress.org 上所有插件json信息-Wr's Blog

WordPress.org 所有插件的 slug (永久链接) 都可以通过 http://plugins.svn.wordpress.org/ 得到:

import requests
#通过 requests 模块获取 http://plugins.svn.wordpress.org 这个网页上的内容
html=requests.get("http://plugins.svn.wordpress.org/").text

所有插件的 json 信息都可以通过 https://api.wordpress.org/plugins/info/1.0/ 获取

Python 爬虫第二步:获取 json 文件
from bs4 import BeautifulSoup
#使用 BeautifulSoup 获取 WordPress.org 插件 json 内容
soup=BeautifulSoup(html,features="lxml")
lis=soup.find_all('li')
baseurl="https://api.wordpress.org/plugins/info/1.0/"

最后一步,输出为一个 txt 文件

with open('all_plugins_urls.txt','a') as out:
    for a in soup.find_all('a', href=True):
        out.write(baseurl+a['href'].replace('/','')+".json"+"\n")

综上所述,整个 Python 爬虫代码应该是这个样子的

import requests 
from bs4 import BeautifulSoup

html=requests.get("http://plugins.svn.wordpress.org/").text

soup=BeautifulSoup(html,features="lxml")
lis=soup.find_all('li')
baseurl="https://api.wordpress.org/plugins/info/1.0/"

with open('all_plugins_urls.txt','a') as out:
    for a in soup.find_all('a', href=True):
        out.write(baseurl+a['href'].replace('/','')+".json"+"\n")
# Python# WordPress# 插件# 教程# 编程
0
_Wr_
?

Comments (1)

Back
  • _Wr_

    其实准确来说,这个脚本爬出来的是 WordPress.org 所有插件 Json 信息的 URI

    3 years ago Reply
_Wr_
?
11
Posts
53
Comments
0
Likes

文章聚合

CRI Hit FM 劲曲调频 m3u8 直播流 (可在线播放)
1 year ago
[教程] 腾讯云服务器 Ubuntu 实例开启 root 用户通过密码 SSH 远程登录教程
2 years ago
[教程]《索尼克大冒险 2》PC 版 Mod 制作教程 (一): 各文件/目录的详细作用
2 years ago
去除 WordPress 管理菜单栏 WordPress logo
3 years ago
解决无法修改 .user.ini 文件的问题
3 years ago
使用 Python 爬取 WordPress.org 上所有插件json信息
3 years ago
解决在 macOS 上程序已损坏、无法打开、需丢进废纸篓的问题
4 years ago
如何使 Chrome 浏览器开启多线程下载
4 years ago
如何在不支持 Sidecar 的 Mac 上使用 Sidecar
4 years ago
如何在 Mac 下查看或恢复隐藏文件
4 years ago
如何使用 KMS 激活 Windows
4 years ago
Copyright © 2019-2023 Wr's Blog. Designed by nicetheme.
  • Home
  • Blog
  • Tags
    • Tutorials
    • Res
  • About