用java调用python的爬虫程序,是一件很有意思的事情, 但解决方法大多不靠谱,作者花了两天的时间,动手实践,最终完全解决了问题
java-python
Java调用Python爬虫需要解决的问题:
参数传递问题由python脚本通过, sys.argv[1]读取参数
依赖包的问题用virtualenv构建虚拟环境,在虚拟环境安装所有相关依赖包, 用虚拟环境内的python解释器去执行python脚本, 可以完美解决依赖包问题
java与python数据传递python脚本负责将爬取的内容保存为文件, 文件保存完成后, 由java程序读取文档内容import java.io.IOException;import java.io.File;public class BPython { public static void main(String[] args) { // 获取当前路径
File directory = new File(“”);//设定为当前文件夹
String dirPath = directory.getAbsolutePath();//获取绝对路径
Process proc; try { // python解释器路径
String pyPath = “/Users/lijianzhao/.virtualenvs/py3/bin/python3”; // python脚本文件路径
String pyFilePath = dirPath+ “/bdindex.py”;
System.out.println(pyFilePath); // 传给python的参数
String argv1 = “一人之下”;
proc = Runtime.getRuntime().exec(pyPath + ” “+ pyFilePath + ” ” +argv1);
proc.waitFor();
} catch (IOException e) {
e.printStackTrace();
} catch (InterruptedException e) {
e.printStackTrace();
}
}
}# coding=utf-8import requestsfrom lxml import etreeimport osimport sysdef getData(wd):
# 设置用户代理头
headers = { # 设置用户代理头(为狼披上羊皮)
“User-Agent”: “Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36”,
} # 构造目标网址
target_url = “https://www.baidu.com/s?wd=”+str(wd) # 获取响应
data = requests.get(target_url, headers = headers) # xpath格式化
data_etree = etree.HTML(data.content) # 提取数据列表
content_list = data_etree.xpath(‘//div[@id=”content_left”]/div[contains(@class, “result c-container”)]’) # 定义返回的字符串
result = “”
# 获取标题, 内容, 链接
for content in content_list:
result_title = ” “
bd_title = content.xpath(‘.//h3/a’) for bd_t in bd_title:
result_title += bd_t.xpath(‘string(.)’)
result_content = “”
bd_content = content.xpath(‘.//div[@class=”c-abstract”]’) for bd_c in bd_content:
result_content += bd_c.xpath(‘string(.)’) try:
result_link = “”+str(list(content.xpath(‘.//div[@class=”f13″]/a[@class=”c-showurl”]/@href’))[0]) except:
result_link = “: 空”
result_list = [result_title, “\n” , result_content , “\n”, result_link] for result_l in result_list:
result += str(result_l) return result# 保存为文件def saveDataToFile(file_name, data):
# 建立文件夹
if os.path.exists(“./data/”): pass
else:
os.makedirs(“./data/”) with open(“./data/”+file_name+”.txt”, “wb+”) as f:
f.write(data.encode())def main():
wd = “”
print(wd) try:
wd = sys.argv[1] except: pass
if (len(wd) == 0):
wd = “Hello”
str_data = getData(wd)
saveDataToFile(wd, str_data)
print(“end”)if __name__ == ‘__main__’:
main()小结
python可能是最好用的爬虫语言, 以后遇到采集数据的需求时, 可以用java直接调用python的爬虫, 人生苦短, 我用python
打开App,阅读手记
今天的文章java调用python爬虫_Java调用Python爬虫分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/5403.html