@demo06 http://baostock.com/baostock/index.php/Python_API%E6%96%87%E6%A1%A3
比如这个页面我想取出所有的 caption 为返回数据说明的 table，结合 pandas 处理 DataFrame 的能力
我上面实例里面的 text = requests.post(url, headers=headers) 就是获取 HTML 页面的 text.text
你也可以直接打开这个页面 http://baostock.com/baostock/index.php/Python_API%E6%96%87%E6%A1%A3
使用 F12 查看源码

2021-04-04 08:12:27 +08:00

回复了 badacook 创建的主题 › Python › 动态创建变量名并读取文件

@aijam 非常感谢 globals() 与 vars() 均能实现 setting a string as a variable name，或者说 create variable variables in Python

2021-04-03 20:21:33 +08:00

回复了 badacook 创建的主题 › Python › 爬虫过程中 DOM 对象的处理

发现了自己的一个大错误，caption 作为 table 的标题，并不是 table 的属性，而是最近的子元素，那针对 caption 的 table 筛选，何种方法最便捷呢

2021-04-03 16:48:20 +08:00

回复了 badacook 创建的主题 › Python › 爬虫过程中 DOM 对象的处理

@misaka19000 我感觉我 xpath 没写错，我有参照 W3C xpath 语法来写，就是取到了 DOM 对象，如何还原表单，后续的处理，我看 pandas 的 read_html 其中带 attrs 参数，参数为字典格式，可获取特定属性的 table，我使用 attrs = {"caption":"返回数据说明"} 不带这个参数能获取所有 table，带了反而报错

2021-04-03 16:08:15 +08:00

回复了 badacook 创建的主题 › Python › 爬虫过程中 DOM 对象的处理

@demo06 非常感谢能不能分享一下 python 处理 dom 文档对象的文章，没找到切合的实例

2021-04-03 16:04:08 +08:00

回复了 badacook 创建的主题 › Python › 爬虫过程中 DOM 对象的处理

@milukun 因为有多个 caption="返回数据说明" d table,分别是 id="mw-content-text"元素的子元素，且互为不间断的兄弟元素，我有 F12 查看其中一个元素 xpath 检索 //*[@id="mw-content-text"]/table[26]/caption，我只是在这个基础上改成查找包含 caption 属性，且值为"返回数据说明" 的 table 元素

2021-04-03 10:06:14 +08:00

回复了 badacook 创建的主题 › Python › 动态创建变量名并读取文件

@pursuer 你如果有空能不能试一试，就是一个目录下有几个 csv 文件，还可能有其他类型文件，要做的就是使用 pandas 库，将这些 csv 文件以文件名变量的形式读进去，变量作用域在整个脚本范围，其中 globals()不是返回的全局字典嘛，作为 python 新手的我实在有些不理解，其中 exec 函数提供字符串命令的执行，感觉跟这个需求也有点儿接近，能不能试一试也是个简单的小实验我也想通过这个小实验理解这个过程，谢谢了

2021-04-03 09:02:56 +08:00

回复了 badacook 创建的主题 › Python › 动态创建变量名并读取文件

@pursuer 那个赋值加载 csv 在 for 的 if 分支下，而且想做到变量名与加载的 csv 文件同名，其实作用域是想做到 for 的外层使用，只是想着看看在 for 的 if 分支赋值加载时可以动态，不知道能否实现

» badacook 创建的更多回复