总算收集齐了法律法规规章制度等文件

in #cn2 months ago

上次我通过一些方法,成功将国家规章库中的大部分法律法规下载下来了,但心里还是不满足。总觉得数量不够,尤其是在广东省的安全生产法规上,好像显得尤为匮乏。于是,我继续在网上进行搜索,想着有没有别的途径能找到更多相关资料。忽然想起,我们集团总公司的安全管理平台上可能有一些相关的法律法规,也许可以从那里入手。

于是,我趁着上班的时间,打开了这个平台查看(只能在公司的局域网才能打开)。乍一看,的确有600多个法律法规、规章制度和各行业的标准,光是从数量上看已经很丰富了。然而,仔细一看,却发现这些内容大多是无法使用的。原来这个平台是由第三方开发的,大部分资料只是提供了一个链接,点进去后,要么跳转到一个外部网站,要么根本打不开,或者内容无法使用。这些问题让我有些无奈。

虽然这些资料用不了,但清单却还是可以利用的。于是我决定把整个清单下载下来,至少可以看看它们的内容都包括什么。同时,我还与集团总公司的安健环领导沟通了一下,得到了他们的一份安全生产法律法规汇编。然而,这份汇编也只有几十个文件,跟我预期的差距很大,帮助并不大。

就在这个时候,一个巧合让我眼前一亮。前几天我在网上找到了一个法律库 的网站,并进行了注册。这个平台允许免费查阅大部分法律文件,其他条例和规章制度需要付费才能查看,但我最看重的是它可以实时更新法律法规。幸运的是,他们给我打了电话,经过一番交流后,我居然获得了15天的免费权限,可以查阅所有法律法规和规章制度。这让我心里暗自高兴。

有了这个权限后,我马上动手,打算通过自动化程序,把这些法律法规和规章制度按照之前的清单下载下来。不过,我并没有着急进行操作,反而是等到第二、第三天才开始编写自动化程序和相关的Python代码。总体上编程的过程还算顺利,虽然中间需要进行一两次调试,但没遇到太大的问题。唯一的意外是,他们给我的阅览总数量做了限制。

最后,所有需要的法律法规文件基本都下载完成了,虽然广东省安全生产方面的规章制度还有四五个文件没下载成功(已经到了阅览总数的额度),但整体影响不大。我也没太纠结。更幸运的是,我在自动化程序中提前安排了下载报告和出错报告,所以能够及时知道这些问题的存在。差四五个文件并不是很重要,所以我也没有特别去补充。这里有一点需要注意的就是,尽量不要直接下载他们的Word文件,因为这些文件往往包含太多不必要的垃圾,比如二维码、页眉页脚等。更好的方法是全选页面内容、复制到本地进行文本清洗,再生成Word文档,这样得到的文件更干净。

通过这些操作,我总算是把需要的法律法规、规章制度,特别是广东省的安全生产条例都下载齐了,差不多有1400个文件。接下来,我打算对这些文件进行进一步的数据清洗,比如将它们转成JSON或CSV格式文件,以便后续的模型训练和数据清理工作会更加顺利。