resultData['summary'] = soup.find('span',property='v:summary').get_text().strip()
爬取的评论有两段内容,两段内容之间用br隔开,即使用了strip(),结果还是有空行出现,怎么解决?
-
如果 `strip()` 方法仍然无法去除空行,可能是因为爬取的评论内容中包含了其他不可见字符或空格。你可以尝试使用正则表达式来去除空行和其他不可见字符。
```python
import re# 使用正则表达式替换空行和其他不可见字符
-
resultData['summary'] = re.sub(r's+', '', soup.find('span', property='v:summary').get_text())
这段代码使用了 `re.sub()` 方法,将所有的空白字符(包括空格、制表符、换行符等)替换为空字符串,从而去除空行和其他不可见字符。这样,获取到的评论内容中的空行将会被去除掉。
当我们使用 `re.sub(pattern, repl, string)` 方法时,它会在字符串 `string` 中搜索与正则表达式 `pattern` 匹配的部分,并将其替换为字符串 `repl`。
在这个特定的正则表达式中,我们使用了 `s+` 来表示匹配一个或多个空白字符。`s` 是一个特殊的字符类,代表空白字符,包括空格、制表符、换行符等。而 `+` 是一个量词,表示匹配一个或多个前面的表达式。
因此,`re.sub(r's+', '', string)` 的作用是将字符串 `string` 中的所有连续的空白字符替换为空字符串,从而去除空行和其他不可见字符。
举个例子,假设 `string = "Hello
World"`,其中包含了两个空行和多个空格。当我们使用 `re.sub(r's+', '', string)` 时,它会将连续的空白字符替换为空字符串,得到的结果是 `"HelloWorld"`,去除了空行和空格。
-
`re.sub()` 是 Python 中 re 模块提供的一个方法,用于进行正则表达式的替换操作。它接受三个参数:pattern、replacement 和 string。
- `pattern` 是一个正则表达式,用于匹配需要被替换的内容。
- `replacement` 是替换的字符串,用于替换匹配到的内容。
- `string` 是要进行替换操作的原始字符串。`re.sub()` 方法会在 `string` 中搜索与 `pattern` 匹配的内容,并将其替换为 `replacement`。它返回一个新的字符串,其中所有匹配到的内容都被替换。
例如,使用 `re.sub()` 可以将一个字符串中的所有数字替换为字母:
```python
import restring = "I have 123 apples and 456 bananas."
new_string = re.sub(r'd+', 'X', string)
print(new_string)
```输出结果为:"I have X apples and X bananas."
希望这个解释能帮助你更好地理解这个正则表达式的作用。
-
如果爬取的评论内容中含有 `<br>` 标签来表示换行,可以使用 `replace()` 方法将 `<br>` 替换为空字符串,从而去除空行。修改后的代码如下:
```python
resultData['summary'] = soup.find('span', property='v:summary').get_text().strip().replace('<br>', '')
```这样,获取到的评论内容中的空行将会被去除掉。
-
可以尝试使用`splitlines()`方法来去除空行。这个方法会将字符串分割成行,并且会自动去除每行的空白字符。修改后的代码如下:
```python
resultData['summary'] = soup.find('span', property='v:summary').get_text().strip().splitlines()
```这样,获取到的评论内容将会是一个列表,其中每个元素代表一段评论,不再包含空行。