Beautiful Soup adalah library python yang berguna untuk melakukan parsing file format html. Memudahkan kita dalam navigasi objek dom pada html.
Gunakan pip untuk install modul beautiful soup: pip install beautifulsoup4
Selain itu kita juga memerlukan library lxml, pip install lxml
Penggunaanya cukup mudah. soup = BeautifulSoup(file_html, parser), dimana file_html adalah file dari html yang hendak kita parsing, parser dapat menggunakan lxml atau bila tidak mengistall lxml, gunakan html.parser.
Jadi sintaksnya seperti berikut soup = BeautifulSoup(file_html, 'lxml')
BeautifulSoup juga memiliki fungsi untuk merapikan file html yaitu prettify(), berfungsi memberikan indentasi pada html file.
from bs4 import BeautifulSoup
# Make soup
# Syntax = BeautifulSoup(html_data,parser)
html_file = "<html> <head><title>Web Scarping - BeautifulSoup</title></head><body>This is a paragraph</body></html>"
# or for those who haven't installed lxml - BeautifulSoup(html_file,'html.parser')
soup = BeautifulSoup(html_file,'lxml')
# soup prettify
print(soup.prettify())
Pengenalan Beautiful Soup
Reviewed by noname needed
on
May 25, 2018
Rating:
No comments: